jep 2012 wrkshp

Post on 26-May-2015

424 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Analyse des performances de

modèles de langage sub-lexicale

pour des langues peu-dotées à

morphologie riche

Hadrien Gelas1,2, Solomon Teferra Abate2, Laurent Besacier2, François Pellegrino1

1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France

1 2 3

Introduction

Segmentation

des données

textuelles

Résultats

Introduction

1

333

Amharique Langue Sémitique

333

Swahili Langue Bantu

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Reconnaissance Automatique de la

Parole (RAP)

J  

"r l

r l

AMH : 20h de parole lue

SWH : 2h30 de parole lue

+ 10h de broadcast news

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

J  

"r l

r l

65k mots les plus fréquents

pour les 2 langues

Ressources en RAP

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

AMH : 2.3M de mots

SWH : 28M de mots

Amharique et swahili

Morphologie riche

Morphologie Riche en swahili

English They will not tell you

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Morphologie Riche et RAP [Creutz et al., 2007]

Morphologie Riche et RAP

Faible couverture lexicale OOV% élevé  

3   Segmentation des mots en sous-unités !

Segmentation des données

2

3 approches et

3 étiquetages

Approche #1

Approche non-supervisée

(Morfessor), guidée par les

données.

liste de mots liste de morphes 3  

Approche #2

Approche supervisée, nécessite un

corpus d’apprentissage

manuellement segmenté.

liste de mots liste de morphèmes

3  

Approche #3

Découpage en syllabe à partir de

règles suivant les contraintes

phonologiques et structurelles des

langues respectives

liste de mots liste de syllabes

3  

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

On apprend des modèles de

langage à partir des corpus

segmentés en sous-unités

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Nécessite de reconstruire les

sorties au niveau mot !

Etiquetage #1

_AFX : Une frontière (MB) est a joutée

à la gauche (ou droite) de la

segmentation laissant la « racine »

isolé.

ki tabu kiMB tabu kitabu 3   3  

Etiquetage #2

_ALL : Une frontière (MB) est a joutée

de chaque côté de la segmentation.

Distinguant ainsi chaque racine par

sa position (ROOT, MBROOT, ROOTMB, MBROOTMB)

ki tabu kiMB MBtabu kitabu 3   3  

Etiquetage #3

_POS : Pour les syllabes, nous avons

a joutés à la syllabe la position de la

syllabe dans le mot.

ki ta bu 1ki 2ta 3bu kitabu 3   3  

Résultats (WER)

"r l

r l

Sorties texte J  3

Dictionnaire

prononciation Modèles

acoustiques

Modèles

de langage

Résultats swahili (WER)

Résultats amharique (WER)

Résultats (OOV %)

Conclusion

RAP : langues à morphologie riche

Mots Sous-unités = Amélioration du WER% = Amélioration du OOV%

Si segmentation appropriée !

3  

Récapitulatif Influence sur performances = 3 paramètres

#1 : Longueur couverte par n-gram si suffisante…

#2 : Couverture lexicale si suffisante…

#3 : Précision des contextes

Merci!

hadrien.gelas@univ-lyon2.fr solomon_teferra_7@yahoo.com laurent.besacier@imag.fr francois.pellegrino@univ-lyon2.fr

19.17

12.46

10.28 11.36

1.61

Word-65k Word-200k Word-400k Morf-65k Morf-200k

Résultats swahili (TYPE OOV %)

Comparaison – swahili approches et étiquetages

top related