usage du tal dans des applications industrielles : gestion des contenus multilingues & recherche...

283
Usage du TAL dans des applications industrielles gestion des contenus multilingues & recherche d’information eolocalis´ ee Estelle Delpech Promotion 2007 maˆ ıtrise TAL UT2 Directrice scientifique, Nomao Intervention Master ECIL Universit´ e Toulouse II Le Mirail 4 d´ ecembre 2013

Upload: estelle-delpech

Post on 20-Jun-2015

372 views

Category:

Technology


2 download

DESCRIPTION

Intervention dans le cadre du Master Ergonomie Cognitive et Ingénierie Linguistique (ECIL 2012), UE 352 - "Production, gestion et exploitation de documents textuels", Université de Toulouse Le Mirail, Toulouse, France. Institution : Nomao

TRANSCRIPT

Page 1: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Usage du TAL dans des applications industriellesgestion des contenus multilingues & recherche d’information

geolocalisee

Estelle DelpechPromotion 2007 maıtrise TAL UT2

Directrice scientifique, Nomao

Intervention Master ECILUniversite Toulouse II Le Mirail

4 decembre 2013

Page 2: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 3: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 4: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 5: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 6: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 7: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Page 8: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 9: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 10: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 11: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 12: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 13: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Page 14: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 15: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 16: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 17: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lingua et Machina

Domaine Traduction assistee par ordinateur

2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]

I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs

2009 Acquisition par F. Brown de Colstoun

I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]

I Utilisateurs : tous les employes d’une entreprise

Page 18: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lingua et Machina

Domaine Traduction assistee par ordinateur

2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]

I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs

2009 Acquisition par F. Brown de Colstoun

I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]

I Utilisateurs : tous les employes d’une entreprise

Page 19: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lingua et Machina

Domaine Traduction assistee par ordinateur

2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]

I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs

2009 Acquisition par F. Brown de Colstoun

I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]

I Utilisateurs : tous les employes d’une entreprise

Page 20: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 21: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 22: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 23: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 24: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 25: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Page 26: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Gestion terminologie bilingue

Page 27: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Concordanciers bilingues I

Page 28: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Concordanciers bilingues II

Page 29: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Similis : Memoires de traduction

Page 30: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Libellex : Plateforme de travail multilingue I

Pour tous les employes de l’entreprise :

I experts metiers

I redacteurs

I traducteurs

I terminologues

Page 31: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Libellex : Plateforme de travail multilingue II

Diverses technologies :

I concordanciers bilingues

I gestion de terminologie

I memoire de traduction

I post-edition, validation

I traduction automatique

I gestion de projet de traduction

Page 32: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Libellex : Plateforme de travail multilingue III

Page 33: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Matiere premiere : les traductions passees

Corpus paralleles [Veronis, 2000]

“texts accompanied by their translation in one or more languages”(ensemble de textes accompagnes de leurs traductions dans une ouplusieurs langues, notre traduction).

Page 34: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Limites des corpus paralleles

I Nouveaux domaines, nouvelles langues

I Retro-ingenierie

I Traduction 6= texte spontane

Page 35: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Solution envisagees

Corpus comparables

Ensemble de textes en langue L1 et L2 qui traitentd’une meme thematique sans etre en relation detraduction

Page 36: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Usage des corpus comparables en traduction technique

I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :

I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine

I Usage “artisanal” et pedagogiqueI Outils specifiques existants

I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]

I pas d’outil commercial

Page 37: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Usage des corpus comparables en traduction technique

I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :

I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine

I Usage “artisanal” et pedagogiqueI Outils specifiques existants

I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]

I pas d’outil commercial

Page 38: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Usage des corpus comparables en traduction technique

I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :

I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine

I Usage “artisanal” et pedagogique

I Outils specifiques existantsI quelques prototypes universitaires

[Bennison and Bowker, 2000, Sharoff et al., 2006]I pas d’outil commercial

Page 39: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Usage des corpus comparables en traduction technique

I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :

I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine

I Usage “artisanal” et pedagogiqueI Outils specifiques existants

I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]

I pas d’outil commercial

Page 40: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Corpus comparables et traduction automatique[Carpuat et al., 2012]

I adaptation des systemes de TA a un nouveau domaine

I ajout de nouvelles entrees au lexique

I +2 a 3 points de BLEU

Page 41: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Corpus comparables et recherche d’information crosslingue[Li et al., 2011]

I ajout de nouvelles entrees au lexique

I + 0.016 points de MAP

Page 42: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Corpus comparables et traduction assistee par ordinateur

I nombreux travaux sur l’extraction de lexiques

I pas d’evaluation en contexte d’utilisation

Page 43: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Projet Metricc - www.metricc.com

Corpus comparables et :

I recherche d’information interlingue

I categorisation multilingue

I aide a la traduction (Lingua et Machina, LINA)

Page 44: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 45: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux effectues a Lingua et Machina

I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables

I Evaluation “industrielle” des technologies

I Recherches d’ameliorations interessantes en contexte industriel

Page 46: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux effectues a Lingua et Machina

I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables

I Evaluation “industrielle” des technologies

I Recherches d’ameliorations interessantes en contexte industriel

Page 47: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux effectues a Lingua et Machina

I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables

I Evaluation “industrielle” des technologies

I Recherches d’ameliorations interessantes en contexte industriel

Page 48: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux effectues a Lingua et Machina

I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables

I Evaluation “industrielle” des technologies

I Recherches d’ameliorations interessantes en contexte industriel

Page 49: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Transfert technologiqueextraction de lexiques bilingues a partir de corpus

comparables

Page 50: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Processus d’extraction

I Collecte des corpus

I Identification des unites a aligner (termes, unites mono- etpolylexicales...)

I Alignement des unites

Page 51: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methode d’alignement

Approche distributionnelle [Rapp, 1999, Fung, 1997]

deux mots de sens proche tendent a apparaıtre dans des contextessimilaires

Page 52: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Collecte et normalisation des vecteurs

[Prochasson, 2010]

−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}

−−−−−−−−→cytogenetics :{instability, treatment, tamoxifene...}

Page 53: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction des vecteurs

[Prochasson, 2010]

−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}

−−−−−−−−−→cytogenetique :{instability, treatment, ?...}

Page 54: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Comparaison des vecteurs et selection candidat

[Prochasson, 2010]

similarite(−−−−−−−−−→cytogenetique,

−−−−−−−−→cytogenetics) = 0.75

cytogenetique Õ cytogenetics (0.75), genetics (0.70)...

Page 55: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Variantes et ameliorations

I Diverses ameliorations et variantes proposees[Dejean and Gaussier, 2002, Sadat et al., 2003,Morin et al., 2004, Prochasson, 2010,Hazem and Morin, 2012]

I Implantation basique avec adaptation aux unites polylexicales[Morin et al., 2004] et filtre sur les categories grammaticales[Sadat et al., 2003]

Page 56: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions

I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage

I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...

Page 57: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions

I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage

I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...

Page 58: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions

I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage

I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...

Page 59: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Page 60: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Page 61: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Page 62: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Page 63: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Page 64: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture de l’extracteur

Page 65: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Interface de consultation

http://80.82.238.151/Metricc/InterfaceValidation/

Page 66: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation applicative

Page 67: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

I But : determiner dans quelle mesure le lexique bilingue permetd’aider les traducteurs

I Methode : comparaison de la qualite des traductions produitesavec / sans les corpus comparables

Page 68: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

Page 69: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

I Objet evalue : expressions problematiques

I Mesure : % de traductions exactes, acceptables, fausses

Page 70: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Conditions experimentales

Premiere experimentation visant a eprouver la methode

I 3 traducteurs dont deux etudiant-e-s M2I 2 thematiques : cancer du sein, sciences de l’eauI Thematique sciences de l’eau trop vaste ⇒pas

exploitable

Evaluation finale [Planas, 2011]

I 20 etudiants-traducteurs de M1I Donnees cancer du sein

Page 71: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Resultats

Page 72: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 73: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 74: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 75: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 76: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 77: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Page 78: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche d’ameliorations interessantes en contexteindustriel

Page 79: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Principe de la traduction compositionnelle

Principe de compositionalite : “Le sens du tout est fonction dusens de ses constituants” [Keenan and Faltz, 1985,pp. 24-25].

Adaptation a la traduction : La traduction du tout est fontion dela traduction de ses constituants.

Page 80: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Exemples de traductions possibles

Page 81: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Difficultes

Divergence morpho-syntaxique :anti-cancer → anti-cancereux

Divergence lexicale :traduction automatique → machine translation

Fertilite :hysterectomy →ablation de l’uterus

Variation terminologique :mixed departmentalization → departementalisationmixte, structuration mixte

Page 82: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Aspects pas ou peu traites

I FertiliteI Termes monolexicaux : approches specifiques a un type de

construction morphologiqueI prefixe1+base2 Õ prefixe1+base2

I Ordonnancement / selection des traductions : filtres simplesou pas adaptes

Page 83: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Propositions

I Termes monolexicaux : etre moins specifique sur les structuresmorphologiques

I Traiter la fertilite par l’alternance morpheme libre / morphemelie

I cyto1toxic2 Õ toxique2 (pour les) cellules1

Page 84: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Fertilite

Traduction fertile Soit deux ensembles disjoints S et C ou S est un

ensemble de termes sources et C est un ensemble de termes cibles. Soit

la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le

nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles

F est defini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}.

Exemples :

I post-menopause Õ apres (la) menopause

I option express Õ option voie rapide

I snorkeling Õ plongee (avec) tuba

Page 85: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Fertilite de surface et fertilite semantique

Traduction fertile en surface Soit une traduction fertile sFc, M(s)

l’ensemble des morphemes du terme s, M(c) l’ensemble des morphemes

du terme c et T une fonction de traduction. sFc est fertile en surface si

pour tout mc ∈ M(c) il y a un unique ms ∈ M(s) tel que T (ms) = mc .

Surface

Semantique

Page 86: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Fonctionnement de base

Traduire(“ab”) :

= S(R(T (D(“ab”))))

= S(R(T ({a, b})))

= S(R({T (a)× T (b)}))

= S(R({a, b}))

= S({a, b}, {b, a})= “ba”

Page 87: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Decomposition

I Peu de regles :I appariemment entrees ressources, contraintes longueur

I Tous les decoupages possiblesI non-cytotoxic Õ {non, cyto, toxic}, {noncyto, toxic}, {non,

cytotoxic}, {noncytotoxic}

Page 88: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traduction

I Equivalences traductionnelles entre morphemes libres et liesI cyto Õ cellule : cytotoxique Õ toxique pour les cellules

I Nombreuses ressources : familles morphologiques, synonymes,cognats

I available Õ disponible Õ disponibilite : bioavailableÕ biodisponibilite

I anastrozole-associated Õ associe a de l’anastrozole

I Strategie de repliI confusingly Õ confusing Õ confondre

Page 89: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recomposition

I Permutation :I pathophysiological Õ physiopathologique

I Tous les concatenations possibles :I {non, toxique, cellule} : {non, toxique, cellule},{nontoxique, cellule}, {non, toxiquecellule},{nontoxiquecellule}

Page 90: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection

I Projection de patronsI toxique .* cellule Õ toxique pour les cellules

Page 91: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Donnees experimentales

I Domaine cancer du sein, EN Õ FR, EN Õ DEI ' 1800 unites monolexicales morphologiquement construites

I aucune n’est traduisible avec le dictionnaire generaliste

I Ressources existantes : dictionnaire generaliste et synonymes

I Ressources manuelles : traductions morphemes

I Ressources automatiques : familles morphologiques[Porter, 1980], cognats [Hauer and Kondrak, 2011]

Page 92: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie

I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction

I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux

Page 93: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie

I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction

I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux

Page 94: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methodologie d’evaluation

I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie

I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction

I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux

Page 95: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Mesures d’evaluation reference a priori

Couverture : capacite a generer une traduction candidate

Precision : capacite a proposer une traduction correcte parmi lestraductions generee

Utilisabilite : capacite a generer une traduction candidate etcorrecte

Page 96: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Aspects evalues

I Genericite du modele

I Ressources linguistiques

I Fertilite

Page 97: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Genericite du modele : methodes testees

I Prefixation : pretreatment Õ pre-traitement

I Composition savante : hypercalcaemia Õ hypercalcemie

I Composition populaire : acute-phase Õ Akutphase, akutenPhase

I Cognat : t-test Õ t-Test

Page 98: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Genericite : resultats I

C PE UE PEA UEA

Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02

Notre methode ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Page 99: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Genericite : resultats II

C PE UE PEA UEA

Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03

Notre methode ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 100: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Genericite : resultats III

I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)

I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)

I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)

I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10

Page 101: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Genericite du modele : discussion

I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps

I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut

I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’

I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee

I Strategie de repli : ribosome Õ ribosomique

Page 102: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ressources linguistiques : comparaisons effectuees

I Base : dictionnaire generaliste et table de traduction desmorphemes

I Base + familles morphologiques

I Base + synonymes

I Base + cognats

I Toutes les ressources

Page 103: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ressources linguistiques : resultats I

C PE UE PEA UEA

Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13

Toutes les ressources ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Page 104: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ressources linguistiques : resultats II

C PE UE PEA UEA

Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10

Toutes les ressources ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 105: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Apport des ressources linguistiques

Systeme de base : dictionnaire generaliste et table de traductiondes morphemes

I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)

I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite

I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite

I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite

Page 106: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traductions fertiles : comparaisons effectuees

I Traductions fertiles vs. non fertiles

I Traductions non fertiles vs. fertiles + non fertiles

Page 107: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traductions fertiles : resultats I

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28

Table: anglais Õ francais

Page 108: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traductions fertiles : resultats II

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 109: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Apport des traductions fertiles

I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10

points utilisabilite)

Page 110: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Bilan

I Fort gain en couverture, baisse limitee de la precison⇒ utilisabilite meilleure

I Limites :I fertilite semantique : snorkeling Õ plongee avec tuba

I Perspectives :I compression : apres la menopause Õ post-menopauseI termes polylexicaux : cytogenetic instability Õ instabilite

genetique des cellules

Page 111: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Bilan

I Methode bien adaptee aux corpus comparables specialises ...I peu d’a priori sur la structure du terme cibleI variantes morphologiquesI usage des cognats

I ... mais bruitee ⇒ necessite un filtrage

Page 112: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ordonnancement de traductions candidates

I Partie exploratoireI Apports :

I nouveaux criteresI comparaisonI combinaison (learning-to-rank)

Page 113: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Criteres

I F : frequence traduction candidate

I C : similarite des contextes

I P : probabilite de traduction des partie du discours

I M : fiabilite des modes de traductions

Page 114: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Experiences

I Chaque critere pris isolement

I Combinaison non ponderee : F + C + P+ M

I Combinaison ponderee : αF + βC + γP + δMI Apprentissage modeles d’ordonnancement, famille list-wise :

I AdaRank, Lambda MART : boostingI Coordinate Ascent : modele lineaire

Page 115: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Donnees experimentales

Page 116: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Methode d’evaluation

I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions

I Classement fonction de la precision sur le Top1 puis 2 puis 3

Page 117: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Resultats I

Top1 Top2 Top3 RPM

Meilleure precision possible ,94 ,94 ,94 1

Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3

AdaRank ,892 ,904 ,928 4

P ,892 ,904 ,928 4

C ,88 ,904 ,928 4

Aleatoire ,836 ,898 ,928 13

Table: anglais Õ francais

Page 118: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Resultats II

Top1 Top2 Top3 RPM

Meilleure precision possible ,879 ,879 ,879 1

Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17

P ,833 ,848 ,848 17

M ,818 ,864 ,879 3C ,803 ,864 ,864 28

Aleatoire ,77 ,832 ,846 28

Table: anglais Õ allemand

Page 119: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Resultats III

I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a 0.93

Top1)

I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :

I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank

Page 120: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Bilan et perspectives

I Necessite de montrer la significativite des resultats

I Globalement : combinaison interessante, pas d’apport marquedes modeles de learning-to-rank (peu de criteres)

I Autres criteres : difference de frequence, modele de langue...I Comment integrer des donnees paralleles generalistes, d’autres

domaines, d’autres langues ?I apprentissage a partir des traductions du dictionnaire

generaliste et des cognatsI poids valables pour tous les couples de langues...

Page 121: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 122: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Bilan des travaux

I Developpement d’un prototype d’extracteur de lexiquesbilingues specialises a partir de corpus comparables[Delpech and Daille, 2010]

I Experimentation de l’approche “classique” dans le cadreapplicatif de la TAO [Delpech, 2011, Delpech, 2012] :

I Contributions a la traduction compositionnelle[Delpech et al., 2012b, Delpech et al., 2012a] :

I Communications et demonstrations logicielles[Delpech, 2010a, Delpech, 2010b,Brown de Colstoun et al., 2011]

Page 123: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Peut-on extraire des lexiques bilingues reellementutilisables par les traducteurs a partir de corpuscomparables ?

I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements

au sens compositionnel (60% d’apres [Namer and Baud, 2007])I 20% a 28% avec une traduction correcte

I Approche distributionnelle :I forte couverture mais lexiques trop ambigus (60% sur le

Top20, evaluation a priori)

Page 124: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Tres ambitieux en l’etat actuel

I Lexique obtenu :I une petite partie avec une traduction correcte sur le Top1 ou

Top2I une partie avec traduction correcte sur Top 20I majeure partie sans traduction

I Difficile d’augmenter le corpusI thematique fine, forte comparabiliteI peu de textes specialises

I Difficulte inherente au corpus :I seulement une partie du vocabulaire en commun

Page 125: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Perspectives

I Ne pas exagerement focaliser sur l’extraction d’alignementsI Aider a l’exploration de corpus comparables par de multiples

manieres :I extraction, alignement de contextes pertinentsI outils de recherche avancesI travailler avec les traducteurs : automatiser les techniques

⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS,Faculte de Traduction et d’Interpretation

Page 126: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 127: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 128: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Nomaocarnet de bonnes adresses (entre amis)

www.nomao.com

I Application Web et mobile

I Trouver, garder et echanger desbonnes adresses (restaurants, bars,shopping, medecins...)

I Recherche de lieux personnalisee :recommandation, geolocalisation

Page 129: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Application Web

I Utilisateur non connecte :e-reputation

I Utilisateur connecte (FB) :recommandation

I lieux qui correspondant a tesgouts

I lieux recommandes par tesamis

Page 130: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Application mobile

I E-reputation

I Recommandation

I Recherche geolocalisee

I Realite augmentee

Page 131: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

L’entreprise Nomao

2007 creation

2010 acquisition par legroupe Ebuzzing

2012 3M visites / jour

I Toulouse / Paris / Evreux /Nantes / Chartres...

I 10 salarie-e-s

I Revenus : mise en relationsurtaxee

⇒ ECML, EGC, TALN, INFORSID, VSST, ICEIS, IEEETNNLS ...⇒ http://www.nomao.com/labs

Page 132: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traitement des donnees @ nomao

Page 133: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traitement des donnees @ nomao

Page 134: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traitement des donnees @ nomao

Page 135: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Traitement des donnees @ nomao

Page 136: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 137: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 138: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 139: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 140: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 141: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Page 142: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 143: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 144: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 145: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 146: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 147: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 148: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 149: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

Page 150: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Construction de l’index de lieux

Page 151: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Construction de l’index de lieux

Page 152: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Donnees extraites

SOURCE 1

nom : Les Caves de La Marechaledescripteurs : restaurantadresse :[

rue :ville : Toulouse

]commentaires :[

note : 4texte : ”Mange hier soir avec...”

]

SOURCE 2

nom : Caves de La Marechale SARLdescripteurs : francaisadresse :[

rue : Rue Jules Chalandeville : Toulouse

]commentaires :[

note : 2texte : ”Pas vraiment apprecie...”

]

Page 153: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Donnees integrees

LIEU #5237890nom : Les Caves de La Marechaledescripteurs : restaurant, francais

adresse :

[rue : Rue Jules Chalandeville : Toulouse

]commentaires :

[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”

]

Page 154: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Donnees analysees

LIEU #5237890

nom : Les Caves de La Marechaledescripteurs : restaurant, francaiscategorie : manger > restaurant > europeen > francais

adresse :

[rue : Rue Jules Chalandeville : Toulouse

]metro :

[station : Capitole, distance : 304mstation : Esquirol , distance : 192m

]commentaires :

[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”

]aspects positifs :

[service : super accueil, personnel avenantplats : gratin dauphinois delicieux

]e-reputation : 79%

Page 155: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Contenu genere

Page 156: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux en cours

Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs

Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?

Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.

Page 157: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux en cours

Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs

Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?

Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.

Page 158: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux en cours

Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs

Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?

Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.

Page 159: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux en cours

Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs

Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?

Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.

Page 160: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Plan

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Page 161: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation automatique de texte

I Textes en boite : ”Votre imprimante n’a plus de papier”

I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,

Nous avons le {IF $SOLDE < 0 regret plaisir} de

vous annoncer que...

I Content spinning : generation de contenu pour le Web

I Systemes de generation � intelligents �

Page 162: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation automatique de texte

I Textes en boite : ”Votre imprimante n’a plus de papier”

I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,

Nous avons le {IF $SOLDE < 0 regret plaisir} de

vous annoncer que...

I Content spinning : generation de contenu pour le Web

I Systemes de generation � intelligents �

Page 163: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Content spinning

Page 164: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Content spinning

I Technique de generation de contenu varie pour optimiser despages web

I Principe :

1. ecriture d’un premier texte2. decoupage du texte en morceaux, sous-morceaux,

sous-sous-morceaux, etc..3. pour chaque morceau : proposer plusieurs variantes possibles4. generation par selection aleatoire des morceaux

La {generation de texte|GAT} rend {possible|facile}la creation de {textes|contenus textuels} {rapide| a

la va-vite} ⇒ 2 x 2 x 2 x 2 = 16 phrases

Page 165: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation de texte � intelligente �

Page 166: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation de texte � intelligente �

Page 167: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Applications possibles

I Traduction automatique (systeme par pivot)

I Resume automatique (systeme bases sur une simulation del’activite humaine)

⇒ plutot lie aux approches symboliques

Page 168: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Applications confirmees

I Agents conversationnelsI Generation de textes a partir de donnees

I numeriques, ex : meteo, cours de bourse...I procedurales, ex : manuels d’instructionsI diverses, ex : matches de foot, descriptifs de lieux...⇒ toujours propre a un domaine + but communicatif, pas de

systeme generaliste.

Page 169: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Travaux academiques

Page 170: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]

Page 171: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]

Page 172: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]

Page 173: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]

Page 174: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection de contenu I

Page 175: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection du contenu I

Entree Donnees brutes, eventuellement buts communicatifsI selection d’informationI filtrage/calcul des informations saillantes, ex. : hausses de

temperaturesI peut inclure du raisonnement (IA)I transcription en representations logiques

Sortie formes logiques non ordonnees

Page 176: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection du contenu II

(m7 / |eat, take in|

:time present

:agent (d / |dog<canid|

:quant plural)

:patient (b / |os, bone|)

:quant plural)

)

⇒ ”dogs eat bones”[Knight and Langkide, 1998]

Page 177: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique I

Page 178: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique I

Entree Formes logiques non ordonneesI regroupement du contenu semantique en unitesI les unites semantiques se realiseront par la suite en phrases ou

propositions syntaxiquesI articulees par des relations de discours

Sortie Plan de texte

Page 179: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique II

[Hovy, 1998]

Page 180: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique I

Page 181: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique I

Entree Plan de texteI traductions des structures semantiques en structures

syntaxiques

Sortie Arbres syntaxiques + connecteurs, mots outils

Page 182: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique II

# dog, bone, eat

((x1 :agent)

(x2 :patient)

(x3 :rest)

-># "dogs eat bones"

(s (seq (x1 np nom-pro) (x3 v-tensed)

(x2 np acc-pro)))

# "bones are eaten by dogs"

(s (seq (x2 np nom-pro) (x3 v-passive)

(wrd "by") (x1 np acc-pro)))

# "consumption of bones by dogs"

(s (seq (x3 np acc-pro nom-pro) (wrd "of")

(x2 np acc-pro) (wrd "by") (x1 np acc-pro)))

)

adapte de [Knight and Langkide, 1998]

Page 183: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation I

Page 184: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation I

Entree Arbres syntaxiquesI selection de lexies correspondant au sens et s’integrant dans la

structure syntaxique

Sortie Arbres syntaxiques lexicalises

Page 185: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation II

# Lexique

(("eat" VERB |eat, take in|)

("dog" NOUN |canid>dog|)

("bone", NOUN |os, bone|))

# Structure lexicalisee

(s (seq (wrd "dog") (wrd "+plural")

(wrd "eat")

(wrd "bone") (wrd "+plural")))

adpatee de [Knight and Langkide, 1998]

Page 186: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustement morphologique I

Page 187: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustement morphologique I

Entree Arbres syntaxiques lexicalisesI calcul de la forme de surface : accords, conjugaisons,

agglutination, elision...

Sortie Arbres syntaxiques lexicalises et flechis

Page 188: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustement morphologique II

("-child" "children")

("-person", "people", "persons")

("-a", "as", "ae") # formulas/formulae

("-x", "xes, "xen") # boxes / oxen

("-man", "mans", "men") # humans/footmen

("-Co", "os", "oes")

[Knight and Langkide, 1998]

Page 189: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Formatage

Page 190: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Formatage

Entree Arbres syntaxiques lexicalises et flechisI regles typographiques, insertion du formatage (balises...),

linearisation de l’arbre

Sortie Forme de surface lineaire

Page 191: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Autres taches [Danlos and Roussarie, 2000]

Page 192: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Autres taches

I Generation d’expressions referentielles

I Agregation

⇒ Gain en fluidite et lisibilite, evite les redondances

Page 193: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles

I Liee generation des groupes nominauxI Choix possibles :

I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil

Page 194: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles

I Liee generation des groupes nominauxI Choix possibles :

I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil

Page 195: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation

I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux

I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)

I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie

Page 196: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation

I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux

I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)

I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie

Page 197: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Approches statistiques [Belz and Kow, 2009]

I Developpement d’approches statistiques a partir de 1998

I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :

I structure syntaxique → texte finalI representation semantique → texte final

Page 198: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Approches statistiques [Belz and Kow, 2009]

I Developpement d’approches statistiques a partir de 1998

I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :

I structure syntaxique → texte finalI representation semantique → texte final

Page 199: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] I

Page 200: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] I

I Selection de toutes les structures syntaxiques, et de toutes leslexies possibles

I Obtention d’un graphe de realisations possibles

I Choix du chemin le plus probable grace a des probabilites den-grammes de mots appris sur corpus

Page 201: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] II

Page 202: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation basee sur la traduction automatique[Wong and Mooney, 2007] I

Page 203: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation basee sur la traduction automatique[Wong and Mooney, 2007] I

I Apprentissage de probabilites d’alignements entre realisationde surface et representation semantique

Page 204: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation basee sur la traduction automatique[Wong and Mooney, 2007] II

I Choix de la realisation de surface qui est a la fois :I dont le sens est le plus proche de la representation semantique

(modele de ”traduction”)I la mieux formee (modele de langue : n-grammes corpus)

argmaxe

Pr(e|f ) = argmaxe

Pr(e)Pr(f |e)

Page 205: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation [Reiter and Belz, 2009]

Page 206: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation [Reiter and Belz, 2009]

I Pas de technique consensuelleI Trois types d’evaluation :

I evaluation applicative / guidee par la tacheI evaluation basee sur des jugements humainsI evaluation automatique par comparaison a une reference

Page 207: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation applicative

I Methodologies liees a l’application finale :I faire une tache en suivant des instructions genereesI arreter de fumer grace a des lettres de suivi personnaliseesI cout de post-edition

I Evaluations les plus parlantes / convaincantes

I Couteuses

I Dependantes du bon-vouloir des participants

Page 208: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation humaine

I Methode :I texte note sur plusieurs criteres (echelles)

I qualite globale, coherence, contenu, organisation...

I preference entre deux textes

I Methode la plus populaire

I Plus rapide et moins chere que l’evaluation guidee par la tache

Page 209: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation automatique

I Methode :I extraction des structures syntaxiques / de l’information d’un

corpus ecrit par un humainI (re-)generation du texte a partir des structuresI comparaison via une mesure style distance d’edition, BLEU...

I Peu couteuse, rapide, reproductible

I Utilisee pour evaluer a partir de la lexicalisationI Methode controversee pour une evaluation globale :

I validite de la referenceI objet de l’evaluation

Page 210: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Projets academiques

I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]

I Generation de previsions meteo [Belz, 2008]

I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]

I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]

I Generateur de blagues [Binsted et al., 1997]

Page 211: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Projets academiques

I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]

I Generation de previsions meteo [Belz, 2008]

I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]

I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]

I Generateur de blagues [Binsted et al., 1997]

Page 212: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Systemes commerciaux

I Revolusyn : content spinning avance - www.revolusyn.com/

I EasyText : commentaires de tableaux de donnees statistiques

I StatsMonkey : resumes de matches de baseball

I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/

I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/

I Nomao : descriptifs de lieux

Page 213: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Systemes commerciaux

I Revolusyn : content spinning avance - www.revolusyn.com/

I EasyText : commentaires de tableaux de donnees statistiques

I StatsMonkey : resumes de matches de baseball

I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/

I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/

I Nomao : descriptifs de lieux

Page 214: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation de descriptifs de lieux en contexteapplicatif

Page 215: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Contraintes

I Rapidite du systeme : eviter traitements complexes, couteuxen temps

I Rapidite de developpement :I ne coller a l’architecture ”theorique” que si c’est necessaire⇒ systeme mixant generation � intelligente �et approchesbas niveau

I Moteurs de recherche :I contenu unique et varie

Page 216: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Exemple de texte genere

HOTEL � HOTEL DE VARENNE � A PARIS

Quelques infos sur l’hotel � Hotel de Varenne � a Paris...

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).

Page 217: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Optimisation moteurs de recherche

HOTEL � HOTEL DE VARENNE � A PARIS

Quelques infos sur l’hotel � Hotel de Varenne � a Paris...

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).

Page 218: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation bas niveau

⇒ choix lexical aleatoire avec gestion des accords

HOTEL � HOTEL DE VARENNE � A PARIS

Quelques infos sur l’hotel � Hotel de Varenne � a Paris...

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement.Cet hotel propose des chambres disposant de tout le confortmoderne (climatisation...). Il dispose d’un agreable jardin et met adisposition de ses clients un acces WIFI.Hotel de Varenne a obtenu 91% de remarques favorables surInternet. Les internautes y apprecient particulierement le service(� personnel tres aimable �, � sourire du personnel �,� personnel sympathique �).

Page 219: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation de texte intelligente

HOTEL � HOTEL DE VARENNE � A PARIS

Quelques infos sur l’hotel � Hotel de Varenne � a Paris...

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).

Page 220: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Fonctionnement du generateur de textes I

Page 221: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Architecture du generateur

Page 222: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection du contenu I

Page 223: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection du contenu I

Entree Donnees brutesI selectionI categorisationI transformationI pas de raisonnement, de manipulation de concepts

Sortie Donnees filtrees et restructurees

Page 224: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Selection du contenu II

DONNEES BRUTES

nom : Higumacategorie : manger > restaurant >asiatique > japonais

tags : carte de credit acceptees,cheques refuses, japonaisgeolocalisation :[

lat : 48.871762long : 2.352262

]adresse :rue : 32 Rue Saint-Anne

ville : Pariscp : 75001

metro :[

ligne : 14station : Pyramides

]

CONTENU POUR GENERATION

nom : Higumacategorie : restaurant :masc :singstyle cuisine : japonaispaiements acceptes : carte de creditpaiements refuses : cheque

adresse :rue : 32 Rue Saint-Anneville : Parisquartier : 1

Page 225: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique I

Page 226: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique I

Entree Donnees filtrees et structureesI selection de propositions ”semantiques” pre-definies en

fonction du contenu disponibleI ordonnancement des propositions, regroupement en

paragraphes thematiquesI articulation des propositions par des relations de discours

Sortie Plan de texte

Page 227: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique II

nom : Higuma

categorie : restaurant :masc :sing ⇒ SPOT IS A TYPE

style cuisine : japonais ⇒ COOKING STYLE

paiements acceptes : carte de credit ⇒ ACCEPTED PAYMENTS

paiements refuses : cheque ⇒ REJECTED PAYMENTS

adresse :

rue : 32 Rue Saint-Anneville : Parisquartier : 1

⇒ LOC STREET CITY DISTRICT

Page 228: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique III

SPOT IS A TYPECOOKING GEOSTYLEACCEPTED PAYMENTSREJECTED PAYMENTSLOC STREET CITY DISTRICT

ANCRAGE[#1 SPOT IS A TYPE#2 LOC STREET CITY DISTRICT

]

PROPRIETES#1 COOKING GEOSTYLE#2 ACCEPTED PAYMENTS#3 REJECTED PAYMENTS

Page 229: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique IV

Continuation

#1SPOT IS A TYPE

#2LOC STREET CITY DISTRICT

Page 230: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique V

Continuation

#1 CO-OKING STYLE

Contrast

#2 ACCEP-TED PAYMENTS

#3 REJEC-TED PAYMENTS

Page 231: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Structuration rhetorique VI

I pas de variation dans l’ordre des propositions

I regles ad hoc codees en dur

Page 232: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique I

Page 233: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique I

Entree Plan de texteI selection des structures syntaxiques correspondant aux

propositions semantiquesI selection aleatoire parmi plusieurs structures possibles

Sortie Structures syntaxiques a trous

Page 234: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique II

PROPER VERB Enum PREPPhr

$SPOT accepte $ACCEPTED PAYMENTS comme moyen de paiement

< strong >

ACCEPTED PAYMENTS

SUBJ OBJ

CIRC

Page 235: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique III

ART DEF NOUNle $ACCEPTED PAYMENT

Enum ACCEPTED PAYMENTS

DET

agreement

Page 236: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Planification syntaxique IV

ART DEF NOUN . . . ART DEF NOUNle $ACCEPTED PAYMENT1 le $ACCEPTED PAYMENTN

Enum ACCEPTED PAYMENTS

DETENUM

DET

agreement agreement

Page 237: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation I

Page 238: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation I

Entree Structures syntaxiques a trousI choix des valeurs correspondant aux variables

I tags : selection aleatoire dans lexique, fonction partie dudiscours imposee par structure

I entites nommees : insertion de la valeur brute

Sortie Structures syntaxiques lexicalisees

Page 239: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation II

PROPER VERB ART DEF NOUN PREPPhr

ENTITE TAG

$SPOT accepte le $ACCEPTED PAYMENT comme moyen de paiement

ACCEPTED PAYMENTS

SUBJ

OBJ

DET

CIRC

Page 240: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Lexicalisation III

PROPER VERB ART DEF NOUN PREPPhr

Novotel accepte le carte visa comme moyen de paiement

hotel :masc :sing :fem :sing

ACCEPTED PAYMENTS

SUBJ

OBJ

DET

CIRC

Page 241: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures I

Page 242: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures I

Entree Structures syntaxiques : 1 structure ↔ 1 propositionI agregation des structures repetitives :

I sujets identiquesI verbes identiques ou compatibles

I ajout des frontieres de phrases

Sortie Phrases finales : 1 phrase → 1 ou plusieurs propositions

Page 243: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures II

Novotel accepte carte visa

ACCEPTED PAYMENTS

SUBJ OBJ

Page 244: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures III

Novotel accepte carte visa Novotel refuse cheque

ACCEPTED PAYMENTS

SUBJ OBJ

REJECTED PAYMENTS

SUBJ OBJ

Page 245: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures IV

Novotel accepte carte visa Novotel refuse cheque

SPOT ACCEPT PAYMENT

SUBJ OBJ

SPOT REJECT PAYMENT

SUBJ OBJ

sujets identiques verbes compatibles

⇒ Agregation possible

Page 246: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures V

Novotel accepte carte visa COORD X refuse cheque

ROOT

COORD

COORD

SUBJ

OBJ OBJ

Page 247: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures VI

Novotel accepte carte visa mais refuse cheque

ROOT

COORD

COORD

SUBJ

OBJ OBJ

CONTRASTCONTRAST

Page 248: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Agregation des structures VII

I autres regles :I Novotel est un hotel + Novotel est situe a Paris ⇒ Novotel est

un hotel situe a ParisI Novotel dispose d’un jardin + Novotel propose des chambres

avec climatisation ⇒ Novotel dispose d’un jardin et proposedes chambres avec climatisation

I regles d’agregation codees en dur

I declaration externe :I compatibilites entre verbesI coordonnants

Page 249: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles I

Page 250: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles I

Entree Phrases finalesI reperage des sujets repetesI remplacement par des expressions referentielles

Sortie Phrases finales avec expressions referentielles

Page 251: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles II

Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .

SUBJ

Les Caves de la Marechale est specialise dans la cuisine francaise .

SUBJ

Les Caves de la Marechale a recueilli 79% de notes favorables sur Internet .restaurant :masc :sing

SUBJ

Page 252: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles III

I Lexique expressions referentielles :

restaurant → PRO :masc :sing : il

→ NOUNPhr :masc :sing : ce restaurant

→ NOUNPhr :masc :sing : . . .

I Ordre d’apparition arbitraire :

1. PROPER

2. NOUNPhr aleatoire

3. PRO

Page 253: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Generation d’expressions referentielles IV

Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .

Ce restaurant est specialise dans la cuisine francaise .

Il a recueilli 79% de notes favorables sur Internet .

Page 254: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustements morphologiques I

Page 255: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustements morphologiques I

Entree Phrases avec mots a l’etat de lemmesI accordsI elisionsI agglutinations

Sortie Phrases avec formes finales des mots

Page 256: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustements morphologiques II

PROPER VERB ART DEF NOUN PREPPhr

Novotel accepte le carte visa comme moyen de paiement

fem :sing

ACCEPTED PAYMENTS

SUBJ

OBJ

DET

CIRC

agreement

Novotel accepte la carte visa comme moyen de paiement

Page 257: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustements morphologiques III

ce restaurant est specialise dans la cuisine francais .

fem :sing ADJ

agreement

ce restaurant est specialise dans la cuisine francaise .

Page 258: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Ajustements morphologiques IV

cet hotel dispose de un bar .

cet hotel dispose d’ un bar .

Page 259: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Mise en forme I

Page 260: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Mise en forme I

Entree Suite de motsI MajusculesI EspacesI Balises

Sortie Texte final

Page 261: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Mise en forme II

cet hotel dispose d’ un bar , d’ un spa et d’ un golf .

Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .

Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .

Cet hotel dispose d’un bar, d’un spa et d’un golf.

Page 262: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Mise en forme III

PROPER VERB DET NOUN PART PREP PROPER

� La Braisiere � est un restaurant situe a Toulouse

< strong > < strong > < strong >

ROOT

SUBJ

PRED

PRED

DET PREP CPREP

<strong> � La Braisiere �</strong> est un <strong> restaurant</strong> situe a <strong> Toulouse </strong>.

Page 263: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Exploitation du generateur en contexte industriel

(stage B. Pierrejean promo 2013)

Page 264: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Etat des lieux

HOTEL � HOTEL HELIOT � A TOULOUSEVous souhaitez en savoir plus sur l’hotel � Hotel Heliot � aToulouse ?� Hotel Heliot � est un hotel. Cet hotel se situe 3 Rue Heliota Toulouse. Il a remporte 81% de remarques favorables surInternet. Les internautes y apprecient particulierement leservice (� patron tres sympathique �, � accueil tres aimable�, � personnel sympathique �) et les equipements deschambres (� chambre tres propre �, � chambre spatieuse �,� chambre agreable �).

I Quelques problemes qualitatifs

I Peu de categories couvertes (hotels, restaurants)

I Trop courts

Page 265: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Objectifs

Couverture autres categories : bars, sites touristiques, etc.

Longueur et Variete textes plus longs en limitant les repetitions

Qualite linguistique eventuellement ameliorer

Page 266: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Resultats

Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmospheredivertissante au 41 Rue Leon Gambetta dans la plaisante villede Toulouse. Cette adresse propose differentes varietes decafes, rien de tel pour discuter entre copains ! Les gourmandsse regaleront de l’un des mets proposes a la carte. Si vous vousrendez dans ce bar un soir de concert, l’ambiance sera plutotfestive. Pour les personnes qui voudraient y aller en fin desemaine, sachez que cet endroit vous accueille aussi ledimanche. Si vous voulez vous y rendre en metro vous pourrezsortir a la station Metro Capitole qui est situee a 350 metres.Depuis ce bar vous pourrez rejoindre le bar Bar Gambetta, lasalle de spectacle Piano Aux Jacobins, le salon de the GrandCafe Albert, la boite de nuit Le Bocca Chicca et le centreculturel Adda Festival Du Jazz. L’avis des internautesPlus des trois quarts de nos internautes ont apprecie cetendroit.

Page 267: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page

I Indicateurs de progression :I varieteI longueurI temps

I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception

Page 268: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page

I Indicateurs de progression :I varieteI longueurI temps

I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception

Page 269: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page

I Indicateurs de progression :I varieteI longueurI temps

I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception

Page 270: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Evaluation

I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page

I Indicateurs de progression :I varieteI longueurI temps

I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception

Page 271: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Impact sur le trafficMise en production : mai 2013

Figure: 100 pages avec descriptifs

Figure: site nomao.fr

Page 272: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Progression : variete

I n-grammes de mots pleins communs entre deux textes :

jaccard(n1, n2) =|n1 ∩ n2||n1 ∪ n2|

I baisse d’environ 40% grace a l’aleatoire

I developpement de nouveaux patrons

n avant apres

1 0, 17 0,12

2 0,11 0,07

3 0,7 0,05

Page 273: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Progression : longueur

I nb de mots dans les textes

avant apres

moyenne 63 105

min 30 39

max 120 241

⇒ pb : manque de donnees

Page 274: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Qualite linguistique percue

Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmosphere divertissanteau 41 Rue Leon Gambetta dans la plaisante ville de Toulouse.Cette adresse propose differentes varietes de cafes, rien de tel pourdiscuter entre copains ! // Les gourmands se regaleront de l’un desmets proposes a la carte. // Si vous vous rendez dans ce bar unsoir de concert, l’ambiance sera plutot festive. // Pour lespersonnes qui voudraient y aller en fin de semaine, sachez que cetendroit vous accueille aussi le dimanche. // Si vous voulez vous yrendre en metro vous pourrez sortir a la station Metro Capitole quiest situee a 350 metres. // Depuis ce bar vous pourrez rejoindre lebar Bar Gambetta, la salle de spectacle Piano Aux Jacobins, lesalon de the Grand Cafe Albert, la boite de nuit Le Bocca Chiccaet le centre culturel Adda Festival Du Jazz.

Page 275: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

Merci pour votre attention

Page 277: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References I

Belz, A. (2008).

Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models.Natural Language Engineering, 14(4) :431–455.

Belz, A. and Kow, E. (2009).

System building cost vs. output quality in data-to-text generation.In Proceedings of the 12th European Workshop on Natural Language Generation, pages 16–24.

Bennison, P. and Bowker, L. (2000).

Designing a tool for exploiting bilingual comparable corpora.In Proceedings of LREC 2000, Athens, Greece.

Binsted, K., Pain, H., and Graeme, R. (1997).

Children’s evaluation of computer-generated punning riddles.Pragmatics and Cognition, 5 :309–358.

Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).

Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.

Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,

J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation : Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.

Danlos, L. and Roussarie, L. (2000).

La generation automatique de textes.In Ingenierie de la langue. Pierrel, J.-M., hermes edition.

Page 278: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References II

Dejean, E. and Gaussier, E. (2002).

Une nouvelle approche a l’extraction de lexiques bilingues a partir de corpus comparables.Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22.

Delpech, E. (2010a).

Bilingual terminology mining.In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing(Franco-Thai Workshop 2010), Bangkok, Thaılande.

Delpech, E. (2010b).

Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communautes fermees.In Terminologie & Ontologie : Theories et applications (TOTh), Annecy, France.

Delpech, E. (2011).

Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.

Delpech, E. (2012).

Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).

Delpech, E. and Daille, B. (2010).

Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.

Page 279: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References III

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).

Extraction of domain-specific bilingual lexicon from comparable corpora : a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).

Identification of fertile translations in medical comparable corpora : a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.

Fung, P. (1997).

Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.

Hauer, B. and Kondrak, G. (2011).

Clustering semantically equivalent words into cognate sets in multilingual lists.In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873,Chiang Mai, Thailand.

Hazem, A. and Morin, E. (2012).

ICA for bilingual lexicon extraction from comparable corpora.In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey.

Hovy, E. (1998).

Automated discourse generation using discourse structure relations.Artificial Intelligence, 63 :341–385.

Hutchins, J. (1996).

ALPAC : the (in)famous report.MT News International, (14) :9–12.

Page 280: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References IV

Keenan, E. L. and Faltz, L. M. (1985).

Boolean semantics for natural language.Dordrecht, Holland.

Knight, K. and Langkide, I. (1998).

Generation that exploits corpus-based knwoledge.In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics, pages 704–710.

Langkide, I. (2000).

Forest-based statistical sentence generation.In Proceedings of the 6th Applied Natural Language Processing Conference and the 1st Meeting of theNorth American Chapter of the Association of Computational Linguistics, pages 170–177.

Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).

Degre de comparabilite, extraction lexicale bilingue et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, volume 1, pages211–222, Montpellier, France.

Mc Enery, A. M. and Xiao, R. Z. (2007).

Parallel and comparable corpora : What is happening ?In G. Anderman, M. R., editor, Incorporating Corpora : The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.

Morin, E. and Daille, B. (2010).

Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression : hard going or plain sailing, pages 79–95. Springer Netherlands.

Page 281: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References V

Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).

Extraction de terminologies bilingues a partir de corpus comparables.In Actes de la 11eme Conference annuelle sur le Traitement Automatique des Langues Naturelles (TALN),pages 309–318, Fes, Maroc.

Namer, F. and Baud, R. (2007).

Defining and relating biomedical terms : Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3) :226–33.

Planas, E. (1998).

TELA, Structures et Algorithmes pour la Traduction fondee sur la Memoire.These de doctorat en informatique, Universite Joseph Fourier, Grenoble I, Grenoble, France.

Planas, E. (2011).

Metricc : Rapport final sur l’evaluation de l’apport des lexiques bilingues pour la traduction.Delivrable ANR no 28 lot 4.3, Universite de Nantes, Nantes.

Planas, E. and Furuse, O. (2000).

Multi-level similar segment matching algorithm for translation memories and example-based machinetranslation.In Proceedings of the 18th International Conference on Computational Linguistics, pages 621–627,Saarbrucken, Allemagne.

Porter, M. F. (1980).

An algorithm for suffix stripping.Program, 14(3) :130–137.

Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C. (2009).

Generation of textual summaries from neonatal intensive care data.Artificial Intelligence, 173 :789–816.

Page 282: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References VI

Prochasson, E. (2010).

Alignement multilingue en corpus comparables specialises : Caracterisation terminologique multilingue.These en informatique, Universite de Nantes, Nantes.

Rapp, R. (1999).

Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.

Reiter, E. and Belz, A. (2009).

An investigation into the validity of some metrics for automatically evaluating natural language generationsystems.Computational Linguistics, 35(4) :529–558.

Reiter, E., Roma, R., and Liesl, O. (2003).

Lessons from a failure : Generating tailored smoking cessation letters.Artificial Intelligence, 144 :41–58.

Sadat, F., Yoshikawa, M., and Uemura, S. (2003).

Learning bilingual translations from comparable corpora to Cross-Language information retrieval : Hybridstatistics-based and linguistics-based approach.volume 11, pages 57–64, Sappro, Japan.

Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006).

ASSIST : automated semantic assistance for translators.In Proceedings to the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 139–142, Trento, Italie.

Somers, H. (2005).

Machine translation : latest developments.In Mitkov, R., editor, The Oxford Handbook of Computational Linguistics, pages 512–528. OxfordUniversity Press, New York, USA.

Page 283: Usage du TAL dans des applications industrielles : gestion des contenus multilingues & recherche d’information géolocalisée

References VII

Veronis, J. (2000).

From the rosetta stone to the information society. a survey of parallel text processing.In Veronis, J., editor, Parallel Text Processing, pages 1–24. Kluwer Academic Publisher, Londres,Royaume-Uni.

Williams, S. and E., R. (2008).

Generating basic skills reports for low-skilled readers.Natural Language Engineering, 14 :41–58.

Wong, Y. and Mooney, R. (2007).

Generation by inverting a semantic parser that uses statistical machine translation.In Proceedings of Human Language Technologies : The Annual Conference of the North American Chapterof the Association for Computational Linguistics on Human Language Technology, pages 172–179.

Zanettin, F. (1998).

Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta : Translator’s Journal, 43(4) :616–630.