usage du tal dans des applications industrielles : gestion des contenus multilingues & recherche...

Usage du TAL dans des applications industriellesgestion des contenus multilingues & recherche d’information

geolocalisee

Estelle DelpechPromotion 2007 maıtrise TAL UT2

Directrice scientifique, Nomao

Intervention Master ECILUniversite Toulouse II Le Mirail

4 decembre 2013

Parcours universitaire

2001-2004 Licence LLCE Anglais, UT2

2004-2006 Licence Sciences du Langage - FLE & TAL, UT2

2006-2007 Maıtrise Sciences du Langage - TAL, UT2⇒analyse syntaxique automatique

2007-2008 Master 2 “Langues & Technologies”, INaLCO⇒classification automatique de textes

2010-2013 Doctorat Informatique - TAL, Universite de Nantes⇒extraction de lexiques bilingues

Parcours professionnel

2004-2005 Assistante de langue, New College

2007 Assistante de recherche, IRIT⇒extraction d’information

2008 Linguiste informaticienne stagiaire, Synomia⇒analyse syntaxique au<tomatique

2009-2012 Ingenieure de recherche, Lingua et Machina⇒gestion des contenus multilingues

depuis 2012 responsable TAL puis Directrice scientifique, Nomao⇒recherche et recommandation de commerceslocaux

Gestion des contenus multilinguesContexte industrielTravaux de R&DBilan des travaux

Recherche d’information localeContexte industrielGeneration automatique de descriptifs de lieux

Lingua et Machina

Domaine Traduction assistee par ordinateur

2002 Fondation par Dr. Planas sur la base de ses travauxde recherche [Planas, 1998, Planas and Furuse, 2000]

I Produit : Similis, memoire de traductionI Utilisateurs : traducteurs

2009 Acquisition par F. Brown de Colstoun

I Produit : Libellex, plateforme de travailmultilingue [Brown de Colstoun et al., 2011]

I Utilisateurs : tous les employes d’une entreprise

Lingua et Machina

Traduction assistee par ordinateur[Hutchins, 1996, Somers, 2005]

1959-1966 Premieres recherches en TA (US)

1966 Rapport ALPAC : traduction totalement automatiqueimpossible mais :

I objectif plus realiste : TAOI premiers programmes de gestion terminologique

1970’s Exploitation des traductions passees : concordanciersbilingues, memoires de traduction

1980’s Corpus paralleles, retour de la TA, TAS

1990’s Terminologie computationnelle

Gestion terminologie bilingue

Concordanciers bilingues I

Concordanciers bilingues II

Similis : Memoires de traduction

Libellex : Plateforme de travail multilingue I

Pour tous les employes de l’entreprise :

I experts metiers

I redacteurs

I traducteurs

I terminologues

Libellex : Plateforme de travail multilingue II

Diverses technologies :

I concordanciers bilingues

I gestion de terminologie

I memoire de traduction

I post-edition, validation

I traduction automatique

I gestion de projet de traduction

Libellex : Plateforme de travail multilingue III

Matiere premiere : les traductions passees

Corpus paralleles [Veronis, 2000]

“texts accompanied by their translation in one or more languages”(ensemble de textes accompagnes de leurs traductions dans une ouplusieurs langues, notre traduction).

Limites des corpus paralleles

I Nouveaux domaines, nouvelles langues

I Retro-ingenierie

I Traduction 6= texte spontane

Solution envisagees

Corpus comparables

Ensemble de textes en langue L1 et L2 qui traitentd’une meme thematique sans etre en relation detraduction

Usage des corpus comparables en traduction technique

I Qualite reconnue par les experts de la traduction[Zanettin, 1998, Mc Enery and Xiao, 2007] :

I traductions plus idiomatiquesI acquisition d’une culture techniqueI observation des usages stylistiques propres a un domaine

I Usage “artisanal” et pedagogiqueI Outils specifiques existants

I quelques prototypes universitaires[Bennison and Bowker, 2000, Sharoff et al., 2006]

I pas d’outil commercial

I Usage “artisanal” et pedagogique

I Outils specifiques existantsI quelques prototypes universitaires

[Bennison and Bowker, 2000, Sharoff et al., 2006]I pas d’outil commercial

Corpus comparables et traduction automatique[Carpuat et al., 2012]

I adaptation des systemes de TA a un nouveau domaine

I ajout de nouvelles entrees au lexique

I +2 a 3 points de BLEU

Corpus comparables et recherche d’information crosslingue[Li et al., 2011]

I ajout de nouvelles entrees au lexique

I + 0.016 points de MAP

Corpus comparables et traduction assistee par ordinateur

I nombreux travaux sur l’extraction de lexiques

I pas d’evaluation en contexte d’utilisation

Projet Metricc - www.metricc.com

Corpus comparables et :

I recherche d’information interlingue

I categorisation multilingue

I aide a la traduction (Lingua et Machina, LINA)

Travaux effectues a Lingua et Machina

I Transfert technologique : extraction de lexiques bilingues apartir de corpus comparables

I Evaluation “industrielle” des technologies

I Recherches d’ameliorations interessantes en contexte industriel

Transfert technologiqueextraction de lexiques bilingues a partir de corpus

comparables

Processus d’extraction

I Collecte des corpus

I Identification des unites a aligner (termes, unites mono- etpolylexicales...)

I Alignement des unites

Methode d’alignement

Approche distributionnelle [Rapp, 1999, Fung, 1997]

deux mots de sens proche tendent a apparaıtre dans des contextessimilaires

Collecte et normalisation des vecteurs

[Prochasson, 2010]

−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}

−−−−−−−−→cytogenetics :{instability, treatment, tamoxifene...}

Traduction des vecteurs

[Prochasson, 2010]

−−−−−−−−−→cytogenetique ={instabilite, traitement, tamoxifene...}

−−−−−−−−−→cytogenetique :{instability, treatment, ?...}

Comparaison des vecteurs et selection candidat

[Prochasson, 2010]

similarite(−−−−−−−−−→cytogenetique,

−−−−−−−−→cytogenetics) = 0.75

cytogenetique Õ cytogenetics (0.75), genetics (0.70)...

Variantes et ameliorations

I Diverses ameliorations et variantes proposees[Dejean and Gaussier, 2002, Sadat et al., 2003,Morin et al., 2004, Prochasson, 2010,Hazem and Morin, 2012]

I Implantation basique avec adaptation aux unites polylexicales[Morin et al., 2004] et filtre sur les categories grammaticales[Sadat et al., 2003]

Evaluation

I Precision sur le TopN : parmi les termes sources avec aumoins 1 traduction candidate, % de ceux avec une traductioncorrecte parmi les N premieres traductions

I cytogenic → genetique, cytogenetique, cancerI screening → test, genetique, depistage

I Algos actuels : de 16% a 65 % Top1, 40% a 94% sur le Top20selon corpus, langues, dictionnaires, type d’unites alignees...

Evaluation

Choix d’implementation

I Methodes peu couteuses en temps et developpement logiciel

I Choix arbitraire des mesures de similarite et normalisation

I Collecte d’information complementaires

I Evaluation : 60% sur le Top20

Architecture de l’extracteur

Interface de consultation

http://80.82.238.151/Metricc/InterfaceValidation/

Evaluation applicative

Methodologie d’evaluation

I But : determiner dans quelle mesure le lexique bilingue permetd’aider les traducteurs

I Methode : comparaison de la qualite des traductions produitesavec / sans les corpus comparables

I Objet evalue : expressions problematiques

I Mesure : % de traductions exactes, acceptables, fausses

Conditions experimentales

Premiere experimentation visant a eprouver la methode

I 3 traducteurs dont deux etudiant-e-s M2I 2 thematiques : cancer du sein, sciences de l’eauI Thematique sciences de l’eau trop vaste ⇒pas

exploitable

Evaluation finale [Planas, 2011]

I 20 etudiants-traducteurs de M1I Donnees cancer du sein

Resultats

Difficultes d’usage

I Resistance au changement

⇒ formation et recueil des besoins

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

Recherche d’ameliorations interessantes en contexteindustriel

Principe de la traduction compositionnelle

Principe de compositionalite : “Le sens du tout est fonction dusens de ses constituants” [Keenan and Faltz, 1985,pp. 24-25].

Adaptation a la traduction : La traduction du tout est fontion dela traduction de ses constituants.

Exemples de traductions possibles

Difficultes

Divergence morpho-syntaxique :anti-cancer → anti-cancereux

Divergence lexicale :traduction automatique → machine translation

Fertilite :hysterectomy →ablation de l’uterus

Variation terminologique :mixed departmentalization → departementalisationmixte, structuration mixte

Aspects pas ou peu traites

I FertiliteI Termes monolexicaux : approches specifiques a un type de

construction morphologiqueI prefixe1+base2 Õ prefixe1+base2

I Ordonnancement / selection des traductions : filtres simplesou pas adaptes

Propositions

I Termes monolexicaux : etre moins specifique sur les structuresmorphologiques

I Traiter la fertilite par l’alternance morpheme libre / morphemelie

I cyto1toxic2 Õ toxique2 (pour les) cellules1

Fertilite

Traduction fertile Soit deux ensembles disjoints S et C ou S est un

ensemble de termes sources et C est un ensemble de termes cibles. Soit

la relation de traduction T ⊆ S × C et la fonction l(x) indiquant le

nombre de mots lexicaux du terme x. L’ensemble des traductions fertiles

F est defini comme {(s, c)|(s, c) ∈ T et l(c) > l(s)}.

Exemples :

I post-menopause Õ apres (la) menopause

I option express Õ option voie rapide

I snorkeling Õ plongee (avec) tuba

Fertilite de surface et fertilite semantique

Traduction fertile en surface Soit une traduction fertile sFc, M(s)

l’ensemble des morphemes du terme s, M(c) l’ensemble des morphemes

du terme c et T une fonction de traduction. sFc est fertile en surface si

pour tout mc ∈ M(c) il y a un unique ms ∈ M(s) tel que T (ms) = mc .

Surface

Semantique

Fonctionnement de base

Traduire(“ab”) :

= S(R(T (D(“ab”))))

= S(R(T ({a, b})))

= S(R({T (a)× T (b)}))

= S(R({a, b}))

= S({a, b}, {b, a})= “ba”

Decomposition

I Peu de regles :I appariemment entrees ressources, contraintes longueur

I Tous les decoupages possiblesI non-cytotoxic Õ {non, cyto, toxic}, {noncyto, toxic}, {non,

cytotoxic}, {noncytotoxic}

Traduction

I Equivalences traductionnelles entre morphemes libres et liesI cyto Õ cellule : cytotoxique Õ toxique pour les cellules

I Nombreuses ressources : familles morphologiques, synonymes,cognats

I available Õ disponible Õ disponibilite : bioavailableÕ biodisponibilite

I anastrozole-associated Õ associe a de l’anastrozole

I Strategie de repliI confusingly Õ confusing Õ confondre

Recomposition

I Permutation :I pathophysiological Õ physiopathologique

I Tous les concatenations possibles :I {non, toxique, cellule} : {non, toxique, cellule},{nontoxique, cellule}, {non, toxiquecellule},{nontoxiquecellule}

Selection

I Projection de patronsI toxique .* cellule Õ toxique pour les cellules

Donnees experimentales

I Domaine cancer du sein, EN Õ FR, EN Õ DEI ' 1800 unites monolexicales morphologiquement construites

I aucune n’est traduisible avec le dictionnaire generaliste

I Ressources existantes : dictionnaire generaliste et synonymes

I Ressources manuelles : traductions morphemes

I Ressources automatiques : familles morphologiques[Porter, 1980], cognats [Hauer and Kondrak, 2011]

I Evaluation a priori : capacite de l’algorithme a reproduire unlexique existant, favorable, oriente terminologie

I Evaluation a posteriori : qualite des resultats obtenus ensituation d’usage, oriente aide a la traduction

I Annotation manuelle des sorties du systeme ;I exact, acceptable, proche, faux

Mesures d’evaluation reference a priori

Couverture : capacite a generer une traduction candidate

Precision : capacite a proposer une traduction correcte parmi lestraductions generee

Utilisabilite : capacite a generer une traduction candidate etcorrecte

Aspects evalues

I Genericite du modele

I Ressources linguistiques

I Fertilite

Genericite du modele : methodes testees

I Prefixation : pretreatment Õ pre-traitement

I Composition savante : hypercalcaemia Õ hypercalcemie

I Composition populaire : acute-phase Õ Akutphase, akutenPhase

I Cognat : t-test Õ t-Test

Genericite : resultats I

C PE UE PEA UEA

Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02

Notre methode ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Genericite : resultats II

C PE UE PEA UEA

Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03

Notre methode ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Genericite : resultats III

I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)

I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)

I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)

I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10

Genericite du modele : discussion

I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps

I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut

I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’

I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee

I Strategie de repli : ribosome Õ ribosomique

Ressources linguistiques : comparaisons effectuees

I Base : dictionnaire generaliste et table de traduction desmorphemes

I Base + familles morphologiques

I Base + synonymes

I Base + cognats

I Toutes les ressources

Ressources linguistiques : resultats I

C PE UE PEA UEA

Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13

Toutes les ressources ,40 ,59 ,24 ,69 ,28

Ressources linguistiques : resultats II

C PE UE PEA UEA

Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10

Toutes les ressources ,36 ,48 ,17 ,56 ,20

Apport des ressources linguistiques

Systeme de base : dictionnaire generaliste et table de traductiondes morphemes

I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)

I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite

I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite

I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite

Traductions fertiles : comparaisons effectuees

I Traductions fertiles vs. non fertiles

I Traductions non fertiles vs. fertiles + non fertiles

Traductions fertiles : resultats I

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28

Traductions fertiles : resultats II

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20

Apport des traductions fertiles

I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10

points utilisabilite)

I Fort gain en couverture, baisse limitee de la precison⇒ utilisabilite meilleure

I Limites :I fertilite semantique : snorkeling Õ plongee avec tuba

I Perspectives :I compression : apres la menopause Õ post-menopauseI termes polylexicaux : cytogenetic instability Õ instabilite

genetique des cellules

I Methode bien adaptee aux corpus comparables specialises ...I peu d’a priori sur la structure du terme cibleI variantes morphologiquesI usage des cognats

I ... mais bruitee ⇒ necessite un filtrage

Ordonnancement de traductions candidates

I Partie exploratoireI Apports :

I nouveaux criteresI comparaisonI combinaison (learning-to-rank)

Criteres

I F : frequence traduction candidate

I C : similarite des contextes

I P : probabilite de traduction des partie du discours

I M : fiabilite des modes de traductions

Experiences

I Chaque critere pris isolement

I Combinaison non ponderee : F + C + P+ M

I Combinaison ponderee : αF + βC + γP + δMI Apprentissage modeles d’ordonnancement, famille list-wise :

I AdaRank, Lambda MART : boostingI Coordinate Ascent : modele lineaire

Donnees experimentales

Methode d’evaluation

I Classement fonction de la precision sur le Top1 puis 2 puis 3

Resultats I

Top1 Top2 Top3 RPM

Meilleure precision possible ,94 ,94 ,94 1

Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3

AdaRank ,892 ,904 ,928 4

P ,892 ,904 ,928 4

C ,88 ,904 ,928 4

Aleatoire ,836 ,898 ,928 13

Resultats II

Top1 Top2 Top3 RPM

Meilleure precision possible ,879 ,879 ,879 1

Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17

P ,833 ,848 ,848 17

M ,818 ,864 ,879 3C ,803 ,864 ,864 28

Aleatoire ,77 ,832 ,846 28

Resultats III

I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a 0.93

I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :

I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank

Bilan et perspectives

I Necessite de montrer la significativite des resultats

I Globalement : combinaison interessante, pas d’apport marquedes modeles de learning-to-rank (peu de criteres)

I Autres criteres : difference de frequence, modele de langue...I Comment integrer des donnees paralleles generalistes, d’autres

domaines, d’autres langues ?I apprentissage a partir des traductions du dictionnaire

generaliste et des cognatsI poids valables pour tous les couples de langues...

Bilan des travaux

I Developpement d’un prototype d’extracteur de lexiquesbilingues specialises a partir de corpus comparables[Delpech and Daille, 2010]

I Experimentation de l’approche “classique” dans le cadreapplicatif de la TAO [Delpech, 2011, Delpech, 2012] :

I Contributions a la traduction compositionnelle[Delpech et al., 2012b, Delpech et al., 2012a] :

I Communications et demonstrations logicielles[Delpech, 2010a, Delpech, 2010b,Brown de Colstoun et al., 2011]

Peut-on extraire des lexiques bilingues reellementutilisables par les traducteurs a partir de corpuscomparables ?

I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements

au sens compositionnel (60% d’apres [Namer and Baud, 2007])I 20% a 28% avec une traduction correcte

I Approche distributionnelle :I forte couverture mais lexiques trop ambigus (60% sur le

Top20, evaluation a priori)

Tres ambitieux en l’etat actuel

I Lexique obtenu :I une petite partie avec une traduction correcte sur le Top1 ou

Top2I une partie avec traduction correcte sur Top 20I majeure partie sans traduction

I Difficile d’augmenter le corpusI thematique fine, forte comparabiliteI peu de textes specialises

I Difficulte inherente au corpus :I seulement une partie du vocabulaire en commun

Perspectives

I Ne pas exagerement focaliser sur l’extraction d’alignementsI Aider a l’exploration de corpus comparables par de multiples

manieres :I extraction, alignement de contextes pertinentsI outils de recherche avancesI travailler avec les traducteurs : automatiser les techniques

⇒ Projet CRISTAL : LINA, Lingua et Machina, CLLE-ERSS,Faculte de Traduction et d’Interpretation

Nomaocarnet de bonnes adresses (entre amis)

www.nomao.com

I Application Web et mobile

I Trouver, garder et echanger desbonnes adresses (restaurants, bars,shopping, medecins...)

I Recherche de lieux personnalisee :recommandation, geolocalisation

Application Web

I Utilisateur non connecte :e-reputation

I Utilisateur connecte (FB) :recommandation

I lieux qui correspondant a tesgouts

I lieux recommandes par tesamis

Application mobile

I E-reputation

I Recommandation

I Recherche geolocalisee

I Realite augmentee

L’entreprise Nomao

2007 creation

2010 acquisition par legroupe Ebuzzing

2012 3M visites / jour

I Toulouse / Paris / Evreux /Nantes / Chartres...

I 10 salarie-e-s

I Revenus : mise en relationsurtaxee

⇒ ECML, EGC, TALN, INFORSID, VSST, ICEIS, IEEETNNLS ...⇒ http://www.nomao.com/labs

Traitement des donnees @ nomao

Recommandation de lieux

E-reputation analyse d’opinion + notes

Affinite lieu ↔utilisateur

I filtrage collaboratif : lieu aime par despersonnes aimant les memes lieux quel’utilisateur

I profiling descriptif : lieu presentant les memescaracteristiques que les lieux aimes parl’utilisateur

Recommandation sociale lieu aime par les amis de l’utilisateur

Recherche et ranking

Ranking base sur plusieurs criteres :

I Similarite requete ↔ lieu

I Proximite geographique

I Qualite du contenu

I E-reputation

I Affinite lieu ↔utilisateur

I Recommandation sociale

I E-reputation

Construction de l’index de lieux

Donnees extraites

SOURCE 1

nom : Les Caves de La Marechaledescripteurs : restaurantadresse :[

rue :ville : Toulouse

]commentaires :[

note : 4texte : ”Mange hier soir avec...”

SOURCE 2

nom : Caves de La Marechale SARLdescripteurs : francaisadresse :[

rue : Rue Jules Chalandeville : Toulouse

]commentaires :[

note : 2texte : ”Pas vraiment apprecie...”

Donnees integrees

LIEU #5237890nom : Les Caves de La Marechaledescripteurs : restaurant, francais

adresse :

[rue : Rue Jules Chalandeville : Toulouse

]commentaires :

[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”

Donnees analysees

LIEU #5237890

nom : Les Caves de La Marechaledescripteurs : restaurant, francaiscategorie : manger > restaurant > europeen > francais

adresse :

[rue : Rue Jules Chalandeville : Toulouse

]metro :

[station : Capitole, distance : 304mstation : Esquirol , distance : 192m

]commentaires :

[note : 4, texte : ”Mange hier soir avec...”note : 2, texte : ”Pas vraiment apprecie...”

]aspects positifs :

[service : super accueil, personnel avenantplats : gratin dauphinois delicieux

]e-reputation : 79%

Contenu genere

Travaux en cours

Learning-to-rank modele de ranking appris automatiquement apartir des clics utilisateurs

Fusion de donneessource A → 05.61.23.89.88source B → 05.62.48.33.90no final → ?

Identification de variantes de termes soupe froide Õ “soupesfroides”, “soup froide”, “soupe refroidie”, “la soupeest froide”, “potage froid”, etc.

Travaux en cours

Generation automatique de texte

I Textes en boite : ”Votre imprimante n’a plus de papier”

I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,

Nous avons le {IF $SOLDE < 0 regret plaisir} de

vous annoncer que...

I Content spinning : generation de contenu pour le Web

I Systemes de generation � intelligents �

Generation automatique de texte

I Textes en boite : ”Votre imprimante n’a plus de papier”

I Textes a trous et patrons conditionnels : publipostage{IF $SEXE=F Chere Cher} $PRENOM $NOM,

Nous avons le {IF $SOLDE < 0 regret plaisir} de

vous annoncer que...

I Content spinning : generation de contenu pour le Web

I Systemes de generation � intelligents �

Content spinning

I Technique de generation de contenu varie pour optimiser despages web

I Principe :

1. ecriture d’un premier texte2. decoupage du texte en morceaux, sous-morceaux,

sous-sous-morceaux, etc..3. pour chaque morceau : proposer plusieurs variantes possibles4. generation par selection aleatoire des morceaux

La {generation de texte|GAT} rend {possible|facile}la creation de {textes|contenus textuels} {rapide| a

la va-vite} ⇒ 2 x 2 x 2 x 2 = 16 phrases

Generation de texte � intelligente �

Applications possibles

I Traduction automatique (systeme par pivot)

I Resume automatique (systeme bases sur une simulation del’activite humaine)

⇒ plutot lie aux approches symboliques

Applications confirmees

I Agents conversationnelsI Generation de textes a partir de donnees

I numeriques, ex : meteo, cours de bourse...I procedurales, ex : manuels d’instructionsI diverses, ex : matches de foot, descriptifs de lieux...⇒ toujours propre a un domaine + but communicatif, pas de

systeme generaliste.

Travaux academiques

Architecture typique d’un systeme de generation[Danlos and Roussarie, 2000]

Selection de contenu I

Selection du contenu I

Entree Donnees brutes, eventuellement buts communicatifsI selection d’informationI filtrage/calcul des informations saillantes, ex. : hausses de

temperaturesI peut inclure du raisonnement (IA)I transcription en representations logiques

Sortie formes logiques non ordonnees

Selection du contenu II

(m7 / |eat, take in|

:time present

:agent (d / |dog<canid|

:quant plural)

:patient (b / |os, bone|)

:quant plural)

⇒ ”dogs eat bones”[Knight and Langkide, 1998]

Structuration rhetorique I

Entree Formes logiques non ordonneesI regroupement du contenu semantique en unitesI les unites semantiques se realiseront par la suite en phrases ou

propositions syntaxiquesI articulees par des relations de discours

Sortie Plan de texte

Structuration rhetorique II

[Hovy, 1998]

Planification syntaxique I

Entree Plan de texteI traductions des structures semantiques en structures

syntaxiques

Sortie Arbres syntaxiques + connecteurs, mots outils

Planification syntaxique II

# dog, bone, eat

((x1 :agent)

(x2 :patient)

(x3 :rest)

-># "dogs eat bones"

(s (seq (x1 np nom-pro) (x3 v-tensed)

(x2 np acc-pro)))

# "bones are eaten by dogs"

(s (seq (x2 np nom-pro) (x3 v-passive)

(wrd "by") (x1 np acc-pro)))

# "consumption of bones by dogs"

(s (seq (x3 np acc-pro nom-pro) (wrd "of")

(x2 np acc-pro) (wrd "by") (x1 np acc-pro)))

adapte de [Knight and Langkide, 1998]

Lexicalisation I

Entree Arbres syntaxiquesI selection de lexies correspondant au sens et s’integrant dans la

structure syntaxique

Sortie Arbres syntaxiques lexicalises

Lexicalisation II

# Lexique

(("eat" VERB |eat, take in|)

("dog" NOUN |canid>dog|)

("bone", NOUN |os, bone|))

# Structure lexicalisee

(s (seq (wrd "dog") (wrd "+plural")

(wrd "eat")

(wrd "bone") (wrd "+plural")))

adpatee de [Knight and Langkide, 1998]

Ajustement morphologique I

Entree Arbres syntaxiques lexicalisesI calcul de la forme de surface : accords, conjugaisons,

agglutination, elision...

Sortie Arbres syntaxiques lexicalises et flechis

Ajustement morphologique II

("-child" "children")

("-person", "people", "persons")

("-a", "as", "ae") # formulas/formulae

("-x", "xes, "xen") # boxes / oxen

("-man", "mans", "men") # humans/footmen

("-Co", "os", "oes")

[Knight and Langkide, 1998]

Formatage

Entree Arbres syntaxiques lexicalises et flechisI regles typographiques, insertion du formatage (balises...),

linearisation de l’arbre

Sortie Forme de surface lineaire

Autres taches [Danlos and Roussarie, 2000]

Autres taches

I Generation d’expressions referentielles

I Agregation

⇒ Gain en fluidite et lisibilite, evite les redondances

Generation d’expressions referentielles

I Liee generation des groupes nominauxI Choix possibles :

I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil

Generation d’expressions referentielles

I Liee generation des groupes nominauxI Choix possibles :

I determinant : le vs. un vs. ce boutonI predicat lexical : l’appareil vs. le magnetoscopeI reduction : la machine a gauffres vs. la machineI epithetes restrictifs : le bouton vert vs. le premier boutonI pronominalisation : il vs. l’appareil

Agregation

I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux

I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)

I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie

Agregation

I Regroupement de plusieurs entites en une seule entite globaleI Peut intervenir a plusieurs niveaux

I generation de syntagmes pluriels :I ecran(x), clavier(y) → peripheriques(x,y)

I coordination, ellipses de structures syntaxiques :I tirer puis relacher la manetteI inserer la fiche 1 dans le port et la fiche 2 dans la sortie

Approches statistiques [Belz and Kow, 2009]

I Developpement d’approches statistiques a partir de 1998

I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :

I structure syntaxique → texte finalI representation semantique → texte final

Approches statistiques [Belz and Kow, 2009]

I Developpement d’approches statistiques a partir de 1998

I But : accelerer les developpements, adaptation au domaineI Integration a plusieurs niveaux :

I structure syntaxique → texte finalI representation semantique → texte final

Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] I

I Selection de toutes les structures syntaxiques, et de toutes leslexies possibles

I Obtention d’un graphe de realisations possibles

I Choix du chemin le plus probable grace a des probabilites den-grammes de mots appris sur corpus

Realisation de surface guidee par les donnees[Knight and Langkide, 1998, Langkide, 2000] II

Generation basee sur la traduction automatique[Wong and Mooney, 2007] I

I Apprentissage de probabilites d’alignements entre realisationde surface et representation semantique

Generation basee sur la traduction automatique[Wong and Mooney, 2007] II

I Choix de la realisation de surface qui est a la fois :I dont le sens est le plus proche de la representation semantique

(modele de ”traduction”)I la mieux formee (modele de langue : n-grammes corpus)

argmaxe

Pr(e|f ) = argmaxe

Pr(e)Pr(f |e)

Evaluation [Reiter and Belz, 2009]

I Pas de technique consensuelleI Trois types d’evaluation :

I evaluation applicative / guidee par la tacheI evaluation basee sur des jugements humainsI evaluation automatique par comparaison a une reference

Evaluation applicative

I Methodologies liees a l’application finale :I faire une tache en suivant des instructions genereesI arreter de fumer grace a des lettres de suivi personnaliseesI cout de post-edition

I Evaluations les plus parlantes / convaincantes

I Couteuses

I Dependantes du bon-vouloir des participants

Evaluation humaine

I Methode :I texte note sur plusieurs criteres (echelles)

I qualite globale, coherence, contenu, organisation...

I preference entre deux textes

I Methode la plus populaire

I Plus rapide et moins chere que l’evaluation guidee par la tache

Evaluation automatique

I Methode :I extraction des structures syntaxiques / de l’information d’un

corpus ecrit par un humainI (re-)generation du texte a partir des structuresI comparaison via une mesure style distance d’edition, BLEU...

I Peu couteuse, rapide, reproductible

I Utilisee pour evaluer a partir de la lexicalisationI Methode controversee pour une evaluation globale :

I validite de la referenceI objet de l’evaluation

Projets academiques

I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]

I Generation de previsions meteo [Belz, 2008]

I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]

I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]

I Generateur de blagues [Binsted et al., 1997]

Projets academiques

I Babytalk : resumes de donnees cliniques sur des bebes ensoins intensifs [Portet et al., 2009]

I Generation de previsions meteo [Belz, 2008]

I STOP : generation de lettre personnalisees pour arret tabac[Reiter et al., 2003]

I SKILLSUM : resume d’evaluation de niveau d’alphabetisation[Williams and E., 2008]

I Generateur de blagues [Binsted et al., 1997]

Systemes commerciaux

I Revolusyn : content spinning avance - www.revolusyn.com/

I EasyText : commentaires de tableaux de donnees statistiques

I StatsMonkey : resumes de matches de baseball

I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/

I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/

I Nomao : descriptifs de lieux

Systemes commerciaux

I Revolusyn : content spinning avance - www.revolusyn.com/

I EasyText : commentaires de tableaux de donnees statistiques

I StatsMonkey : resumes de matches de baseball

I Syllabs : descriptifs de produits marchands -http ://demo.showroom.syllabs.com/generation/

I Hotels Combined : resumes d’avis clients -www.hotelscombined.com/

I Nomao : descriptifs de lieux

Generation de descriptifs de lieux en contexteapplicatif

Contraintes

I Rapidite du systeme : eviter traitements complexes, couteuxen temps

I Rapidite de developpement :I ne coller a l’architecture ”theorique” que si c’est necessaire⇒ systeme mixant generation � intelligente �et approchesbas niveau

I Moteurs de recherche :I contenu unique et varie

Exemple de texte genere

HOTEL � HOTEL DE VARENNE � A PARIS

Quelques infos sur l’hotel � Hotel de Varenne � a Paris...

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement. Cet hotel propose des chambres disposant de toutle confort moderne (climatisation...). Il dispose d’un agreable jardinet met a disposition de ses clients un acces WIFI. Hotel de Varennea obtenu 91% de remarques favorables sur Internet. Les internautesy apprecient particulierement le service (� personnel tres aimable�, � sourire du personnel �, � personnel sympathique �).

Optimisation moteurs de recherche

Generation bas niveau

⇒ choix lexical aleatoire avec gestion des accords

� Hotel de Varenne � est un hotel situe a Paris dans le 7emearrondissement.Cet hotel propose des chambres disposant de tout le confortmoderne (climatisation...). Il dispose d’un agreable jardin et met adisposition de ses clients un acces WIFI.Hotel de Varenne a obtenu 91% de remarques favorables surInternet. Les internautes y apprecient particulierement le service(� personnel tres aimable �, � sourire du personnel �,� personnel sympathique �).

Generation de texte intelligente

Fonctionnement du generateur de textes I

Architecture du generateur

Selection du contenu I

Entree Donnees brutesI selectionI categorisationI transformationI pas de raisonnement, de manipulation de concepts

Sortie Donnees filtrees et restructurees

Selection du contenu II

DONNEES BRUTES

nom : Higumacategorie : manger > restaurant >asiatique > japonais

tags : carte de credit acceptees,cheques refuses, japonaisgeolocalisation :[

lat : 48.871762long : 2.352262

]adresse :rue : 32 Rue Saint-Anne

ville : Pariscp : 75001

metro :[

ligne : 14station : Pyramides

CONTENU POUR GENERATION

nom : Higumacategorie : restaurant :masc :singstyle cuisine : japonaispaiements acceptes : carte de creditpaiements refuses : cheque

adresse :rue : 32 Rue Saint-Anneville : Parisquartier : 1

Structuration rhetorique I

Entree Donnees filtrees et structureesI selection de propositions ”semantiques” pre-definies en

fonction du contenu disponibleI ordonnancement des propositions, regroupement en

paragraphes thematiquesI articulation des propositions par des relations de discours

Sortie Plan de texte

Structuration rhetorique II

nom : Higuma

categorie : restaurant :masc :sing ⇒ SPOT IS A TYPE

style cuisine : japonais ⇒ COOKING STYLE

paiements acceptes : carte de credit ⇒ ACCEPTED PAYMENTS

paiements refuses : cheque ⇒ REJECTED PAYMENTS

adresse :

rue : 32 Rue Saint-Anneville : Parisquartier : 1

⇒ LOC STREET CITY DISTRICT

Structuration rhetorique III

SPOT IS A TYPECOOKING GEOSTYLEACCEPTED PAYMENTSREJECTED PAYMENTSLOC STREET CITY DISTRICT

ANCRAGE[#1 SPOT IS A TYPE#2 LOC STREET CITY DISTRICT

PROPRIETES#1 COOKING GEOSTYLE#2 ACCEPTED PAYMENTS#3 REJECTED PAYMENTS

Structuration rhetorique IV

Continuation

#1SPOT IS A TYPE

#2LOC STREET CITY DISTRICT

Structuration rhetorique V

Continuation

#1 CO-OKING STYLE

Contrast

#2 ACCEP-TED PAYMENTS

#3 REJEC-TED PAYMENTS

Structuration rhetorique VI

I pas de variation dans l’ordre des propositions

I regles ad hoc codees en dur

Planification syntaxique I

Entree Plan de texteI selection des structures syntaxiques correspondant aux

propositions semantiquesI selection aleatoire parmi plusieurs structures possibles

Sortie Structures syntaxiques a trous

Planification syntaxique II

PROPER VERB Enum PREPPhr

$SPOT accepte $ACCEPTED PAYMENTS comme moyen de paiement

ACCEPTED PAYMENTS

SUBJ OBJ

Planification syntaxique III

ART DEF NOUNle $ACCEPTED PAYMENT

Enum ACCEPTED PAYMENTS

agreement

Planification syntaxique IV

ART DEF NOUN . . . ART DEF NOUNle $ACCEPTED PAYMENT1 le $ACCEPTED PAYMENTN

Enum ACCEPTED PAYMENTS

DETENUM

agreement agreement

Lexicalisation I

Entree Structures syntaxiques a trousI choix des valeurs correspondant aux variables

I tags : selection aleatoire dans lexique, fonction partie dudiscours imposee par structure

I entites nommees : insertion de la valeur brute

Sortie Structures syntaxiques lexicalisees

Lexicalisation II

PROPER VERB ART DEF NOUN PREPPhr

ENTITE TAG

$SPOT accepte le $ACCEPTED PAYMENT comme moyen de paiement

ACCEPTED PAYMENTS

Lexicalisation III

Novotel accepte le carte visa comme moyen de paiement

hotel :masc :sing :fem :sing

ACCEPTED PAYMENTS

Agregation des structures I

Entree Structures syntaxiques : 1 structure ↔ 1 propositionI agregation des structures repetitives :

I sujets identiquesI verbes identiques ou compatibles

I ajout des frontieres de phrases

Sortie Phrases finales : 1 phrase → 1 ou plusieurs propositions

Agregation des structures II

Novotel accepte carte visa

ACCEPTED PAYMENTS

SUBJ OBJ

Agregation des structures III

Novotel accepte carte visa Novotel refuse cheque

ACCEPTED PAYMENTS

SUBJ OBJ

REJECTED PAYMENTS

SUBJ OBJ

Agregation des structures IV

Novotel accepte carte visa Novotel refuse cheque

SPOT ACCEPT PAYMENT

SUBJ OBJ

SPOT REJECT PAYMENT

SUBJ OBJ

sujets identiques verbes compatibles

⇒ Agregation possible

Agregation des structures V

Novotel accepte carte visa COORD X refuse cheque

OBJ OBJ

Agregation des structures VI

Novotel accepte carte visa mais refuse cheque

OBJ OBJ

CONTRASTCONTRAST

Agregation des structures VII

I autres regles :I Novotel est un hotel + Novotel est situe a Paris ⇒ Novotel est

un hotel situe a ParisI Novotel dispose d’un jardin + Novotel propose des chambres

avec climatisation ⇒ Novotel dispose d’un jardin et proposedes chambres avec climatisation

I regles d’agregation codees en dur

I declaration externe :I compatibilites entre verbesI coordonnants

Generation d’expressions referentielles I

Entree Phrases finalesI reperage des sujets repetesI remplacement par des expressions referentielles

Sortie Phrases finales avec expressions referentielles

Generation d’expressions referentielles II

Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .

Les Caves de la Marechale est specialise dans la cuisine francaise .

Les Caves de la Marechale a recueilli 79% de notes favorables sur Internet .restaurant :masc :sing

Generation d’expressions referentielles III

I Lexique expressions referentielles :

restaurant → PRO :masc :sing : il

→ NOUNPhr :masc :sing : ce restaurant

→ NOUNPhr :masc :sing : . . .

I Ordre d’apparition arbitraire :

1. PROPER

2. NOUNPhr aleatoire

3. PRO

Generation d’expressions referentielles IV

Les Caves de la Marechale est un restaurant localise Rue Jules Chalande a Toulouse .

Ce restaurant est specialise dans la cuisine francaise .

Il a recueilli 79% de notes favorables sur Internet .

Ajustements morphologiques I

Entree Phrases avec mots a l’etat de lemmesI accordsI elisionsI agglutinations

Sortie Phrases avec formes finales des mots

Ajustements morphologiques II

Novotel accepte le carte visa comme moyen de paiement

fem :sing

ACCEPTED PAYMENTS

agreement

Novotel accepte la carte visa comme moyen de paiement

Ajustements morphologiques III

ce restaurant est specialise dans la cuisine francais .

fem :sing ADJ

agreement

ce restaurant est specialise dans la cuisine francaise .

Ajustements morphologiques IV

cet hotel dispose de un bar .

cet hotel dispose d’ un bar .

Mise en forme I

Entree Suite de motsI MajusculesI EspacesI Balises

Sortie Texte final

Mise en forme II

cet hotel dispose d’ un bar , d’ un spa et d’ un golf .

Cet hotel dispose d’ un bar , d’ un spa et d’ un golf .

Cet hotel dispose d’un bar, d’un spa et d’un golf.

Mise en forme III

PROPER VERB DET NOUN PART PREP PROPER

� La Braisiere � est un restaurant situe a Toulouse

DET PREP CPREP

� La Braisiere � est un restaurant situe a Toulouse .

Exploitation du generateur en contexte industriel

(stage B. Pierrejean promo 2013)

Etat des lieux

HOTEL � HOTEL HELIOT � A TOULOUSEVous souhaitez en savoir plus sur l’hotel � Hotel Heliot � aToulouse ?� Hotel Heliot � est un hotel. Cet hotel se situe 3 Rue Heliota Toulouse. Il a remporte 81% de remarques favorables surInternet. Les internautes y apprecient particulierement leservice (� patron tres sympathique �, � accueil tres aimable�, � personnel sympathique �) et les equipements deschambres (� chambre tres propre �, � chambre spatieuse �,� chambre agreable �).

I Quelques problemes qualitatifs

I Peu de categories couvertes (hotels, restaurants)

I Trop courts

Objectifs

Couverture autres categories : bars, sites touristiques, etc.

Longueur et Variete textes plus longs en limitant les repetitions

Qualite linguistique eventuellement ameliorer

Resultats

Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmospheredivertissante au 41 Rue Leon Gambetta dans la plaisante villede Toulouse. Cette adresse propose differentes varietes decafes, rien de tel pour discuter entre copains ! Les gourmandsse regaleront de l’un des mets proposes a la carte. Si vous vousrendez dans ce bar un soir de concert, l’ambiance sera plutotfestive. Pour les personnes qui voudraient y aller en fin desemaine, sachez que cet endroit vous accueille aussi ledimanche. Si vous voulez vous y rendre en metro vous pourrezsortir a la station Metro Capitole qui est situee a 350 metres.Depuis ce bar vous pourrez rejoindre le bar Bar Gambetta, lasalle de spectacle Piano Aux Jacobins, le salon de the GrandCafe Albert, la boite de nuit Le Bocca Chicca et le centreculturel Adda Festival Du Jazz. L’avis des internautesPlus des trois quarts de nos internautes ont apprecie cetendroit.

Evaluation

I Impact sur le trafficI nb de visites sur la pageI temps reste sur la page

I Indicateurs de progression :I varieteI longueurI temps

I QualiteI pas d’evaluation chiffree (ex. : cout de post-edition)I perception

Evaluation

Impact sur le trafficMise en production : mai 2013

Figure: 100 pages avec descriptifs

Figure: site nomao.fr

Progression : variete

I n-grammes de mots pleins communs entre deux textes :

jaccard(n1, n2) =|n1 ∩ n2||n1 ∪ n2|

I baisse d’environ 40% grace a l’aleatoire

I developpement de nouveaux patrons

n avant apres

1 0, 17 0,12

2 0,11 0,07

3 0,7 0,05

Progression : longueur

I nb de mots dans les textes

avant apres

moyenne 63 105

min 30 39

max 120 241

⇒ pb : manque de donnees

Qualite linguistique percue

Bar � La Cale Seche � a Toulouse� La Cale Seche � vous attend dans une atmosphere divertissanteau 41 Rue Leon Gambetta dans la plaisante ville de Toulouse.Cette adresse propose differentes varietes de cafes, rien de tel pourdiscuter entre copains ! // Les gourmands se regaleront de l’un desmets proposes a la carte. // Si vous vous rendez dans ce bar unsoir de concert, l’ambiance sera plutot festive. // Pour lespersonnes qui voudraient y aller en fin de semaine, sachez que cetendroit vous accueille aussi le dimanche. // Si vous voulez vous yrendre en metro vous pourrez sortir a la station Metro Capitole quiest situee a 350 metres. // Depuis ce bar vous pourrez rejoindre lebar Bar Gambetta, la salle de spectacle Piano Aux Jacobins, lesalon de the Grand Cafe Albert, la boite de nuit Le Bocca Chiccaet le centre culturel Adda Festival Du Jazz.

Merci pour votre attention

Contact + News

Estelle Delpech

estelle (a) nomao.com

http ://www.nomao.com/http ://blog.nomao.fr/http ://www.nomao.com/labs

References I

Belz, A. (2008).

Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models.Natural Language Engineering, 14(4) :431–455.

Belz, A. and Kow, E. (2009).

System building cost vs. output quality in data-to-text generation.In Proceedings of the 12th European Workshop on Natural Language Generation, pages 16–24.

Bennison, P. and Bowker, L. (2000).

Designing a tool for exploiting bilingual comparable corpora.In Proceedings of LREC 2000, Athens, Greece.

Binsted, K., Pain, H., and Graeme, R. (1997).

Children’s evaluation of computer-generated punning riddles.Pragmatics and Cognition, 5 :309–358.

Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).

Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.

Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,

J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation : Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.

Danlos, L. and Roussarie, L. (2000).

La generation automatique de textes.In Ingenierie de la langue. Pierrel, J.-M., hermes edition.

References II

Dejean, E. and Gaussier, E. (2002).

Une nouvelle approche a l’extraction de lexiques bilingues a partir de corpus comparables.Lexicometrica, Alignement lexical dans les corpus multilingues, pages 1–22.

Delpech, E. (2010a).

Bilingual terminology mining.In The 4th Intensive Summer school and collaborative workshop on Natural Language Processing(Franco-Thai Workshop 2010), Bangkok, Thaılande.

Delpech, E. (2010b).

Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communautes fermees.In Terminologie & Ontologie : Theories et applications (TOTh), Annecy, France.

Delpech, E. (2011).

Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.

Delpech, E. (2012).

Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).

Delpech, E. and Daille, B. (2010).

Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.

References III

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).

Extraction of domain-specific bilingual lexicon from comparable corpora : a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).

Identification of fertile translations in medical comparable corpora : a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.

Fung, P. (1997).

Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.

Hauer, B. and Kondrak, G. (2011).

Clustering semantically equivalent words into cognate sets in multilingual lists.In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 865–873,Chiang Mai, Thailand.

Hazem, A. and Morin, E. (2012).

ICA for bilingual lexicon extraction from comparable corpora.In Proceedings of the 5th Workshop on Building and Using Comparable Corpora, Istanbul, Turkey.

Hovy, E. (1998).

Automated discourse generation using discourse structure relations.Artificial Intelligence, 63 :341–385.

Hutchins, J. (1996).

ALPAC : the (in)famous report.MT News International, (14) :9–12.

References IV

Keenan, E. L. and Faltz, L. M. (1985).

Boolean semantics for natural language.Dordrecht, Holland.

Knight, K. and Langkide, I. (1998).

Generation that exploits corpus-based knwoledge.In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17thInternational Conference on Computational Linguistics, pages 704–710.

Langkide, I. (2000).

Forest-based statistical sentence generation.In Proceedings of the 6th Applied Natural Language Processing Conference and the 1st Meeting of theNorth American Chapter of the Association of Computational Linguistics, pages 170–177.

Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).

Degre de comparabilite, extraction lexicale bilingue et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, volume 1, pages211–222, Montpellier, France.

Mc Enery, A. M. and Xiao, R. Z. (2007).

Parallel and comparable corpora : What is happening ?In G. Anderman, M. R., editor, Incorporating Corpora : The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.

Morin, E. and Daille, B. (2010).

Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression : hard going or plain sailing, pages 79–95. Springer Netherlands.

References V

Morin, E., Dufour-Kowalski, S., and Daille, B. (2004).

Extraction de terminologies bilingues a partir de corpus comparables.In Actes de la 11eme Conference annuelle sur le Traitement Automatique des Langues Naturelles (TALN),pages 309–318, Fes, Maroc.

Namer, F. and Baud, R. (2007).

Defining and relating biomedical terms : Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3) :226–33.

Planas, E. (1998).

TELA, Structures et Algorithmes pour la Traduction fondee sur la Memoire.These de doctorat en informatique, Universite Joseph Fourier, Grenoble I, Grenoble, France.

Planas, E. (2011).

Metricc : Rapport final sur l’evaluation de l’apport des lexiques bilingues pour la traduction.Delivrable ANR no 28 lot 4.3, Universite de Nantes, Nantes.

Planas, E. and Furuse, O. (2000).

Multi-level similar segment matching algorithm for translation memories and example-based machinetranslation.In Proceedings of the 18th International Conference on Computational Linguistics, pages 621–627,Saarbrucken, Allemagne.

Porter, M. F. (1980).

An algorithm for suffix stripping.Program, 14(3) :130–137.

Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., and Sykes, C. (2009).

Generation of textual summaries from neonatal intensive care data.Artificial Intelligence, 173 :789–816.

References VI

Prochasson, E. (2010).

Alignement multilingue en corpus comparables specialises : Caracterisation terminologique multilingue.These en informatique, Universite de Nantes, Nantes.

Rapp, R. (1999).

Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.

Reiter, E. and Belz, A. (2009).

An investigation into the validity of some metrics for automatically evaluating natural language generationsystems.Computational Linguistics, 35(4) :529–558.

Reiter, E., Roma, R., and Liesl, O. (2003).

Lessons from a failure : Generating tailored smoking cessation letters.Artificial Intelligence, 144 :41–58.

Sadat, F., Yoshikawa, M., and Uemura, S. (2003).

Learning bilingual translations from comparable corpora to Cross-Language information retrieval : Hybridstatistics-based and linguistics-based approach.volume 11, pages 57–64, Sappro, Japan.

Sharoff, S., Babych, B., Rayson, P., Mudraya, P., and Piao, S. (2006).

ASSIST : automated semantic assistance for translators.In Proceedings to the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 139–142, Trento, Italie.

Somers, H. (2005).

Machine translation : latest developments.In Mitkov, R., editor, The Oxford Handbook of Computational Linguistics, pages 512–528. OxfordUniversity Press, New York, USA.

References VII

Veronis, J. (2000).

From the rosetta stone to the information society. a survey of parallel text processing.In Veronis, J., editor, Parallel Text Processing, pages 1–24. Kluwer Academic Publisher, Londres,Royaume-Uni.

Williams, S. and E., R. (2008).

Generating basic skills reports for low-skilled readers.Natural Language Engineering, 14 :41–58.

Wong, Y. and Mooney, R. (2007).

Generation by inverting a semantic parser that uses statistical machine translation.In Proceedings of Human Language Technologies : The Annual Conference of the North American Chapterof the Association for Computational Linguistics on Human Language Technology, pages 172–179.

Zanettin, F. (1998).

Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta : Translator’s Journal, 43(4) :616–630.

usage du tal dans des applications industrielles : gestion des contenus multilingues & recherche...

Technology

recherche dinformation et tal ludovic tanguy (j. mothe, a....

tal ben-shahar, angus ridgway

tal le sens de la vie

sémantique lexicale pour le tal - lipn

découvrez les plugins multilingues pour word press

tal ar sonerien 28

etude de marché sem mobile géolocalisée (france)

infoman présente: jean-tal et cie

drive-to-store : le pouvoir de la data mobile géolocalisée

tal: traitement automatique de la langue apprentissage d...

tal ar sonerien 36

département informatique equipe-projet « tal»

infoman présente: magazine jean-tal

03-un tal lucas

tal: traitement automatique de la langue apprentissage d...

n°3 la gazette géolocalisée du festival de géopolitique

seo et recherche géolocalisée - david cohen - seo campus...

qu’est-ce que proxistore? un concept intelligent de...

le sens de la vie : tal

formations multilingues en science politique et …