proposition d'architecture à base de corpus pour la ... · [sumtime-mousam - sripada 03]...
TRANSCRIPT
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Proposition d’architecture à base decorpus pour la Génération Automatique
de Texte
Eric Charton
Laboratoire d'Informatique
Université d'Avignon
Séminaires du Rali, MontréalFévrier 2010
1 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Plan
1 Introduction
2 Un peu de théorie !
3 Les propositions d’architecture
4 Le systèmes de GAT existants et leur fonctionnement
5 Propositions
6 Expériences de génération
2 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifs
Produire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifs
Produire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]
Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]
Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]
Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]
Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
La génération automatique de texte (GAT)
ObjectifProduire un texte en langue naturelle à partir d’unereprésentation formelle d’un contenu
Exemples applicatifsProduire un bulletin météo d’après des données[SumTime-Mousam - Sripada 03]Réponse automatique à des E.Mails [Lapalme - 03]Produire un texte d’après un formulaire [Smokinginformation questionnaire - Aberdeen NLG group 99]Documentation industrielle automatisée [AutomaticGeneration of Technical documentation - Reiter 95]Génération de réponses dans un système de dialogue[Rambow et al 01]
3 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Un domaine de recherche largementpluridisciplinaire
4 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)
Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)
Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)
Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Qu’est ce qu’un texte ?
Une hiérarchieUn document composé de paragraphes (le plan)Des paragraphes composés de phrases (le contenu)Des phrases composées de mots (le style)
Générer du texte commence par la production dephrases : qu’est ce qu’une phrase ?
Un système infini et non dénombrable, soumis à unegrammaire transformationnelle et non modélisable pardes approches statistiques (Chomsky)Chaque phrase est finie, l’ensemble des phrases estinfini mais dénombrable. La langue est régie par ladistribution des mots et groupes de mots (Harris)
5 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Chomsky
ChomskyPour Chomsky, les processus de Markov à nombre finisd’états ne permettent pas de modéliser une langue : "Il estimpossible de construire une machine qui produirait [toutes]les phrases grammaticales de l’Anglais"
6 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Harris
Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres"
"[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments""Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"
A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli
7 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Harris
Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres""[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments"
"Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"
A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli
7 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Harris
Harris : analyse distributionnelle"On peut décrire toute langue par une structuredistributionnelle, cad, par l’occurrence des partiesrelativement les unes aux autres""[Le modèle distributionnel] consiste à décrire toutesles formes [linguistiques] comme des combinaisonsd’éléments""Une forme A est dérivée d’une forme B parsubstitution [de ses éléments]"
A = e + f et B = e + gA dérive de B par substitution de g à fExemple : il est [en outre] très poli -> il est [par ailleurs] trèspoli
7 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Shannon
Génération de phrases selon un modèle de languageDans A mathematical theory of communication
"The resemblance to ordinary English text increasesquite noticeably at each of the above steps"
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISHWRITER THAT THE CHARACTER OF THIS POINT ISTHEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEMFOR AN UNEXPECTED.
8 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Les phrases selon Shannon
Génération de phrases selon un modèle de languageDans A mathematical theory of communication"The resemblance to ordinary English text increasesquite noticeably at each of the above steps"
THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISHWRITER THAT THE CHARACTER OF THIS POINT ISTHEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEMFOR AN UNEXPECTED.
8 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Evolution de l’architecture dessystèmes de génération
automatique de texte
9 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Une mise au point progressive depuis lesannées 50
Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]
Référence explicite à la théorie de la communication deShannon
L’influence Chomskyennes, années 60
Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]
10 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Une mise au point progressive depuis lesannées 50
Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon
L’influence Chomskyennes, années 60
Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]
10 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Une mise au point progressive depuis lesannées 50
Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon
L’influence Chomskyennes, années 60
Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]
10 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Une mise au point progressive depuis lesannées 50
Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon
L’influence Chomskyennes, années 60Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]
Génération à base exclusive de grammaires horscontexte [Friedman, 1969]
10 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Une mise au point progressive depuis lesannées 50
Approches statistiques et combinatoiresTentative d’implémenter les grammaires dans dessystèmes de génération combinatoires [Mathews,1962]Référence explicite à la théorie de la communication deShannon
L’influence Chomskyennes, années 60Génération de phrases par combinaisons etintroduction de règles [Yngve,1960]Génération à base exclusive de grammaires horscontexte [Friedman, 1969]
10 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Années 70 à nos jours, 3 propositionsdominantes
Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]
Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]
Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]
11 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Années 70 à nos jours, 3 propositionsdominantes
Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]
Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]
Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]
11 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Années 70 à nos jours, 3 propositionsdominantes
Approches par patrons à trousDes modèles de phrases prédéfinis contenant deséléments variables [Reiter 1995 ;Deemter 2005]
Approches à base de règlessystèmes à base de règle et de grammaires régis parune architecture modulaire en pipeline [Reiter, 1994 ;Lapalme & Danlos, 2000]
Approches statistiques et n-grammessystèmes probabilistes guidés reposant sur desassemblages de n-grammes [Langdike & Knight, 1998 ;Belz, 2006]
11 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Fonctionnement des systèmes degénération automatique de texte
12 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Que dire et comment le dire ?
Deux paradigmes incontournables"Quoi dire" et "Comment le dire"
Une caution psycholinguistique [Levelt, 89 ; Ferrand 02]
13 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Que dire et comment le dire ?
Deux paradigmes incontournables"Quoi dire" et "Comment le dire"Une caution psycholinguistique [Levelt, 89 ; Ferrand 02]
13 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Le modèle de patron à trous
Un modèle classique et simpleLe système de [Buseman, 1998] pour produire desbulletins de pollutionFacile à déployer, aisé à maintenir en plusieurs languesUne hybridation simple avec les modèles pluscomplexes (voir comparaison par [Deemter 2005])
14 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Le modèle d’architecture générique
Pipelined Natural langage Generation SystemUn ensemble de modules consécutifs
Repose essentiellement sur des modèles formels
15 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Le modèle d’architecture générique
Pipelined Natural langage Generation SystemUn ensemble de modules consécutifsRepose essentiellement sur des modèles formels
15 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Production des phrases
Utilisation de modèles formels de représentationArbres syntaxiques
Réseaux de transitionsFramesGraphes conceptuels
16 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Production des phrases
Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitions
FramesGraphes conceptuels
16 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Production des phrases
Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitionsFrames
Graphes conceptuels
16 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Production des phrases
Utilisation de modèles formels de représentationArbres syntaxiquesRéseaux de transitionsFramesGraphes conceptuels
16 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Exemple de système à base de grammaires
Simple NLG [Reiter, 2009]Librairie en Java. Il faut programmer le texte : indiquerle temps, l’intention de communicationLe système gère la construction de phrase, lesconjugaisons, les connexions logiquesUniquement en anglais, très difficile à adapter
17 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Expériences à base de corpus
Le corpus en tant que ressource pour la générationLe corpus est utilisé en tant que ressource den-grammes [Langkilde, 1998]Le corpus est utilisé en tant que ressource de choixlexical [Bangalore, 2000]Le corpus est utilisé en tant que ressource de partiesde phrases avec des étiquettes discursives [Marciniak,2005]Aucun système n’utilise le corpus en tant queressource de phrases prêtes à l’emploi
18 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Un système de générationautomatique de texte d’après une
librairie de phrases modèles
19 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Principe de base
Tirer partie des avantages de chaque modèleRemplacer la génération syntaxique par un inventairede phrases le plus grand possibleAvantage : génération multilingue possible, adaptation des modèles de génération automatisée
Utiliser le principe des patrons à trous pour transformer lescontenus d’une phrase existanteAvantage : simplicité du processus de transformation
Utiliser des modèles n-grammes pour réaliser les dernièrestransformations de surface (genre, etc)Avantage : les phrases du modèle ont une meilleure couverture puisqu’elles deviennent partiellementtransformables
20 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Modélisation des phrases d’une langue (1)
Le modèle de phrasesRécupérer depuis un corpus proche du domaine degénération plusieurs millions de phrasesLe corpus ne sert plus à modéliser les n-grammes maisles formes de phrasesEtiqueter ces phrases à plusieurs niveaux (lexical,morphosyntaxique, syntagmatique) pour les rendreabstraites
Les corpus de phrases possiblesWikipédia (28 millions de phrases FR, 115 millions de phrases EN ...)
Wikisource, Gutemberg (plusieurs milliers de livres thématiques)
Des corpus adaptés au domaine de génération visé (notions de e.langage et i.langage) (juridique,technique, web) (Notion de I-Language [Chomsky 1986] / masse parlante [Saussure 1894])
21 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Modélisation des phrases d’une langue (2)
Le modèle de générationFormaliser une intention de communication : l’arbre dedépendance, les contenus des syntagmes, les concepts et leurssynonymes
Mesurer la similarité entre l’intention de communication et lesphrases abstraites contenues dans le modèle
Sélectionner une liste des N meilleures phrases candidates
Choisir la meilleure candidate et remplacer les abstractions par leséléments de l’intention de communication
22 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Représentation d’une espace linguistique
Comment le dire ?
Le modèle de phrase à trois niveauxA : Niveau lexical et conceptuelB : Niveau morpho-syntaxiqueC : Niveau syntagmatique (dépendances)
Rendre les phrase du corpus les plus abstraites possibles
Exemple : Le Rhône passe en bordure d’Avignon
A Le LOC.GEO passe en bordure d’ LOC.ADMIB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA
23 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Représentation d’une intention decommunication
Que dire ?La représentation de l’intention de communication
A : Concept lexical (réseau de synonynes) - EntitésnomméesB : Niveau morpho-syntaxiqueC : Niveau syntagmatique (dépendances)
Exemple : Loire ;Couler :présent ;Autour ;Orléans
LOC.GEO couler :passer :ruisseler :traverser autour :bord :orée :pourtour :corniche LOC.ADMInam verb.pres nom namSN NV SA SA
24 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Mesures de similarité
Chercher une phrase dans le modèle (M) correspondant à la représentation de l’intention de communication(I)
1 : évaluer le degré de proximité lexicale
2 : évaluer la proximité des arbres de dépendances
3 : évaluer la compatibilité de temps, de forme (négations, pluriels,etc)
Méthode utilisée1 : La similarité cosinus permet de mesurer la proximité lexicale -cos(Mlex, Ilex)
2 : un calcul de pourcentage de proximité ps appliqué sur chaqueniveau des arbres de M et I comparés
3 : Calcul de similarité cosinus sur les étiquettes de POScos(Mpos, Ipos) (ie : temps des verbes)
Rang de la phrase candidate : est égal au produit decos(Mlex, Ilex) ∗ ps ∗ cos(Mpos, Ipos) (ou à la somme des log base 10)
25 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Appliquer un traitement de surface à la phrasechoisie
I=Loire ;Couler→ présent ;Autour ;Orléans
Exemple : M=Le Rhône passe en bordure d’AvignonA Le LOC.GEO passe en bordure d’ LOC.ADMIB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA
Remplacer les contenus par les correspondances(principe du patron à trous)
A Le Loire passe en bordure d’ OrléansB det.art nam verb.pres prp nom prp namC SN SN NV SA SA SA SA
Appliquer un traitement de surface avec des règles oudes modèles n-grammes
La Loire passe en bordure d’ Orléans
26 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Composants du système
Génération du modèle de phrasesLexique d’entités nommées NLGbAse (5 langues) [Charton &Torres-Morenno, 2009]
Etiqueteur d’entités nommées LIA/ESTER (CRF) [Béchet &Charton, 2010]
Lexique terminologique et verbal Worldnet / base de synonymesCortex
Etiqueteur morphosyntaxique multilingue LIA-TAG/TreeTagger
Algorithme de substitution par n-grammes [Charton &Torres-Morenno, 2010]
Modèles de phrases produitsCorpus Wikipédia FR, EN, ES, IT, PL
Modèle français : 28 millions de phrases
Modèle anglais : 120 millions de phrases
Modèle espagnol : 12 millions de phrases (en cours)27 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Composants du système
28 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Evaluation et résultatspréliminaires
29 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Expérience
PrincipeGénérer un modèle de phrase appris sur Wikipédia FRExtraire 100 phrases qui seront retirées du modèleConstruire une représentation de l’intention decommunication pour les 100 phrasesChercher des modèles de phrases compatiblesProduire une phrase syntaxiquement etsémantiquement correcte
30 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Expérience
ExemplePhrase servant de base pour construire l’intention decommunicationLes armées de Junot envahissent le pays
FormalisationA armée ;troupes ; PERS envahir attaquer pays ;voisin ;frontièreB nom nam verb.pres nomC SN SN NV SA
31 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Expérience
FormalisationA armée ;troupes ; PERS envahir attaquer pays ;voisin ;frontièreB nom nam verb.pres nomC SN SN NV SA
Propositions ordonnée fournie par le systèmeBelka disposant d’une puissante armée , envahit son voisin
Les armées Wisigoth envahirent le pays
Les princes ruthénes envahirent le pays polonais
Le sire Anselme de Ribeaupierre attaqua en 1287 la ville de Saint-Hippolyte
Les Philistins envahirent une fois de plus le pays
Lesdites hostilités débutent lorsque les premiers attaquent à l’arme lourde le domicile privée de l’exPrésident Sassou
TransformationJunot disposant d’une puissante armée, envahit son voisin
32 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Résultats préliminaires
Validation de l’algorithme de similarité100% des phrases qui correspondent à l’intention decommunication sont retrouvées dans le modèle de phrasessi elles y sont présentes
Validation du processus de génération pour 100intentions de communication, non présentes dans lemodèle de phrasesSens et syntaxe correcte 74Sens correct et syntaxe erronée 9Sens incorrect et syntaxe correcte 6Sens incorrect et syntaxe erronée 11
33 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Conclusions
Une architecture prometteuseLe système fonctionne dans 74% des cas
Il est moins performant qu’un système à base de règles et degrammaires qui fonctionne dans tous les cas
Il est peu coûteux à mettre au point, facilement adaptable àplusieurs langues
La taille du corpus d’apprentissage et son domaine jouent un rôleimportant sur la qualité et les performances
PerspectivesAchever la mise au point (traitement des négations, etc)
Produire un jeu d’expérience de taille suffisante
Identifier une méthode d’évaluation semi-automatique
Appliquer dans un contexte multilingue
34 / 34
GénérationAutomatique
de Texte
E. Charton
Introduction
Un peu dethéorie !
Lespropositionsd’architecture
Le systèmesde GATexistants etleur fonction-nement
Propositions
Expériencesde génération
Merci
Eric Charton - [email protected]
35 / 34