Traitement automatique des langues
Traitement automatique des languesIntroduction et positionnement
Pierre Zweigenbaum1 et Laurence Danlos2
1LIMSI-CNRS & ERTIM-INALCO2ALPAGE, U Paris Diderot & INRIA
Journée AFIA & ATALA12 mars 2012
Plan
1 Introduction historiqueEn bref : filiation du TALPerspective chronologique
2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Filiation du TAL
Intelligence artificielle
Informatique
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Filiation du TAL
Intelligence artificielle
Informatique
Sciences cognitives
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Filiation du TAL
Intelligence artificielle
Informatique
Sciences cognitivesStatistiques
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Filiation du TAL
Intelligence artificielle
Informatique
Sciences cognitivesStatistiques
Traitement automatique des langues
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Filiation du TAL
Intelligence artificielle
Informatique
Sciences cognitivesStatistiques
Traitement automatique des langues
Linguistique
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Cinquante ans d’IA et de TAL
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Quelques livres de référenceLe TAL dans l’IA
19771981
1981
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Quelques livres de référenceLe TAL et l’IA
1982 1987 1988
Traitement automatique des langues
Introduction historique
En bref : filiation du TAL
Quelques livres de référenceLe TAL
1999 2000 2003
Traitement automatique des langues
Introduction historique
Perspective chronologique
A Alan Turing
Il y a 100 ans naissait l’un des scientifiques qui ontinfluencé le destin de milliards d’Hommes. Enbâtissant les bases de l’informatique moderne et enaidant les alliés à gagner la bataille contre les nazis,Alan Turing a bel et bien changé la face du monde.[Wikipedia]
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !
Traitement automatique des langues
Introduction historique
Perspective chronologique
Bref historique du TAL et de l’IA
Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage
T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky
Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit
Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.
Traitement automatique des langues
Introduction historique
Perspective chronologique
Bref historique du TAL et de l’IA
Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage
T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky
Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit
Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le quantitatif : le volume de données
8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année
L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le quantitatif : le volume de données
8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année
L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le qualitatif : données, informations etconnaissances
(Un exemple de Serge Abiteboul)Données Description élé-
mentaire d’uneréalité
Mesures de températures dansune station météo
Informations Données avecun sens (pourconstruire unereprésentation dela réalité)
Une courbe donnant l’évolu-tion des minimas et maximasmoyens en un lieu suivant lemois de l’année
Connaissances Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie
Le fait que la température surterre augmente du fait de l’ac-tivité humaine
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue
Donnéestextuelles
Description élé-mentaire d’uneréalité
Énormes corpus de textes sur laToile
Informationsde TAL
Données avecun sens (pourconstruire unereprésentation dela réalité)
Un système statistique de tra-duction automatique
Connaissancessur la langue
Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie
? ? ?L’interprétation est l’espace dela liberté humaine
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue
Donnéestextuelles
Description élé-mentaire d’uneréalité
Énormes corpus de textes sur laToile
Informationsde TAL
Données avecun sens (pourconstruire unereprésentation dela réalité)
Un système statistique de tra-duction automatique
Connaissancessur la langue
Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie
? ? ?L’interprétation est l’espace dela liberté humaine
Traitement automatique des langues
Introduction historique
Perspective chronologique
Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue
Donnéestextuelles
Description élé-mentaire d’uneréalité
Énormes corpus de textes sur laToile
Informationsde TAL
Données avecun sens (pourconstruire unereprésentation dela réalité)
Un système statistique de tra-duction automatique
Connaissancessur la langue
Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie
? ? ?L’interprétation est l’espace dela liberté humaine
Traitement automatique des langues
Introduction historique
Perspective chronologique
Prédiction de M.P. Schützenbergerdans la fin des années 1970
Si une machine arrive à passer letest de Turing,
ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.
Traitement automatique des langues
Introduction historique
Perspective chronologique
Prédiction de M.P. Schützenbergerdans la fin des années 1970
Si une machine arrive à passer letest de Turing,
ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.
Traitement automatique des langues
Introduction historique
Perspective chronologique
Prédiction de M.P. Schützenbergerdans la fin des années 1970
Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :
nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.
Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?
Traitement automatique des langues
Introduction historique
Perspective chronologique
Prédiction de M.P. Schützenbergerdans la fin des années 1970
Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :
nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.
Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?
Traitement automatique des langues
Introduction historique
Perspective chronologique
Prédiction de M.P. Schützenbergerdans la fin des années 1970
Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :
nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.
Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?
Traitement automatique des langues
Thèmes du TAL
Plan
1 Introduction historique
2 Thèmes du TAL
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Traitement automatique des langues
Thèmes du TAL
Thèmes du TAL
Thèmes principaux du traitement automatique deslanguesSelon les fonctions du TAL
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Accès à l’information textuelleLes textes comme sources d’information
Recherche d’informationRecherche de réponses précises à des questions
Recherche d’informations précises
Extraction d’informationAnalyse d’opinion, détection de sentimentsSuivi de thème
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Accès à la connaissance textuelleLes textes comme sources de connaissance
Aide à l’acquisition de connaissancesDécouverte de connaissancesFouille de textes
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Aide à la production de textesGénération de textes
Traduction automatiqueRésumé automatiqueAide à la rédactionAide à l’apprentissage des langues
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Dialogue humain-machineLes textes (les énoncés) comme moyen de communication
Répondre à des questions enchainéesGestion de dialogue
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Construction de connaissances (« ressources »)linguistiques
LexiquesMorphologiquesSyntaxiquesSémantiques
TerminologiesGrammairesClasses sémantiques...
Traitement automatique des langues
Thèmes du TAL
Quelques grands thèmes du TAL (tâches, applications)
Exemple : sessions d’ACL 2011
27 % Traduction - génération24 % Extraction d’information - fouille8 % « Méthodes d’apprentissage »8 % « Analyse syntaxique »...
Traitement automatique des langues
Thèmes du TAL
Dimensions
Dimensions
Langue unique vs MultilingueDomaine spécialisé vs Domaine ouvertTAL pour connaissances (linguistique) vs TAL pourapplications (ingénierie)
Traitement automatique des langues
Paliers du TAL
Plan
1 Introduction historique
2 Thèmes du TAL
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Traitement automatique des langues
Paliers du TAL
Morphologie
Segmentation en motsAnalyse morphologique
Flexion / LemmatisationDérivation et composition / Racinisation
Traitement automatique des langues
Paliers du TAL
Lexique
Accès lexicalAccès approximatif / Correction orthographique
Traitement automatique des langues
Paliers du TAL
Syntaxe
Segmentation en phrasesÉtiquetage morphosyntaxiqueAnalyse syntaxique
ConstituantsDépendancesRelations grammaticalesArguments
Traitement automatique des langues
Paliers du TAL
Sémantique
Détection d’entitésDétection de relations sémantiquesDétection d’événementsÉtiquetage des rôles thématiques
Traitement automatique des langues
Paliers du TAL
Pragmatique / Discours
Résolution d’anaphores, de coréférencesSegmentation en unités élémentaires de discoursDétermination de la structure du discoursDétermination de la structure temporelle
Traitement automatique des langues
Courants scientifiques en TAL
Plan
1 Introduction historique
2 Thèmes du TAL
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Traitement automatique des langues
Courants scientifiques en TAL
Quelques courants scientifiques en TAL
Plusieurs vues du TALLa vue dominante a varié au cours du tempsExemplifie à travers l’analyse syntaxique
Traitement automatique des langues
Courants scientifiques en TAL
Vision cognitiveLe TAL en imitation des facultés humaines
Objet d’étude = cognition humaineModèles
psychologiquement validesneuro-inspirés
ExemplesAnalyse syntaxique probabiliste incrémentale à mémoirelimitée
Traitement automatique des langues
Courants scientifiques en TAL
Vision algorithmiqueLe TAL comme algorithmique du texte
Objet d’étude = machine d’analyseAlgorithmes d’analyseD’autres (les linguistes) produiront les ( ? modèles et)connaissances nécessairesD’autres (qui ?) ont produit les exigences, lesspécifications de ces algorithmesExemples : Moteurs d’analyse syntaxique
Earley, CYKAnalyse tabulaireMéthodes à états finis
Traitement automatique des langues
Courants scientifiques en TAL
Vision interdisciplinaireLe TAL entre linguistique formelle et représentation des connaissances
Objet d’étude = la langueConception commune de formalismes linguistiquesopératoiresExemples : Formalismes linguistiques
GPSGLFGHPSGTAG
Traitement automatique des langues
Courants scientifiques en TAL
Vision empiriqueLe TAL comme physique et ingénierie du texte
Courant dominant actuellementObjet d’étude
Les (masses de) données textuellesLes mécanismes d’induction à partir de ces données
Conception d’algorithmes d’induction à partir de donnéestextuelles
Induction de connaissancesInduction de mécanismes d’analyse
Exemples : Applications de l’apprentissageNon superviséSupervisé
Traitement automatique des langues
Frontières, recouvrements, points de contact
Plan
1 Introduction historique
2 Thèmes du TAL
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Traitement automatique des langues
Frontières, recouvrements, points de contact
Frontières et recouvrementsPoints de contact
Méthodes habituelles de la disciplineContribution du TAL à d’autres disciplinesPartage d’objets communs
Quasiment toutes les disciplines proches se rattachent àl’intelligence artificielle
Traitement automatique des langues
Frontières, recouvrements, points de contact
Linguistiques
Linguistique théoriqueLinguistique formelleLinguistique computationnelleLinguistique quantitativeLinguistique de corpus
Traitement automatique des langues
Frontières, recouvrements, points de contact
Parole
Découpage traditionnelParties « basses » : traitement du signal
Modélisation acoustiqueDétection de la langueIdentification du locuteurReconnaissance des émotionsTranscription
Parties « hautes » : compréhension de la paroleModélisation linguistiqueIndexation audioSuivi de thèmesDialogueTraduction
Traitement automatique des langues
Frontières, recouvrements, points de contact
Recherche d’information
RI sur des sacs de mots-symbolesRI sur
des mots porteurs de sensdes phrases analysées
Traitement automatique des langues
Frontières, recouvrements, points de contact
Apprentissage
Part d’un ensemble « d’attributs » donnésDéfinir les attributs pertinents
« Prétraitement »Analyse de la langue plus ou moins poussée
Concevoir des algorithmes appropriésTenir compte de la structure des données
Traitement automatique des langues
Frontières, recouvrements, points de contact
Fouille de données
Fouille sur des sacs ou séquences de mots-symbolesFouille sur
des mots porteurs de sensdes phrases analysées
→ besoin d’extension des formalismes et algorithmes
Traitement automatique des langues
Frontières, recouvrements, points de contact
Analyse de données textuelles
Faire émerger les propriétés de masses de textesApproche principalement ascendanteDisciplines multiples
StatistiquesLinguistique
Analyse du discoursStylistiqueAttribution d’auteur
Informatique
Traitement automatique des langues
Frontières, recouvrements, points de contact
Ingénierie et représentation des connaissancesOntologies
Projection (normalisation) vers ontologieAide à la construction d’ontologie
Découverte de concepts (termes)Découverte de relations ontologiques (hyperonymie,méronymie, etc.)
Peupler une ontologieRecensement des instances d’entités d’un domaine
Mise en correspondance d’ontologiesAppariement fondé sur l’intensionAppariement fondé sur l’extension
Traitement automatique des langues
Frontières, recouvrements, points de contact
Ingénierie et représentation des connaissancesWeb sémantique
Web traditionnel : le web des textesWeb sémantique : le web des donnéesLe TAL : du texte aux données
Traitement automatique des langues
Frontières, recouvrements, points de contact
CognitionRecherche de la validité cognitive
Modélisation computationnelle macroscopiqueLa langue comme système (complexe)LinguistiquePsycholinguistiqueTAL
Modélisation computationnelle microscopiqueNeurosciences
Plan
1 Introduction historiqueEn bref : filiation du TALPerspective chronologique
2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions
3 Paliers du TAL
4 Courants scientifiques en TAL
5 Frontières, recouvrements, points de contact
Conclusion
Filiation forte et émancipationUne réussite de plus de l’IANombreux points de contactPour quand le retour du balancier ?