traitementautomatiquedeslangues - limsi · 2012. 3. 15. · représentation de laréalité) une...

Post on 27-Feb-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Traitement automatique des langues

Traitement automatique des languesIntroduction et positionnement

Pierre Zweigenbaum1 et Laurence Danlos2

1LIMSI-CNRS & ERTIM-INALCO2ALPAGE, U Paris Diderot & INRIA

Journée AFIA & ATALA12 mars 2012

Plan

1 Introduction historiqueEn bref : filiation du TALPerspective chronologique

2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitives

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Traitement automatique des langues

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Traitement automatique des langues

Linguistique

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Cinquante ans d’IA et de TAL

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL dans l’IA

19771981

1981

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL et l’IA

1982 1987 1988

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL

1999 2000 2003

Traitement automatique des langues

Introduction historique

Perspective chronologique

A Alan Turing

Il y a 100 ans naissait l’un des scientifiques qui ontinfluencé le destin de milliards d’Hommes. Enbâtissant les bases de l’informatique moderne et enaidant les alliés à gagner la bataille contre les nazis,Alan Turing a bel et bien changé la face du monde.[Wikipedia]

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Traitement automatique des langues

Introduction historique

Perspective chronologique

Bref historique du TAL et de l’IA

Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage

T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky

Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit

Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.

Traitement automatique des langues

Introduction historique

Perspective chronologique

Bref historique du TAL et de l’IA

Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage

T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky

Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit

Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le quantitatif : le volume de données

8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année

L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le quantitatif : le volume de données

8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année

L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données, informations etconnaissances

(Un exemple de Serge Abiteboul)Données Description élé-

mentaire d’uneréalité

Mesures de températures dansune station météo

Informations Données avecun sens (pourconstruire unereprésentation dela réalité)

Une courbe donnant l’évolu-tion des minimas et maximasmoyens en un lieu suivant lemois de l’année

Connaissances Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

Le fait que la température surterre augmente du fait de l’ac-tivité humaine

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Si une machine arrive à passer letest de Turing,

ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Si une machine arrive à passer letest de Turing,

ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Traitement automatique des langues

Thèmes du TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Traitement automatique des langues

Thèmes du TAL

Thèmes du TAL

Thèmes principaux du traitement automatique deslanguesSelon les fonctions du TAL

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Accès à l’information textuelleLes textes comme sources d’information

Recherche d’informationRecherche de réponses précises à des questions

Recherche d’informations précises

Extraction d’informationAnalyse d’opinion, détection de sentimentsSuivi de thème

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Accès à la connaissance textuelleLes textes comme sources de connaissance

Aide à l’acquisition de connaissancesDécouverte de connaissancesFouille de textes

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Aide à la production de textesGénération de textes

Traduction automatiqueRésumé automatiqueAide à la rédactionAide à l’apprentissage des langues

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Dialogue humain-machineLes textes (les énoncés) comme moyen de communication

Répondre à des questions enchainéesGestion de dialogue

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Construction de connaissances (« ressources »)linguistiques

LexiquesMorphologiquesSyntaxiquesSémantiques

TerminologiesGrammairesClasses sémantiques...

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Exemple : sessions d’ACL 2011

27 % Traduction - génération24 % Extraction d’information - fouille8 % « Méthodes d’apprentissage »8 % « Analyse syntaxique »...

Traitement automatique des langues

Thèmes du TAL

Dimensions

Dimensions

Langue unique vs MultilingueDomaine spécialisé vs Domaine ouvertTAL pour connaissances (linguistique) vs TAL pourapplications (ingénierie)

Traitement automatique des langues

Paliers du TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Traitement automatique des langues

Paliers du TAL

Morphologie

Segmentation en motsAnalyse morphologique

Flexion / LemmatisationDérivation et composition / Racinisation

Traitement automatique des langues

Paliers du TAL

Lexique

Accès lexicalAccès approximatif / Correction orthographique

Traitement automatique des langues

Paliers du TAL

Syntaxe

Segmentation en phrasesÉtiquetage morphosyntaxiqueAnalyse syntaxique

ConstituantsDépendancesRelations grammaticalesArguments

Traitement automatique des langues

Paliers du TAL

Sémantique

Détection d’entitésDétection de relations sémantiquesDétection d’événementsÉtiquetage des rôles thématiques

Traitement automatique des langues

Paliers du TAL

Pragmatique / Discours

Résolution d’anaphores, de coréférencesSegmentation en unités élémentaires de discoursDétermination de la structure du discoursDétermination de la structure temporelle

Traitement automatique des langues

Courants scientifiques en TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Traitement automatique des langues

Courants scientifiques en TAL

Quelques courants scientifiques en TAL

Plusieurs vues du TALLa vue dominante a varié au cours du tempsExemplifie à travers l’analyse syntaxique

Traitement automatique des langues

Courants scientifiques en TAL

Vision cognitiveLe TAL en imitation des facultés humaines

Objet d’étude = cognition humaineModèles

psychologiquement validesneuro-inspirés

ExemplesAnalyse syntaxique probabiliste incrémentale à mémoirelimitée

Traitement automatique des langues

Courants scientifiques en TAL

Vision algorithmiqueLe TAL comme algorithmique du texte

Objet d’étude = machine d’analyseAlgorithmes d’analyseD’autres (les linguistes) produiront les ( ? modèles et)connaissances nécessairesD’autres (qui ?) ont produit les exigences, lesspécifications de ces algorithmesExemples : Moteurs d’analyse syntaxique

Earley, CYKAnalyse tabulaireMéthodes à états finis

Traitement automatique des langues

Courants scientifiques en TAL

Vision interdisciplinaireLe TAL entre linguistique formelle et représentation des connaissances

Objet d’étude = la langueConception commune de formalismes linguistiquesopératoiresExemples : Formalismes linguistiques

GPSGLFGHPSGTAG

Traitement automatique des langues

Courants scientifiques en TAL

Vision empiriqueLe TAL comme physique et ingénierie du texte

Courant dominant actuellementObjet d’étude

Les (masses de) données textuellesLes mécanismes d’induction à partir de ces données

Conception d’algorithmes d’induction à partir de donnéestextuelles

Induction de connaissancesInduction de mécanismes d’analyse

Exemples : Applications de l’apprentissageNon superviséSupervisé

Traitement automatique des langues

Frontières, recouvrements, points de contact

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Traitement automatique des langues

Frontières, recouvrements, points de contact

Frontières et recouvrementsPoints de contact

Méthodes habituelles de la disciplineContribution du TAL à d’autres disciplinesPartage d’objets communs

Quasiment toutes les disciplines proches se rattachent àl’intelligence artificielle

Traitement automatique des langues

Frontières, recouvrements, points de contact

Linguistiques

Linguistique théoriqueLinguistique formelleLinguistique computationnelleLinguistique quantitativeLinguistique de corpus

Traitement automatique des langues

Frontières, recouvrements, points de contact

Parole

Découpage traditionnelParties « basses » : traitement du signal

Modélisation acoustiqueDétection de la langueIdentification du locuteurReconnaissance des émotionsTranscription

Parties « hautes » : compréhension de la paroleModélisation linguistiqueIndexation audioSuivi de thèmesDialogueTraduction

Traitement automatique des langues

Frontières, recouvrements, points de contact

Recherche d’information

RI sur des sacs de mots-symbolesRI sur

des mots porteurs de sensdes phrases analysées

Traitement automatique des langues

Frontières, recouvrements, points de contact

Apprentissage

Part d’un ensemble « d’attributs » donnésDéfinir les attributs pertinents

« Prétraitement »Analyse de la langue plus ou moins poussée

Concevoir des algorithmes appropriésTenir compte de la structure des données

Traitement automatique des langues

Frontières, recouvrements, points de contact

Fouille de données

Fouille sur des sacs ou séquences de mots-symbolesFouille sur

des mots porteurs de sensdes phrases analysées

→ besoin d’extension des formalismes et algorithmes

Traitement automatique des langues

Frontières, recouvrements, points de contact

Analyse de données textuelles

Faire émerger les propriétés de masses de textesApproche principalement ascendanteDisciplines multiples

StatistiquesLinguistique

Analyse du discoursStylistiqueAttribution d’auteur

Informatique

Traitement automatique des langues

Frontières, recouvrements, points de contact

Ingénierie et représentation des connaissancesOntologies

Projection (normalisation) vers ontologieAide à la construction d’ontologie

Découverte de concepts (termes)Découverte de relations ontologiques (hyperonymie,méronymie, etc.)

Peupler une ontologieRecensement des instances d’entités d’un domaine

Mise en correspondance d’ontologiesAppariement fondé sur l’intensionAppariement fondé sur l’extension

Traitement automatique des langues

Frontières, recouvrements, points de contact

Ingénierie et représentation des connaissancesWeb sémantique

Web traditionnel : le web des textesWeb sémantique : le web des donnéesLe TAL : du texte aux données

Traitement automatique des langues

Frontières, recouvrements, points de contact

CognitionRecherche de la validité cognitive

Modélisation computationnelle macroscopiqueLa langue comme système (complexe)LinguistiquePsycholinguistiqueTAL

Modélisation computationnelle microscopiqueNeurosciences

Plan

1 Introduction historiqueEn bref : filiation du TALPerspective chronologique

2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Conclusion

Filiation forte et émancipationUne réussite de plus de l’IANombreux points de contactPour quand le retour du balancier ?

top related