traitementautomatiquedeslangues - limsi · 2012. 3. 15. · représentation de laréalité) une...

62
Traitement automatique des langues Traitement automatique des langues Introduction et positionnement Pierre Zweigenbaum 1 et Laurence Danlos 2 1 LIMSI-CNRS & ERTIM-INALCO 2 ALPAGE, U Paris Diderot & INRIA Journée AFIA & ATALA 12 mars 2012

Upload: others

Post on 27-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Traitement automatique des languesIntroduction et positionnement

Pierre Zweigenbaum1 et Laurence Danlos2

1LIMSI-CNRS & ERTIM-INALCO2ALPAGE, U Paris Diderot & INRIA

Journée AFIA & ATALA12 mars 2012

Page 2: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Plan

1 Introduction historiqueEn bref : filiation du TALPerspective chronologique

2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 3: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Page 4: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitives

Page 5: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Page 6: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Traitement automatique des langues

Page 7: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Filiation du TAL

Intelligence artificielle

Informatique

Sciences cognitivesStatistiques

Traitement automatique des langues

Linguistique

Page 8: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Cinquante ans d’IA et de TAL

Page 9: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL dans l’IA

19771981

1981

Page 10: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL et l’IA

1982 1987 1988

Page 11: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

En bref : filiation du TAL

Quelques livres de référenceLe TAL

1999 2000 2003

Page 12: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

A Alan Turing

Il y a 100 ans naissait l’un des scientifiques qui ontinfluencé le destin de milliards d’Hommes. Enbâtissant les bases de l’informatique moderne et enaidant les alliés à gagner la bataille contre les nazis,Alan Turing a bel et bien changé la face du monde.[Wikipedia]

Page 13: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Page 14: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Page 15: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le test de Turing“Can machines think ?” Thisshould begin with definitions ofthe meaning of the terms‘machine’ and ‘think.’ Thedefinitions might be framed so asto reflect so far as possible thenormal use of the words, but thisattitude is dangerous, ... Instead... I shall replace the question byanother, which is closely related toit and is expressed in relativelyunambiguous words.Eh oui, les mots sont ambigus !Mais quel bonheur !

Page 16: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Bref historique du TAL et de l’IA

Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage

T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky

Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit

Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.

Page 17: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Bref historique du TAL et de l’IA

Années 1950 : premiers systèmes de traduction automatiqueAnnées 1960 : premiers succès euphoriques de l’IAAnnées 1970–80 : introduction de connaissances sur le mondepour les systèmes experts et la compréhension du langage

T. Winograd (SHRDLU) : analyse syntaxique avecdésambiguation dans un monde jouetR. Schank : “There is no such thing as syntax” ; se ramener à dessituations stéréotypées, comme les frames de M. Minsky

Années 1990– : introduction des HMM et des modèles bayésienspour (entre autres) la vision, la parole et le traitement de l’écrit

Mot d’ordre : Les humains ont une faculté d’apprentissage,les machines doivent en avoir une aussi.

Page 18: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le quantitatif : le volume de données

8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année

L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast

Page 19: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le quantitatif : le volume de données

8 bits = 1 octet1 téraoctet = 1012 octets200 téraoctets = une bibliothèque avec tous les livres écrits à cejour dans toutes les langues1 pétaoctet = 1015 octets100 pétaoctets = la quantité de données produites par lecollisionneur de particules du CERN en une minute1 exaoctet = 1018 octets5 exaoctets = le volume des mots prononcés depuis que l’hommeparle1 zettaoctet = 1021 octets1/2 zettaoctet = le trafic Internet en 201266 zettaoctets : l’information visuelle envoyée au cerveau del’espèce humaine en une année

L’univers numérique double tous le 18 moisSource : Cisco Visual Networking Index-Forecast

Page 20: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données, informations etconnaissances

(Un exemple de Serge Abiteboul)Données Description élé-

mentaire d’uneréalité

Mesures de températures dansune station météo

Informations Données avecun sens (pourconstruire unereprésentation dela réalité)

Une courbe donnant l’évolu-tion des minimas et maximasmoyens en un lieu suivant lemois de l’année

Connaissances Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

Le fait que la température surterre augmente du fait de l’ac-tivité humaine

Page 21: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Page 22: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Page 23: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Le qualitatif : données textuelles, informations deTAL et connaissances sur la langue

Donnéestextuelles

Description élé-mentaire d’uneréalité

Énormes corpus de textes sur laToile

Informationsde TAL

Données avecun sens (pourconstruire unereprésentation dela réalité)

Un système statistique de tra-duction automatique

Connaissancessur la langue

Informations avecune vérité, plus gé-néralement une loiqui est considéréecomme vraie

? ? ?L’interprétation est l’espace dela liberté humaine

Page 24: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Si une machine arrive à passer letest de Turing,

ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.

Page 25: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Si une machine arrive à passer letest de Turing,

ce n’est pas parce que lamachine aura réussi à simulerle comportement humain,mais parce que l’humain auraappris à simuler lecomportement de la machine.

Page 26: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Page 27: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Page 28: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Introduction historique

Perspective chronologique

Prédiction de M.P. Schützenbergerdans la fin des années 1970

Effectivement, la prédiction de Schützenberger s’avère vraiesur au moins deux points :

nous anticipons le fonctionnement d’un moteur derecherche sur la Toile avant de poser une requête,nous avons appris à réserver des billets/commander unproduit en maîtrisant la technique des menus déroulants.

Jusqu’où la prédiction de M.P. Schützenberger sera-t-ellevraie ?Pourra-t-on préserver notre bonheur : l’ambiguïté des mots ?

Page 29: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 30: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Thèmes du TAL

Thèmes principaux du traitement automatique deslanguesSelon les fonctions du TAL

Page 31: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Accès à l’information textuelleLes textes comme sources d’information

Recherche d’informationRecherche de réponses précises à des questions

Recherche d’informations précises

Extraction d’informationAnalyse d’opinion, détection de sentimentsSuivi de thème

Page 32: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Accès à la connaissance textuelleLes textes comme sources de connaissance

Aide à l’acquisition de connaissancesDécouverte de connaissancesFouille de textes

Page 33: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Aide à la production de textesGénération de textes

Traduction automatiqueRésumé automatiqueAide à la rédactionAide à l’apprentissage des langues

Page 34: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Dialogue humain-machineLes textes (les énoncés) comme moyen de communication

Répondre à des questions enchainéesGestion de dialogue

Page 35: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Construction de connaissances (« ressources »)linguistiques

LexiquesMorphologiquesSyntaxiquesSémantiques

TerminologiesGrammairesClasses sémantiques...

Page 36: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Quelques grands thèmes du TAL (tâches, applications)

Exemple : sessions d’ACL 2011

27 % Traduction - génération24 % Extraction d’information - fouille8 % « Méthodes d’apprentissage »8 % « Analyse syntaxique »...

Page 37: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Thèmes du TAL

Dimensions

Dimensions

Langue unique vs MultilingueDomaine spécialisé vs Domaine ouvertTAL pour connaissances (linguistique) vs TAL pourapplications (ingénierie)

Page 38: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 39: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Morphologie

Segmentation en motsAnalyse morphologique

Flexion / LemmatisationDérivation et composition / Racinisation

Page 40: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Lexique

Accès lexicalAccès approximatif / Correction orthographique

Page 41: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Syntaxe

Segmentation en phrasesÉtiquetage morphosyntaxiqueAnalyse syntaxique

ConstituantsDépendancesRelations grammaticalesArguments

Page 42: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Sémantique

Détection d’entitésDétection de relations sémantiquesDétection d’événementsÉtiquetage des rôles thématiques

Page 43: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Paliers du TAL

Pragmatique / Discours

Résolution d’anaphores, de coréférencesSegmentation en unités élémentaires de discoursDétermination de la structure du discoursDétermination de la structure temporelle

Page 44: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 45: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Quelques courants scientifiques en TAL

Plusieurs vues du TALLa vue dominante a varié au cours du tempsExemplifie à travers l’analyse syntaxique

Page 46: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Vision cognitiveLe TAL en imitation des facultés humaines

Objet d’étude = cognition humaineModèles

psychologiquement validesneuro-inspirés

ExemplesAnalyse syntaxique probabiliste incrémentale à mémoirelimitée

Page 47: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Vision algorithmiqueLe TAL comme algorithmique du texte

Objet d’étude = machine d’analyseAlgorithmes d’analyseD’autres (les linguistes) produiront les ( ? modèles et)connaissances nécessairesD’autres (qui ?) ont produit les exigences, lesspécifications de ces algorithmesExemples : Moteurs d’analyse syntaxique

Earley, CYKAnalyse tabulaireMéthodes à états finis

Page 48: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Vision interdisciplinaireLe TAL entre linguistique formelle et représentation des connaissances

Objet d’étude = la langueConception commune de formalismes linguistiquesopératoiresExemples : Formalismes linguistiques

GPSGLFGHPSGTAG

Page 49: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Courants scientifiques en TAL

Vision empiriqueLe TAL comme physique et ingénierie du texte

Courant dominant actuellementObjet d’étude

Les (masses de) données textuellesLes mécanismes d’induction à partir de ces données

Conception d’algorithmes d’induction à partir de donnéestextuelles

Induction de connaissancesInduction de mécanismes d’analyse

Exemples : Applications de l’apprentissageNon superviséSupervisé

Page 50: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Plan

1 Introduction historique

2 Thèmes du TAL

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 51: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Frontières et recouvrementsPoints de contact

Méthodes habituelles de la disciplineContribution du TAL à d’autres disciplinesPartage d’objets communs

Quasiment toutes les disciplines proches se rattachent àl’intelligence artificielle

Page 52: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Linguistiques

Linguistique théoriqueLinguistique formelleLinguistique computationnelleLinguistique quantitativeLinguistique de corpus

Page 53: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Parole

Découpage traditionnelParties « basses » : traitement du signal

Modélisation acoustiqueDétection de la langueIdentification du locuteurReconnaissance des émotionsTranscription

Parties « hautes » : compréhension de la paroleModélisation linguistiqueIndexation audioSuivi de thèmesDialogueTraduction

Page 54: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Recherche d’information

RI sur des sacs de mots-symbolesRI sur

des mots porteurs de sensdes phrases analysées

Page 55: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Apprentissage

Part d’un ensemble « d’attributs » donnésDéfinir les attributs pertinents

« Prétraitement »Analyse de la langue plus ou moins poussée

Concevoir des algorithmes appropriésTenir compte de la structure des données

Page 56: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Fouille de données

Fouille sur des sacs ou séquences de mots-symbolesFouille sur

des mots porteurs de sensdes phrases analysées

→ besoin d’extension des formalismes et algorithmes

Page 57: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Analyse de données textuelles

Faire émerger les propriétés de masses de textesApproche principalement ascendanteDisciplines multiples

StatistiquesLinguistique

Analyse du discoursStylistiqueAttribution d’auteur

Informatique

Page 58: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Ingénierie et représentation des connaissancesOntologies

Projection (normalisation) vers ontologieAide à la construction d’ontologie

Découverte de concepts (termes)Découverte de relations ontologiques (hyperonymie,méronymie, etc.)

Peupler une ontologieRecensement des instances d’entités d’un domaine

Mise en correspondance d’ontologiesAppariement fondé sur l’intensionAppariement fondé sur l’extension

Page 59: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

Ingénierie et représentation des connaissancesWeb sémantique

Web traditionnel : le web des textesWeb sémantique : le web des donnéesLe TAL : du texte aux données

Page 60: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Traitement automatique des langues

Frontières, recouvrements, points de contact

CognitionRecherche de la validité cognitive

Modélisation computationnelle macroscopiqueLa langue comme système (complexe)LinguistiquePsycholinguistiqueTAL

Modélisation computationnelle microscopiqueNeurosciences

Page 61: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Plan

1 Introduction historiqueEn bref : filiation du TALPerspective chronologique

2 Thèmes du TALQuelques grands thèmes du TAL (tâches, applications)Dimensions

3 Paliers du TAL

4 Courants scientifiques en TAL

5 Frontières, recouvrements, points de contact

Page 62: Traitementautomatiquedeslangues - LIMSI · 2012. 3. 15. · représentation de laréalité) Une courbe donnant l’évolu-tion des minimas et maximas moyens en un lieu suivant le

Conclusion

Filiation forte et émancipationUne réussite de plus de l’IANombreux points de contactPour quand le retour du balancier ?