les défis des_langue-pour_le_tal

23
Les défis des langues au traitement automatique du langage (TAL) Jorge Baptista U. Algarve - FCHS/CECL et INESC-ID Lisboa/L2T [email protected] Université Nationale de Taurida, Departement de Philologie Romane et Classique, 16-septembre-2014 BMU-MID Eramus+ Programme 1 Terça-feira, 16 de Setembro de 14

Upload: jorge-baptista

Post on 03-Jul-2015

241 views

Category:

Education


0 download

DESCRIPTION

Dans cette presentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL): qu'est-ce qu'un texte pour une machine? comment identifier des unités linguistiques à plusieurs niveaux? la segmentation et l'analyse lexicale; la disambiguation automatique; comment relier les mots entre elles? les structures syntaxiques minimales (chunks) et les relations syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); des relations ou rôles sémantiques entre les constituants de la phrase; l'unité sémantique à travers des categories morphosyntaxiques et sa representation dans les lexiques électroniques.

TRANSCRIPT

Page 1: Les défis des_langue-pour_le_tal

Les défis des langues au traitement automatique

du langage (TAL)Jorge Baptista

U. Algarve - FCHS/CECL et INESC-ID Lisboa/[email protected]

Université Nationale de Taurida, Departement de Philologie Romane et Classique, 16-septembre-2014BMU-MID Eramus+ Programme

1Terça-feira, 16 de Setembro de 14

Page 2: Les défis des_langue-pour_le_tal

resuméDans cette présentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL):

• qu'est-ce qu'un texte pour une machine? • comment identifier des unités linguistiques à plusieurs niveaux?

• la segmentation et l'analyse lexicale; • la désambiguation automatique;

• comment relier les mots entre elles? • les structures syntaxiques minimales (chunks) et les relations

syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); • des relations ou rôles sémantiques entre les constituants de la

phrase; • l'unité sémantique à travers des catégories morphosyntaxiques

et sa représentation dans les lexiques électroniques.

2Terça-feira, 16 de Setembro de 14

Page 3: Les défis des_langue-pour_le_tal

“comprendre”?

Turing machines

3Terça-feira, 16 de Setembro de 14

Page 4: Les défis des_langue-pour_le_tal

Turing test

4Terça-feira, 16 de Setembro de 14

Page 5: Les défis des_langue-pour_le_tal

5Terça-feira, 16 de Setembro de 14

Page 6: Les défis des_langue-pour_le_tal

qu'est-ce qu'un texte pour une machine?

• un texte n’est qu’une suite de caractères entre en début et un fin de fichier

• il faut le diviser (=analiser) en morceaux pour qu’on puisse faire en sorte que l’ordinateur le “comprends” son contenu

6Terça-feira, 16 de Setembro de 14

Page 7: Les défis des_langue-pour_le_tal

segmentation de textes

7Terça-feira, 16 de Setembro de 14

Page 8: Les défis des_langue-pour_le_tal

segmentation de textessegmentation de textes

Au commencement, Dieu créa les cieux et la terre.

/à_le/

et il sépara les eaux qui sont au-dessous de l'étendue d'avec les eaux qui sont au-dessus de l'étendue.

au/-/dessous/ /de

8Terça-feira, 16 de Setembro de 14

Page 9: Les défis des_langue-pour_le_tal

segmentation de textes

9Terça-feira, 16 de Setembro de 14

Page 10: Les défis des_langue-pour_le_tal

10Terça-feira, 16 de Setembro de 14

Page 11: Les défis des_langue-pour_le_tal

Au commencement, Dieu créa les cieux et la terre.

comment relier les mots entre elles?

Au commencement , Dieu créa

les cieux et la terre .

11Terça-feira, 16 de Setembro de 14

Page 12: Les défis des_langue-pour_le_tal

Au commencement , Dieu créa

les cieux et la terre .

adv npnc v

det n det n pnc

les structures syntaxiques minimales (chunks)

12Terça-feira, 16 de Setembro de 14

Page 13: Les défis des_langue-pour_le_tal

Au commencement , Dieu créa

les cieux et la terre .

adv npnc v

det n det n pncdetdet

cnj

coord-dcoord-g

sujet

TOP

cod

cod

mod-P

13Terça-feira, 16 de Setembro de 14

Page 14: Les défis des_langue-pour_le_tal

Au commencement ,

Dieu créa les cieux et la terre .

adv

n

pnc

v det n det n pnc

objagent

m-tmps

les relation (rôles) semantiques

14Terça-feira, 16 de Setembro de 14

Page 15: Les défis des_langue-pour_le_tal

l'unité sémantique à travers des catégories morphosyntaxiques

voler

vol

Luc a volé un stylo

Luc a commis un vol

voler

vol

L’avion vole <sur l’Atlantique>

L’avion fait un vol <sur l’Atlantique

15Terça-feira, 16 de Setembro de 14

Page 16: Les défis des_langue-pour_le_tal

l'unité sémantique à travers des catégories morphosyntaxiques

voler

vol

Luc a volé un stylo

Luc a commis un vol

voler

vol

L’avion vole <sur l’Atlantique>

L’avion fait un vol <sur l’Atlantique

32C 36DT

F2 F1L

voleur

Luc est un voleur

Nprf1 volante

une machine volante

Anh0

16Terça-feira, 16 de Setembro de 14

Page 17: Les défis des_langue-pour_le_tal

17Terça-feira, 16 de Setembro de 14

Page 18: Les défis des_langue-pour_le_tal

jbaptis[5:09]  echo  "Missão  Roseta  vai  aterrar  na  cabeça  do  cometa  67P/Churyumov-­‐Gerasimenko."  |  xip/string.sh  -­‐t  -­‐tr  -­‐f  -­‐indent  -­‐tl  90

                                                                                                                                                                                                                                                                                                                 TOP                                            +-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐                    |                  |            |                  |                          |                                        |                                        NP                NP        VTEMP          VINF                      PP                                      PP                                          +                  +            +                  +            +-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+              +-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+                            |                  |            |                  |            |          |              |              |        |              |                        NOUN            NOUN      VERB            VERB      PREP      ART        NOUN        PREP    ART        NOUN                          +                  +            +                +-­‐            +        +-­‐              +              +        +              +                            |                  |            |                |              |        |                |              |        |              |                      Missão      Roseta      vai        aterrar      em        a          cabeça      de        o        cometa                                                                                                    -­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐+                |              |                                |                          |              NP          PUNCT                          NP                      PUNCT      +-­‐-­‐-­‐-­‐-­‐+        +                                +                        +-­‐          |          |        |                                |                        |          NUM    NOUN      /                            NOUN                      .            +        +-­‐                                        +-­‐                                      |        |                                          |                                      67        P                      Churyumov-­‐Gerasimenko                                                                                                                                                                                                              MAIN(aterrar)QUANTD(P,67)DETD(cabeça,a)DETD(cometa,o)VDOMAIN(vai,aterrar)MOD_POST(cabeça,cometa)MOD_POST(aterrar,cabeça)SUBJ_PRE(aterrar,Roseta)CDIR_POST(aterrar,P)NE_QUANT_NUM(67  P)EVENT_OTHER(aterrar)

https://string.l2f.inesc-id.pt/demo

18Terça-feira, 16 de Setembro de 14

Page 19: Les défis des_langue-pour_le_tal

un autre formalisme ...

http://beta.visl.sdu.dk/19Terça-feira, 16 de Setembro de 14

Page 20: Les défis des_langue-pour_le_tal

un autre formalisme ...

http://lxcenter.di.fc.ul.pt/services/en/LXServicesParserDep.html

20Terça-feira, 16 de Setembro de 14

Page 21: Les défis des_langue-pour_le_tal

Applications

21Terça-feira, 16 de Setembro de 14

Page 22: Les défis des_langue-pour_le_tal

bionoteJorge Baptista est “Professor Associado” à l'Université de l'Algarve, à Faro, Portugal, où il est enseignant de Linguistique (Syntaxe, Phonologie, Morphologie et Histoire du Portugais) et Linguistique-Informatique, depuis 1992. Il fait aussi partie du Laboratoire du Language (L2F) du centre de recherche INESC-ID Lisboa, dès 2005.

Il s'est dédié à la construction de resources linguistiques, notamment des dictionaire et des grammaires électroniques pour le TAL, depuis 1990. En Linguistique même, ses travaux couvrent plusieurs aspects du lexique et la grammaire du Portugais: les constructions à verb-suport, le figement, la determination et la syntaxe de l'adverbe. Du coté TAL, il a développé des dictionnaires de mots composés et des dictionnaires syntaxiques (ou lexiques-grammaires) de noms prédicatifs, de verbs distributionnels, d'adverbes (simples et composés) et de phrases verbales figées (ou expressions idiomatiques), qui comptent dans son ensemble, plusieurs milliers d’expressions/mots. Au Laboratoire de Language, il coordonne les aspects linguistique pour le développement d'un système hybride (statistique et avec règles) de traitement automatique du Portugais, appellé STRING(**). Ce système est pourvue de toutes les fonctionnalités essentielles d'un system de TAL (segmentation, analyse lexicale et levée d'ambiguïté (hybride) automatiques, analyse syntaxique de surface (chunking) et profonde (deep parsing). Les plus récents développements sont la reconnaissance des entités nommées (NER), l'identification des événements, leurs participants et circumstances (rôles sémantiques), l'ordination relative des événements

D'autre part, il est aussi engagé dans la construction d'un système tutoriel d'apprentissage du Portugais Langue Etrangère - REAP.PT (***), ciblé sur le lexique, mais aussi avec des enjeux dans la grammaire. Il s'agit des exercices générés et corrigés automatiquement, à partir de textes réels, sélectionnés en fonction du niveau de competence langagière de l’étudiant.

(*) Furhter details at : https://www.researchgate.net/profile/Jorge_Baptista(**) string.l2f.inesc-id.pt/(***) www.l2f.inesc-id.pt/wiki/index.php/REAP.PT_(Computer_Aided_Language_Learning_-_Reading_Practice)

22Terça-feira, 16 de Setembro de 14

Page 23: Les défis des_langue-pour_le_tal

Спасибо !

23Terça-feira, 16 de Setembro de 14