les défis des_langue-pour_le_tal
DESCRIPTION
Dans cette presentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL): qu'est-ce qu'un texte pour une machine? comment identifier des unités linguistiques à plusieurs niveaux? la segmentation et l'analyse lexicale; la disambiguation automatique; comment relier les mots entre elles? les structures syntaxiques minimales (chunks) et les relations syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); des relations ou rôles sémantiques entre les constituants de la phrase; l'unité sémantique à travers des categories morphosyntaxiques et sa representation dans les lexiques électroniques.TRANSCRIPT
Les défis des langues au traitement automatique
du langage (TAL)Jorge Baptista
U. Algarve - FCHS/CECL et INESC-ID Lisboa/[email protected]
Université Nationale de Taurida, Departement de Philologie Romane et Classique, 16-septembre-2014BMU-MID Eramus+ Programme
1Terça-feira, 16 de Setembro de 14
resuméDans cette présentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL):
• qu'est-ce qu'un texte pour une machine? • comment identifier des unités linguistiques à plusieurs niveaux?
• la segmentation et l'analyse lexicale; • la désambiguation automatique;
• comment relier les mots entre elles? • les structures syntaxiques minimales (chunks) et les relations
syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); • des relations ou rôles sémantiques entre les constituants de la
phrase; • l'unité sémantique à travers des catégories morphosyntaxiques
et sa représentation dans les lexiques électroniques.
2Terça-feira, 16 de Setembro de 14
“comprendre”?
Turing machines
3Terça-feira, 16 de Setembro de 14
Turing test
4Terça-feira, 16 de Setembro de 14
5Terça-feira, 16 de Setembro de 14
qu'est-ce qu'un texte pour une machine?
• un texte n’est qu’une suite de caractères entre en début et un fin de fichier
• il faut le diviser (=analiser) en morceaux pour qu’on puisse faire en sorte que l’ordinateur le “comprends” son contenu
6Terça-feira, 16 de Setembro de 14
segmentation de textes
7Terça-feira, 16 de Setembro de 14
segmentation de textessegmentation de textes
Au commencement, Dieu créa les cieux et la terre.
/à_le/
et il sépara les eaux qui sont au-dessous de l'étendue d'avec les eaux qui sont au-dessus de l'étendue.
au/-/dessous/ /de
8Terça-feira, 16 de Setembro de 14
segmentation de textes
9Terça-feira, 16 de Setembro de 14
10Terça-feira, 16 de Setembro de 14
Au commencement, Dieu créa les cieux et la terre.
comment relier les mots entre elles?
Au commencement , Dieu créa
les cieux et la terre .
11Terça-feira, 16 de Setembro de 14
Au commencement , Dieu créa
les cieux et la terre .
adv npnc v
det n det n pnc
les structures syntaxiques minimales (chunks)
12Terça-feira, 16 de Setembro de 14
Au commencement , Dieu créa
les cieux et la terre .
adv npnc v
det n det n pncdetdet
cnj
coord-dcoord-g
sujet
TOP
cod
cod
mod-P
13Terça-feira, 16 de Setembro de 14
Au commencement ,
Dieu créa les cieux et la terre .
adv
n
pnc
v det n det n pnc
objagent
m-tmps
les relation (rôles) semantiques
14Terça-feira, 16 de Setembro de 14
l'unité sémantique à travers des catégories morphosyntaxiques
voler
vol
Luc a volé un stylo
Luc a commis un vol
voler
vol
L’avion vole <sur l’Atlantique>
L’avion fait un vol <sur l’Atlantique
15Terça-feira, 16 de Setembro de 14
l'unité sémantique à travers des catégories morphosyntaxiques
voler
vol
Luc a volé un stylo
Luc a commis un vol
voler
vol
L’avion vole <sur l’Atlantique>
L’avion fait un vol <sur l’Atlantique
32C 36DT
F2 F1L
voleur
Luc est un voleur
Nprf1 volante
une machine volante
Anh0
16Terça-feira, 16 de Setembro de 14
17Terça-feira, 16 de Setembro de 14
jbaptis[5:09] echo "Missão Roseta vai aterrar na cabeça do cometa 67P/Churyumov-‐Gerasimenko." | xip/string.sh -‐t -‐tr -‐f -‐indent -‐tl 90
TOP +-‐-‐-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐ | | | | | | NP NP VTEMP VINF PP PP + + + + +-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐+ +-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐+ | | | | | | | | | | NOUN NOUN VERB VERB PREP ART NOUN PREP ART NOUN + + + +-‐ + +-‐ + + + + | | | | | | | | | | Missão Roseta vai aterrar em a cabeça de o cometa -‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐+-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐-‐+ | | | | NP PUNCT NP PUNCT +-‐-‐-‐-‐-‐+ + + +-‐ | | | | | NUM NOUN / NOUN . + +-‐ +-‐ | | | 67 P Churyumov-‐Gerasimenko MAIN(aterrar)QUANTD(P,67)DETD(cabeça,a)DETD(cometa,o)VDOMAIN(vai,aterrar)MOD_POST(cabeça,cometa)MOD_POST(aterrar,cabeça)SUBJ_PRE(aterrar,Roseta)CDIR_POST(aterrar,P)NE_QUANT_NUM(67 P)EVENT_OTHER(aterrar)
https://string.l2f.inesc-id.pt/demo
18Terça-feira, 16 de Setembro de 14
un autre formalisme ...
http://beta.visl.sdu.dk/19Terça-feira, 16 de Setembro de 14
un autre formalisme ...
http://lxcenter.di.fc.ul.pt/services/en/LXServicesParserDep.html
20Terça-feira, 16 de Setembro de 14
Applications
21Terça-feira, 16 de Setembro de 14
bionoteJorge Baptista est “Professor Associado” à l'Université de l'Algarve, à Faro, Portugal, où il est enseignant de Linguistique (Syntaxe, Phonologie, Morphologie et Histoire du Portugais) et Linguistique-Informatique, depuis 1992. Il fait aussi partie du Laboratoire du Language (L2F) du centre de recherche INESC-ID Lisboa, dès 2005.
Il s'est dédié à la construction de resources linguistiques, notamment des dictionaire et des grammaires électroniques pour le TAL, depuis 1990. En Linguistique même, ses travaux couvrent plusieurs aspects du lexique et la grammaire du Portugais: les constructions à verb-suport, le figement, la determination et la syntaxe de l'adverbe. Du coté TAL, il a développé des dictionnaires de mots composés et des dictionnaires syntaxiques (ou lexiques-grammaires) de noms prédicatifs, de verbs distributionnels, d'adverbes (simples et composés) et de phrases verbales figées (ou expressions idiomatiques), qui comptent dans son ensemble, plusieurs milliers d’expressions/mots. Au Laboratoire de Language, il coordonne les aspects linguistique pour le développement d'un système hybride (statistique et avec règles) de traitement automatique du Portugais, appellé STRING(**). Ce système est pourvue de toutes les fonctionnalités essentielles d'un system de TAL (segmentation, analyse lexicale et levée d'ambiguïté (hybride) automatiques, analyse syntaxique de surface (chunking) et profonde (deep parsing). Les plus récents développements sont la reconnaissance des entités nommées (NER), l'identification des événements, leurs participants et circumstances (rôles sémantiques), l'ordination relative des événements
D'autre part, il est aussi engagé dans la construction d'un système tutoriel d'apprentissage du Portugais Langue Etrangère - REAP.PT (***), ciblé sur le lexique, mais aussi avec des enjeux dans la grammaire. Il s'agit des exercices générés et corrigés automatiquement, à partir de textes réels, sélectionnés en fonction du niveau de competence langagière de l’étudiant.
(*) Furhter details at : https://www.researchgate.net/profile/Jorge_Baptista(**) string.l2f.inesc-id.pt/(***) www.l2f.inesc-id.pt/wiki/index.php/REAP.PT_(Computer_Aided_Language_Learning_-_Reading_Practice)
22Terça-feira, 16 de Setembro de 14
Спасибо !
23Terça-feira, 16 de Setembro de 14