ingénierie des langues et de la parole (ilp) notes de cours ce cours sera bilingue...

28
Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais- français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus, 385 av. de la bibliothèque, BP 53 F-38041 Grenoble cedex 9, France [email protected], http://clips.imag.fr/ geta , http://www-clips.imag.fr/geta/User/christian.bo itet/M2R-SLE-ILP/ accès multilingue : http://service.aximag.fr/xwiki/bin/view/imag/

Upload: rolande-tixier

Post on 03-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ingénierie des Langues et de la Parole (ILP)Notes de cours

Ce cours sera bilingue anglais-français

M2R-IAW-SLE-ILP

Christian BoitetGETALP, LIG-campus, 385 av. de la bibliothèque, BP 53

F-38041 Grenoble cedex 9, [email protected], http://clips.imag.fr/geta,

http://www-clips.imag.fr/geta/User/christian.boitet/M2R-SLE-ILP/

accès multilingue :

http://service.aximag.fr/xwiki/bin/view/imag/M2R-SLE-ILP-[en|fr]

Page 2: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Diapos pour le cours d’ILP/SLE 2/28

I. Problématique du traitement automatique des langues naturelles (TALN)

I.1 Buts : stocker, étudier, et utiliser les connaissances linguistiques

1.1 Représentation et traitement des textes et corpus

i. Systèmes d'écriture et codage

ii. Concordances et études diverses

iii. Types de corpus stockés (simples, balisés, annotés, arborés, parallèles, oraux, multimodaux…)

Page 3: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 3/28

Représentation, construction et utilisation des dictionnaires

i. Représentation des "ressources lexicales"a. Dictionnaires (types divers, mono/multilingues)

b. Lexiques (lien avec la terminologie)

c. Bases lexicales

ii. Construction des ressources lexicalesa. Utilisation de ressources existantes

b. Extraction à partir de corpus (récent)

c. Coopération via le Web (début)

iii. Utilisation des ressources lexicalesa. Consultation "normale"

b. Filtrage et production de sous-ensembles à la volée

c. Aides diverses (lecture active…)

d. Extraction de dictionnaires d'applications

Page 4: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 4/28

Représentation, construction et utilisation de grammaires

i. Grammaires et automates

ii. Mise au point d'un modèle linguistique

iii.Évaluation de théories et applications diverses

iv. Utilisations de grammaires et automatesa. Correction (orthographique, grammaticale, stylistique…)

b. Indexation

c. Résumé et extraction d'information

d. Traduction

e. Génération multilingue

Page 5: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 5/28

Applications et recherches actuelles

ÉcritCorrection

Indexation

RI (recherche d'information)

TAO (traduction automatisée par ordinateur)

Résumé, classification

Questions/Réponses (Q&A)

OralSynthèse de parole

Reconnaissance de parole

Multimodalité

Dialogue

Evaluation

Page 6: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 6/28

I.3 Problèmes spécifiques du TALN : le non-déterminisme, le flou, la taille

• Non-déterminismeinhérent à la nature des languesambiguïtés en analyse

synonymie en génération

correspondance entre langues

• conduit à un problème majeur d'explosion combinatoire.Cet aspect distingue très fortement le TALN du traitement des langages formels.

Page 7: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 7/28

i. Ambiguïtés

• Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau plus élevé.

• Exemples.

• Sources à tous les niveaux, du signal à la pragmatique. ("La porte !").

• Ambiguïtés inhérentes à la langue, et ambiguïtés "parasites" provenant des systèmes de description et/ou de traitement eux-mêmes.

• Caractère fallacieux : les humains ne "voient" pas l'ambiguïté — mais la ressentent quand elle conduit à des incompréhensions, des contresens, et… des accidents.

Page 8: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 8/28

ii. Synonymie

• Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau moins élevé.

• C'est le pendant de l'ambiguïté.

Page 9: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 9/28

3.2 Flou

• i. Impossibilité d'une sémantique "totale"Fait d'expérience : on ne peut jamais "tout exprimer" en langue naturelle.

Passage du continu au discret ? Peut-être, mais pas seulement. Zadeh, inventeur de la "logique floue" : il y a un problème central de définissabilité. Voir le site de BISC (Berkeley Initiative on Soft Computing)

• ii. Impossibilité d'une axiomatisation exacteLa langue ne se laisse pas formaliser ou axiomatiser exactement.

Elle est intrinsèquement "productive" : à partir de toute axiomatisation proposée, on peut fabriquer des contre-exemples, en surgénération ou en sous-génération.

Parallèle avec le caractère productif des formules vraies de l'arithmétique (théorème de Gödel).

Nécessité de travailler dans l'approximatif, et donc de concevoir des applications jamais figées, en modification constante, et capables de traiter "l'inconnu".

Exemple le plus simple: les "mots inconnus".

Page 10: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 10/28

3.3 Taille

• i. Données lexicalesAu minimum 6000 entrées de dictionnaire pour la transcription phonétique du français, du thaï…

Au minimum 3000 entrées pour la TA : METEO (mots inconnus = toponymes identiques)

Environ 50000 entrées générales et 50-100K entrées par domaine en TA (5,44M en ATLAS-II v13)

• ii. Grammaires et automates2 pages en SYGMOR pour une génération morphologique et graphémique exhaustive du français

30 pages en ATEF pour une analyse morphologique exhaustive du russe (15000 règles en EnCo!)

150 pages en ROBRA pour une génération structurale du français

400 pages en ROBRA (150 + 300 règles) pour une analyse heuristique du français

chiffres comparables avec d'autres LSPL.

• iii. CorpusAu minimum 1M mots pour la construction de dicos, la TA statistique…

LanguageWeaver: 50M mots alignés dans 2 langues pour construire un système de TA

Page 11: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 11/28

II. Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique)

• II.1 La langue et ses aspects classiques1.1 Peut-on parler de langue ? (langue, langage, dialecte…)1.2 Lexique et grammaire : notions de base1.3 Diversité des aspects de la langue

• II.2 Niveaux de description linguistiqueNiveaux "structurants"

• Phonologie• Morphologie• Syntaxe• Sémantique• Pragmatique

Niveaux d'actualisation• Détermination, nombre, genre, personne…• Aspect, temps, modalité…

Page 12: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 12/28

2.1 Phonologie

• i. Sons (phonons)

• ii. Phones

• iii. PhonèmesLes unités ne se dégagent que par leurs rapports mutuels (Saussure).

Notion de « paire distinctive »

• En allemand, ‘r’ (grasseyé) ≠ ‘ch’ (Ach-laut)

• En français, ‘r’ (grasseyé) ≈ ‘r’ (roulé)

Page 13: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 13/28

2.2 Morphologie

• i. Graphèmes et morpheÜ et Ue en allemand, morphe = suite de graphèmes (±interprétation)

• ii. Flexion: formes et lexèmes (lemmes)Déclinaison (noms, adjectifs, participes) et conjugaison (verbes)

• iii. Dérivation (lexico-sémantique)Une dérivation a 3 niveaux : <sémantique, syntaxique, morphologique>

…par ordre d’importance

• iv. CompositionHauptbahnhofgepäckaufbewahrung (consigne à bagages de la gare principale)

Quatre-vingt-dix-huit, composés chimiques…

Page 14: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 14/28

2.3 Syntaxe

• i. SyntagmesGroupes de mots ayant une fonction

En général connexes, sinon "discontinuité"

• ii. Fonctions syntaxiquesSujet (réel, formel), objet (direct, indirect), épithète, attribut, complément

d'agent, circonstant, modificateur, quantificateur…

• iii. Relations de dépendance profondeRelations sémantiques ("cas profonds")

Différence entre prédicat "linguistique" (syntaxe profonde) et "sémantique"

manquer_de (X=I, Y=II) & manquer_à (X=II, Y=I) : MANQUER (I, II)

Page 15: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 15/28

2.4 Sémantique

• i. Prédicats et argumentsarguments (0, 1, 2, [3]

• ii. Relations sémantiques (cas profonds)agent, coagent, objet, coobjet, bénéficiaire, but, cause, moyen, possession, modification, localisation (temps/espace, ubi/quo/unde/qua), concession, mesure, prix, fréquence…

• iii. Traits sémantiques (propriétés)concret, abstrait, personne, humain, animal, plante, document, contenant, unité de mesure, surface, volume, science, moyen de transport…

Page 16: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 16/28

Différences entre arguments et circonstants

• Les arguments sont uniques et nécessaires (à la compréhension)Si un argument n’est pas exprimé, il faut que l’auditeur/lecteur puisse l’inférer du contexte (ou il le demandera !)

• Les circonstants sont optionnels et (éventuellement) multiplesIl prend chaque jour [temps] un café après le déjeuner [temps].

• Impossibilité d’affecter fiablement une RS à un argumentX donne Y à Z (pour T)

• X agent (volitif)? — Jean [agent???] donne l’impression de…• Z, T bénéficiaire, destinataire, but, patient…?• Y objet (modifié par l’action, transféré…?) — X donne l’heure à Y

Certaines théories (comme UNL) cherchent à affecter des « RS standard »• Ça ne marche pas… car les RS des arguments sont très lexicalisées• Une bonne approche: FrameNet (Fillmore)

‘donner’(X=‘donateur’, Y=‘don’, Z=‘donataire’)

Page 17: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 17/28

2.5 Pragmatique

• i. Assertion et négation3 types de négation: négation propositionnelle, privation, réfutation,

• ii. Impérativiténiveau profond ("faire cuire 3mn" a valeur impérative)

• iii. Interrogativitéidem

• En "montant d'un niveau", il faut parler des actes de parole (de discours, de dialogue)Searle, Austin, etc. Voir cours sur le dialogue. Important en pratique !

Page 18: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 18/28

II.3 Autres dimensions de l'analyse linguistique

3.1 Actualisation

• i. Nombrecardinal, ordinal, comptabilité/continuité

• ii. Personnenous inclusif ou exclusif, de majesté ou de modestie…

• iii. Modalité

• iv. Aspect

• v. Tempsbien sûr, il y a des niveaux plus ou moins "profonds" (irréel, achevé,

perfectif, time) ou "surfaciques" (conditionnel, perfectif, tense)

Page 19: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 19/28

3.2 Quantification

• i. Quantificateurs linguistiques et portéeUn, tous, certains, peu, beaucoup, la majorité…

• ii. Lien avec la déiction (, désignation)

Peu de gens lisent beaucoup de livres

Beaucoup de livres sont lus par peu de gens

Page 20: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 20/28

3.3 Désignation

• i. Déterminationun, le, ou rien ? Désignation d'instance, de classe ?

• ii. Anaphore et cataphorereprise en arrière (supra) ou en avant (infra).

• Il marchait dans la ville. Il faisait froid. Jean, car c'était lui…

• iii. Ellipsele [code] source, un [roman policier de la] série noire

OK, je prendrai la seconde. rue (Straße f.), chambre (Zimmer n.) ?

Page 21: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 21/28

3.4 Rhétorique

• i. EmphaseC'est vraiment tout à fait ça, ces principes qui sont les nôtres…

• ii. ThématisationC'est X qui… Paul, lui, est parti

(oral)

Vous avez réservé cet hôtel ?

Vous avez réservé cet hôtel ?

Vous avez réservé cet hôtel ?

Vous avez réservé cet hôtel ?

Page 22: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 22/28

3.5 Analyse en triade statutaire de Zemb

• i. Rhèmece qu'on dit

• ii. Thèmede quoi on le dit

• iii. Phèmecomment on le dit (assertion/négation, modalité)

En discours, le thème est supposé exister, même si le phème changeJean a pris une veste hier Jean a pris une veste hierPas de veste à prendre (ou pas) Il y a une veste !

• C’est très important pour la traduction!Je ne l’ai pas bousculé exprès Ich habe ihn [ absichtlich nicht | nicht absichtlich ] gestoßen

Page 23: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 23/28

III. Les connaissances utilisables en TALN

• III.1 Sources de connaissances dans un système de TALN1.1 Types de connaissances à considérer dans les applications

• i. Connaissances linguistiquesa. LangagièresConnaissances sur la langue "standard" (lexique, morphologie, syntaxe…)

• b. TypologiquesConnaissances sur la typologie visée (termes et sens préférés et interdits,

tours, expressions, préférences observées au niveau du style et de la résolution d'ambiguïtés…)

Page 24: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 24/28

ii. Connaissances sémantiques

• a. StatiquesFaits et règles d'un domaine formalisé (ontologie)

• b. DynamiquesSituations, agents et leurs représentations internes.

Nécessité ici d'un apprentissage à partir du contenu des "messages linguistiques".

Page 25: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 25/28

iii. Connaissances pragmatiques

• a. Intentions explicites Actes de parole, force illocutoire…

Fils de discours et de dialogue

Très important pour le traitement du dialogue, en CHM ou en dialogue humain médiatisé.

• b. Intentions implicitesAspects réflexifs, intentions cachées, ironie, etc.

Page 26: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 26/28

1.2 Connaissances réellement utilisables dans des systèmes de TALN

• On met les connaissances "qu'on peut" et surtout "qu'on doit" dans des dictionnaires, grammaires, thésaurus.

• Exemple : « le courrier est arrivé ce matin » est soit imperfectif soit perfectif.

• On peut proposer le choix : « le courrier est arrivé ce matin  PENDANT que quelque chose se passait »« le courrier est arrivé ce matin  ET PUIS quelque chose s'est passé »

• et l'on obtiendra alors l'information permettant de bien traduire dans une langue où l'aspect est important, comme le russe ou l'anglais :

« the mail arrived this morning (while I was shaving). »« the mail has arrived this morning (and then I left).  »

Page 27: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 27/28

Représentations formalisées d’énoncés

Niveauxlinguistiques

Organisationlinguistiqueprincipale

Structuregéométrique

Structurealgébrique

CorrespondanceStructure—Texte

Portée

Surface

Profond

1-stratal

n- stratal

Syntagmes(constituants)

Dépendances

Relationslogiques etsémantiques

Chaîne

Graphe dechaînes

Arborescence

Graphe /Réseau

Hypergraph

EtiquetteEtiqu.structurée

Traitsbooléens

Attributsstructurés

Structuresde traits

concrète (texte≈lisible depuis lastructure

totalementabstrait (ex.UNL)

Phrase(≈ tous)

Paragraphe

Page(Ariane-G5,

Sygmart)

Document

Page 28: Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Ch. Boitet Cours CL 28/28

Formalized representations of utterances