Download - TOTh’2014, 12/06/2014
Méthodologie d’ingénierie des connaissances pour la représentation des définitions
lexicographiques dans le cadre de la théorie Sens-Texte
TOTh’2014, 12/06/2014
Maxime Lefrançois, Fabien Gandon, Alain GiboinInria
2
Richesse de description
• Besoin de formalisation• Besoin de plus de
couverture• Besoin pour le TALN
TOTh'2014
Approches en sémantique lexicale1. Sémantique décompositionnelle2. Sémantique componentielle3. Sémantique relationnelle
Pourquoi étudier la Théorie Sens-Texte ?
Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
3
- Différents niveaux de représentation- Des règles de transformation entre les niveaux
- Le lexique tient une place centraleLe Dictionnaire Explicatif et Combinatoire (DEC)
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Postulats de base
4
Informatisation du DEC et DEC informatisé
ex: éditeur DECID (Sérasset, 1997)
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
5
Ingénierie des connaissances
Informatisation du DEC et DEC informatisé
représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
• recherche intelligente d’information• mise à jour et vérification
automatique• déduction logique
▫ paraphrasage▫ déduction du premier ordre
6TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Quel formalisme de représentation des connaissances serait adapté à la représentation
des connaissances sémantiques lexicales de la Théorie Sens-Texte ?
« Formalisation de la conceptualisation d’un domaine »
1. La conceptualisation est-elle adaptée à une formalisation ?2. Quel formalisme est adapté à cette conceptualisation ?3. Comment peut-on opérationnaliser ce formalisme ?
Question de recherche et méthodologie
7
Plan de la présentation
t
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
1. La conceptualisation est-elle adaptée à une formalisation ?
3. Comment peut-on opérationnaliser ce formalisme ?
1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques
et des définitions lexicographiques
3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
8TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a. Conceptualisation des prédicats linguistiques
1.b.Conceptualisation des représentations linguistiques et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
1.a.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
9
Exemple d’extension de conceptualisation
Unités linguistiques&
Unités linguistiques
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Langage :
Usage :
Types d’
(instances d’)
10
Introduction au DEC
principal sujet d’étude des linguistes de la Théorie Sens-Texte
• zone phonologique• zone morphologique• zone sémantique• zone de combinatoire• zone de stylistique, • zone d’exemple, • zone phraséologique, • zone de nota bene
4 volumes papier= environ 500 entrées seulement
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
11
Zone sémantique du DEC> les définitions lexicographiques
• Travaux de conceptualisation existant▫ choix des composantes selon les catégories d’unités lexicales
(ex: sentiments)
▫ la structuration est importante pour le TAL (Wanner, MTT’ 2003)
▫ composantes suggérées par des étiquettes sémantiques▫ symboles de PosASém choisies dans un petit ensemble (à la
FrameNet)▫ structuration en XML (projet Definiens)
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
12
Zone sémantique du DEC> les définitions lexicographiques
• Conceptualisation espérée (dans la littérature):
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Degré de formalisation non atteint aujourd’hui
13
Prédicats linguistiques
• Type d’unité lexicale▫ Structure actancielle sémantique
• Type d’unité sémantique
Positions actancielles
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
14
Prédicats linguistiques
• Type d’unité lexicale▫ Structure actancielle sémantique
• Type d’unité sémantique
Positions actancielles
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
15
Prédicats linguistiques
• Type d’unité lexicale▫ Structure actancielle sémantique
• Type d’unité sémantique▫ Structure actancielle
Extension de la conceptualisation
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
=
16
• Type d’unité lexicale▫ Structure actancielle sémantique
Prédicats linguistiques
Positions actantielles sémantiques:= Les participants de la situation linguistique dénotée par Lqui ont une position privilégiées auprès de L dans les phrases
+ critères linguistiques !
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
• Type d’unité sémantique▫ Structure actancielle=
17
• Type d’unité lexicale▫ Structure actancielle sémantique
Prédicats linguistiques
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
• Type d’unité sémantique▫ Structure actancielle=
18TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Héritage du sens et spécialisation
des structures actancielles ?
19
•(outil)
• PosA 1 – personne qui utilise l’outil• PosA 2 – une activité ou une profession
• (ciseaux)
• PosA 1 – personne qui utilise l’outil• PosA 2 – l’objet à couper
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Héritage du sens et spécialisation
des structures actancielles ?
contre-exemple 1.
20
•(ustensile)
• PosA 1 – personne qui utilise l’ustensile• PosA 2 – une activité
• (bouilloire)
• PosA 1 – personne qui utilise l’outil• PosA 2
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
contre-exemple 2.
Héritage du sens et spécialisation
des structures actancielles ?
21TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Le niveau Sémantique Profond
22
Le niveau Sémantique Profond
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
SémP SémS
• introduction d’une notation /outil\
• définition de la structure actancielle sémantique profonde▫ choix des Symboles d’Actants: des rôles sémantiques lexicalisés▫ introduction des positions actancielles interdites
Héritage du sens et spécialisation
des structures actancielles
23TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a.Conceptualisation des prédicats linguistiques1.b. Conceptualisation des représentations
linguistiques et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
1.b.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
24
Définitions lexicographiques
• Application au projet RELIEF (Lux-Pogodalla et Polguère, WoLeR’2009)
?
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
25
Repositionnement> 1. au niveau sémantique profond
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
26
Repositionnement> 2. au niveau du dictionnaire
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
27
Prototype d’éditeur de définitions lexicographiques avec
la conceptualisation étendue
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
28
Prototype d’éditeur de définitions lexicographiques avec
la conceptualisation étendue
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
29
Prototype d’éditeur de définitions lexicographiques avec
la conceptualisation étendue
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
30
Offre une première base de discussion essentielleConfirme les attentes des lexicographes pour un tel outilPermet d’identifier des directions d’amélioration possible
Prototype d’éditeur de définitions lexicographiques avec
la conceptualisation étendue
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
31TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques
et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
2.a.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a. Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
32TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
• Critères de choix de (Gruber, 1995)▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique
Formalismes candidats
65Grammaires de dépendance
Théorie Linguistique Sens-Texte
Graphes Conceptuels
Web Sémantique& Logiques de description
33TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Le Formalisme des Graphes d’Unités•un formalisme à base de graphes•inspiré des Graphes Conceptuels•construit pour la théorie Sens-Texte
34TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques
et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
2.b.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b. Construction du formalisme des Graphes
d’Unités
35TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Hiérarchie des types d’unités> Objectif • Un type d’unité hérite la structure actancielle de ses parents• et peut la spécialiser
▫ PosA optionnelle obligatoire▫ PosA optionnelle interdite▫ spécialisation des signatures
36TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Hiérarchie des types d’unités> Solution: types primitifs d’unités• Pour un symbole d’actant s
▫ le radix de s introduit une PosA s▫ l’obligat de s rend la PosA s obligatoire▫ le prohibet de s rend la PosA s interdite
hiérarchie des types primitifs = superposition intriquée de telles structures
37TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Graphes d’Unités
38TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Règles de graphes d’unités
• une hypothèse• une conclusion• des nœuds frontière
39TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Définitions de types d’unités= deux règles contraposées
40TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques
et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a. Etude du raisonnement logique3.b.Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
3.a.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
41
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Objectifs du raisonnement• Critères de choix de (Gruber, 1995)
▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique?
42
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Sémantique logique
Théorie des modèles & Algèbre relationnelle
G implique H =pour tout modèle M qui satisfait G, il existe un modèle qui satisfait H
43
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Déduction logique
Règles d’inférence & Dérivation logique
H peut être déduit de G =H peut être projeté sur un graphe d’unité dérivé de G
44
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Décidabilité de la déduction logique
• Condition suffisante: Expansion finie
▫ des conditions d’acyclicité sur la hiérarchie des types d’unités sur les définitions lexicographiques
▫ Les lexicographes de la Théorie Sens-Texte s’imposaient déjà ces conditions par intuition
45TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
t
1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques
et des définitions lexicographiques
1. La conceptualisation est-elle adaptée à une formalisation ?
3.a.Etude du raisonnement logique3.b. Opérationnalisation sur le web des données
3. Comment peut-on opérationnaliser ce formalisme ?
3.b.
2. Quel formalisme est adapté à cette conceptualisation ?
2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités
46
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Standards du web sémantique
47
TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Modèle: OWL 2 RL,
Alignement avec
ontolex
deux modèles différents, mais interopérables
48
Ingénierie des connaissances
Conclusions
représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...
Théorie Sens-Texte
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
49
Conclusions
Conceptualisation Représentation Opérationnalisatio
n
t
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
50
Choisir le formalisme Le Peupler L’Appliquer
t
Conceptualisation Représentation Opérationnalisatio
n
t
TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST
Perspectives