cours sur le traitement automatique des langues
TRANSCRIPT
Cours sur le traitement automatique des languesLa sémantique
Violaine PrinceUniversité de Montpellier 2LIRMM-CNRS
Introduction 2
Plan de l’exposé Introduction Les principes Les applications
recherche d’information interprétation de requêtes dialogues finalisés le contrôle de l’interprétation
morphosyntaxique Conclusion et perspectives
Introduction 3
Introduction Qu ’est-ce que la sémantique ?
affectation d ’un (ou plusieurs) sens à des formes
A quoi sert la sémantique ? l ’utilité dépend du domaine
Domaines de la sémantique linguistique logique langages
Introduction 4
Définitions de la sémantique (I)
Autant de définitions que de domaines en logique : affectation d’une interprétation à
un prédicat, une formule, un énoncé en logique classique : évaluation à vrai, faux en logique multivaluée : évaluation à une des
valeurs autorisées en logique floue : calcul de la valeur (numérique)
de la fonction de « fitness »
Introduction 5
Exemples (I) objet (ballon, rouge) évalué à vrai si
et seulement si : objet(x,y) et « ballon » appartient
au domaine de validité de x et « rouge » appartient au domaine
de validité de y sémantique vériconditionnelle ne traite pas du rapport avec le
monde
Introduction 6
Exemples (II) objet( ballon, rouge) évalué à
« inconnu » en logique non monotone
si on n ’a pas, dans la base, objet(ballon, rouge), comme une connaissance vraie.
Introduction 7
Définitions de la sémantique (II) langages de programmation : intervient après la vérification morpho-
syntaxique la sémantique est réalisée par le
compilateur ou l ’interpréteur interpréter une instruction revient à
• vérifier les contraintes d ’intégrité• produire un exécutable
Introduction 8
Définitions de la sémantique (III)
linguistique : il existe plusieurs définitions ordonner les significations d ’un mot (sens du
dictionnaire) exemple : pompe
• 1. appareil permettant l ’aspiration d’un liquide, ex : « une pompe de relevage »
• 2. par extension de 1, dispositif de fourniture d ’essence pour automobile , « la pompe à essence »
• 3. par extension de 2, représente les propriétés de l ’essence, « le prix à la pompe »
• 4. par extension de 2, représente le lieu de fourniture d ’essence , « il y a une pompe pas loin ».
Introduction 9
mais aussi , • 5.faste, luxe , « cérémonie en grande pompe »• 6. (familier) chaussures « des pompes en simili-
crocodile ».• 7. Exercice physique, parfois d ’aspect punitif « vous
me ferez 100 pompes » retrouver le (ou les sens) en contexte :
• Je me suis arrêté à la première pompe que j ’ai pu trouver. J’en ai profité pour nettoyer au jet mes pompes boueuses, d’autant plus que je devais assister ensuite à une cérémonie en grande pompe à la mairie.
Introduction 10
Qu’est-ce qu’un contexte ?
En linguistique : groupe de mots phrase paragraphe texte
mais aussi : le sous-ensemble des hypothèses de l’auditeur sur le
monde (Latraverse, 1987) les objets et individus présents dans la situation
d’énonciation ou évoqués par elle (Lyons, 1977)
Introduction 11
référent : objet linguistique
référé: objet mental objet référé: objet du monde
Langue
mondeindividu
triangle aristotélicientriangle aristotélicienLe contexte d’un objet linguistique est composé :1.du co-texte (autres objets linguistiques dans l ’entourage)2.du contexte mental (base de connaissances) où se trouve le référé3.du contexte externe (le monde) où se trouve l ’objet référé.
Introduction 12
En logique les prédicats du même énoncé les variables liées les valeurs de variables proposées
En logique, les contextes mental et externe sont confondus avec le co-texte
En programmation : il existe un « contexte mental » qui pourrait
correspondre à : l’état de la base de connaissances l’état de la machine
Introduction 13
A quoi sert la sémantique
En linguistique : mise en rapport des objets de langue
avec le monde• les enfants de Pierre et Marie sont blonds• La génération soixante-huit, ce sont les
enfants de Marx et du Coca-Cola En traitement automatique des langues
mise en rapport des objets de langue et d’une « forme » calculable
les principes 14
Les principes Les modèles
de la linguistique de l ’intelligence artificielle autres modèles en informatique
Les modes de résolution Les architectures
les principes 15
Les modèles Modèles linguistiques pour la
sémantique sémantique compositionnelle sémantique différentielle sémantique « interprétative »
les principes 16
Modèles linguistiques pour la sémantique Sémantique compositionnelle
Le sens de la phrase est une composition (plus ou moins formelle) des sens des mots
si un mot a plusieurs sens, cela génère autant de combinaisons possibles
le « bon » sens est celui dont la combinaison est plausible
les principes 17
Sémantique compositionnelle
Exemple« Je me suis arrêté à la première pompe
que j’ai pu trouver. »
lieuappareilchaussure
La condition de « plausibilité » exclut : « faste », et « exercicephysique ».
les principes 18
Sémantique compositionnelle
Exemple« Je me suis arrêté à la première pompe
que j ’ai pu trouver. » trois « phrases -sens » générées.
QUI DÉTERMINE LA PLAUSIBILITÉ ?UN PROCESSEUR HUMAINUNE CONNAISSANCE FORTE DU MONDE
les principes 19
Sémantique compositionnelle
Exemple« Je me suis arrêté à la première pompe
que j ’ai pu trouver. » Une deuxième « passe » de plausibilité
supprimera le sens « chaussure ».
EST PLAUSIBLE CE QUI :N ’EST PAS INCONGRUN ’EST PAS RIDICULE
les principes 20
Sémantique différentielle
Parmi tous les sens d ’un mot, c ’est le plus spécifique qui doit être choisi en premier.
S ’appuie sur une représentation très fine des sens des mots dans le dictionnaire
Pottier, Greimas (sémantique structuraliste), Barwise et Perry (sémantique des situations)
les principes 21
Sémantique différentielle
« Je me suis arrêté à la première pompe que j ’ai pu trouver. »
• 1. appareil permettant l’aspiration d’un liquide, ex : « une pompe de relevage »
• 2. par extension de 1, dispositif de fourniture d ’essence pour automobile , « la pompe à essence »
• 3. par extension de 2, représente les propriétés de l’essence, « le prix à la pompe »
• 4. par extension de 2, représente le lieu de fourniture d ’essence , « il y a une pompe pas loin ».
les principes 22
Sémantique différentielle
« Je me suis arrêté à la première pompe que j ’ai pu trouver. »
appareil
appareil à essenceaspiration liquide
1.
2.
les propriétés de l’essence
essence automobile3. lieu consacré à la ventestation d’essence
4.
Introduction 23
Sémantique différentielle
Les règles de différentiation qui s ’appliquent sont :
compatibles avec le co-texte arrêter, trouver
forcées par le co-texte (coercitive rules de Pustejovsky)
les principes 24
Sémantique interprétative
Le sens le plus spécifique garde en mémoire tous les sens génériques, et la récurrence du terme peut s ’appuyer sur le fond commun.
Rastier (1986)Fonctionne pour les mots à sens multiples et
dépendants. .
les principes 25
Sémantique interprétative
« Je me suis arrêté à la première pompe que j ’ai pu trouver. »
appareil
appareil à essenceaspiration liquide
1.
2.
les propriétés de l’essence
essence automobile3. lieu consacré à la ventestation d’essence
4.
les principes 26
Les modèles Les modèles de l’intelligence
artificielle Les schémas (frames) Les scénarios (scripts) Les ontologies arborescentes
(issues des réseaux sémantiques) Les graphes conceptuels
les principes 27
Les modèles de l ’intelligence artificielle
Les schémas (Minsky 1974) Un schéma (frame) est un ensemble de
connaissances autour d’un sujet donné (ici, un mot).
L ’usage des schémas en sémantique se fait de la manière suivante : sur une chaîne de classification donnée, on
associe à chaque terme son schéma.
les principes 28
C1n
valeurs par défaut pour C1n sous forme d ’{attribut
(facette, valeur)}
C1n-1
C11
lien « is-a »
SchémadeC1
n
Schéma de C1
1
Schémade
C1n-1
les principes 29
Exemple Chaise :
chaise-à-porteur
chaise
meublecomposé de:pieds (3, 4)dosseret (oui,
barreaux : oui,non non)assise :matière
fait en :matière (organique, minérale)type (naturelle, artificielle)prix:origine :
17ème sièclemode de transport
fauteuil
les principes 30
Beaucoup de connaissances à intégrer Problème des sens figurés du mot:
jouer aux chaises musicales mener une vie de bâton de chaise
Et de certains de ses dérivés : ambitionner le fauteuil présidentiel.
Les schémas sont adaptés en sémantique lorsqu ’il s ’agit d ’applications très limitées.
A éviter en recherche d’information ou indexation
les principes 31
Les modèles de l ’intelligence artificielle
Les scénarios (Schank 1978) Un scénario (script) est un ensemble de
connaissances autour d ’une situation donnée.
Le scénario comprend : des conditions initiales (de déclenchement) des actions (possibles) un résultat des exceptions (anomalies)
A chaque élément est associé un schéma.
les principes 32
Les scénarios pour l ’interprétation du LN
Les scénarios s’appliquent à l ’interprétation du langage naturel en fournissant les conditions pragmatiques d ’interprétation. Les conditions initiales peuvent être
exprimées par du texte Les actions sont des prédicats verbaux Le résultat est ce qui est attendu Les anomalies sont répertoriées lors qu ’elles
sont connues.
les principes 33
COMPRENDRE
événement
Ce qui est dit ce que l ’on sait déjà
Schémas
actionsélémentaires
référenceà d ’autresschémas
les principes 34
Exemple Scénario : « réviser une voiture »
ELEMENTS : voiture
ACTEURS : client, garagiste
CONDITIONS INITIALES le client amène sa voiture au garage il possède un moyen de paiement la voiture est dans un état donné
les principes 35
Exemple : réviser une voiture RESULTAT(ESCOMPTE)
le client reprend sa voiture au garage il a de l ’argent en moins la voiture est révisée
ANOMALIES le client ne reprend pas sa voiture la voiture n ’est pas révisée la voiture est révisée mais elle n ’est pas en
bon état
les principes 36
Exemple : réviser une voiture ACTIONS
Origine : CLIENT• AMENER (voiture, garage)• LAISSER-A (voiture, clés, papiers, garagiste)• CONVENIR-AVEC (rendez-vous, garagiste)• PARTIR• REVENIR• PAYER(facture)• PRENDRE (voiture, clé, papiers)
les principes 37
Exemple : réviser une voiture Origine : GARAGISTE
• pour chaque partie de Voiture (schéma VOITURE) faire :
– VERIFIER (partie)– si partie à changer alors CHANGER(partie)– si partie à réparer alors REPARER (partie)
• fin• pour tous les éléments changés et réparés,
MARQUER (partie)• FACTURER (partie)• DONNER (facture, client).
les principes 38
Les difficultés Des situations stéréotypées Ambiguïté du déclenchement
Jean est allé chez le garagiste.
acheter une voiture
louer unevoiture
réparer unevoiture
réviser unevoiture
Introduction 39
Extensions : plans et thèmes
Repérer le thème du texte acteurs, éléments premiers prédicats verbaux
Considérer un scénario comme un plan possible, modifiable (déroutable)
planification
les principes 40
Conclusion sur les schémas et les scénarios Essaient d ’intégrer des connaissances
« contextuelles » de type pragmatique Mais
lourdeur des structures rigidité aspect trop détailliste par certains côtés pas assez
par d ’autres énorme quantité de connaissances structuration dépendant fortement des concepteurs
les principes 41
Les modèles de l ’intelligence artificielle
Les « ontologies » arborescentes après l ’échec d’une structuration trop
importante et trop large restriction des années 90
à une application à un domaine, de préférence technique et défini à une structure arborescente
plusieurs « arbres de connaissance » plutôt qu ’un seul réseau
les principes 42
Exemple domaine : chimie application : enseignement secondaire de la
chimie atomique: agrégats « partie-de »
particule
atome
molécule substance
les principes 43
Exemple domaine : chimie application : enseignement secondaire de la
chimie atomique: agrégat « sorte-de »
particuleparticulechargée particule neutre
proton électron neutron
les principes 44
relations typées sorte-de selon un critère sorte-de : inclusion de classe sorte-de : membre-de partie-de
Les ontologies arborescentes supposent : un mot un sens
ce qui correspond qu ’à un sous-ensemble très faible du langage naturel
les principes 45
Les modèles de l ’intelligence artificielle
Les graphes conceptuels (Sowa 1984) l ’idée que l ’esprit et le langage s ’organisent
de la même manière (ressemblance des contextes linguistique et mental)
il existe une représentation en lambda-calcul du contexte mental
application à la langue
objet du prochain cours
les applications 46
Les applications Recherche d’information
recherche d ’une information I représentée par un texte T, dans une base de documents D
Indexation par un texte T d ’une information I, applicable à toute base de documents Dk
Les deux problèmes ne sont pas exactement symétriques
les applications 47
Recherche d ’information
base de documents(corpus)
recherche d’occurrences
texte TI1
InI2
les Ij sont dessens possiblesde T, ou contenusdans des sens de T
l ’algorithme de recherched ’occurrence est celui d ’un motif M/ M◊d ’un sous-motif K de M/ MT = K
les applications 48
Problèmes L ’information I recherchée
n ’est pas représentée par un unique texte T n ’est pas le seul sens possible de T n ’est pas la composition des sens des éléments
de T Les occurrences de T récupérées, sont, au
mieux des sur-textes de T, parfois des sous-textes.
La recherche d ’information est donc parasitée par la non unicité sémantique.
les applications 49
Exemple L ’information I recherchée concerne « l ’Hôtel
de Ville », c ’est-à-dire, la mairie principale du lieu (s ’il s ’agit d ’une ville à arrondissements). La séquence « hôtel de ville » a pour sens :
I1 :mairie I2:sorte d ’hôtel I3:sorte d ’hôtel en milieu urbain.
Sont récupérées dans le corpus des chaînes : rue de l ’Hôtel de Ville l ’hôtel de Mussy est dans la ville de Gordes
les applications 50
Exemple (suite) Si, de manière sophistiquée, un analyseur
accepte les formes accordées, on récupère en plus : tous les hôtels de la ville de Paris sont chers. l ’hôtel est en dehors de la ville. au métro Hôtel-de-Ville, vous trouverez le bazar
de l ’Hôtel-de-Ville. mais aussi, avec un pourcentage affaibli de
concordance, tout ce qui va contenir « hôtel » et « ville », dans la fenêtre donnée.
les applications 51
L ’indexation l ’indexation est le marquage d ’un texte T
comme motif pour tout corpus de documents Dk, dans le but de récupérer une information I.
Il faut donc choisir, pour indexer, le meilleur T parmi les Ti représentant I, mais rechercher sur les Ti (avoir un dictionnaire T:Ti)
La qualité intrinsèque de T n ’est cependant pas suffisante, elle est dépendante de la confrontation avec chaque corpus.
les applications 52
L ’indexation Ainsi, par exemple il vaut mieux indexer par :
mairie que par « hôtel de ville » par :
coléoptère que par « papillon » à cause des sens multiples, mais, si vous
cherchez dans un corpus scientifique, la qualité de votre index n ’est pas la même que dans un corpus général.
les applications 53
Dans un corpus de biologie, le mot « mère »a souvent le sens de « origine » ce qui n ’est pas le cas des corpus autres,
et le mot « charme » va souvent être associé aux propriétés des particules dans un corpus de
physique atomique, aux arbres dans un corpus d ’agronomie mais aussi à n ’importe quel autre sens possible. ex « la démonstration/l ’expérience ne manque
pas de charme ».
les applications 54
Les applications L ’interprétation de requêtes
On suppose que l ’usager exprime une demande vis-à-vis d ’une : base de données base de connaissances base de documents
sous forme d ’une requête en langage naturel.
les applications 55
L’interprétation de requêtes
la sémantique consiste a : transformer la requête en structure toute ou partiellement appariable avec
la base de données : attribut/valeur la base de connaissances:
prémisse/conclusion la base de documents
dans le dernier cas, il s ’agit d ’identifier le texte T a rechercher, et le sens I le plus plausible de T.
les applications 56
Les dialogues finalisés
Le plus souvent, la requête est suffisamment mal formulée,
ou l ’on souhaite assister l ’usager dans la formulation ou la satisfaction de sa requête
Le dialogue est le plus haut niveau d ’intégration du TALN dans l ’interaction homme-machine l ’appariement de la requête devient l ’étape
ultime d ’un processus de communication
les applications 57
La sémantique au secours de l ’analysemorpho-syntaxique De nombreuses ambiguïtés morpho-
syntaxiques peuvent être levées grâce à l ’information sémantique, mais surtout pragmatique.
la ferme de Jean l ’usage désigne plus souvent le
bâtiment que la poutre.
conclusion 58
Conclusion(provisoire)
la sémantique est un élément qui, en TALN, devrait être indissociable de la pragmatique.
Les mots ont des significations possibles différentes, mais en contexte, ils ont un sens, qui peut être complexe.
les modèles logiques de la sémantique ont été insuffisants pour remplir leur rôle d ’interprétation
en revanche, ils sont très utiles comme systèmes d ’aide au raisonnement