n. aussenac-gillesconstruction d'ontologies à partir de textes - bda 20031 construction...

65
1 Construction d'ontologies à partir de te xtes - BDA 2003 N. Aussenac-Gille s Construction d’ontologies à partir de textes Nathalie Aussenac-Gilles IRIT – CSC ingénierie des connaissances [email protected]

Upload: yvon-vial

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

1Construction d'ontologies à partir de textes - BDA 2003N. Aussenac-Gilles

Construction d’ontologies à partir de textes

Nathalie Aussenac-Gilles

IRIT – CSC ingénierie des connaissances

[email protected]

Page 2: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 2

Thème et objectifs

Thème : Méthode et outils pour la construction de modèles

conceptuels à partir de textes

Objectifs : Montrer les enjeux pour les recherches sur la modélisation

conceptuelle de la problématique des ontologies Clarifier les caractéristiques des différents paradigmes Placer le débat au niveau des modèles et de leurs contenus Importance de l’usage et des applications

Présenter un panorama d’outils et une méthode

Page 3: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 3

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques : définitions

4. Construire des modèles conceptuels à partir de textes

Page 4: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 4

1. Motivations

Convergence des objets de recherche

Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances

Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels

Ateliers de génie logiciel étendus pour représenter des ontologies

ER ou UML pour représenter des ontologies ex : ICOM http://www.cs.man.ac.uk/~franconi/icom/

atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML.

Page 5: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 5

1. Motivations

Croisements du côté des applications

Frontières moins nettes entre types d’applications Ex : PICSEL : ontologie pour accéder à des serveurs de BD BD semi-structurées pour la mémoire d’entreprise Mise en forme de business rules au sein d’un SI

Utilisation des ontologies pour organiser, structurer des données Ex : faut-il une ontologie ou une BD pour organiser une

bibliographie ? « Ontologie » désigne une hiérarchie de termes, une base de

données lexicales ou

Page 6: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 6

1. Motivations

Poser les bases pour un débat

Confusion ou perplexité au niveau des applications Face à un besoin d’entreprise : ontologie ou schéma

E/R ou UML ? Confusion entre la question des langages et la

question de la nature de chacun de ces modèles Situer le débat au niveau de la modélisation

conceptuelle Statut des modèles Ancrage et fondements des connaissances

Page 7: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 7

1. Motivations

L’invasion des ontologies

Tout est-il ontologie ? Retour sur la définition Retour sur les prétentions affichées Panorama sur les ressources terminologiques et ontologiques

Des ontologies « à tout faire » Des prétentions … aux usages Ce que permet la formalisation (cf. BD déductive ?)

Formaliser pour affiner le sens Formaliser pour vérifier Formaliser pour raisonner

Ce que permet une dimension lexicale Des termes pour communiquer Des termes pour localiser des concepts ou des connaissances

Page 8: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 8

Plan

1. Ontologies et textes à BDA : motivations

2. La modélisation conceptuelle en question

a. Réponses possibles en matière de modélisation

b. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques : définitions

4. Construire des modèles conceptuels à partir de textes

Page 9: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 9

2. Modélisation conceptuelle en question

Modéliser, c’est répondre à des besoins Modèles comme support au dialogue Modèles comme spécification de code Eventail de contraintes sur les modèles

Modéliser, c’est représenter Primitives conceptuelles (méta-modèle) « Langage » de représentation

Modéliser, c’est sélectionner les « bonnes connaissances » Méthodes pour analyser, identifier, décrire Outils d’aide

Page 10: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 19

Facettes de la modélisationFondements des modèles

Fonder des modèles sur l’introspection, l’analyse d’organigrammes et des normes (formes normalisées) L’approche BD

Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états … Approche ontologique formelle et philosophique

Fonder des modèles sur l’analyse de l’activité et des savoir-faire individuels ou collectifs mis en œuvre L’approche IC (ergonomie et sociologie)

Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela suppose Approche développée dans ce tutoriel

Page 11: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 20

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

a. Définitions

b. Enjeux de la formalisation

4. Construire des modèles conceptuels à partir de textes

Page 12: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 21

3.a. Ressources terminologiques et ontologiques : définitions

Une gamme de produits construits pour accéder aux connaissances via la langage

Thésaurus (recherche documentaire et RI) Terminologies (aide à la rédaction, traduction) Base de connaissances terminologiques

(formation, modélisation d’un corpus) Ontologies (systèmes à base de connaissances,

agents sur le web, …)

Page 13: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 22

ThesaurusThésaurus SRLF et de la SFAR

hémopéritoine

Page 14: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 23

Ontologie : définition

Modèles des connaissances d’un domaine : ontologie du domaine … pertinentes pour une application, une tâche donnée : ontologie

régionale Application de principes de normalisation, de « bonne

construction » Conceptualisation sous forme de réseau sémantique (concepts,

relations) + axiomes

Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets.

Page 15: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 24

Liens

Hiérarchie de relationHiérarchie de concepts

Ontologie

ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL LESION adénopathie … épanchement épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique

LESION (LOCALISATION) ANATOMIE

LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niveau_de

ANATOMIE … ANA_TISSU_ENVEL capsule duremère mésentère peau … péritoine

hémopéritoine : « épanchement hématique localisé au niveau du péritoine »

épanchement hématique (au_niveau_de) péritoine

Concept défini

Page 16: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 25

Hiérarchie de relationsHiérarchie de concepts

Ontologie

LESION épanchement fracture

LESION (LOCALISATION) SITUATION

LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niv_de …

SITUATION angle base bord

SITUATION (OBJET) ANATOMIE_OBJET

OBJET … DE …

ANATOMIE_OBJET OS crâne

fracture à la base du crâne

fracture (au_niveau_de) base (DE) crâne

Liens

Concept défini

Page 17: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 26

Thesaurus vs. Ontologie

Thesaurus Contenu :

Descripteurs, mots-clés Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi»

Utilisé par un agent humain (documentaliste, spécialiste) pour indexer des documents

Ontologie Contenu

Une taxinomie des concepts, une taxinomie de relation Des « rôles »

Décrite dans un langage de représentation des connaissances et exploitée par un système informatique

Possibilité de comparer et de classer des concepts Capacité générative Inférences

Page 18: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 27

Le modèle des données d’une BCT

DOCUMENT2Service YYY

------------Unité1.2Service XXX

------------

relation conceptuelle

Fragments de Textes

Unité 1.1

DOCUMENT1

Service XXX

#Documentdéfinition ------attributs ----

contextes de validité

Concepts#Top

dossier de spécification

document de projet.

document de spécification détailléeinformations linguistiques

Termes

Page 19: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 29

3.b. Ontologies : enjeux de la formalisationCapacité d’expression

Exemple : projet PICSEL, LRI

Partie terminologique Concepts organisés en hiérarchie, définis par leurs relations

(cns ou père + prop.spécifiques)(DEF-CONCEPT chercheur

(and personnel-recherche

(ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade)

(ALL encadre Thésard)))

Contraintes : Relations d’exclusion entre concepts de base

EquipementCulturel equipementSportif Typage des rôles : (ALL encadre Thésard) dans définition Chercheur

Page 20: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 30

3.b. Ontologies : enjeux de la formalisationCapacité d’expression

Partie déductive Relations autres que unaires et binaires :R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1),

lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2), lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart), dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2)

Relations disjonctives : autant de règles que d’alternativesProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié)

ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y)

Relations inverses Raccourci d’enchaînement de rôles

Page 21: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 31

3.b. Ontologies : enjeux de la formalisationCapacité d’expression

Expression de requêtes SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l),

lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p)

Calcul de plans de requête Vérifier la satisfiabilité Substituer chaque terme de la requête par sa définition logique, c’est-à-dire

par toutes ses spécialisations possibles -> plusieurs requêtes disjonctives Réécriture de chaque requête conjonctive (même principe) à partir de la

réécriture de chacun des atomes -> identification des faits correspondants Affinement de requêtes

Repérage de conflits Exploitation de la hiérarchie pour généraliser Calcul de requête satisfiable à partir de requêtes insatisfiables par

généralisation de concepts

Page 22: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 32

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

4. Construire des modèles conceptuels à partir de textes

a. Justification

b. Panorama d’outils pour l’analyse de textes

c. Une méthode à travers une étude de cas : le projet verre

Page 23: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 33

4 - Construire des modèles à partir de textesJustification

Pourquoi recourir aux textes ? Sources de connaissances (partagées et stabilisées à l’écrit) Améliorent la lisibilité et la maintenance des modèles Complémentaires de l’expertise humaine

Gain de temps, réduction des coûts

Quels textes ? Nature et contenu des corpus Ensemble de textes choisis en fonction de l’application et de

leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.)

Documents techniques, documents didactiques, retranscriptions d’entretiens, informations échangées par réseaux …

Page 24: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 34

Quels outils d’analyse de textes pour la construction de modèles conceptuels ?

Logiciels de traitement automatique des langues : TAL« Partir des textes pour mieux y revenir »

Textes

Système d’informationTraitant des textes tal2

Modèle

tal1

Page 25: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 35

Problématique du traitement de l’information textuelle

système

L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin.

texte

épanchement hématique (au_niveau_de) péritoine

Ressource

ANATOMIELESION LOCALISATION

hémopéritoine

CONCEPT

terme

Page 26: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 36

Traitement de l’information textuelle

sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée

sevrage (OBJET) Noradrénaline

RTO

système

texte

sevrage en noradrénaline sevrage de la noradrénaline

sevrage Adj? [de|en] la? noradrénaline

sevré de noradrénaline

noradrénaline être Adv? sevré

sevrage_Noradrénaline

CONCEPT

termes

patrons

Page 27: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 37

Panorama de logiciels pour extraire et structurer

Une typologie fonctionnelle :1. Extraction de concordances : YAKWA, SATO2. Extraire des candidats termes. ex : Syntex, NOMINO, ANA3. Extraire des relations candidates. Ex: Prométhée, Caméléon4. Extraire des constructions prédicats / arguments : ASIUM,

SVET’LAN Autres typologies

Méthodes linguistique / méthodes statistiques Construction de RTO / mise à jour de RTO Phase d’amorçage / phase d’enrichissement

Rappel : il ne s’agit pas de construction automatique…

Page 28: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 38

1 . Extraction de concordances

Fonction : pour un patron donné, présenter toutes les occurrences rassemblées

Niveau d’annotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples :

{nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+

{déterminant démonstratif}+{Nom}

activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système

Page 29: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 39

Exemple de logiciel d’exploration de corpus : Yakwa

Principes Requêtes basées sur la syntaxe et la sémantique Nécessite une corpus étiqueté (Tree Tagger analyseur

syntaxique)

Utilisation pour la recherche de relations entre concepts Aller chercher des indices lexicaux (marqueurs) de

relations sémantiques pour organiser les concepts Lien avec Caméléon : utilisation de marqueurs génériques

pour relations EST-UN et PARTIE-DE

Page 30: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 40

Création de requêtes

Page 31: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 41

Interprétation des résultats

Page 32: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 42

Fonction : extraction et tri automatiques de candidats termesCT : séquence susceptible d’être retenue comme étiquette de concept

Méthodes d’extraction statistiques

segments répétés information mutuelle

morpho-syntaxiques repérage de patrons analyse syntaxique partielle

Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant

2 . Extraction de termes

Page 33: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 43

Syntex : analyse syntaxique et construction d’un réseau de syntagmes

En entrée : un corpus étiqueté Dans chaque phrase, à chaque mot est associée une

étiquette morphosyntaxique (Cordial, TreeTager) En sortie : 1) un corpus analysé syntaxiquement

Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots

En sortie : 2) un réseau de syntagmes 1) De chaque phrase, extraction de syntagmes verbaux,

nominaux, adjectivaux 2) Pour l’ensemble du corpus, construction d’un réseau de

syntagmes structuré par les relations Tête et Expansion

Page 34: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 44

1) Analyse syntaxique

Le chat de Marie mange une petite souris.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

OBJSUJ

Etiquetage morphosyntaxique

Analyse syntaxique

Page 35: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 45

2) Construction d’un réseau de syntagmes

L’ érosion attaque un plan de faille

SUJ OBJ

attaquer un plan de faille

plan de faille

faille

T

T E

E

plan : nom plan de faille : syntagme nominalattaquer : verbe attaquer un plan de faille : syntagme verbal

T : têteE : expansion

Extraction desyntagmes

plan

attaquer

Page 36: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 46

2) Construction d’un réseau de syntagmes

attaquer

~ pénéplaine ~ pente raide ~ plan de faille ~ roche sédimentaire ~ section anticlinale ~ table karstique

faille

escarpement de ~ligne de ~plan de ~

T

plan

~ de cisaillement ~ de diaclase ~ de faille ~ de glissement ~ de schistosité ~ de stratification

T

E

Page 37: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 47

Données de l’analyse distributionnelle

agent de l’état

agent de l’état

agent de l’état

agent

agent

agent

formation professionnelle

formation professionnelle

formation professionnelle

formation

formation

formation

état

professionnel

( bénéficier de formation professionnelle , SUJ )

( bénéficier de formation, SUJ )

( bénéficier , SUJ )

( bénéficier de formation professionnelle , SUJ )

( bénéficier de formation, SUJ )

( bénéficier , SUJ )

( agent de l’état bénéficier , DE )

( agent bénéficier , DE )

( bénéficier , DE )

( agent de l’état bénéficier , DE )

( agent bénéficier , DE )

( bénéficier , DE )

( agent , DE )

( formation , ADJ )

Termes Contextes

Page 38: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 48

Mesures de similarité

Contextes pour le terme :murmure vésiculaire

Termes pour le contexte :( patient présenter , OBJ )

( abolir , OBJ )( abolir à gauche , OBJ )( abolition , DE )( diminuer , OBJ )( diminuer à gauche , OBJ )( diminution , DE )( percevoir , OBJ )

amyotrophiedétressedouleurdouleur thoraciquedyspnéefièvrefracturehématomeSyndrome

productivité = 7 productivité = 9

Productivité d’un terme, d’un contexte

Page 39: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 49

3 . Extraction de relations : Caméleon

La notion de marqueur : Eléments lexico-syntaxiques permettant de repérer une

relation conceptuelle

Hypothèses : Une même relation peut s’exprimer par différents marqueurs Les relations peuvent dépendre du corpus Les marqueurs peuvent dépendre du corpus

Corpus étiqueté en entrée, hypothèses de relations en sortie

Modèle conceptuel enrichi de relations conceptuelles

Page 40: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 50

Ajuster les marqueurs

Sélectionner des relations et des marqueurs génériquesex : hypéronymie (est-un) :

Det N1 est Det N2 (qui, adj, p.passé, p.présent) Tous les N2 sauf det N1 Det N1 comme det N2

Les évaluer en corpus Les adapter au corpus pour réduire le bruit et le silence Identifier patrons et relations spécifiques au corpus

Par projection de couples de termes Par observation de contextes Par observation des résultats de Syntex On construit une base de marqueurs adaptés au corpus

Page 41: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 51

Phrases qui contiennent la forme et qui

peuvent contenir une relation (hypothèses)

Formule qui définit le marqueur

Termes en relation que

peuvent indiquer des

concepts reliés

Répérer des relations lexicales

Page 42: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 52

Repérage de relations

avec Caméléon

Des hypothèses de relations aux

Relations conceptuelles

Page 43: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 53

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

4. Construire des modèles conceptuels à partir de textes

a. Justification

b. Panorama d’outils pour l’analyse de textes

c. Une méthode appliquée à une étude de cas : le projet verre

Page 44: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 54

Construire des modèles à partir de texte Principes

Exploiter les textes Partir des textes comme sources et supports de

connaissances Utiliser des techniques et outils d’analyse de corpus basés

sur des principes linguistes et statistiques Plonger le modèle conceptuel dans son contexte linguistique

: conserver un lien du modèle vers les textes

Poids de l’application L’ontologie est construite pour une application. L’application s’inscrit dans une pratique (domaine) L’ingénieur de la connaissance est un médiateur.

Page 45: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 55

L’ontologue au centre

RessourceTermino-

Ontologique

Application

Domaine

Textes tal

Ressourcesexistantes

Utilisateur

u

Ontologue

o

Spécialistes

s s

Page 46: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 56

Une autre vue sur la méthode

Modèle

Documents Techniques

Outils d’Analyse de Textes

2. Appliquer des outils d’analyse de textes

3. Structurer et normaliser les données

4. Formaliser dans un modèle

1. Constituer un corpus

Page 47: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 57

1. Constitution du corpus

Choisir des documents Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les documents les plus pertinents pour l’application Mettre les documents au bon format Evaluer leur pertinence

Décider de la manière de les traiter Identifier les groupes homogènes : type de document, sujet Rendre compte de connaissances communes ou différenciées

Opportunisme : découpage en sous-corpus

Page 48: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 58

Constitution du corpus

Vocabulaire générique du verre

Livre

Vocabulaire technique : procédés du verre textile

10 chapitres104132 mots

Brevets

Vocabulaire technique des dépôts de brevets

13 brevets61272 mots

Veille

Vocabulaire de la finance et économie

7 mois articles AFP91658 mots

563 noms et 59 SN

Entre 93 et 98% des SV et SN etplus de la moitié des mots simples sont propres à chaque sous-corpus.

caractérisation rapide de la nature de ces vocabulaires

Page 49: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 59

2 . Etude terminologique

Documents techniques

Eléments d’ontologie

Outils d’analyse de textes

YakwaSyntex

Extraction de termes mis en relation par Syntex

Recherche de relations à l’aide de patrons avec Yakwa

Fiches terminologiques dans Terminae et fiches Concept-terminologique dans Excel

Liée à la normalisation

Terminae

Page 50: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 60

Représentation dans Terminae

Page 51: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 61

3 . Normalisation

Interprétation sémantique du contenu des textes guidée par l’expertise et les besoins de l’application Il est utopique (et coûteux) de vouloir TOUT tirer des

textes et seulement des textes. Structurer => Fixer un point de vue lié à l’application

3 types d’activités Regroupements, généralisations, spécialisations Mêmes données, exploitées selon trois points de vue.

Page 52: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 62

Recommandations pour la normalisation

A. Des principes d’analyse des textes

B. Une démarche générale pour définir et organiser des concepts (en 5 points)

C. Des principes de normalisation

Page 53: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 63

A - Principes d’analyse des textes

Deux axes pour caractériser les tâches effectuées Axe texte/modèle

Data-driven : du texte au modèle (dépouillement)

Model-driven (fouille, recherche ciblée)

ManufacturingProcesses

top

Textile glass concepts Inventions

Finance concepts

ProcessesMaterials

Products

Glass Fiber

Glass Yarn manufacturing Processes

Glass Yarnn

Fiberizing

CorpusRésultats du TAL

Axe « parcours au sein du modèle »Ascendant : regroupement, abstractionDescendant : spécialisation, raffinement de conceptsCentrifuge : rayonnement autour de concepts centraux

Des principes empiriques

Page 54: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 64

B - Démarche générale pour définir et organiser des concepts

1. Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge)

2. Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante).

3. Étude des autres types de relations associés à ce concept • à partir de séquences de Syntex (démarche des textes vers le modèle)

• Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes)

4. Organisation des résultats dans TERMINAE

5. Validation partielle par l’expertise

Page 55: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 65

C - Principes de normalisation

Justifier la place d’un concept dans l’ontologie par les relations qu’il entretient avec les autres concepts Concept ou instance Différenciation des concepts Unicité de définition Homogénéité de point de vue Cohérence des descriptions

Critères de normalisation Point commun entre 1 concept et son père Différence entre 1 concept et son père Points communs entre 1 concept et ses frères Différences entre un concept et ses frères

Représentation à l’aide des relations et de l’héritage

Page 56: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 66

2 - Spécialisation et généralisation d’un concept

Exploitation des relations tête/expansion (on cherche les mots dont « process » est en tête) ; fiberizing process, manufacturing process, industrial process, etc

Exploitation des verbes et formes nominales Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing,

bushings

Étude des voisins dans Syntex et observation des contextes qu’ils partagent. Process et processing

Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE Process of manufacturing + Nom complément

process of manufacturing the glass yarns process for manufacturing thin profiles process for manufacturing the granules

Page 57: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 67

2 et 3 - Etude des relations autour d’un concept

Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à l’aide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, …

Des relations à une hiérarchie de concepts Différencier des concepts selon des critères homogènes :

corps solide/corps liquide, différents processus de fabrication …

Relations révèlent des critères de différentiation Ajout de concepts non terminologiques

Page 58: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 68

Contenu du modèle

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoaded

Solvent

DryingWashedScraps

DetectingLossSolvent

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoaded

Solvent

DryingWashedScraps

DetectingLossSolvent

PROCESS

ManufacturingProcess

WashingScraps

ManufacturingGlassYarns

DRAWINGPROCESS

CONVERSIONINTO

SALEABLEPRODUCTS

GLASSMANUFACTURING

PROCESS

MouldingProcess

PressMouldingProcessWashingScrapsSteps

SheetMouldingProcess

ManufacturingThinProfiles

OpenLayUpMouldingProcess

ReinforcedReactionInjectionMouldingProcess

ReinforcedPlasticMouldingProcess

CompositeMouldingProcess

InjectionMouldingProcess

SeparatingFibresOfYarns

UnwindingGlassYarns

DippingSheetOfGlassFibres

HotShaping

HeatingSheet

ReCirculatingSolvent

TransferringResine

FeedingScraps

AddingCleanSolvent

CirculatingScraps

CollectingResinLoaded

Solvent

DryingWashedScraps

DetectingLossSolvent

Page 59: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 69

Première structuration dans Excel

Page 60: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 70

4 . Formalisation

Nature de la formalisation Traduction en logique (concept = ensemble de relations,

conditions nécessaires et suffisantes pour sa définition) Vérification de l’unicité des définitions

• TERMINAE : • Représentation des connaissances en logique de description• Formats d’exportation standards (OIL, RDFs)

• Jusqu’où formaliser ?• Revenir à la demande• Introduction de concepts, relations et règles pour optimiser la

représentation et l’utilisation qui en est faite (ex : requêtes)

Page 61: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 71

Fibre de verre

Page 62: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 72

Conclusion

Apport des ontologies Fondements ontologiques Formalisation Capacité de raisonnement Standards pour la représentation des connaissances

Apport des ontologies à composante terminologique Retour vers les textes Documentation

Acquérir des connaissances à partir de textes Méthodes éprouvées Outils mieux adaptés et plus disponibles Fondements des modèles s’appuyant sur les usages et les connaissances

écrites, stabilisées d’un domaine

Page 63: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 73

Perspective : mise à jour de modèles conceptuels

Maintenance d’un modèles, d’une ontologie Retour d’expérience Mise à jour du corpus de référence

La trace Il peut y avoir une distance importante entre les résultats des

outils et le modèle de type RTO corpus Termes ? MC

Le corpus est un des éléments de documentation d’un modèle Termes de la RTO : « pont » entre le réseau de concepts et le corpus Garder la trace des choix de validation et de modélisation (positifs et

négatifs)

Incrémentalité Utiliser la RTO construite pour faciliter l’analyse du nouveau corpus:

par les outils de TAL et par l’ontologue

Page 64: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 74

Des recherches à poursuivre

Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches La notion d’ontologie est intrinsèquement liée à

celle d’application, d’usage Tester la faisabilité Identifier les verrous Retour sur investissement : mettre en place des

expériences pour mesurer le ratio : coût /gain Remise en question des ontologies ?

Page 65: N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

75Construction d'ontologies à partir de textes - BDA 2003N. Aussenac-Gilles

Bibliographie Acquisition à partir de textes Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou

ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en 2004.

Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur l’analyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en 2003.

Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, 11-14 juin 2003, Batz-sur-mer, pp. 27-47

Projet Verre N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes d’une ontologie

du domaine de l’industrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint-Gobain Recherche. Rapport Interne IRIT/2002-28-R. Sept. 2002.

PICSEL Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des

sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès-Editions.

Modélisation conceptuelle http://www.semanticweb.org/ Engle P. Data modelling, left and right. The Data Administration Newsletter. 2003. http://www.TDAN.com/ Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int.

Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS. 2002.