vers une ontologie du domaine de lastronomie irit j. mothe, n. hernandez, e. lemoing

32
Vers une ontologie du domaine de l’astronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Upload: gerald-doucet

Post on 04-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Vers une ontologie du domaine de l’astronomie

IRIT

J. Mothe, N. Hernandez, E. LeMoing

Page 2: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Objectifs

• Concevoir une ontologie du domaine • Évaluer la réutilisabilité de la connaissance du

thesaurus IAU– Détection de concepts– Analyse des relations

• Enrichir cette connaissance à partir de textes– Détection de nouveaux termes– Détection de nouvelles relations

• Intégration avec les UCD

Page 3: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

IAU

• Thesaurus (représentation terminologique du domaine de l’astronomie) crée en 1995

• 2863 termes dont 2222 expressions (magnetic field, X ray,…)

• 5000 relations entre termes de plusieurs natures :– t1 BT t2 : terme t2 plus spécifique t1– t1 NT t2 : terme t2 plus générique t1– t1 U t2 : utiliser le terme t1 plutôt le terme t2– t1 UF t2 : utiliser le terme t2 à la place de t1– t1 RT t2 : t1 et t2 sont liés

Page 4: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Recherche termes IAU / CORPUS

• APJ– 1999 : 865 termes retrouvés– 2002 : 877 termes retrouvés

• A&A– 1995 : 832 termes retrouvés– 2002 : 884 termes

• 588 termes communs aux 4 corpus IAU adapté à l’indexation de nos corpus

Page 5: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Détection de concepts

• Relations U (utilisé) et UF (utilisé pour) du thesaurusExemple : hubble sandage variable stars UF H S variable

stars

• Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser)Exemple: concept : hubble sandage variable stars

label 2 : H S variable stars

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 6: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• 2959 termes dans le thesaurus 2547 concepts ayant entre 1 et 6 labels

• Problèmes posés après première validation:• Casse non-respectée

reprise de la casse de IAU (assez satisfaisant)

Ex : Ae STARS

E CORONA

e component

Détection de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 7: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Labels ambiguës (définissant plusieurs concepts) harmonic overtones est label overtones est label des

des concepts : concepts:HARMONIC FREQUENCIES OVERTONE FREQUENCIES

OVERTONE FREQUENCIES OVERTONE MODES

isolés et à valider individuellement

• Concepts ou labels trop éloignés de l’astronomieCONCEPT : AZIMUTH

bearing

Détection de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 8: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Besoin :Définir une procédure d’évaluation

• Evaluer labels correspondant à plusieurs concepts

• Evaluer concepts ayant plusieurs labels

• Evaluer concepts ayant un seul labelPertinence ou non par rapport au domaineTout le domaine ??

Détection de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 9: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Relation BT/NT définie comme relation de généricité/spécificitéCréation d’une hiérarchisation

• Problème redondance dans relations

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

suppression de 193 cycles

Page 10: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Au premier niveau : 1132 concepts

Difficulté pour la navigation dans l’ontologie

Type des concepts

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 11: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Nouveau niveau hiérarchique à partir du patron : m1s1 / m1s2 m2s2 où m1s1=m2s2

Exemples : CURVES :CURVES OF GROWTH- VELOCITY CURVES- HD CURVE-

COLOR (dans onto) : INTRINSIC COLORS- ULTRAVIOLET COLORS-

1132 682 concepts

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Concepts actuellement de niveau 1

Concept plus spécifique présent dans l’ontologie

Concept plus spécifique proposé à ajouter

Page 12: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Niveau plus abstrait à partir de wordnet + ressources

Sur les 682 concepts de premier niveau 189 ne sont pas dans wordnet

9 types abstraits :

act#n#2 : 140 abstraction#n#6 : 225state#n#4 : 41psychological_feature#n#1 : 113entity#n#1 : 368 possession#n#2 :

6phenomenon#n#1 : 105 group#n#1 : 39event#n#1 : 55

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 13: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• act#n#2 : something that people do or cause to happen

EX : APPROXIMATION -FRAGMENTATION -EXPLOSION -RETARDATION

• state#n#4 : the way something is with respect to its main attributes; "the current state of knowledge"; "his state of health"; "in a weak financial state"

EX : PRESSURE -PLANE -IONIZATION -DESTRUCTION

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 14: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• psychological_feature#n#1 : a feature of the mental life of a living organism

EX :SEEING – WAVELENGTH- PHOTOCHEMISTRY • entity#n#1 :that which is perceived or known or inferred to have its own distinct existence (living or nonliving)

EX : BEAM -THERMOSPHERE -CORE -BELT • possession#n#2 :anything owned or possessedEX : ADJUSTMENT -RATES -EFFECTS

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 15: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• abstraction#n#6 : a general concept formed by extracting common features from specific examples

EX PROMINENCE -SOLSTICE -EPOCH -GAP • phenomenon#n#1 :any state or process known through the senses rather than by intuition or reasoning

EX JETS -GRAVITATION -radioactivity -TRANSPARENCY

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 16: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• group#n#1 : any number of entities (members) considered as a unit

EX : SYSTEM -INTERIOR -CLOUD -BETA• event#n#1 : something that happens at a given place and time

EX : VARIATION -ENCOUNTER - TIDE –DISSIPATION

trop vague

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 17: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Utilisation de ressources du domaine (dictionnaire) ?

http://www.enchantedlearning.com/subjects/astronomy/http://imagine.gsfc.nasa.gov/docs/dictionary.html

faible couverture du domaine (environ 300 définition)

• Définir manuellement

=> utiliser pour concepts hors WordNet

Hiérarchie de concepts

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 18: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Analyses des relations RT

• Analyse syntaxiqueAnalyse des mots communs de deux syntagmes

reliés par RT

• Analyse par le logiciel SyntexAnalyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 19: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Analyses des relations RT

• 5975 relations RT287 liant syntagmes différant d’un seul mot Exemple : infrared radiation RT infrared

1286 liant syntagmes comportant mot communExemple : absorption spectra RT energy spectra

Autres ? À partir des corpus (Syntex)

Exemple : agb RT hr diagram :

A&A95 agb star, hr diagram of star

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 20: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Analyse des relations RT

• Définition de quatre patrons syntaxiques :

Rôle grammatical des termes communs dans le syntagme pour découvrir relations sémantiques

Exemple : Patron B - m1s1 RT m1s2 m2s2

- s1 « est un » s2 (généricité/spécificité)

Exemple : dwarf cepheid « est un » cepheid

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 21: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Syntex

Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d ’apparition dans le corpus

• Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D

• Syntagmes reliés par RT dont un des mots apparaît dans le contexte de l’autre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 22: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Types de relation

• Bilan de la première proposition:s1 «  est un phénomène lié a » s2

s1 « est une caractéristique de » s2

s1 « est une partie de » s2

s1 « est un » s2 (généricité/spécificité)

s1 et s2 sont des phénomènes liés entre eux

s1 et s2 sont des caractéristiques liées entre elles

s1 et s2 sont deux sous-concepts d’un même concept

relations intéressantes?

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 23: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Types de relation

• Autres approches :– Utiliser les verbes apparaissant dans le corpus

• Verbes apparaissant fréquemment :

trop généraux car liés à la rédaction de publication find show Present have observe use

• Verbes avec fort tf.idf :

Mauvaise reconnaissance de syntex

Mirror eclipse s vector

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 24: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Types de relation

– Utiliser le type des concepts

Physical phenomena : « causer par » …

Physical process : « fait interagir »..

Astronomical instrumentation : « mesure » …

Astronomical/physical technics : « étudie » … 

Astronomical object : « est une partie de » …

Property/caracteristic : « caractèrise » …

Theory

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 25: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Détection de nouveaux termes du domaine– Termes apparaissant souvent dans le corpus– Termes avec fort tf.idf ou fort tf.idf moyen– Syntagmes contenant un terme de l’ontologie

évaluer pour fixer seuil et meilleure approche

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 26: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

• Limites :– Mauvaise reconnaissance de Syntex (x ray, a

star, …)Besoin d’un fichier en entrée de Syntex des

termes ayant une structure propre au domaine, proposition d’une liste (évaluée)

– Pour approche à partir des termes de l’ontologie, être certain de la pertinence des termes

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 27: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Futur

• Proposition de typage des concepts

• Nouvelles analyses de Syntex

• Nouvelles analyses des relations RT

• Approfondir ajout de nouveaux termes et leurs liens avec l’existant

• Lien avec UCD

Page 28: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Termes différant d’un seul mot (2)

Relations sémantiques déduites :

• Patron A : m1s1 RT m1s2 m2s2

- s1 «  est un phénomène lié a » s2 Exemple : infrared radiation «  est un phénomène lié a »

infrared

- s1 « est une caractéristique de » s2Exemple : pulse width « est une caractéristique » de pulse

- s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de »

supernova

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 29: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Termes différant d’un seul mot (3)

• Patron B : m1s1 RT m1s2 m2s2

- s1 « est un » s2 (généricité/spécificité)

Exemple : dwarf cepheid « est un » cepheid

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 30: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Termes ayant un mot commun

Deux patrons syntaxiques:

– m1s1 m2s1 …mns1 RT m1s2 m2s2… m2sn

où m1s1 = m1s2 (patron C)Exemple : planck black body formula RT planck constant 590 relations

– m1s1 ... mns1 RT m1s2.. mns2 (patron D)

où mns1=mns2

Exemple : absorption spectra RT energy spectra

510 relations

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 31: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Termes ayant un mot commun (2)

Relations sémantiques déduites :• Patron C : m1s1 m2s1 …mns1 RT m1s1 m2s2… m2sn

- s1 et s2 sont des phénomènes liés entre eux

Exemple : signal analysi RT signal detection

- s1 et s2 sont des caractéristiques liées entre elle

Exemple : circumstellar envelope RT circumstellar shell

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU

Page 32: Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing

Termes ayant un mot commun (3)

• Patron D m1s1 ... mns1 RT m1s2.. mns2

– s1 et s2 sont deux sous-concepts du concept mns1

Exemple : absorption spectra et energy spectra sont des sous-concepts de spectra

Nouvelle connaissance extraite des corpus

Connaissance extraite de IAU