ontologies pour lastronomie nathalie hernandez josiane mothe laurent cardonner
TRANSCRIPT
Ontologies pour l’astronomie
Nathalie Hernandez
Josiane Mothe
Laurent Cardonner
Objectifs
• Représentation des informations via des ontologies (indexation)– Etude des thesaurus existants– Adéquation aux collections– Mise à jour de la connaissance du domaine
• Découverte de connaissances– Ontologie du domaine de la tâche / du contenu
Plan
• Résultats des analyses via Syntex
• Définition de mesures d’adéquation d’une ontologie par rapport à un corpus
• Techniques de mise à jour
• Définition de différents types d’ontologies adaptés à l’usage des données
• Exemple de l’exploration des publications
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
• A notre disposition :– thesaurus de l’astronomie IAU– résumés d’articles publiés dans les revues A&A
et APJ sur plusieurs années.
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Analyses
Syntex : analyseur syntaxique de corpus
• Intérêt : extraire syntaxiquement les expressions d’une collection documentaire [Bourigault & Fabre, 2000]
• Deux phases– Pré-traitement par un étiqueteur
– Analyse syntaxique
• Originalité : apprentissage endogène [Bourigault & Lame, 2002]
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Analyses
Résultats
• APJ
• A&A
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Analyses
1995 2002 communsResumés 1223 1834
Noms (disk, cluster, flux)
5483 7084 3091
Syntagmes Nominaux (magnetic field, gamma
ray, black hole)38493 54235 11839
Syntagmes Verbaux (have a mass, have
velocities)14707 20961 3739
1999 2002 communsResumés 2197 2300
Noms (disk, cluster, flux)
7031 7197 4077
Syntagmes Nominaux (magnetic field, gamma
ray, black hole)75070 77641 22378
Syntagmes Verbaux (have a mass, have
velocities)29280 30239 7113
IAU• Thesaurus (représentation terminologique du domaine de
l’astronomie) crée en 1995• 2863 termes dont 2222 expressions (magnetic field, X
ray,…)• 5000 relations entre termes de plusieurs natures :
– t1 BT t2 : terme t2 plus spécifique t1– t1 NT t2 : terme t2 plus générique t1– t1 U t2 : utiliser le terme t1 plutôt le terme t2– t1 UF t2 : utiliser le terme t2 à la place de t1– t1 RT t2 : t1 et t2 sont liés
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Analyses
Recherche termes IAU / CORPUS• APJ
– 1999 : 865 termes retrouvés– 2002 : 877 termes retrouvés
• A&A– 1995 : 832 termes retrouvés– 2002 : 884 termes retrouvés
• 588 termes communs aux 4 corpus IAU adapté à l’indexation de nos corpus? Mesures génériques (ontologie/thesaurus)
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Analyses
IAU en OWL
• Ontology Web Language [http://www.w3.org/TR/owl-
features/]
recommandation du W3C
• Transformation– Définition de concepts (différents labels)
X Ray UF X-RayX Ray UF X-Ray radiation X Ray ; X-Ray, X-Ray radiation
– Définition de relations (généricité/specificité, est lié à)
Techniques de mise à jour Exemple
Ontologies spécifiques à une tacheAnalyses
Mesures d’adéquation
Mesures d’adéquation
Analyse lexicale• Couverture ontologie / corpus
– Pourcentage de termes de l’ontologie présents dans le corpus
Choix ou non de l’ontologie comme point de départ
• Couverture corpus / ontologie– Détection des concepts représentatifs des
documents (tf.idf [Salton 71])Proposition de nouveaux termes à ajouter
Techniques de mise à jour Exemple
Ontologies spécifiques à une tacheAnalyses
Mesures d’adéquation
Mesures d’adéquation
Analyse conceptuelle• Principe : « un concept est représentatif d’un
domaine si il est en relation avec d’autres concepts du domaine »
• Définition d’une mesure du pouvoir représentatif d’un concept
• Définition d’une mesure du pouvoir représentatif d’une ontologie à partir de la mesure des concepts retrouvés dans les documents Validation du choix de l’organisation des concepts
dans l’ontologie
Techniques de mise à jour Exemple
Ontologies spécifiques à une tacheAnalyses
Mesures d’adéquation
Mesures d’adéquation
Mise à jour des concepts
• Ajout des termes représentatifs des documents dans l’ontologie– Nouveau label pour un concept– Nouveau concept
utilisation des mesures de proximité sémantique de Syntex
Exemple
Ontologies spécifiques à une tacheAnalyses
Mesures d’adéquation
Techniques de mise à jour
Techniques de mise à jour
Mise à jour des relations
• Spécification sémantique de la relation « est lié a » : (« événement lié à », « objet lié a »)
• Détection de nouvelles relations entre concepts utilisation des mesures de proximité
sémantique de Syntex
Exemple
Ontologies spécifiques à une tacheAnalyses
Mesures d’adéquation
Techniques de mise à jour
Techniques de mise à jour
• Nécessité de deux types ontologies :– Ontologie du domaine de la tâche : organisation
des méta-données ou rôles des connaissances dans la réalisation d’une tâche
– Ontologie du domaine abordé dans le corpus: représentation de la connaissance liée au domaine traité dans le contenu des documents
optimiser les tâches
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Architecture
DocumentsContent-oriented
ontology
Task-orientedontology
USER
INTERFACE
Domain dependentcollection
Indexingmodule
Informationextractionmodule
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Cadre applicatif
• Tâche: Exploration des publications dans les revues A&A et APJ– Collection à notre disposition– Expérience à partir de Tétralogie
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Ontologie du domaine de la tache d’exploration
Construction semi-automatique
REVUE OUVRAGE ACTES DE CONFERENCE
LITTERATURE DU DOMAINE
Est unEst unEst un
CHERCHEURnom prénom
LABORATOIREadresse
Travaille pour
Travaille avec
PAYS
Est situé en
ARTICLEref
Publié dans
Rédige
DATEEcrit en
Travaille pour depuis
OBJET DE RECHERCHE
A pour domaine d’intérêt
Traite de
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Ontologie du domaine abordé dans le corpus
Échantillon construit à partir de IAU et Factguru
ETOILE
SOLEIL
Est un
ECLIPSE SOLAIRE COURONNE SOLAIRE
Est un événement lié
Partie de
SYSTEME SOLAIRE
Partie de
CORPS CELESTEa un spectre
Est un
ASTEROIDECOMET
Est un Est un
PLANETOIDE
Synonyme
Partie dePartie de
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Liens entre les deux ontologies
Est un Evénement lié à
CHERCHEURnom Dupontprénom Jean
Travaille avec
ETOILE
SOLEIL
Est un
ECLIPSE SOLAIRECOURONNE SOLAIRE
Partie de
A pour domaine d’intérêt
Echantillon de l’ontologie de domaine
Echantillon de l’ontologie de tâche au niveau instance
ARTICLERef : 1 Traite de
Rédige
objet de recherche
Exemple
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache
Ontologies spécifiques à une tache
Prototype – interface de visualisation
• Plusieurs niveaux de navigation– Niveau conceptuel : vue générale sur le corpus– Niveau instance : détails sur le corpus
• Deux accès à la collection– À travers l’ontologie du domaine de la tâche– A travers l’ontologie du domaine abordé dans
la collection
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Aperçu de l’interface
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Exploration via ontologie domaine tache
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Connaissance établie pour instance Chercheur
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Connaissance établie pour instance Article
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Exploration via ontologie domaine abordé dans corpus
Analyses
Mesures d’adéquation
Techniques de mise à jour
Ontologies spécifiques à une tache Exemple
Exemple
Conclusion
• IAU– Intégration d ’autres éléments : instances des
concepts ? • Instruments,
• objets - Exemple objets Lien avec Simbad
• FACTGURU ?? [http://www.site.uottawa.ca:4321/astronomy/index.html]
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Travaux à faire
• Évaluation– Cadre– Réalisable
• Définition de tâches
• Mise à jour - Mots clés (oui avec niveau souhaité - Ontologie - Web sémantique)
• Lien avec UCD
Techniques de mise à jour Exemple
Ontologies spécifiques à une tache
Mesures d’adéquationAnalyses
Evaluation
• Comparer l’adéquation d’échantillons de deux ontologies sur un même corpus, puis sur des différents (évolution du domaine)
Proposer les corpus et les deux ontologies
Evaluation
Ontology A Ontology B
particle photon
radiation
high energy radiation
X rayX ray radiationX-ray
electromagnetic wave
X ray spectra X ray source
X ray binaries star
X ray pulsar
pulsar
X ray scattering
X ray background
wave
Background radiation
PhotonElectromagnetic radiation
X rayX-Ray
wave hard X ray soft X ray
X ray source
celestial sphere
X ray pulsar
pulsarpsr
particle
neutral particle
celestial body
X ray astronomy
Is aPart of Is related to
Ontologie
• Ontologie : « spécification explicite et formelle d’une conceptualisation partagée» [Studer 1998]
• Deux niveaux sémiotiques :– Lexical (termes)– Conceptuel (concepts et relations entre
concepts)
base pour la communication entre les machines, entre humains et machines
Recherche d’information et ontologie
• Intégration des ontologies dans un processus de recherche :– Réduction du silence : extension des requêtes à
partir des termes et concepts de l’ontologie– Réduction du bruit : désambiguïsation des
termes contenus dans la requête
Recherche d ’information et Ontologie
• Indexation des documents à partir des concepts de l’ontologie– Descripteurs choisis dans l’ontologie– Indexation à partir de concepts et non plus à
partir de mots souvent ambigus
Choix d’une ontologie reflétant le ou les domaines de connaissance relatifs aux corpus
Exploration de collections documentaires à partir d’ontologies
• Objectifs :– Aide à l’indexation des documents par un
procédé de catégorisation automatique des documents au niveau des concepts d’ontologies
Météorite
Achondrite Chondrite
Chondrule Chondrite carbonnée
Météorite……………….chondrule
Chondrule……..
Chondrule
Extraits des documents
Extrait d’une hiérarchie de concepts