présentation du projet edot revue intermédiaire - 29 juin 2004

18
Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Upload: eudo-riou

Post on 04-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Présentation du projetedot

Revue intermédiaire - 29 Juin 2004

Page 2: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

De plus en plus d’informations utiles pour les entreprises accessibles via le Web

Requêtes par mot clé pour rechercher des pages web

Que trouve-t-on sur le Web public et privé ?

Des documents (HTML, doc, pdf…), des données semi structurées (XML), des données structurées (BD relationnelles)

Motivations

Page 3: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Ce qui est en train de changer Format d’échange universel (XML)

Mariage entre documents et bases de données Standard de langage de requêtes: XQuery

Services Web (SOAP, WSDL) Format pour exporter des services sur le Web Format pour encapsuler des requêtes

Web sémantique (ontologies) Trouver et utiliser l’information pertinente

Le projet e.dot est fondé sur ces technologies

Page 4: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Objectifs d’edot Génériques

Outils pour construire des entrepôts de données thématiques en découvrant des données sur le Web et en enrichissant des systèmes d’information existants par intégration de ces données

ParticulierDévelopper un entrepôt de données XML intégrant de manière automatique des informations liées au risque de contamination des aliments, qu’elles soient issues du Web, privées ou obtenues sous licence

Page 5: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Partenaires

Page 6: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Calendrier Labelisation par le RNTL : mai 2002 Date de début officielle : janvier 2003

durée : 2 ans Notification : Juillet-Septembre 2003 Demande d’avenant en Janvier 2004

date de fin : juin 2005 rapport intermédiaire : juin 2004

Page 7: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Organisation du projetTous les partenaires participent à tous les sous projets

Sous projet 1 (BIA): spécification d’un entrepôt de données pour le risque de contamination des aliments

Sous projet 2 (Xyleme): acquisition de données du Web

Sous projet 3 (IASI): organisation et structuration de l’entrepôt

Sous projet 4 (BIA): validation auprès des utilisateurs

Durée 2 ans et demi

1 2 3 4

Page 8: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Spécification de l’entrepôt

Analyse des besoins Avec l’aide de biologistes et

d’industriels, analyse des manques dans la base existante Sym’Previus

Analyse du contenu d’autres bases nationales ou internationales

Analyse de sites du Web qui pourraient contenir des informations intéressantes

Page 9: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Données existantes 2 formats différents

BD relationnelle BD semistructurée

Ontologie commune Hiérarchie de termes

Noms d’attributs ou de valeurs d’attribut du schéma relationnel

Noms de concepts du schéma de graphes Exemple: produit, scarole, germe,

listeria

Page 10: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Interface de requêtes commune

L’ontologie: sert de schéma médiateur entre les

utilisateurs et les 2 bases de données MIEL:

langage de requêtes simple critères de sélection + attributs de projectionquels sont tous les germes contaminants de la scarole ? 

Requêtes exécutées sur la BD relationnelle et sur la BD de graphes

Page 11: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Nos choix Se servir de l’ontologie existante pour

intégrer de nouvelles données Choix cohérent avec celui fait pour l’acquisition Nécessite de savoir/pouvoir caractériser les

nouvelles données en fonction de l’ontologie Problème inverse de ce qu’on fait habituellement en

BD

Pour pouvoir interroger de façon uniforme (via MIEL) les données existantes et les données nouvelles

Page 12: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Données extérieures utiles Des pages Web ou des documents (XML,

pdf, doc) localisés par le crawler de Xylème Des sites bibliographiques répertoriant des

articles scientifiques (en pdf) portant sur le risque alimentaire

Des fiches excel transmises par des experts Des bases de données de partenaires de

Sym’Previus : ComBase

Page 13: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Principales tâches Crawling et filtrage de pages web Extraction de données structurées de documents

html, pdf ou excel Transformation de ces données en XML avec le

plus possible de balises provenant de l’ontologie Résultat: base documentaire en XML annotée par les

termes de l’ontologie Reformulation des requêtes MIEL en des requêtes

XML Résultat: interrogation uniforme des données existantes

et des données ajoutées

Page 14: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Vue globale

Relational tables

Conceptual graphs

MIEL

existing dataWe

b

Combase

Excel files

external data

Bibliographic sites

crawling + filteringstructure extracting

semantic tagging

XML

Page 15: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Architecture E.Dot

Page 16: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Data flow

Crawler

EdotFilter

Store

Validation

Miel++

External DBs

Web

Any2SML

Workspaceurl

doc

Thesu

url+meta

Ontologyquery

data data

doc data

data

Expert

Page 17: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Exposés du matin Modules de Crawling et filtrage

Crawl + thesu EdotFilter

Modules d’extraction et transformation des données en XML Any2Xtab Xtab2SML PDF2SML

Page 18: Présentation du projet edot Revue intermédiaire - 29 Juin 2004

Revue E.Dot 29/6/2004

Exposés de l’après-midi Modules d’interrogation

MIEL++ Couplage entre ontologies

Plateforme d’intégration ACWare Schéma de l’entrepôt de travail

Démonstrations Conclusion