structuration xml pour le text mining de données hétérogènes

50
Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay

Upload: joel-mays

Post on 13-Mar-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Structuration XML pour le text mining de données hétérogènes. Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay. Plan. Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Structuration XML pour le text mining de données hétérogènes

Structuration XML pour le text mining de données hétérogènes

Helka Folch

Groupe LIR (Langues, Information, Représentations)Département Communication Homme-Machine

LIMSI-CNRS - Orsay

Page 2: Structuration XML pour le text mining de données hétérogènes

2

Plan

Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie

Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements

Topic Maps : Articuler des points de vues multiples sur un corpus

Projet Alliances : repérage de points de vues dans des forum électroniques

RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour l’analyse

secondaire Conclusion

Page 3: Structuration XML pour le text mining de données hétérogènes

3

Besoin : accès sémantique aux documents

● Goldfarb ("Monsieur SGML") : Topic Maps are the GPS of the information universe(Extreme Markup Languages Conference, 98)

● Internet : adressage univoque de ressources au moyen d'URLs

● Web sémantique : langage univoque pour décrire les événements de la Toile

Web sémantique (W3C) : utopie d'une inter-langue parfaite ?

?

Topic Maps (ISO13250): Modèle d'annotation pour des cartes sémantiques navigables du Web

Page 4: Structuration XML pour le text mining de données hétérogènes

4

De l'univoque au mouvant

● Travail de OASIS et de W3C (consortiums pour la définition des standards du Web) : définition de nomenclatures univoques pour référencer des régions (ISO 3166-2), des langues (ISO 639), des aéroports (UN/LOCODE), etc.

?ISO 3166-2ISO 639

Langages médicaux(Mesh, UMLS,...)

? Langage de l'économie,de la sociologie, etc.

Page 5: Structuration XML pour le text mining de données hétérogènes

5

Variation du sens 1/4 Les entités changent de sens selon le réseau où elles figurent

Sugar : Intersection de sens dans deux réseaux mais divergences

GoûtFonctionnel(pour le corps)

Edulcorant Composante organique

Agent carbohydrate

Réseau sémantique lexical généraliste (WordNet) Ontologie médicale (Mesh)

Page 6: Structuration XML pour le text mining de données hétérogènes

6

• sweetinng• sweetener

• organic compound

• sugar• refined

sugar

• lump sugar • sugarloaf• sugar loaf• loaf sugar

• carbohydrate• saccharide• sugar

• cane sugar • polysaccharide• polyose

• wood sugar• xylose

Synset

HyponymieSynonymie

WordNet

MeshVariation du sens 2/4

Page 7: Structuration XML pour le text mining de données hétérogènes

7

Chemicals and DrugsAnatomy Organisms

Analytical, Diagnostic and Therapeutic Techniques and Equipment

Psychiatry and Psychology

Organic Chemicals

Enzymes, Coenzymes, and Enzyme Inhibitors

Alcohols

Carbohydrates and Hypoglycemic Agents

Enzymes

Carbohydrates

Sugar Alcohols Acids, Acyclic

Carboxylic Acids

Sugar Acids

Oxidoreductases

Alcohol Oxidoreductases

Carbohydrate Dehydrogenases

Sugar Alcohol Dehydrogenases

Amino Sugars Glycosides

Nucleotides

Nucleoside Diphosphate Sugars

Adenosine Diphosphate Sugars

MeSH

WordNet

Variation du sens 3/4

Page 8: Structuration XML pour le text mining de données hétérogènes

8

● Variation du sens dans les forums planétaires (Projet Alliances)

- Associations (via Zellig) des synonymes de `monnaie alternative' : "troc" et "monnaie sociale", selon l'origine des intervenants

Vision sociale Vision économiqueArgentine Europe

pratique

impôtflux

fortune

résistance

gestionaide

économie_solidaire

socioéconomie_solidaire

monnaie sociale

impôtcompte

instrument

système

échangecompte

imaginaire

hyperinflation

monnaie socialepaiement

Zellig (Habert, 98) : logiciel qui vise à dégager les classes sémantiques d'un corpus sur la base des dépendances syntaxiques partagées entre les mots.

Variation du sens 4/4

Page 9: Structuration XML pour le text mining de données hétérogènes

9

Text mining de corpus hétérogènes : une approche inductive

Corpus hétérogènes et évolutifs

Plusieurs points de vues sont représentés (pas forcément de convergence sur le sens des mots)

Les points de vues peuvent évoluer (corpus de veille)

Annotation

Acquisition sémantique

Corpus

Approche inductive

Absence d’ontologies pré-existantes applicables

Page 10: Structuration XML pour le text mining de données hétérogènes

10

Plan

Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie

Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements

Topic Maps : Articuler des points de vues multiples sur un corpus

Projet Alliances RDF : Mise à plat et articulation des assertions

Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire

Conclusion

Page 11: Structuration XML pour le text mining de données hétérogènes

11

Architecture de corpus pour le text mining de données hétérogènes

● Constituer des corpus selon un point de vue donné à partir d’objets textuels de granularité variable;

● Garder la trace des critères de constitution d'un corpus;

● Garder la trace des traitements sur un corpus et leurs liens aux documents de départ;

● Articuler sur la collection documentaire les résultats pas forcément convergents obtenus avec des traitements variés sur des corpus distincts provenant de cette même collection.

Page 12: Structuration XML pour le text mining de données hétérogènes

12

Plan

Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie

Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements

Topic Maps : Articuler des points de vues multiples sur un corpus

Projet Alliances RDF : Mise à plat et articulation des assertions

Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire

Conclusion

Page 13: Structuration XML pour le text mining de données hétérogènes

13

Topic Maps : Articuler des points de vues multiples sur un corpus

Projet Alliances (2001-2003)

(Claude Henry, Dépt. CHM, LIMSI):

projet RNRT (LIMSI, LIP6, XEROX, FPH)

Objectif : étude des convergences et divergences de points de vues dans des réseaux associatifs distribués.

Page 14: Structuration XML pour le text mining de données hétérogènes

14

Besoin d'un format d'annotation "externalisant" 1/5

● HyTime (ISO/IEC 10744:1997) : format de documents structurés multimédia

➔ Origines : - langage SGML de description musicale

- description d'un opéra

➔ Objectif : - synchroniser des objets sur des flux spatiaux et temporels multiples

(Paroles, etc.)

Topic Maps (ISO 13250) : Modèle d'annotation pour définir des cartes sémantiques navigables

XTM (ISO 13250:2000) : portage de Topic Maps en XML

(Indications scéniques, etc.)

Da Capo

Page 15: Structuration XML pour le text mining de données hétérogènes

15

Besoin d'un format d'annotation "externalisant" 2/5

➔ Synchroniser plusieurs flux d'annotation éventuellement divergents

Messages

Participants

Participant1

Pays d'origine

Participant3

Pays d'origine4

jour1Jour2 Jour3 Jour4

Jours

Forum du projet Alliances

Page 16: Structuration XML pour le text mining de données hétérogènes

16

Besoin d'un format d'annotation "externalisant" 3/5

➔ Notion de lien indépendant (HyTime) : stocké séparément des ressources qu'il relie

➔ Notion de topic (Topic Maps) : lien indépendant qui regroupe des localisations du corpus autour d'un même sujet

Participant1

● Définition des liens séparée des ressources reliées : permet de modifier les liens sans modifier les documents eux-mêmes

TEI

HTML

"farcir" externaliser

XLink

XCES

Page 17: Structuration XML pour le text mining de données hétérogènes

17

Besoin d'un format d'annotation "externalisant" 4/5

Permet de faire coexister des annotations concurrentes sur les mêmes données

Je ne m ' étais pas occupée

SEGMENTATION1

Segment1

Segment2

Segment3

SEGMENTATION2

Segment1

Segment2

Segment3Segment3

Segment4

Segment5

Segment6

Segment7

Page 18: Structuration XML pour le text mining de données hétérogènes

18

Besoin d'un format d'annotation "externalisant" 5/5● Les annotations concurrentes peuvent former des hiérarchies enchevêtrées. Si elles ne sont pas externalisées, la structure d'arborescence stricte d'un document XML l'interdit

SEGMENTATION1

Segment1

Segment2

SEGMENTATION2Segment1Segment2

Flux de données

● Les liens indépendants dans les annotations externes peuvent être à destination multiple (versus liens point à point dans HTML)

➔ permet l'adressage d'objets discontinus

je ne m'étais pas occupée

Segment1 Segment2

Page 19: Structuration XML pour le text mining de données hétérogènes

19

Recursivité de l’annotation● Le résultat d'un traitement peut lui-même être annoté par un autre traitement

Fiches

Participant1

Participant3

Participant4 Participant5

Cluster1

Cluster2

SpécificitésSpécificités

1 Création d'un corpus partitionné (par participant) à partir de la signalétique

2 Clustering (CHA) des parties (les participants) en R

3 Mise en évidence des sur et sous emplois relatifs des classes des clusterings (Lexico)

Page 20: Structuration XML pour le text mining de données hétérogènes

20

Mémoriser les traitements

Fiches

Participant1

Participant3

Participant4 Participant5

Cluster1

Cluster2

SpécificitésSpécificités

● Notion de scope dans Topic Maps : permet de définir le contexte des propriétés d'un topic

scope

scope

● Garder la trace des critères de constitution d'un corpus et des traitements réalisés (paramètres)

Clustering Rparamètres ...

Analyse LEXICOparamètres

Page 21: Structuration XML pour le text mining de données hétérogènes

21

scopeEXTRACTION- Paramètres d'extraction(Pays d’origine 2 + 4)- Hypothèses de constitution du corpus

Contextes élémentairesParamétrage Zellig

Paramétrage segmentation

scope

jour1jour3 jour7 jour15

Corpus

Messages

Participants

Pays d'origine

Jours

Revenir des traitements et des résultats aux corpus d'origine

Page 22: Structuration XML pour le text mining de données hétérogènes

22

Navigation mot -> contexte élémentaire -> co-texte

Type du topic

Nom du topic

Propriété du topic: le contexte élémentaire

Référence dans le corpus

Scope ou contexte

visualiseur de Topic Maps Omnigator (http://www.ontopia.net)

Page 23: Structuration XML pour le text mining de données hétérogènes

23

Plan

Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie

Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements

Topic Maps : Articuler des points de vues multiples sur un corpus

Projet Alliances RDF : Mise à plat et articulation des assertions

Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire

Conclusion

Page 24: Structuration XML pour le text mining de données hétérogènes

24

Structuration RDF pour l’analyse secondaire

Projet de collaboration EDF R&D-LIMSI CNRS Fouille de données complexes et visualisation

d’information (Projet P000f) 2003-2005

Equipes

SOAD (Statistiques Optimisation et Aide à la Décision) EDF R&D

Sylvaine Nugier, Marie-Luce Picard, Yasmina Quatrain CHM (Communication homme-machine) LIMSI – CNRS

Helka Folch, Benoît Habert, Christian Jacquemin, Frédéric Vernier

Page 25: Structuration XML pour le text mining de données hétérogènes

25

Problématique de la fouille de données complexes à EDF

D’après le SBF, un des syndicat de la boulangerie, M. X, boulanger du quartier Q achète son four à l’entreprise Bidule et sa farine à la minoterie Maichin ; par l’enquête « comment être boulanger au 21ième siècle et rester séduisant », on sait qu’il est abonné à « Boulangerie Magazine » dans lequel on trouve souvent la publicité pour Bidule ; sur son site web, M. X nous apprend qu’il fabrique un pain bio et qu’il référence la minoterie Meichin et M. Y qui comme lui produit un pain bio ; à EDF, on sait qu’il a un profil de consommation P et a déménagé l’an dernier

multi-sources

multi-relationnelles

Page 26: Structuration XML pour le text mining de données hétérogènes

26

Problématique – Début de solution : l’analyse secondaire

L’analyse secondaire comme définie et pratiquée à EDF« réutiliser des données déjà capitalisées avec des objectifs d’analyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées »

Le recours à l’analyse secondaire est motivé par : les coûts les gains méthodologiques apportés

Des précautions méthodologiques… la mise à disposition des traces du contexte de

l’analyse initiale, des stratégies, des hypothèses d’analyse en plus des données brutes.

Page 27: Structuration XML pour le text mining de données hétérogènes

27

Problématique – Périmètre des travaux

Les travaux décrits aujourd’hui portent uniquement sur la réutilisation de données contenant du texte

Approche multi-métier : sociologues, « data-miners » et chargés d’étude marketing

Sources de données traitées : Bases de capitalisation d’entretiens Forums de discussion Enquêtes de satisfaction

Absence d’hypothèse de départ…

Absence d’ontologie

Page 28: Structuration XML pour le text mining de données hétérogènes

28

Architecture globaleTransformer

RDF

Dixit

Forum DD

Recherche Filtrage ExportationImportation

Et

Annotation

Alceste

et

Temis

Structuration de données

Analyse et fouille de données complexes

TROIE

ACHILLES

Données Brutes Données Structurées

Page 29: Structuration XML pour le text mining de données hétérogènes

29

Choix technique : RDF Articuler des assertions sur les métadonnées

Brique de base : le triplet <ressource><propriété><valeur>.

<http://www.forumDD.org/msg1.htm, titre, "l’énergie éolien">

<http://www.forumDD.org/msg1.htm, date, "12/4/99" >

<http://www.forumDD.org/msg1.htm, message_père, http://www.forumDD.org/msg2.htm >

http://www.forumDD.org/msg1.htm

http://www.forumDD.org/msg2.html’énergie éolien

12/4/99

titre

date

message_père

Valeur littérale

Ressource

Langage défini par le consortium W3C (www.w3.org)

Page 30: Structuration XML pour le text mining de données hétérogènes

30

Du graphe RDF à la syntaxe XML

http://www.forumDD.org/msg1.htm

http://www.forumDD.org/msg2.html’énergie éolien

12/4/99

titre

date

message_père

Valeur littéraleRessource

<?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" <rdf:Description rdf:about=" http://www.forumDD.org/msg1.htm"> <titre> l’energie éolien </titre> <date>12/4/1999</date> <message_père> http://www.forumDD.org/msg2.htm </message_père> </rdf:Description> </rdf:RDF>

Page 31: Structuration XML pour le text mining de données hétérogènes

31

E : Vous choisiriez le gaz ?P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais.E : A cause du coût ?P : Oui voilà.. A cause du coût et de la chaleur. La chaleur n’est pas la même. Peut-être que maintenant les installations sont plus performantes mais..E : En tout cas vous leur demanderiez : s’il n’y a pas une autre chaleur électrique ?P : Oui, j’essaierais de voir s’il n’y a pas une autre solution. Je vois qu’à la maison, en plein hiver les chauffages sont pratiquement mis à fond et on n’a pas l’impression d’avoir chaud. La maison est très bien isolée, ce n’est pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisqu’il n’y a personne et la température de la dalle maintien un minimum de chaleur. C’est surtout sur ce point là que j’insisterais.E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ?P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort.

$FILE: Intitule: Structure de l'offre destinée aux clients résidentielsf_DateFinEtude: 07/10/2001ReferenceMKM: STUDEO 13109valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupevalmetbis: 1 Entretien individuelintext: Externedemographie: ParticuliersMarcheAff: ParticuliersMarcheseg: Particulierssexe1: femmesexbis: age1: 53agbis: csp: secrétaire de directioncspbis: nombre1: effectif1: stat: propiétairemaison: maisonchiffre_1: principalechauffage: gazenergie1: électricité,gaztarif1: basecodepostal1: 35740Doc_Type: Fiche signalétique d'entretienValeurMethod: Entretien individuellogtab: 1yn: Externesegment: Particuliers

export

Structuration : TROIE 1/4

Page 32: Structuration XML pour le text mining de données hétérogènes

32

entretien_1_1

de type entretien

entretien_brut/dixit1/data/entretien_brut1.xml

methodologie entretien_individuel

false

particuliers

interne_EDF

segment_de_marche

donnéesGeo 36740

données personne

X

femme

sécretaire de direction

X

53

truetruetrue

données logement

donnéesEnergies

électricitégazbasegaz

données_geodonnées_socio

code_postal

données_logement

sexe

age fonction

personnes_au_foyer

enfants_de_moins_de_15_ans

principale

maison

propriétaire

données_energie

bag

_2

energies

_1

puissances_tarifsch

auffa

ge

entretien_1_1

de type entretien

entretien_brut/dixit1/data/entretien_brut1.xml/dixit1/data/entretien_brut1.xml

methodologie entretien_individuel

false

particuliers

interne_EDF

segment_de_marche

donnéesGeo 3674036740

données personne

XX

femmefemme

sécretaire de directionsécretaire de direction

XX

5353

truetruetruetruetruetrue

données logementdonnées logement

donnéesEnergiesdonnéesEnergies

électricitéélectricitégazgazbasebasegazgaz

données_geodonnées_socio

code_postal

données_logement

sexe

age fonction

personnes_au_foyer

enfants_de_moins_de_15_ans

principale

maison

propriétaire

données_energie

bag

_2

energies

_1

puissances_tarifsch

auffa

ge

RDF : Séparation des données et des métadonnées

Structuration : TROIE 2/4

Page 33: Structuration XML pour le text mining de données hétérogènes

33

<rdf:Description rdf:about="file:///ex_dixit/entretien_12_12"> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#entretien"/> <dixit:entretien_brut>ex_dixit/data/entretien_12_12.xml</dixit:entretien_brut> <dixit:segment_de_marche>PME-PMI</dixit:segment_de_marche> <dixit:donneesLogement> <dixit:maison>false</dixit:maison> <dixit:proprietaire>false</dixit:proprietaire> <dixit:principale>true</dixit:principale> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#donneesLogement"/> <dixit:donneesLogement> </rdf:Description>

<rdf:RDFxmlns:rdf ="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"xml:base ="file:///schema_p00f/dixit.rdf#">

<rdfs:Class rdf:ID="donneesLogement"/> <rdf:Property rdf:ID="proprietaire"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="maison"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="principale"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property>

RDF : Validation par rapport à un schéma ou vocabulaire

Instance

Schema

Nom du schéma

Contrainte sur le type de données

Espace de nom

TROIE 3/4

Page 34: Structuration XML pour le text mining de données hétérogènes

34

Structuration : TROIE 4/4

XMLXML

Page 35: Structuration XML pour le text mining de données hétérogènes

35

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

1. Requêtage et filtrage

Une journée dans la vie d’une étude… : ACHILLES

Page 36: Structuration XML pour le text mining de données hétérogènes

36

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 37: Structuration XML pour le text mining de données hétérogènes

37

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 38: Structuration XML pour le text mining de données hétérogènes

38

«chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché= particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

«chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché= particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

«chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché= particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

«chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché= particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

«chaleur »« froid »

(1)

«chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché= particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 39: Structuration XML pour le text mining de données hétérogènes

39

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 40: Structuration XML pour le text mining de données hétérogènes

40

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 41: Structuration XML pour le text mining de données hétérogènes

41

3. Requêtage et filtrage

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

Page 42: Structuration XML pour le text mining de données hétérogènes

42

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

3. Requêtage et filtrage

Page 43: Structuration XML pour le text mining de données hétérogènes

43

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 44: Structuration XML pour le text mining de données hétérogènes

44

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 45: Structuration XML pour le text mining de données hétérogènes

45

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Je veux connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. Requêtage et filtrage

Page 46: Structuration XML pour le text mining de données hétérogènes

46

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

Analyste

TEMIS

ALCESTE

Structuration

Analyse_1.rdf

Analyse_1.rdf

Analyse_1.rdf

Production des résultats

Export vers des logiciels d’analyse, import des résultats et des interprétations

3. export/import

Page 47: Structuration XML pour le text mining de données hétérogènes

47

Analyste

TEMIS

ALCESTE

Structuration

Analyse_1.rdf

Analyse_1.rdf

Analyse_1.rdf

Production des résultats

Export vers des logiciels d’analyse, import des résultats et des interprétations

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. export/import

Espaces de noms RDF

Page 48: Structuration XML pour le text mining de données hétérogènes

48

Analyste

TEMIS

ALCESTE

Structuration

Analyse_1.rdf

Analyse_1.rdf

Analyse_1.rdf

Production des résultats

Export vers des logiciels d’analyse, import des résultats et des interprétations

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

3. export/import

Page 49: Structuration XML pour le text mining de données hétérogènes

49

Analyse_1.rdf

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

« chaleur »« froid »

(1)

Eventuellement, retour en arrière

Segment de marché = particuliers

Analyste

Je veux les documents ayant trait à la chaleur et au froid

Je veux uniquement les documents reprenant l’avis de particuliers

(2)

(1)

(2)

Validation

Analyse_1.rdfAnalyse_1.rdf

Benoit veut connaître le potentiel d’utilisation

de la climatisation réversible auprès des clients d’EDF SA….

Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.

Analyste

TEMIS

ALCESTE

Structuration

Analyse_1.rdf

Analyse_1.rdf

Production des résultats

Export vers des logiciels d’analyse, import des résultats et des interprétations

3. export/import

<classe1, nom, ‘factures'>Assertion 1

Assertion 2 < Assertion1 , auteur, ‘helka'>Assertion sur Assertion

Page 50: Structuration XML pour le text mining de données hétérogènes

50

Topic Maps et RDF permettent :Gérer séparément données et méta-donnéesAnnoter des données de granularité variableRéifier les annotationsDéfinir des schémas ou vocabulaires spécifiques validables

Topic Maps est plus adapté à la navigationRDF est plus adapté au requêtagePlus de maturité des logiciels disponibles pour RDF

Jena Java RDF APIIsaViz (pour visualiser et éditer les graphes RDF)RDFDB (BD qui supporte RDF et le langage de requêtes RDFQL)

Ni Topic Maps ni RDF résolvent le problème de la normalisation sémantique des méta-données, seulement la normalisation syntaxique

ConclusionTopic Maps vs RDF pour le text mining

Mais !!