structuration xml pour le text mining de données hétérogènes
DESCRIPTION
Structuration XML pour le text mining de données hétérogènes. Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay. Plan. Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie - PowerPoint PPT PresentationTRANSCRIPT
Structuration XML pour le text mining de données hétérogènes
Helka Folch
Groupe LIR (Langues, Information, Représentations)Département Communication Homme-Machine
LIMSI-CNRS - Orsay
2
Plan
Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie
Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements
Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances : repérage de points de vues dans des forum électroniques
RDF : Mise à plat et articulation des assertions Projet P000f (EDF) : ré-utilisation de données pour l’analyse
secondaire Conclusion
3
Besoin : accès sémantique aux documents
● Goldfarb ("Monsieur SGML") : Topic Maps are the GPS of the information universe(Extreme Markup Languages Conference, 98)
● Internet : adressage univoque de ressources au moyen d'URLs
● Web sémantique : langage univoque pour décrire les événements de la Toile
Web sémantique (W3C) : utopie d'une inter-langue parfaite ?
?
Topic Maps (ISO13250): Modèle d'annotation pour des cartes sémantiques navigables du Web
4
De l'univoque au mouvant
● Travail de OASIS et de W3C (consortiums pour la définition des standards du Web) : définition de nomenclatures univoques pour référencer des régions (ISO 3166-2), des langues (ISO 639), des aéroports (UN/LOCODE), etc.
?ISO 3166-2ISO 639
Langages médicaux(Mesh, UMLS,...)
? Langage de l'économie,de la sociologie, etc.
5
Variation du sens 1/4 Les entités changent de sens selon le réseau où elles figurent
Sugar : Intersection de sens dans deux réseaux mais divergences
GoûtFonctionnel(pour le corps)
Edulcorant Composante organique
Agent carbohydrate
Réseau sémantique lexical généraliste (WordNet) Ontologie médicale (Mesh)
6
• sweetinng• sweetener
• organic compound
• sugar• refined
sugar
• lump sugar • sugarloaf• sugar loaf• loaf sugar
• carbohydrate• saccharide• sugar
• cane sugar • polysaccharide• polyose
• wood sugar• xylose
Synset
HyponymieSynonymie
WordNet
MeshVariation du sens 2/4
7
Chemicals and DrugsAnatomy Organisms
Analytical, Diagnostic and Therapeutic Techniques and Equipment
Psychiatry and Psychology
Organic Chemicals
Enzymes, Coenzymes, and Enzyme Inhibitors
Alcohols
Carbohydrates and Hypoglycemic Agents
Enzymes
Carbohydrates
Sugar Alcohols Acids, Acyclic
Carboxylic Acids
Sugar Acids
Oxidoreductases
Alcohol Oxidoreductases
Carbohydrate Dehydrogenases
Sugar Alcohol Dehydrogenases
Amino Sugars Glycosides
Nucleotides
Nucleoside Diphosphate Sugars
Adenosine Diphosphate Sugars
MeSH
WordNet
Variation du sens 3/4
8
● Variation du sens dans les forums planétaires (Projet Alliances)
- Associations (via Zellig) des synonymes de `monnaie alternative' : "troc" et "monnaie sociale", selon l'origine des intervenants
Vision sociale Vision économiqueArgentine Europe
pratique
impôtflux
fortune
résistance
gestionaide
économie_solidaire
socioéconomie_solidaire
monnaie sociale
impôtcompte
instrument
système
échangecompte
imaginaire
hyperinflation
monnaie socialepaiement
Zellig (Habert, 98) : logiciel qui vise à dégager les classes sémantiques d'un corpus sur la base des dépendances syntaxiques partagées entre les mots.
Variation du sens 4/4
9
Text mining de corpus hétérogènes : une approche inductive
Corpus hétérogènes et évolutifs
Plusieurs points de vues sont représentés (pas forcément de convergence sur le sens des mots)
Les points de vues peuvent évoluer (corpus de veille)
Annotation
Acquisition sémantique
Corpus
Approche inductive
Absence d’ontologies pré-existantes applicables
10
Plan
Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie
Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements
Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances RDF : Mise à plat et articulation des assertions
Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire
Conclusion
11
Architecture de corpus pour le text mining de données hétérogènes
● Constituer des corpus selon un point de vue donné à partir d’objets textuels de granularité variable;
● Garder la trace des critères de constitution d'un corpus;
● Garder la trace des traitements sur un corpus et leurs liens aux documents de départ;
● Articuler sur la collection documentaire les résultats pas forcément convergents obtenus avec des traitements variés sur des corpus distincts provenant de cette même collection.
12
Plan
Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie
Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements
Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances RDF : Mise à plat et articulation des assertions
Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire
Conclusion
13
Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances (2001-2003)
(Claude Henry, Dépt. CHM, LIMSI):
projet RNRT (LIMSI, LIP6, XEROX, FPH)
Objectif : étude des convergences et divergences de points de vues dans des réseaux associatifs distribués.
14
Besoin d'un format d'annotation "externalisant" 1/5
● HyTime (ISO/IEC 10744:1997) : format de documents structurés multimédia
➔ Origines : - langage SGML de description musicale
- description d'un opéra
➔ Objectif : - synchroniser des objets sur des flux spatiaux et temporels multiples
(Paroles, etc.)
Topic Maps (ISO 13250) : Modèle d'annotation pour définir des cartes sémantiques navigables
XTM (ISO 13250:2000) : portage de Topic Maps en XML
(Indications scéniques, etc.)
Da Capo
15
Besoin d'un format d'annotation "externalisant" 2/5
➔ Synchroniser plusieurs flux d'annotation éventuellement divergents
Messages
Participants
Participant1
Pays d'origine
Participant3
Pays d'origine4
jour1Jour2 Jour3 Jour4
Jours
Forum du projet Alliances
16
Besoin d'un format d'annotation "externalisant" 3/5
➔ Notion de lien indépendant (HyTime) : stocké séparément des ressources qu'il relie
➔ Notion de topic (Topic Maps) : lien indépendant qui regroupe des localisations du corpus autour d'un même sujet
Participant1
● Définition des liens séparée des ressources reliées : permet de modifier les liens sans modifier les documents eux-mêmes
TEI
HTML
"farcir" externaliser
XLink
XCES
17
Besoin d'un format d'annotation "externalisant" 4/5
Permet de faire coexister des annotations concurrentes sur les mêmes données
Je ne m ' étais pas occupée
SEGMENTATION1
Segment1
Segment2
Segment3
SEGMENTATION2
Segment1
Segment2
Segment3Segment3
Segment4
Segment5
Segment6
Segment7
18
Besoin d'un format d'annotation "externalisant" 5/5● Les annotations concurrentes peuvent former des hiérarchies enchevêtrées. Si elles ne sont pas externalisées, la structure d'arborescence stricte d'un document XML l'interdit
SEGMENTATION1
Segment1
Segment2
SEGMENTATION2Segment1Segment2
Flux de données
● Les liens indépendants dans les annotations externes peuvent être à destination multiple (versus liens point à point dans HTML)
➔ permet l'adressage d'objets discontinus
je ne m'étais pas occupée
Segment1 Segment2
19
Recursivité de l’annotation● Le résultat d'un traitement peut lui-même être annoté par un autre traitement
Fiches
Participant1
Participant3
Participant4 Participant5
Cluster1
Cluster2
SpécificitésSpécificités
1 Création d'un corpus partitionné (par participant) à partir de la signalétique
2 Clustering (CHA) des parties (les participants) en R
3 Mise en évidence des sur et sous emplois relatifs des classes des clusterings (Lexico)
20
Mémoriser les traitements
Fiches
Participant1
Participant3
Participant4 Participant5
Cluster1
Cluster2
SpécificitésSpécificités
● Notion de scope dans Topic Maps : permet de définir le contexte des propriétés d'un topic
scope
scope
● Garder la trace des critères de constitution d'un corpus et des traitements réalisés (paramètres)
Clustering Rparamètres ...
Analyse LEXICOparamètres
21
scopeEXTRACTION- Paramètres d'extraction(Pays d’origine 2 + 4)- Hypothèses de constitution du corpus
Contextes élémentairesParamétrage Zellig
Paramétrage segmentation
scope
jour1jour3 jour7 jour15
Corpus
Messages
Participants
Pays d'origine
Jours
Revenir des traitements et des résultats aux corpus d'origine
22
Navigation mot -> contexte élémentaire -> co-texte
Type du topic
Nom du topic
Propriété du topic: le contexte élémentaire
Référence dans le corpus
Scope ou contexte
visualiseur de Topic Maps Omnigator (http://www.ontopia.net)
23
Plan
Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie
Architecture de corpus pour le text mining Externaliser les annotations Mémoriser les traitements
Topic Maps : Articuler des points de vues multiples sur un corpus
Projet Alliances RDF : Mise à plat et articulation des assertions
Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire
Conclusion
24
Structuration RDF pour l’analyse secondaire
Projet de collaboration EDF R&D-LIMSI CNRS Fouille de données complexes et visualisation
d’information (Projet P000f) 2003-2005
Equipes
SOAD (Statistiques Optimisation et Aide à la Décision) EDF R&D
Sylvaine Nugier, Marie-Luce Picard, Yasmina Quatrain CHM (Communication homme-machine) LIMSI – CNRS
Helka Folch, Benoît Habert, Christian Jacquemin, Frédéric Vernier
25
Problématique de la fouille de données complexes à EDF
D’après le SBF, un des syndicat de la boulangerie, M. X, boulanger du quartier Q achète son four à l’entreprise Bidule et sa farine à la minoterie Maichin ; par l’enquête « comment être boulanger au 21ième siècle et rester séduisant », on sait qu’il est abonné à « Boulangerie Magazine » dans lequel on trouve souvent la publicité pour Bidule ; sur son site web, M. X nous apprend qu’il fabrique un pain bio et qu’il référence la minoterie Meichin et M. Y qui comme lui produit un pain bio ; à EDF, on sait qu’il a un profil de consommation P et a déménagé l’an dernier
multi-sources
multi-relationnelles
26
Problématique – Début de solution : l’analyse secondaire
L’analyse secondaire comme définie et pratiquée à EDF« réutiliser des données déjà capitalisées avec des objectifs d’analyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées »
Le recours à l’analyse secondaire est motivé par : les coûts les gains méthodologiques apportés
Des précautions méthodologiques… la mise à disposition des traces du contexte de
l’analyse initiale, des stratégies, des hypothèses d’analyse en plus des données brutes.
27
Problématique – Périmètre des travaux
Les travaux décrits aujourd’hui portent uniquement sur la réutilisation de données contenant du texte
Approche multi-métier : sociologues, « data-miners » et chargés d’étude marketing
Sources de données traitées : Bases de capitalisation d’entretiens Forums de discussion Enquêtes de satisfaction
Absence d’hypothèse de départ…
Absence d’ontologie
28
Architecture globaleTransformer
RDF
Dixit
Forum DD
…
Recherche Filtrage ExportationImportation
Et
Annotation
Alceste
et
Temis
Structuration de données
Analyse et fouille de données complexes
TROIE
ACHILLES
Données Brutes Données Structurées
29
Choix technique : RDF Articuler des assertions sur les métadonnées
Brique de base : le triplet <ressource><propriété><valeur>.
<http://www.forumDD.org/msg1.htm, titre, "l’énergie éolien">
<http://www.forumDD.org/msg1.htm, date, "12/4/99" >
<http://www.forumDD.org/msg1.htm, message_père, http://www.forumDD.org/msg2.htm >
http://www.forumDD.org/msg1.htm
http://www.forumDD.org/msg2.html’énergie éolien
12/4/99
titre
date
message_père
Valeur littérale
Ressource
Langage défini par le consortium W3C (www.w3.org)
30
Du graphe RDF à la syntaxe XML
http://www.forumDD.org/msg1.htm
http://www.forumDD.org/msg2.html’énergie éolien
12/4/99
titre
date
message_père
Valeur littéraleRessource
<?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" <rdf:Description rdf:about=" http://www.forumDD.org/msg1.htm"> <titre> l’energie éolien </titre> <date>12/4/1999</date> <message_père> http://www.forumDD.org/msg2.htm </message_père> </rdf:Description> </rdf:RDF>
31
E : Vous choisiriez le gaz ?P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais.E : A cause du coût ?P : Oui voilà.. A cause du coût et de la chaleur. La chaleur n’est pas la même. Peut-être que maintenant les installations sont plus performantes mais..E : En tout cas vous leur demanderiez : s’il n’y a pas une autre chaleur électrique ?P : Oui, j’essaierais de voir s’il n’y a pas une autre solution. Je vois qu’à la maison, en plein hiver les chauffages sont pratiquement mis à fond et on n’a pas l’impression d’avoir chaud. La maison est très bien isolée, ce n’est pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisqu’il n’y a personne et la température de la dalle maintien un minimum de chaleur. C’est surtout sur ce point là que j’insisterais.E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ?P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort.
$FILE: Intitule: Structure de l'offre destinée aux clients résidentielsf_DateFinEtude: 07/10/2001ReferenceMKM: STUDEO 13109valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupevalmetbis: 1 Entretien individuelintext: Externedemographie: ParticuliersMarcheAff: ParticuliersMarcheseg: Particulierssexe1: femmesexbis: age1: 53agbis: csp: secrétaire de directioncspbis: nombre1: effectif1: stat: propiétairemaison: maisonchiffre_1: principalechauffage: gazenergie1: électricité,gaztarif1: basecodepostal1: 35740Doc_Type: Fiche signalétique d'entretienValeurMethod: Entretien individuellogtab: 1yn: Externesegment: Particuliers
export
Structuration : TROIE 1/4
32
entretien_1_1
de type entretien
entretien_brut/dixit1/data/entretien_brut1.xml
methodologie entretien_individuel
false
particuliers
interne_EDF
segment_de_marche
donnéesGeo 36740
données personne
X
femme
sécretaire de direction
X
53
truetruetrue
données logement
donnéesEnergies
électricitégazbasegaz
données_geodonnées_socio
code_postal
données_logement
sexe
age fonction
personnes_au_foyer
enfants_de_moins_de_15_ans
principale
maison
propriétaire
données_energie
bag
_2
energies
_1
puissances_tarifsch
auffa
ge
entretien_1_1
de type entretien
entretien_brut/dixit1/data/entretien_brut1.xml/dixit1/data/entretien_brut1.xml
methodologie entretien_individuel
false
particuliers
interne_EDF
segment_de_marche
donnéesGeo 3674036740
données personne
XX
femmefemme
sécretaire de directionsécretaire de direction
XX
5353
truetruetruetruetruetrue
données logementdonnées logement
donnéesEnergiesdonnéesEnergies
électricitéélectricitégazgazbasebasegazgaz
données_geodonnées_socio
code_postal
données_logement
sexe
age fonction
personnes_au_foyer
enfants_de_moins_de_15_ans
principale
maison
propriétaire
données_energie
bag
_2
energies
_1
puissances_tarifsch
auffa
ge
RDF : Séparation des données et des métadonnées
Structuration : TROIE 2/4
33
<rdf:Description rdf:about="file:///ex_dixit/entretien_12_12"> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#entretien"/> <dixit:entretien_brut>ex_dixit/data/entretien_12_12.xml</dixit:entretien_brut> <dixit:segment_de_marche>PME-PMI</dixit:segment_de_marche> <dixit:donneesLogement> <dixit:maison>false</dixit:maison> <dixit:proprietaire>false</dixit:proprietaire> <dixit:principale>true</dixit:principale> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#donneesLogement"/> <dixit:donneesLogement> </rdf:Description>
<rdf:RDFxmlns:rdf ="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"xml:base ="file:///schema_p00f/dixit.rdf#">
<rdfs:Class rdf:ID="donneesLogement"/> <rdf:Property rdf:ID="proprietaire"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="maison"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="principale"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property>
RDF : Validation par rapport à un schéma ou vocabulaire
Instance
Schema
Nom du schéma
Contrainte sur le type de données
Espace de nom
TROIE 3/4
34
Structuration : TROIE 4/4
XMLXML
35
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
1. Requêtage et filtrage
Une journée dans la vie d’une étude… : ACHILLES
36
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
37
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
38
«chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché= particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
«chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché= particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
«chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché= particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
«chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché= particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
«chaleur »« froid »
(1)
«chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché= particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
39
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
40
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
41
3. Requêtage et filtrage
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
42
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
3. Requêtage et filtrage
43
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
44
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
45
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Je veux connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. Requêtage et filtrage
46
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Analyste
TEMIS
ALCESTE
Structuration
Analyse_1.rdf
Analyse_1.rdf
Analyse_1.rdf
Production des résultats
Export vers des logiciels d’analyse, import des résultats et des interprétations
3. export/import
47
Analyste
TEMIS
ALCESTE
Structuration
Analyse_1.rdf
Analyse_1.rdf
Analyse_1.rdf
Production des résultats
Export vers des logiciels d’analyse, import des résultats et des interprétations
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. export/import
Espaces de noms RDF
48
Analyste
TEMIS
ALCESTE
Structuration
Analyse_1.rdf
Analyse_1.rdf
Analyse_1.rdf
Production des résultats
Export vers des logiciels d’analyse, import des résultats et des interprétations
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
3. export/import
49
Analyse_1.rdf
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
« chaleur »« froid »
(1)
Eventuellement, retour en arrière
Segment de marché = particuliers
Analyste
Je veux les documents ayant trait à la chaleur et au froid
Je veux uniquement les documents reprenant l’avis de particuliers
(2)
(1)
(2)
Validation
Analyse_1.rdfAnalyse_1.rdf
Benoit veut connaître le potentiel d’utilisation
de la climatisation réversible auprès des clients d’EDF SA….
Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Analyste
TEMIS
ALCESTE
Structuration
Analyse_1.rdf
Analyse_1.rdf
Production des résultats
Export vers des logiciels d’analyse, import des résultats et des interprétations
3. export/import
<classe1, nom, ‘factures'>Assertion 1
Assertion 2 < Assertion1 , auteur, ‘helka'>Assertion sur Assertion
50
Topic Maps et RDF permettent :Gérer séparément données et méta-donnéesAnnoter des données de granularité variableRéifier les annotationsDéfinir des schémas ou vocabulaires spécifiques validables
Topic Maps est plus adapté à la navigationRDF est plus adapté au requêtagePlus de maturité des logiciels disponibles pour RDF
Jena Java RDF APIIsaViz (pour visualiser et éditer les graphes RDF)RDFDB (BD qui supporte RDF et le langage de requêtes RDFQL)
Ni Topic Maps ni RDF résolvent le problème de la normalisation sémantique des méta-données, seulement la normalisation syntaxique
ConclusionTopic Maps vs RDF pour le text mining
Mais !!