textuels dans un contexte big data...les logiques descriptives phase 2 (1990-1995) introduction...

Laboratoire LE2I – UMR CNRS 6306 – Université de Bourgogne

Approche sémantique pour la recommandation de documents textuels dans un contexte Big Data

appliquée à la veille économique.

Christophe CRUZ| 19 juin 2015 | Lyon

La 4ème édition des journées « Big Data Mining and Visualization »

Système centré utilisateur (SCU)

Système de recommandation

Axes de recherche

Modélisation et représentation des

connaissances (MRC)

Web sémantique

Concept

symbolise se rapporte

Signe Chose représente

Big Data Value (BDV)

Véracité et valeur

Approche Symbolique Approche Numérique

• Taille, Dimension, poids • Couleur, Type de matériaux • Valeur financière

• Espaces et usages • Organisation architecturale • Confort, dessert et facilités d’accès

Evaluation quantitative entre éléments spécifiques

Evaluation qualitative Sémantique sur un environnement

SEMIOTIQUE

Positionnement

Point de vue sémiotique :

Sémiotique: étudie le processus de signification c’est-à-dire la production, la codification et la communication de signes.

Syntaxe: un ensemble de signes

Sémantique: relation entre les signes et des entités du monde réel

Pragmatique: quels signes sont utilisés dans quel but ?

Social : qui utilise quels signes ?

Positionnement

1. Le contexte industriel 2. Le transfert de technologie 3. La quête de la sémantique 4. La problématique Big Data 5. La solution First Eco Pro’fil 6. Conclusion

Le contexte industriel … La solution First Pro’Fil

Contexte

Documentalistes Clients

Articles

Clients

Client Articles

Documentalistes

Contexte

Contexte scientifique

Transfert de technologie … Actualis SARL

Historique

Club d’affaire PCT

Historique

SysRec PTR

Historique

2010 2011

SysRec PTR

Contrat Collaboration

Rupture de politique - R&D • Équipe de développement • Changement du « process » métier • Montée en compétence • Homogénéisation des compétences et savoirs

Architecture complète

Serveur WEB

Commerciaux

Clients

Serveur WEB

First EDIT

First PROFIL

Pro’Fil

Base de données

Ontologie

Moteur de recommandation

Documentalistes

• Historique des projets partenariales • Club d’affaire - PCT • Système de recommandation – PTR • Projet partenariale I

• Monté en compétence de l’équipe • Gestion de projet • Romain en apprentissage • Deux développeur pour soutenir le développement après 1,5 ans de

prototypage • Sous traitance recherche II Big Data

• Changement de politique de développement de l’entreprise

• Nouvelle compétence / ruputure dans le processus métier

• Formalisation d’un projet et mise en œuvre

technique/sceintifique/technique/compétence etc.

• Homogeneisation des compétences et des connaissances internes

Historique

2010 2011 2014

SysRec PTR

Prestation Technologique

Historique

2010 2011 2014

SysRec PTR

Prestation Technologique

Sourcing Valeur Véracité Visualisation

Traitement massif des données

01001101100

01010011000

11000111110

01001101100

01010011000

11000111110

Web et Flux Plateforme Actualis

Transfert de technologie … Parlons argent !

Le doctorant

Coûts Année 1 Année 2 Année 3 Informations

Doctorant 33 000,00 33 000,00 33 000,00

CRI -24 700,00 -24 700,00 -24 700,00 dont 14k sub ANRT + CRI

Contrat de collab. 42 000,00 42 000,00 42 000,00 126 000 pour labo

Taux 2,0 84 000,00 84 000,00 84 000,00 doublement somme éligible

CRI -25 200,00 -25 200,00 -25 200,00 30%/an

Dépenses (2 ing.) 200 000,00 200 000,00 200 000,00 incompressible

Taux 1,5 300 000,00 300 000,00 300 000,00 éligible

CRI -90 000,00 -90 000,00 -90 000,00 30%/an

Coût total 275 000,00 275 000,00 275 000,00 825 000,00

CRI total -139 900,00 -139 900,00 -139 900,00 -419 700,00

Coût total - CRI 135 100,00 135 100,00 135 100,00 0,50

Coût total Rech. 50 300,00 50 300,00 50 300,00

http://www.impots.gouv.fr/portal/deploiement/p1/fichedescriptive_6914/fichedescriptive_6914.pdf http://www.agence-nationale-recherche.fr/missions-et-organisation/credit-d-impot-recherche/cir-en-detail/

Doctorant 33 000,00 33 000,00 33 000,00

CRI -25 200,00 -25 200,00 -25 200,00 30%/an

Taux 1,5 300 000,00 300 000,00 300 000,00 éligible

CRI -90 000,00 -90 000,00 -90 000,00 30%/an

Coût total 275 000,00 275 000,00 275 000,00 825 000,00

CRI total -139 900,00 -139 900,00 -139 900,00 -419 700,00

Coût total - CRI 135 100,00 135 100,00 135 100,00 0,50

Coût total Rech. 50 300,00 50 300,00 50 300,00

Doctorant 33 000,00 33 000,00 33 000,00

CRI -25 200,00 -25 200,00 -25 200,00 30%/an

Taux 1,5 300 000,00 300 000,00 300 000,00 éligible

CRI -90 000,00 -90 000,00 -90 000,00 30%/an

Coût total 275 000,00 275 000,00 275 000,00 825 000,00

CRI total -139 900,00 -139 900,00 -139 900,00 -419 700,00

Coût total - CRI 135 100,00 135 100,00 135 100,00 0,50

Coût total Rech. 50 300,00 50 300,00 50 300,00

Doctorant 33 000,00 33 000,00 33 000,00

CRI -25 200,00 -25 200,00 -25 200,00 30%/an

Taux 1,5 300 000,00 300 000,00 300 000,00 éligible

CRI -90 000,00 -90 000,00 -90 000,00 30%/an

Coût total 275 000,00 275 000,00 275 000,00 825 000,00

CRI total -139 900,00 -139 900,00 -139 900,00 -419 700,00

Coût total - CRI 135 100,00 135 100,00 135 100,00 0,50

Coût total Rech. 50 300,00 50 300,00 50 300,00

La quête de la sémantique …

Quête de la sémantique

Complexe

Concept

symbolise se rapporte

Signe Chose représente

Simple

Modèles abstraits

Ogden et Richards (1923)

Raisonnement

Echange et partage

Du Web-documentaire …

au Web des données

Kurt Gödel “Systèmes logiques”

”Systèmes de décisions”

Alan Turing (1906, 1978)

Décidabilité

Calculabilité

(1912, 1954)

∃𝐴𝑙𝑔𝑜 → 𝑉 ∪ 𝐹

pour en temps fini ∃𝐴𝑙𝑔𝑜 𝑓 𝑥

Les systèmes axiomatiques

Phase 0 (1965-1980) Pre-DL - introduction réseaux sémantiques et frames. Critiques liées au manque de sémantique formelle.

KL-One: premier système de logique

de description

[Brachman and Schmolze 1985]

Les logiques descriptives

Phase 1 (1980-1990) Algorithmes de subsomption structurelle KL-One, K-Rep, Krypton, Back, Loom Très efficaces, mais non complets, voire même indécicables sauf pour des fragments très pauvres

Phase 2 (1990-1995) Introduction d’algorithmes fondés sur les tableaux. Permet de décider de la cohérence Premiers systèmes utilisant ces méthodes: Kris et Krack. Implémentations efficaces, même si la complexité dans le pire des cas n’est plus polynomiale

[Baader and B. Hollunder, 1991]

Thomas Gruber “A Translation Approach to Portable Ontology” 1993

(1959, )

Sans ambiguïté

Concepts, propriétés relations, fonctions, contraintes, axiomes, sont définis

Modèle abstrait et vue simplifiée d’un phénomène réel que nous souhaitons représenter

Une ontologie est une spécification explicite d’une conceptualisation

1ère définition moderne d’ontologie

Phase 3 (1995-2000) LD très expressives basées sur les tableaux Exploration des liens avec les logiques modales

Systems Algorithm Sound Complete Rule Support Expressivity

Pellet Tableau Yes Yes Yes (SWRL) SROIQ (D)

FaCT++ Tableau Yes Yes No SROIQ (D)

Racer Tableau Yes Yes Yes (SWRL) SHIQ

Kaon2 Resolution Yes Yes Yes (SWRL) SHIQ

HermiT HyperTableau Yes Yes Yes (SWRL) SROIQ (D)

HyperTableau

Tableau Resolution

Motik, B. (2009). Hypertableau Reasoning for Description Logics

Raisonnement avec Les LD

transitif

Constructeur ajouté par rapport

au langage moins complexe

Hiérarchie

de rôles

Hiérarchie de rôles et

inclusion de rôles

complexes

Phase 4 (2000-2012) Web sémantique Systèmes d’information, … Utilisation DL moins expressives…

Le Web sémantique

« Le web sémantique ne fonctionnera jamais ! »

James Hendler « Why the semantic Web will nerver work », ESWC’11

Sciences de la nutrition

Physique

Théologie

Numérique

Botanique

Politique

Agriculture

Culture

Le Web sémantique

Semantic Error 409 – Ontology Not Found

You’ve encountered a " Ontology Not Found" error while trying to access a semantic term grounded on the University of Burgundy Laboratory LE2I Cheksem web server.

Le Web sémantique

14 ans après … « La pile technologique du Web sémantique »

Annotation, Triplestore, BD graphe Scalable

Approche formelle

Le Web sémantique

14 ans après … « La pile technologique du Web sémantique »

Phase 5 (2012-20..) Application à l’échelle du web (sémantique) Web Reasonning

“I’m sorry Dave,

I’m afraid I can’t do that.”

HyperTableau

Tableau Resolution

Passage à l'échelle difficile …

WebPIE - Raisonnement basé sur les règles …

et Map Reduce

Urbani, J., Kotoulas, S., Oren, E., & Harmelen, F. (2009). Scalable Distributed Reasoning Using MapReduce. In - ISWC 2009

SE - 40 (Vol. 5823, pp. 634–649).

Raisonner à grande échelle

Urbani, J., Kotoulas, S., Maassen, J., Van Harmelen, F., & Bal, H. (2012). WebPIE: A Web-scale parallel inference engine

using MapReduce. Web Semantics: Science, Services and Agents on the World Wide Web.

Forward-chaining (Materialization)

Matérialisation

Requêtes

Fermeture

Backward-Chaining

Requêtes

Matérialisation

Fermeture

Approches hybrides

QueryPIE Matérialisation Backward-chaining OWL-RL

Urbani, J., Piro, R., van Harmelen, F., & Bal, H. (2013). Hybrid reasoning on OWL RL. Semantic Web.

Règles pré-matérialisées

o QueryPie [4] (Work in progress)

– Is a Hybrid reasonner for large-scale Triplestores

– OWL RL

o Objective

– Query answering

– Large Triple-stores

o Inference by

– Backward chaining

– Pre-materializing part of the inferences

Conférence ESWC’15 Prototype sur OWL 2 EL

Approches hybrides

Slider: an Efficient Incremental Reasoner J. Chevalier (Fragments RDFS et pD*)

Approche incrémentale

Raisonner en OWL DL à l’échelle du Web

Problème non résolu

Urbani, J. (2013). Three Laws Learned from Web-scale Reasoning. In 2013 AAAI Fall Symposium Series.

Le projet de l’entreprise … La sémantique, la veille et le web

Architecture actuelle

Outils actuels de veille

Architecture future

Volume !!!

01001101100

01010011000

11000111110

Web et Flux

Quels sont les leviers pour faciliter cette étape ?

Sourcing Valeur Véracité Visualisation

Traitement massif des données

01001101100

01010011000

11000111110

01001101100

01010011000

11000111110

Web et Flux Plateforme Actualis

Sourcing sémantique Croisement de l’information

Contexte scientifique – Big Data

Processus de classification multi-label hiérarchique sémantique pour le Big Data

Comment générer cette taxonomie à l’échelle du Web ?

Analyse des données

Modèle prédictif

Le problème … Comment coder cette moulinette ?

Exemples

Machine Learning

Programme

Par exemple … Donner un sens au sens des mots !

• La veille sanitaire est l'action de surveiller l'état de santé d'une population afin de prévenir des menaces d'épidémies.

• La veille des jours fériés, la journée de travail finit une heure plus tôt.

• J'ai entendu plusieurs versions sur les conditions pour avoir le jour férié rémunéré : il faut travailler la veille du jour et le lendemain et avoir un ...

• Ainsi la garde de nuit doit être apte au cours de sa veille nocturne, …

• La garde de nuit veille sur la ville. Archivé. Quatre agents, deux chiens : la police municipale veillera sur la tranquillité publique le ...

Phrases + Dictionnaires & Définitions

Machine Learning

Décision du sens du mot

« La veille concurrentielle est l'activité continue et en grande partie itérative qui vise à une surveillance active de ... »

Veille 3

jour, précédent, un, autre

fait, de, ne, pas, dormir, éveil

3 garde, fait, pendant, la, nuit

Le café noir très fort qu'il a pris au début

de la veille, empêche Arsène André de dormir.

fait, de, ne, pas, dormir, éveil, café, noir, très, fort, début, la, empêche, Arsène, André

George E. P. Box

Essentially, all models are wrong, but some are useful.

Empirical Model-Building and Response Surfaces (1987) p. 424

jour (35), précédent (62), un (36), autre (21), finis (3), feux(1), longues(33), parlottes (2), précèdent(40), immédiatement(5), avant(37), etc.

fait (3), de (21) , ne (10), pas(30), dormir(64), éveil(45), café(2), noir(10), très (3), fort(2), début(1), la(21), empêche(40), Arsène(1), André(2), etc.

garde(50), fait(12), pendant(23), la(37), nuit(15), préparez(22), concurrentielle(6), à(38), rester(9), éveillé(11), difficile(17), alerte(55), surveillance(19), etc.

« La veille concurrentielleest l'activité continue et en grande partie itérative qui vise à une surveillance active de ... »

Veille 3

garde(50), fait(12), pendant(23), la(37), nuit(15), préparez(22), concurrentielle(6), à(38), rester(9), éveillé(11), difficile(17), alerte(55), surveillance(19), etc.

Seuils des données

10 1000 1 000 000 1010

Et notre problème … Développement d’une solution Big Data

50 000 sacs de 50 000 mots >1010 cases mémoires

1010 = 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10

La méthode … En cinq phases Usage des logiques descriptives Prototype vs 1.0

Processus de traitement des données

Ontologies OWL et moteur d’inférence

1.VectorizationTraining

dataset

Frequency

Matrix

1. Vectorization

% W1 W2 W3 W4 W5 W6 W7

Tax1 0 0 5 0 5 25 25

Tax2 0 75 0 0 0 75 5

Tax3 0 0 75 0 25 0 0

Tax4 5 25 25 0 5 93 25

Tax5 95 0 0 0 60 0 5

Tax6 0 60 0 95 0 0 90

Tax7 5 98 5 60 25 0 79

Taxi sont les termes de la taxonomie Wi sont les mots fréquents dans les textes

dataset

Frequency

Matrix

% W1 W2 W3 W4 W5 W6 W7

Tax1 0 0 5 0 5 25 25

Tax2 0 75 0 0 0 75 5

Tax3 0 0 75 0 25 0 0

Tax4 5 25 25 0 5 93 25

Tax5 95 0 0 0 60 0 5

Tax6 0 60 0 95 0 0 90

Tax7 5 98 5 60 25 0 79

1. Vectorization

dataset

Frequency

Matrix

2.Resolution

Enrichment

Ontology

Tax…

% W1 W2 W3 W4 W5 W6 W7

Tax1 0 0 5 0 5 25 25

Tax2 0 75 0 0 0 75 5

Tax3 0 0 75 0 25 0 0

Tax4 5 25 25 0 5 93 25

Tax5 95 0 0 0 60 0 5

Tax6 0 60 0 95 0 0 90

Tax7 5 98 5 60 25 0 79

2. Résolution

3.Classification

1.Vectorization

2.Resolution

Training

dataset

Frequency

Matrix

Enrichment

Ontology

3.Classification

Subsumption

hierarchy

Tax 10 Tax12

Tax2=Tax3

Tax…

1.Vectorization

2.Resolution

Training

dataset

Frequency

Matrix

Enrichment

Rules3.Classification

Subsumption

hierarchy

Ontology

4.RealizationNew DataClassified

4. Realization

Instances

Tax 10

Instances

Instances Tax2=Tax3

Instances

Tax…

L1 L2 L3 L4 L5

Doc1 x - - - x

Doc2 - x x - x

Doc3 x - - x -

Doc4 x - - - -

Doc5 - x - x -

Doc6 - - x - x

Doc7 x - - x -

Résultats – Delicious dataset

1.Vectorization

2.Resolution

Training

dataset

Frequency

Matrix

Enrichment

Ontology

3.Classification

Subsumption

hierarchy

Tax 10 Tax12

Tax2=Tax3

Tax…

Classification WORKS

with Standard DL Reasonners

Classification DOESN’T WORK

with Standard DL Reasonners

Résultats – Delicious dataset

La méthode Big Data En cinq phases Usage des LD et des règles logiques Prototype vs 2.0

Nouvelle architecture BigData

Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

Comment distribuer chacune des phases du processus ?

Montée en charge Utilisation du framework Hadoop et du modèle MapReduce

Parsing, Traitement du Langage

Naturel*

1. Indexation

* Tokenisation, Lemmatisation, Suppression des mots vides

Génération d’un index des termes

2. Vectorisation

• Uni-grams (termes) • N-grams (collocations) - Amélioration

Détection des termes pertinents basée sur l’index

Les termes dont la fréquence est inférieure à un certain seuil sont rejetés

2. Vectorisation - Vecteurs

Liste de collocation { uni-grams + n-grams }

Liste des fréquences

Génération des vecteurs de fréquences

Seuil de pertinence

Algorithme des Stripes

3. Hiérarchisation

Algorithme de subsomption

De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, 2013. Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp.54-69

3. Hiérarchisation

Algorithme de subsomption MapReduce

Label_A, (Label_B, Score) Label_B, (Label_D, Score) Label_B, (Label_E, Score) Label_C, (Label_A, Score) Label_D, (Label_A, Score) …

Label_A, (Label_B, Nb_Cooc) Label_A, (Term_1, Nb_Cooc) Label_B, (Label_D, Nb_Cooc) Label_B, (Term_2, Nb_Cooc) Term_2, (Label_E, Nb_Cooc) …

Reduce

Label_A, Label_B Label_B, Label_D Label_B, Label_E Label_C, Label_E Label_D, Label_A …

Liste de cooccurrences Parentés potentielles Parentés validées

Score calculé à partir des cooccurrences

3. Hiérarchisation

Hiérarchie chargée dans un triplestore

Stardog Hiérarchie

4. Résolution

% W1 W2 W3 W4 W5 W6 W7

Tax1 0 0 5 0 5 25 25

Tax2 0 75 0 0 0 75 5

Tax3 0 0 75 0 25 0 0

Tax4 5 25 25 0 5 93 25

Tax5 95 0 0 0 60 0 5

Tax6 0 60 0 95 0 0 90

Tax7 5 98 5 60 25 0 79

Clauses de Horn (SWRL et Stardog)

Génération de règles de classification

𝜶 : Item(?d) ∧ Word(?w1) ∧ hasWord(?d,?w1) → Tax(?d1) 𝜷 : Item(?d) ∧ Word(?w1) ∧ hasWord(?d,?w1) ∧

Word(?w2) ∧ hasWord(?d,?w2) → Tax(?d1)

Seuils 𝜶 et 𝜷

Item: nouveau document

4. Résolution

% W1 W2 W3 W4 W5 W6 W7

Tax1 0 0 5 0 5 25 25

Tax2 0 75 0 0 0 75 5

Tax3 0 0 75 0 25 0 0

Tax4 5 25 25 0 5 93 25

Tax5 95 0 0 0 60 0 5

Tax6 0 60 0 95 0 0 90

Tax7 5 98 5 60 25 0 79

Approche MapReduce « diviser pour régner »

Tax_2, (Term_2, Nb_Cooc) Tax_2, (Term_6, Nb_Cooc) Tax_2, (Term_8, Nb_Cooc) Tax_2, (Term_9, Nb_Cooc) …

4. Résolution

Stardog

Item(?d) ∧ Word(?w1)∧ hasWord(?d,?w1) → Tax(?d1)

Règles

5. Réalisation

Utilisation des règles pour classer

Item(?d) ∧ Word(?w1)∧ hasWord(?d,?w1) → Tax(?d1)

L1 L2 L3 L4 L5

Doc1 x - - - x

Doc2 - x x - x

Doc3 x - - x -

Doc4 x - - - -

Doc5 - x - x -

Doc6 - - x - x

Doc7 x - - x -

Règles

Vecteurs « document »

Classés dans Stardog

Résultats

Evaluation de l’apprentissage

175000 407000 994000 2788500

Number of Items

Learned Terms

175000 407000 994000 2788500

Number of Items

Learned Labels

175000 407000 994000 2788500

Number of Items

Learned Subsumtion relations

Résultats préliminaires

Evaluation de la performance du processus (4 nœuds):

175000 407000 994000 2788500

Number of Items

Execution Time

Indexation

Vectorization

Hierarchization

Sémantique et connaissances • La sémantique • Problématique • Application au Big Data

Conclusion

Merci … Questions ?

textuels dans un contexte big data...les logiques descriptives phase 2 (1990-1995) introduction...

Documents

statistiques descriptives

initiation aux statistiques descriptives :...

statistique descriptives s1 de bien ]

initiation aux statistiques descriptives : cours

initiation aux statistiques descriptives m loiseau

doné escriprtc données descriptives

statistiques descriptives sur les concentrations des

fiches descriptives des monnaies

fiches descriptives v-finale- janv 16

f108 oscar fontaine. 1899-1942. 36 cm de documents...

s1 exam statistiques descriptives...

Éditer des états textuels variants

cours de statistiques descriptives

approches quantitatives des corpus...

fiches descriptives des unites d’enseignement

fiches descriptives des unités d enseignement

fiches descriptives orthophonie .pdf

l’approche textométrique des corpus textuels

les enquêtes transversales (descriptives)

statistiques descriptives & probabilités examen