exploitation de signaux sociaux pour estimer la pertinence a priori d’une ressource

23
Exploitation de signaux sociaux pour estimer la pertinence a priori d une ressource Ismaël BADACHE Mohand BOUGHANEM 2013/2014 CORIA’14

Upload: ismail-badache

Post on 15-Jul-2015

258 views

Category:

Social Media


0 download

TRANSCRIPT

Exploitation de signaux sociaux pour estimer

la pertinence a priori d’une ressource

Ismaël BADACHE

Mohand BOUGHANEM

2013/2014

CORIA’14

Plan de la présentation

Introduction

État de l’art

Modèle de RI sociale

Evaluation expérimentale4

1

3

Conclusion

2

5

1.1 Émergence du Web social

1

Nombre d’utilisateurs actifs 2013

1,2 1,41,7

2,4

2011 2012 2013 2014

Nombre d’internautes

Contenu social par 1 minute

41000 Publications

1,8 Millions J’aime

~350 GO de données

Face

bo

ok

Source:blogdumoderateur.comquantcast.comsemiocast.com

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

Vidéo

Photo

Page Web

Ressources Web

Ressource

.

.

.

Réseaux sociaux

Marques

Commentaires/Avis

Partages/Recommandes

Mentions/Votes

Like/+1

Interactions

Extraction et quantification des

propriétés sociales

Modèle de RI

Incorporation

Requête

Réputation

2

Résultats

Fig 1. Schéma de la RI sociale par rapport à notre approche

Signaux Sociaux

(Source d’évidence)

Popularité

.

.

etc.

1.2 Questions de recherche

Quelles sont les propriétés sociales utiles pour évaluer la pertinence a

priori d’une ressource ?2

Comment traduire les signaux sociaux en propriétés sociales ?1

Quel modèle théorique pour combiner la pertinence a priori d’une

ressource et sa pertinence thématique ?3

3

Quel est l’impact de ces propriétés sociales sur les performances d’un

système de RI ?4

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

2.1 Synthèse des travaux

4

Sources d’évidence Propriétés Modèles Auteurs

Caractéristiques structurelles du document

• Liens entrants, sortants (PageRank, HITS).Popularité

Autorité Modèle de

langue

(Brin et Page, 1998)

(Kleinberg, 1999)

• Types d'URL. Importance (Kraaij et al., 2002)

Caractéristiques sociales du document

• Nombre de : clicks, votes, enregistrement et

recommandation.

Popularité

Importance

Combinaison

Linéaire

(Karweg et al., 2011)

• Nombre de : j’aime, j’aime pas,

commentaire sur YouTube et nombre de

lecture d’un titre sur Last.fm. Importance

Technique

d’apprentissage

et

Combinaison

linéaire

(Chelaru et al., 2012)

(Khodaei et al. 2012)

• Présence d'un lien URL dans un tweet. (Alonso et al., 2010)

• Nombre de retweet. PopularitéTechnique

d’apprentissage

(Yang et al., 2012)

(Hong et al., 2011)

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

3.1 Modèle de langue

• Un document D peut être représenté à la fois par un ensemble de mots-

clés 𝐷𝑚={𝑚1, 𝑚2, …𝑚𝑛} et des caractéristiques non-textuelles.

• 𝑃(𝐷) est une probabilité estimant la pertinence a priori d’un document

indépendamment de son contenu textuel.

• Dans notre approche : un document (ressource) est représenté par un

ensemble de mots-clés 𝐷𝑚 et un ensemble de caractéristiques sociales

𝐷𝑠={𝑎1, 𝑎2, … 𝑎𝑚}.

Probabilité a priori

du document D

Modèle textuel

Requête/Contenu

𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫 ∙ 𝑃 𝑄 𝐷)

5

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

𝑃 𝐷 𝑄 =𝑟𝑎𝑛𝑘 𝑷 𝑫𝒔 ∙ 𝑃 𝑄 𝐷)

3.2 Propriétés sociales utilisées

La popularité 𝑷𝑺𝒐𝒄Phénomène social qui dicte quel est le plus connu dans le public,

estimée en fonction de l’intensité de partage d’une ressource dans les

réseaux sociaux.

La réputation 𝑹𝑺𝒐𝒄Une opinion sur cette ressource, estimée à partir des actions relevant

d’activités sociales qui portent un sens positif tel que le j’aime de

Facebook.

La fraîcheur 𝑭𝑺𝒐𝒄La date d’une action (ex. commentaire, mention, etc.) effectuée sur

une ressource dans les réseaux sociaux, peut être utilisée pour mesurer la

fraîcheur de l’information.

6

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

3.3 Estimation de P(𝑫𝒔) : La combinaison

• La formule de la combinaison des 3 propriétés sociales :

• 𝑃𝐹𝑆𝑜𝑐(𝐷𝑠), 𝑃𝑃𝑆𝑜𝑐(𝐷𝑠) et 𝑃𝑅𝑆𝑜𝑐(𝐷𝑠) sont les probabilités a priori

d’une ressource relative à 𝑭𝑺𝒐𝒄 (Fraîcheur), 𝑷𝑺𝒐𝒄 (Popularité) et

𝑹𝑺𝒐𝒄 (Réputation), respectivement.

• 𝑃𝐹𝑆𝑜𝑐⊕𝑃𝑆𝑜𝑐⊕𝑅𝑆𝑜𝑐 𝐷𝑠 est la probabilité de la combinaison des trois

probabilités a priori.

7

𝑃 𝐷𝑠 = 𝑃𝐹𝑆𝑜𝑐⊕𝑃𝑆𝑜𝑐⊕𝑅𝑆𝑜𝑐 𝐷𝑠

= 𝑃𝐹𝑆𝑜𝑐(𝐷𝑠) ∙ 𝑃𝑃𝑆𝑜𝑐(𝐷𝑠) ∙ 𝑃𝑅𝑆𝑜𝑐(𝐷𝑠)

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

La probabilité a priori relative à la popularité/réputation :

• 𝑥 ∈ {𝑃𝑆𝑜𝑐 , 𝑅𝑆𝑜𝑐} . c une constante permettant de traduire le simple

comptage Count() en distribution de probabilité.

• 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖𝑥 , 𝐷𝑠) représente le nombre d’apparition d’une action

spécifique 𝑎𝑖𝑥 dans la ressource 𝐷𝑠. 𝑎𝑖

𝑥 désigne l’action 𝑎𝑖 exploitée pour

mesurer la propriété x.

8

3.4 Estimation de P(𝑫𝒔) : Popularité et Réputation

𝑃𝑥(𝐷) = 𝑃𝑥(𝐷𝑠) =

𝑎𝑖𝑥∈𝐴

𝑃𝑥(𝑎𝑖𝑥) =

𝑎𝑖𝑥∈𝐴

𝑐 ∙ 𝐶𝑜𝑢𝑛𝑡(𝑎𝑖𝑥 , 𝐷𝑠)

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

• 𝑇 = {𝑡𝑎1 , 𝑡𝑎2 , … 𝑡𝑎𝑘} ensemble de k moments (date) à laquelle une action

ai a été produite. Un instant de temps t représente la date et l’heure

(datetime) de l’action effectuée par un utilisateur sur une ressource 𝐷𝑠.

• 𝑇𝑖𝑚𝑒 𝑡𝑎𝑖 , 𝐷𝑠 = 𝑡𝐴𝑐𝑡𝑢𝑒𝑙 − 𝑡𝑎𝑖estime le temps écoulé depuis la dernière

action 𝑡𝑎𝑖 pour une ressource 𝐷𝑠.

9

3.5 Estimation de P(𝑫𝒔) : Fraîcheur

𝑃𝐹𝑆𝑜𝑐(𝐷𝑠) =

𝑎𝑖∈𝐴

𝑃𝐹𝑆𝑜𝑐(𝑡𝑎𝑖) =

𝑎𝑖∈𝐴

1

𝑇𝑖𝑚𝑒(𝑡𝑎𝑖 , 𝐷𝑠)

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.1 Objectifs de l’evaluation

10

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

1) Etudier l’impact d’intégration individuelle de chacun des signaux

sociaux sur la performance du modèle proposé.

2) Etudier l’impact de la combinaison ces signaux sociaux regroupés

sous forme de propriétés sociales.

• Cadre d’évaluation :

- Absence d’un cadre standard pour l’évaluation dans la RI sociale.

- Collecter des signaux sociaux et monter l’expérimentation.

4.2 Dataset : Contenu textuel

11

Champ Description Statut

ID identifiant du film (le document). -

Title le titre du film. indexé

Year l’année de sortie du film. indexé

Rated classement des films selon le type du contenu. -

Released date de réalisation du film. indexé

Runtime durée du film. indexé

Genre genre de film (Action, Drame, etc.). indexé

Director le directeur du projet du film. indexé

Writer les écrivains et les scénaristes du film. indexé

Actors les acteurs principaux du film. indexé

Plot résumé textuel du film. indexé

Poster le lien URL de l’affiche du film. -

url le lien URL qui mène à la source originale du document. -

UGC Les différents signaux sociaux récupérés. -

• 32706 Documents Film en anglais extrait du site IMDb.com

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.3 Dataset : Contenu social

12

ACEBOOKJ’aime

Partage

Commentaire

Date de la mention

WITTERTweet

GOOGLE+Mention +1

Partage

LINKEDDELICIOUS

Marquer

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.3 Dataset : Contenu social

13

• Le champ UGC contient les différents signaux sociaux.

Réseau social Signaux sociaux Somme Min Max Moyenne

Facebook

J’aime 5056517 0 79693 154

Partage 5778414 0 41618 176

Commentaire 6717573 0 60081 205

Twitter Tweet 1097204 0 22954 33

Google+ +1 139189 0 1368 4

Delicious Marque 32810 0 1033 1

LinkedIn Partage 57545 0 25215 1

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.4 Requêtes et jugement de pertinence

14

• Requêtes

- 20 requêtes issues d’INEX IMDb.

- 5 requêtes crées par nous-même.

• Jugement de pertinence

- 12 évaluateurs (23-31 ans).

- Jugement des 100 premiers documents retournés.

- Echelle d’évaluation à 3 points de pertinence.

- Chaque requête est jugée par 3 utilisateurs.

- Bon accord Kappa entre les évaluateurs (81,24%).

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.5 Quantification des propriétés sociales

15

Propriétés sociales Signaux sociaux Réseaux sociaux

Popularité (PSoc)

Nombre de « Commentaire » Facebook

Nombre de « Tweet » Twitter

Nombre de « Partage » LinkedIn, Facebook

Réputation (RSoc)

Nombre de « +1 » Google+

Nombre de « J’aime » Facebook

Nombre de « Marque » Delicious

Fraîcheur (FSoc) Date de la dernière action Facebook

• Chaque propriété est quantifiée par des signaux sociaux spécifiques,

selon leurs nature et signification.

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.6 Résultats : Signaux sociaux

16

0,64140,6586

0,6507

0,6048 0,5979 0,5965 0,5921 0,58660,5748

0,52

0,54

0,56

0,58

0,6

0,62

0,64

0,66

0,68

nDCG@20

J'aime

Partage

Commentaire

Tweet

PlusOne

Marque

Partage (Lin)

ML.Hiemstra

BM25

0,3155 0,3126 0,2912 0,2844 0,267 0,2697 0,2701 0,2666 0,2601

0

0,1

0,2

0,3

0,4

MAP

Baselines

Baselines

Fig 2. Intégration individuelle des signaux sociaux dans ML.Hiemstra

J’aim

e

Partage

Commentaire

Comment

Partage

J’aim

e

Tweet

+1 Partage

Hiemstra

BM25

Marque

Tweet

+1 Marque

Partage

Hiemstra

BM25

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.7 Résultats : Propriétés sociales

17

0,6951

0,3333

0,6661

0,3219

0,6229

0,2902

0,7438

0,3882

0,5866

0,2666

0,5748

0,2601

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

nDCG@20 MAP

Popularité Réputation Fraîcheur Toutes les propriétés ML.Hiemstra BM25

BaselinesBaselines

Fig 3. Intégration de propriétés sociales dans ML.Hiemstra

Popularité

Réputation

Fraîcheur

Globale

BM25

Hem

stra

Popularité

Réputation

Fraîcheur

BM25

Globale

Hem

stra

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.8 Résultats : Comparaison

18Fig 4. Comparaison des résultats

0,3155 0,3126

0,2912 0,2844

0,267 0,2697 0,2701

0,24

0,26

0,28

0,3

0,32

MAP

J'aime Partage Commentaire Tweet PlusOne Marque Partage (Lin)

0,3333 0,3219 0,2902

0,3882

0

0,1

0,2

0,3

0,4

0,5

MAP

Popularité Réputation Fraîcheur Toutes les propriétés

Popularité Réputation FraîcheurGlobale

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

4.9 Analyse de corrélation des rangs

19

0,1675

0,1760

0,2158

0,2322

0,2701

0,2858

0,2986

Google +1

Marque

Partages (Lin)

Tweet

Partage (FB)

Commentaire

J'aime

0,22

0,52

0,6431

Fraîcheur

Réputation

Popularité

Fig 6. Corrélation des propriétés sociales

Fig 5. Corrélation des signaux sociaux

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

5. Conclusion

20

• Modèle de recherche d’information sociale

- Evidence thématique (Modèle de langue)

- Evidence sociale (Propriétés sociales).

• Expérimentation sur une collection IMDb

- Amélioration significative par rapport aux modèles textuels.

• Perspectives

- Evaluation sur d’autres collections.

- Intégration d’autres propriétés sociales

- Etude approfondie sur l’impact de la propriété temporelle.

- Comparer le modèle proposé avec d’autres modèles sociaux.

1. Introduction 2. Etat de l’art

5. Conclusion

3. Modèle de RI sociale

4. Evaluation expérimentale

http://www.irit.fr/~Ismail.Badache/