analyse et fouille d’ adrien guille pour...

24
Analyse et fouille pour les réseaux sociaux en ligne : la plateforme SONDY Travail de thèse d’ Adrien GUILLE Direction : Djamel A. ZIGHED Encadrement : Cécile FAVRE En collaboration avec : Hakim HACID Fouille et Visualisation de Données Massives 24-25 juin 2013, Paris

Upload: phamdan

Post on 12-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Analyse et fouille

pour les

réseaux sociaux en ligne :

la plateforme

SONDY

Travail de thèse

d’ Adrien GUILLE

Direction : Djamel A. ZIGHEDEncadrement : Cécile FAVRE

En collaboration avec :

Hakim HACID

Fouille et Visualisation

de Données Massives

24-25 juin 2013, Paris

2/22

SONDY, plateforme développée par Adrien GUILLE

• Des personnes interconnectées qui publient des

messages

• Production d’un flux de messages continu

Les réseaux sociaux en ligne

3/22

SONDY, plateforme développée par Adrien GUILLE

Problématique de thèse :

diffusion de l’information

• Chaîne de traitement :

I. Détecter les thématiques

II. Capturer le processus de diffusion

III. Prédire ce processus

• Applications :

– Journalisme (veille)

– Marketing (campagne virale)

– Etc.

4/22

SONDY, plateforme développée par Adrien GUILLE

Constat et besoins

• Activité de recherche très intense dans le domaine mais difficulté de comparaison (problème de réutilisation des méthodes proposées)

• Outils d’analyse de réseaux/de graphes • Cuttlefish

• Gephi

• SNAP

• …

• Outils de détection de thématiques(sur des données spécifiques / pas d’ajout d’algorithmes possibles)

• TwitInfo

• Eddi

• …

5/22

SONDY, plateforme développée par Adrien GUILLE

Constat et besoins

• Besoin d’une plateforme intégrant différentes approches, avec des possibilités de comparaison

• Analyse à la fois de l’activité sociale via l’exploitation des messages et les réseaux en relation avec cette activité

• Deux types de public : – Utilisateurs finaux (journalistes, analystes médias, …)

Objectif : explorer l’activité sociale (ex : Twitter)

Besoin : outil de veille basé sur l’analyse de la diffusion d’informations

– Chercheurs Objectif : expérimenter et comparer des méthodes d’analyse et de fouille sur ces données :

Besoin : plateforme open-source pour implémenter des algorithmes sans se soucier de la gestion des données en entrée, des moyens de visualisation en sortie, avec des possibilité de comparaison

6/22

SONDY, plateforme développée par Adrien GUILLE

Une proposition

La plateforme open-source SONDYSONDY

(i.e. SOcial Networks DYnamics)

"sondy" : terme tchèque pour sonde

7/22

SONDY, plateforme développée par Adrien GUILLE

• Présentation générale de SONDY

• Manipulation de données

• Détection de thématiques

• Analyse du réseau

• Gestion des extensions

• Conclusion

Sommaire

8/22

SONDY, plateforme développée par Adrien GUILLE

Présentation générale de SONDY

• Téléchargement :http://mediamining.univ-lyon2.fr/sondy

• Technologies :

• Application en Java (environ 10 000 lignes de code)

• Stockage/indexation des données

» MySQL

» Lucene

• Visualisation de graphe avec GraphStream

9/22

SONDY, plateforme développée par Adrien GUILLE

Présentation générale de SONDY

• Architecture : 4 services

– Manipulation des données : importer et préparer les données

– Détection de thématiques : identifier et localiser temporellement des thématiques populaires

– Analyse du réseau : observer la structure du réseau des auteurs et l’analyse (personnes influentes, détection de communautés, etc.)

– Gestion des extensions : importer de nouveaux algorithmes (détection de thématiques ou analyse du réseau)

10/22

SONDY, plateforme développée par Adrien GUILLE

Manipulation des données

• 2 fichiers CSV caractérisant le réseau social

• 1 fichier pour la structure du graphe

• 1 fichier pour le flux de messages

• Exemple jeu de données :

7 874 772 messages publiés sur 7 jours

par 1 697 759 utilisateurs de Twitter

11/22

SONDY, plateforme développée par Adrien GUILLE

Manipulation des données

• Discrétisation temporelle du flux de messages (pour application de méthodes se basant sur le calcul de la fréquence des termes)

• Redimensionnement du flux de messages (extraction d’un jeu de données)

• Suppression des mots outils (nettoyage de données selonune liste intégrée ou à la discrétion de l’utilisateur)

• Stemming (désuffixer les termes pour améliorerl’efficacité de certains algorithmes de détection de thématiques)

• Lemmatisation

12/22

SONDY, plateforme développée par Adrien GUILLE

Manipulation des données

13/22

SONDY, plateforme développée par Adrien GUILLE

• Thématiques à détecter :

thématiques populaires à un moment donné

(≠ bruit de fond)

• Plusieurs définitions de thématique :• 1 terme

• ensemble de termes

• distribution sur un ensemble de termes

• Méthodes :• Analyse de seuil

• Analyse de courbe

• Modèle probabiliste

• Modèle social

Détection de thématiques

14/22

SONDY, plateforme développée par Adrien GUILLE

• Méthodes : à base de mesure de fréquences,

avec discrétisation du flux de messages

• Variation de la taille des intervalles : détection

des thématiques populaires à différentes

échelles

Détection de thématiques

15/22

SONDY, plateforme développée par Adrien GUILLE

• Algorithmes implémentés :– 1thématique = 1 terme

• Peaky Topics (Shamma et al., 2011), pour détecter des thématiques trèspopulaires sur une période très localisée (détection automatique de la tranche temporelle correspondant au pic)

• Persistent Conversations (Shamma et al., 2011), pour détecter des thématiques moins saillantes mais qui continuent de générer de l’activitéplus longtemps (détection automatique de la tranche temporellecorrespondant au pic)

• …

• Aide à la localisation temporelle des périodes de popularitédes thématiques : indicateur MACD (Moving Average Convergence Divergence) (Lu et al., 2012)

Détection de thématiques

16/22

SONDY, plateforme développée par Adrien GUILLE

• Résultats des algorithmes peuvent êtreexportés pour être comparés

• Affichage du temps de calcul

• Exploration des thématiques variée :

– liste classée des thématiques détectées

– génération de “timelines”

– sélection d’une thématique en particulier puisvisualisation de l’évolution de sa popularité dansle temps et comparaison avec d’autres

Détection de thématiques

17/22

SONDY, plateforme développée par Adrien GUILLE

Détection de thématiques

18/22

SONDY, plateforme développée par Adrien GUILLE

Détection de thématiques

19/22

SONDY, plateforme développée par Adrien GUILLE

• Visualiser le réseau des auteurs en rapport avec la thématique et la période sélectionnées dans le service de détection

• Possibilité de se déplacer ou zoomer, ainsi que de sélectionner les noeuds pour les identifier ou explorer leurs messages.

• Coloration des graphes :

– K-Cores Decomposition (Batagelj et Zaversnik, 2003), pour identifier des sous-ensembles particuliers du graphe appelés k-cores. Les plus grandes valeurs de k correspondent aux noeuds les plus centraux du réseau.

– PageRank (Page et al., 1998), un algorithme classique pour quantifier l’autorité des noeuds au sein du réseau.

Analyse du réseau

20/22

SONDY, plateforme développée par Adrien GUILLE

Analyse du réseau

21/22

SONDY, plateforme développée par Adrien GUILLE

• Interface de programmation permettant

d’implémenter de nouveaux algorithmes

• Import de nouveaux algorithmes grâce à une

classe compilée en format JAR

• Après import de l’algorithme, apparition dans

l’interface utilisateur (possibilité de faire

varier ses paramètres)

Gestion des extensions

22/22

SONDY, plateforme développée par Adrien GUILLE

• Plateforme SONDY pour l’analyse et la fouille de réseaux sociaux en ligne (fait l’objet d’une démonstration àSIGMOD’13 après avoir été présentée à EGC’13)

• Plateforme comparative de méthodes, évolutive, utile pour tester de nouvelles propositions

• En cours au niveau recherche : proposition d’une méthode de détection de thématiques ne se résumant pas à un seul termeet capable de passer à l’échelle

• Perspectives :– Enrichissement avec de nouvelles méthodes

– Récupération des données directement depuis des réseaux sociaux en ligne

– Intégration de nouveaux services (prédiction du graphe de diffusion) en se basant sur état de l’art à paraître dans SIGMOD Rec.

Conclusion

SONDY

développé par

Adrien GUILLE

[email protected]

Merci

de votre

attention!

Fouille et Visualisation

de Données Massives

24-25 juin 2013, Paris

DES TARIFS ATTRACTIFS…

http://ecole.web-intelligence-rhone-alpes.org/

2 au 6 septembre 2013

Domaine des HautannesSaint-Germain-Au-Mont-d’Or

Rhône, France