analyse et fouille d’ adrien guille pour...
TRANSCRIPT
Analyse et fouille
pour les
réseaux sociaux en ligne :
la plateforme
SONDY
Travail de thèse
d’ Adrien GUILLE
Direction : Djamel A. ZIGHEDEncadrement : Cécile FAVRE
En collaboration avec :
Hakim HACID
Fouille et Visualisation
de Données Massives
24-25 juin 2013, Paris
2/22
SONDY, plateforme développée par Adrien GUILLE
• Des personnes interconnectées qui publient des
messages
• Production d’un flux de messages continu
Les réseaux sociaux en ligne
3/22
SONDY, plateforme développée par Adrien GUILLE
Problématique de thèse :
diffusion de l’information
• Chaîne de traitement :
I. Détecter les thématiques
II. Capturer le processus de diffusion
III. Prédire ce processus
• Applications :
– Journalisme (veille)
– Marketing (campagne virale)
– Etc.
4/22
SONDY, plateforme développée par Adrien GUILLE
Constat et besoins
• Activité de recherche très intense dans le domaine mais difficulté de comparaison (problème de réutilisation des méthodes proposées)
• Outils d’analyse de réseaux/de graphes • Cuttlefish
• Gephi
• SNAP
• …
• Outils de détection de thématiques(sur des données spécifiques / pas d’ajout d’algorithmes possibles)
• TwitInfo
• Eddi
• …
5/22
SONDY, plateforme développée par Adrien GUILLE
Constat et besoins
• Besoin d’une plateforme intégrant différentes approches, avec des possibilités de comparaison
• Analyse à la fois de l’activité sociale via l’exploitation des messages et les réseaux en relation avec cette activité
• Deux types de public : – Utilisateurs finaux (journalistes, analystes médias, …)
Objectif : explorer l’activité sociale (ex : Twitter)
Besoin : outil de veille basé sur l’analyse de la diffusion d’informations
– Chercheurs Objectif : expérimenter et comparer des méthodes d’analyse et de fouille sur ces données :
Besoin : plateforme open-source pour implémenter des algorithmes sans se soucier de la gestion des données en entrée, des moyens de visualisation en sortie, avec des possibilité de comparaison
6/22
SONDY, plateforme développée par Adrien GUILLE
Une proposition
La plateforme open-source SONDYSONDY
(i.e. SOcial Networks DYnamics)
"sondy" : terme tchèque pour sonde
7/22
SONDY, plateforme développée par Adrien GUILLE
• Présentation générale de SONDY
• Manipulation de données
• Détection de thématiques
• Analyse du réseau
• Gestion des extensions
• Conclusion
Sommaire
8/22
SONDY, plateforme développée par Adrien GUILLE
Présentation générale de SONDY
• Téléchargement :http://mediamining.univ-lyon2.fr/sondy
• Technologies :
• Application en Java (environ 10 000 lignes de code)
• Stockage/indexation des données
» MySQL
» Lucene
• Visualisation de graphe avec GraphStream
9/22
SONDY, plateforme développée par Adrien GUILLE
Présentation générale de SONDY
• Architecture : 4 services
– Manipulation des données : importer et préparer les données
– Détection de thématiques : identifier et localiser temporellement des thématiques populaires
– Analyse du réseau : observer la structure du réseau des auteurs et l’analyse (personnes influentes, détection de communautés, etc.)
– Gestion des extensions : importer de nouveaux algorithmes (détection de thématiques ou analyse du réseau)
10/22
SONDY, plateforme développée par Adrien GUILLE
Manipulation des données
• 2 fichiers CSV caractérisant le réseau social
• 1 fichier pour la structure du graphe
• 1 fichier pour le flux de messages
• Exemple jeu de données :
7 874 772 messages publiés sur 7 jours
par 1 697 759 utilisateurs de Twitter
11/22
SONDY, plateforme développée par Adrien GUILLE
Manipulation des données
• Discrétisation temporelle du flux de messages (pour application de méthodes se basant sur le calcul de la fréquence des termes)
• Redimensionnement du flux de messages (extraction d’un jeu de données)
• Suppression des mots outils (nettoyage de données selonune liste intégrée ou à la discrétion de l’utilisateur)
• Stemming (désuffixer les termes pour améliorerl’efficacité de certains algorithmes de détection de thématiques)
• Lemmatisation
13/22
SONDY, plateforme développée par Adrien GUILLE
• Thématiques à détecter :
thématiques populaires à un moment donné
(≠ bruit de fond)
• Plusieurs définitions de thématique :• 1 terme
• ensemble de termes
• distribution sur un ensemble de termes
• Méthodes :• Analyse de seuil
• Analyse de courbe
• Modèle probabiliste
• Modèle social
Détection de thématiques
14/22
SONDY, plateforme développée par Adrien GUILLE
• Méthodes : à base de mesure de fréquences,
avec discrétisation du flux de messages
• Variation de la taille des intervalles : détection
des thématiques populaires à différentes
échelles
Détection de thématiques
15/22
SONDY, plateforme développée par Adrien GUILLE
• Algorithmes implémentés :– 1thématique = 1 terme
• Peaky Topics (Shamma et al., 2011), pour détecter des thématiques trèspopulaires sur une période très localisée (détection automatique de la tranche temporelle correspondant au pic)
• Persistent Conversations (Shamma et al., 2011), pour détecter des thématiques moins saillantes mais qui continuent de générer de l’activitéplus longtemps (détection automatique de la tranche temporellecorrespondant au pic)
• …
• Aide à la localisation temporelle des périodes de popularitédes thématiques : indicateur MACD (Moving Average Convergence Divergence) (Lu et al., 2012)
Détection de thématiques
16/22
SONDY, plateforme développée par Adrien GUILLE
• Résultats des algorithmes peuvent êtreexportés pour être comparés
• Affichage du temps de calcul
• Exploration des thématiques variée :
– liste classée des thématiques détectées
– génération de “timelines”
– sélection d’une thématique en particulier puisvisualisation de l’évolution de sa popularité dansle temps et comparaison avec d’autres
Détection de thématiques
19/22
SONDY, plateforme développée par Adrien GUILLE
• Visualiser le réseau des auteurs en rapport avec la thématique et la période sélectionnées dans le service de détection
• Possibilité de se déplacer ou zoomer, ainsi que de sélectionner les noeuds pour les identifier ou explorer leurs messages.
• Coloration des graphes :
– K-Cores Decomposition (Batagelj et Zaversnik, 2003), pour identifier des sous-ensembles particuliers du graphe appelés k-cores. Les plus grandes valeurs de k correspondent aux noeuds les plus centraux du réseau.
– PageRank (Page et al., 1998), un algorithme classique pour quantifier l’autorité des noeuds au sein du réseau.
Analyse du réseau
21/22
SONDY, plateforme développée par Adrien GUILLE
• Interface de programmation permettant
d’implémenter de nouveaux algorithmes
• Import de nouveaux algorithmes grâce à une
classe compilée en format JAR
• Après import de l’algorithme, apparition dans
l’interface utilisateur (possibilité de faire
varier ses paramètres)
Gestion des extensions
22/22
SONDY, plateforme développée par Adrien GUILLE
• Plateforme SONDY pour l’analyse et la fouille de réseaux sociaux en ligne (fait l’objet d’une démonstration àSIGMOD’13 après avoir été présentée à EGC’13)
• Plateforme comparative de méthodes, évolutive, utile pour tester de nouvelles propositions
• En cours au niveau recherche : proposition d’une méthode de détection de thématiques ne se résumant pas à un seul termeet capable de passer à l’échelle
• Perspectives :– Enrichissement avec de nouvelles méthodes
– Récupération des données directement depuis des réseaux sociaux en ligne
– Intégration de nouveaux services (prédiction du graphe de diffusion) en se basant sur état de l’art à paraître dans SIGMOD Rec.
Conclusion
SONDY
développé par
Adrien GUILLE
Merci
de votre
attention!
Fouille et Visualisation
de Données Massives
24-25 juin 2013, Paris