soutenance de thèse à mi-parcours

49
cnrs - upmc laboratoire d’informatique de paris 6 etection d’ ´ Ev´ enements dans la Dynamique des Graphes de Terrain ebastien Heymann encadr´ e par Matthieu Latapy et Cl´ emence Magnien 5 juin 2012

Upload: sebastienheymann

Post on 06-Jul-2015

690 views

Category:

Technology


0 download

DESCRIPTION

Mid-term PhD defense.

TRANSCRIPT

  • 1. cnrs - upmc laboratoire dinformatique de paris 6 eDtection dEvnements dans la eDynamique des Graphes de TerrainSbastien Heymann eencadr par Matthieu Latapy et Clmence Magnienee5 juin 2012

2. cnrs - upmc laboratoire dinformatique de paris 6 ContexteGraphes de terrain Sociologie : rseaux sociaux, rseaux dappels ee Informatique : Internet, web, rseaux pair-`-paire a Biologie, linguistique, etc.Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e2/34 3. cnrs - upmc laboratoire dinformatique de paris 6 ContexteGraphes de terrain Sociologie : rseaux sociaux, rseaux dappels ee Informatique : Internet, web, rseaux pair-`-paire a Biologie, linguistique, etc.Ces graphes sont dynamiques !Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e2/34 4. cnrs - upmc laboratoire dinformatique de paris 6Objectifs de la th`see Dtecter des vnements dans la dynamique des graphese e eDtection danomalies e Donnes : indicateurs statistiques sur des graphes e But : dtecter des changements dans la structure des graphese Nouvelle mthode : dynamique normale vs anormale eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e3/34 5. cnrs - upmc laboratoire dinformatique de paris 6Objectifs de la th`see Dtecter des vnements dans la dynamique des graphese e eDtection danomalies e Donnes : indicateurs statistiques sur des graphes e But : dtecter des changements dans la structure des graphese Nouvelle mthode : dynamique normale vs anormale eCaractrisatione Graphes statiques : centralit, connexit, densit, etc.eee Graphes dynamiques : dure de vie, taux dapparition, .. ? eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e3/34 6. Travaux eectuse Dtection danomaliese 7. cnrs - upmc laboratoire dinformatique de paris 6 Dtecter des anomalies ?e Rponse intuitive : identier des valeurs qui dviente e remarquablement du reste des valeurs (Grubbs, 1969) Mais dpend des cas et des hypoth`ses sur les donnes eeeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e5/34 8. cnrs - upmc laboratoire dinformatique de paris 6 Dtecter des anomalies ?e Rponse intuitive : identier des valeurs qui dviente e remarquablement du reste des valeurs (Grubbs, 1969) Mais dpend des cas et des hypoth`ses sur les donnes eeeDeux grandes approches : Hypoth`se : les donnes suivent une loi normale e e Eloignement donnes / mod`le de dynamique eeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e5/34 9. cnrs - upmc laboratoire dinformatique de paris 6 Notre problmatiqueeOn ne sait pas : comment devrait voluer un graphe dynamique e ce quest un comportement normal ou anormalDonc on a besoin dune nouvelle mthode. eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e6/34 10. Notre mthode e 11. cnrs - upmc laboratoire dinformatique de paris 6 Donnes homog`nes vs htrog`nes eee e eAnomalie = valeur anormalement extrme ? eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e8/34 12. cnrs - upmc laboratoire dinformatique de paris 6 Donnes homog`nes vs htrog`nes eee e eAnomalie = valeur anormalement extrme ? eValeurs extrmes loin de la moyenne ?e htrog`ne (Pareto, Zipf...) : habituelee e homog`ne (normale, Laplace...) : exceptionnele100 105density101010151020 105 05 10 x Densit de probabilit des distributions normale et de Pareto. eeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e8/34 13. cnrs - upmc laboratoire dinformatique de paris 6Distribution de valeursIndicateur existant : coecient dasymtriee 3nxmoyenne = (n1)(n2) xXcart-typee densitydensity x x0 Exemple de distributions asymtriques.eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e9/34 14. cnrs - upmc laboratoire dinformatique de paris 6Distribution de valeursIndicateur existant : coecient dasymtriee 3nxmoyenne = (n1)(n2) xXcart-typee densitydensity x x0 Exemple de distributions asymtriques.eIl est sensible aux valeurs extrmes (min/max) loin de la moyenne !eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e9/34 15. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 16. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 17. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 18. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 19. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 20. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 21. cnrs - upmc laboratoire dinformatique de paris 6 Signature dasymtrie eDnition eEvolution du coecient dasymtrie lorsque lon retire les valeurseextrmes une ` une des donnes X .eae 1.5 Exempleskewness 1.0 X = {-3, -2, -1, -1, 0, 1, 2, 3, 7} 0.5 0.0 : 1.09, 0.22, 0.17, 0, 0.4, 0, 1.73 1 2 3 4 5 6 7 # extremal values removedSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e10/34 22. cnrs - upmc laboratoire dinformatique de paris 6 Notre mthode : OutskewereNotre dnition eAnomalie = valeur extrme qui rend la distribution asymtriqueeeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e12/34 23. cnrs - upmc laboratoire dinformatique de paris 6 Notre mthode : OutskewereNotre dnition eAnomalie = valeur extrme qui rend la distribution asymtriqueeeImplication (cas homog`ne)eRetirer les valeurs extrmes une ` une devrait rduire lasymtrie.eaeeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e12/34 24. cnrs - upmc laboratoire dinformatique de paris 6 Notre mthode : OutskewereNotre dnition eAnomalie = valeur extrme qui rend la distribution asymtriqueeeImplication (cas homog`ne)eRetirer les valeurs extrmes une ` une devrait rduire lasymtrie.eaeeImplication (cas htrog`ne)ee eSi le retrait dun grand nombre de valeurs extrmes ne rduit pas eelasymtrie, alors les donnes sont htrog`nes, donc elles nont e e ee epas danomalies selon notre dnition. eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e12/34 25. cnrs - upmc laboratoire dinformatique de paris 6 Outskewer : p-stabilit eLa signature est-elle p-stable ?p : fraction de valeurs extrmes retires.e ep-stable || 0.5 p, pour tout p de p ` 0.5 aSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e13/34 26. cnrs - upmc laboratoire dinformatique de paris 6 Outskewer : p-stabilit eLa signature est-elle p-stable ?p : fraction de valeurs extrmes retires.e ep-stable || 0.5 p, pour tout p de p ` 0.5 a1.0 q 0.5cumulative distribution qq q q qq q0.8 q q q q q0.4qqq |skewness|qq q0.6 qq q q q0.3 q qqqq0.4 qqqq q0.2 qqqq qq0.2 qqq qq0.1q q qqq0.0 0.08 6 4x2 02 0 0.14 0.28 0.5p Exemple 0.14-stable mais pas 0.28-stableSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e13/34 27. cnrs - upmc laboratoire dinformatique de paris 6 Outskewer : p-stabilit eLa signature est-elle p-stable ?p : fraction de valeurs extrmes retires.e ep-stable || 0.5 p, pour tout p de p ` 0.5 aSi oui : les donnes sont homog`nes, donc des anomalies peuvent e eexister.Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e14/34 28. cnrs - upmc laboratoire dinformatique de paris 6 Outskewer : p-stabilit eLa signature est-elle p-stable ?p : fraction de valeurs extrmes retires.e ep-stable || 0.5 p, pour tout p de p ` 0.5 aSi oui : les donnes sont homog`nes, donc des anomalies peuvent e eexister.Si non pour aucun p : lasymtrie tant toujours trop grande, les eedonnes sont htrog`nes, donc il ny a pas danomalies selon eee enotre dnition. eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e14/34 29. cnrs - upmclaboratoire dinformatique de paris 6 Outskewer : dtection danomaliese 1.0q not outlierq q qcumulative frequencyqq qq 0.8potential outlier qqqoutlierq q q qqqqq t plus petite valeur t-stableqq 0.6 q qqqT plus grande valeur T -stableqq qq q q 0.4 qqqq q qqq 0.2t plus petite valeur t.q. || 0.5 t 0.0T plus petite valeur t.q. || 0.5 T 86420 2 x 2.0 2.0area of t Tpotential outliers 1.5 1.5t T |skewness||skewness| 1.0 1.0area with no 0.5 0.5 area ofoutlier outliers0.0 0.0t T 0 0.140.5 10 0.140.5 1 ppExemple : 50 valeurs dont 7 anomalies et 5 anomalies potentiellesSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e15/34 30. cnrs - upmc laboratoire dinformatique de paris 6Extension pour la dynamiqueDonnes : srie temporelleeeSur une fentre glissante de taille w , chaque valeur de X esteclasse w fois. eLa classe nale dune valeur est celle apparue le plus de fois.Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e16/34 31. Validation exprimentaleeDonnes simulesee 32. cnrs - upmc laboratoire dinformatique de paris 6 Changements de rgime eVido e 5 5 q not outlier5 q not outlierq not outlier q 4 4 potential outlier4 potential outlierq qqpotential outlier q 3 3 outlier q q q3 outlier q q q q qunknownq qq q qq q q qq qq q q q qqq 2 qq2q unknown q q qq2qunknownq qqqq q qq qqq q q qq q 1qq qqq qqq qqq q qq qq 1 qq qq q qq qqqqq qq qq 1 qq qqq qqq qqq q qq qq q q qq q q q q qqxx xqqq q q qqq qq qq q qqq q q qqqq q q qq qqq q q qqq qq qq qqqq 0q qq q q q qqq qq0 q qq q q q qqq q qq q0 q qq q q q qqq q qq qqq q q q q q qq qqqq q q q q q qqqqqqq q q q q q qqq qq qq qq q q qq q q q qq qq qqq qq q qqqq qq q q qqqq q q qq qq q qq qq qq q qq qqq qq q q qqq q q q qq qq q qqqq qq q qq q1q qq q qqq q 1 qqq q qqq q 1 q qq q qqq qqq qq qq2q qq q q2 q qq qq q2 q qq q q q0 50 100150 2000 50 100150 2000 50 100150 200 ttt 5q not outlierq 5 q not outlier qq q q5 q q q qq qq q qq qq qq q 4potential outlierqq q qq q4 potential outlier q qqqqq q q qq q q 4 q not outlier q q qq q qqq q qqqqq q q qq qqqqqq q qqqqq q qq qqq q q q qq q q 3outlier qqq q qqq q3 outlierqqq qqq qqq qq 3 potential outlierq qq q q q qqq q q q q qqqqqq q qqqqqqq q q q q qqqqq qq q q qqq qq q q q qqq q qq qq q q qqq q qq q q qqqqq q q q qqq qq q qq 2 qunknownq qqq q qqq 2q unknown q q qq qqqq q q2q q q q qq q q qqqq q q q q qq q qqq q q qqq qq qq qq 1qq qqq qqq qqq q qq qqq1 qq qq q qq qqqqq qq qqq1 qq qqq qq qqqqq qq qq q q qq q q qq q q qxx xqqq q q qqq qq qq q qqq q q qqqq q q qqqqq q q qqqq q q qqqq q 0q qq q q q qqq q qq q0 q qq q q q qqq q qq q0q qq q q q qqq q qq qqq q q q q q qqq qqqq q q q q q qqqqq qq q q q q q qqqqq qq qq q q qqq q q q qq qq q qqqq qq q qq qqq qq q q qqqq q q qq qq q qq qq qq q qq q qqqq q q qqq q q q qq qq q qqqq qq q qqq1q qq q qqq q 1 qqq q qqq q 1 qqq q qqq qqq qqqq2q qq q q q2 q qq qq q2q qq qq q0 50 100150 2000 50 100150 2000 50 100150200 tttSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e18/34 33. cnrs - upmc laboratoire dinformatique de paris 6 Taux de faux positifs cas Normale : 3% ` n = 10, 0.01% ` n = 100a a cas Pareto :5% ` n = 100, 0.01% ` n = 1000aaSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e19/34 34. ApplicationsEvolution du nombre dhabitants sur le sol franais cVue locale dinternetLogs de requtes dun moteur de recherche P2P e 35. cnrs - upmc laboratoire dinformatique de paris 6 Population franaise au XXe si`cleceNombre dhabitants par an qq qqq 60M qqq qqqqqqqqqqqq qqqqpopulationqqqqqqqq qqqqqqqq 50Mqqqqqq qqqqqqq qq qqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqq qq qqqq 40Mqqqqq qqqq qqq qqq q1900192019401960 1980 2000YearDirence dune anne sur lautre e e1000000 q qq q 500000 q q qqq qqqqqqq qqq qqqqqqqqqqq statuspopulation qqqqqqqqqqqqqqq qq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q qqqqq0qqq q not outlier500000 potential outlier 1000000 1500000outlier 1900 19201940196019802000 YearSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e21/34 36. cnrs - upmc laboratoire dinformatique de paris 6 Harry Potter sur eDonkeyNombre danomalies par jour75 # outliers / day in theatre unknown event pirate release outliers050 potential outliers 15 Jul 24 Aug 12 Oct1 DecDateDonnes :e recherches faites sur le rseau P2P eDonkey e durant 28 semaines 205 millions de requtes e 24,4 millions dadresses IP ltres par requtes contenant half blood prince e eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e22/34 37. cnrs - upmclaboratoire dinformatique de paris 6 Vue locale dinternet 13000Nb nodes 12000 11000 outlier potential outlier q not outlier unknown 0100020003000 4000 5000 Nb roundsM. Latapy, C. Magnien and F. Oudraogo, A Radar for the Internet, in Complex Systems, 20 (1), 23-30, 2011. eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e23/34 38. cnrs - upmc laboratoire dinformatique de paris 6Conclusions provisoires Enjeu : dtection danomalies sans hypoth`se sur les donnese e e Mthode propose base sur lasymtrieee ee Excellents rsultats exprimentaux e e Pertinente sur des jeux de donnes varise e Publication ` IEEE/ACM ASONAM 2012 aSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e24/34 39. Perspectives 40. cnrs - upmc laboratoire dinformatique de paris 6Perspectives : grandes questions Quand un changement signicatif advient-il dans la structure du graphe ? Quels sont les nuds et liens impliqus ?eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e26/34 41. cnrs - upmc laboratoire dinformatique de paris 6 Perspectives : indicateursAutres donnes e Rseaux sociaux (Twitter)e Plateforme dhbergement de code source (Github) e Trac IP (MAWILab)Buts Crer des indicateurs gnriques dvolution de graphes ee e e Tenter de les valider (interprtation, biais, pertinence) eSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e27/34 42. Autres activitse 43. cnrs - upmc laboratoire dinformatique de paris 6Autres activits : GephieCommunity manager du logiciel libre Gephi depuis 2008, a guid la ecration dune timeline et lajout de mtriques pour la dynamique.eeSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e29/34 44. cnrs - upmc laboratoire dinformatique de paris 6Autres activitseRecherche Outskewer : Using skewness to spot outliers in samples and timeseries. IEEE/ACM ASONAM 2012. Studying evolving networks : measurement, characterization, eventdetection, community detection and link prediction. poster ECCS11. 9 exposs sur Gephi, dont 2 tutoriels ` ICWSM et UKSNA.eaEnseignement Cours + TD en M2 Univ. Paris 8 et L3 Telecom ParisTech :Cartographie des Controverses TME en L1 UPMC : De la Puce au Web TME en L3 Polytech Paris-UPMC : Informatique gnrale e eDivers Implmentation de la mthode Outskewer en R e e Exposition ` la Biennale du Design de St-Etienne 2010a Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e30/34 45. e Merci !Dtection dEvnements dans la Dynamique des Graphes de e TerrainSoutenance ` mi-parcours a 46. cnrs - upmc laboratoire dinformatique de paris 6 Outskewer : signature dasymtrie eNormal 2 1median 0min s(p)max1q12q30.0 0.2 0.4 0.6 0.8 1.0 pPareto 8 6median 4min s(p) 2max 0q12q30.0 0.2 0.4 0.6 0.8 1.0 pSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e33/34 47. cnrs - upmc laboratoire dinformatique de paris 6 Perspectives : exemplesExempleNombre de nuds qui apparaissent, mais absents des derni`resemesures.Indique quand on observe un nombre inattendu de nuds.Sbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e34/34 48. cnrs - upmc laboratoire dinformatique de paris 6 Perspectives : exemplesExempleNombre de nuds qui apparaissent, mais absents des derni`resemesures.Indique quand on observe un nombre inattendu de nuds.ExempleNombre de distances qui changent entre toute paire de nuds `alapparition dun nouveau lien.Indique o` un nouveau lien aecte le plus la structure du graphe. uSbastien Heymann Dtection dvnements dans la dynamique des graphes de terrain 5 juin 2012 e ee e34/34