datascape privacy web corpus - sciences po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14...
Embed Size (px)
TRANSCRIPT

Datascape Privacy Web Corpus Maxime Crépel – médialab 15/12/2017

28/11/17 2
1-Présentation du projet Privacy Web Corpus

28/11/17 3
Cadre du projet Privacy Web Corpus • Projet pus large sur le rôle de régulation du marché
(assurance) dans la gestion des transactions de données et protection de la privacy – Lessig 2000
• Produire des outils pour l’analyse des controverses liées
aux questions de data privacy : identifier les acteurs et termes des sous controverses

28/11/17 4
Module 1 : Architectures des transactions des cartes de crédit Module 2 : Typologie des données et états des données Module 3 : Etude qualitative : perception et gestion des risques

28/11/17 5
Module 4 : Datascape exploration des controverses sur le Privacy Module 5 : Etudes de cas acteurs et termes des controverses Module 6 : Transfert de compétences outils et méthodes

6
Objectifs et principes du « Datascape »
• Datascape : Interface d’exploration d’un corpus de données
• Identifier des sous domaines de controverses è Qui Dit Quoi ? = Acteurs / Verbatims / Termes
• Corpus web structuré avec attributs topologiques • Documents pages web • Corpus Indexé par topics
• Interface d’exploration du corpus (search) • Rechercher, explorer et analyser des cas de controverse • Point de départ pour des investigations qualitatives et
quantitatives

28/11/17 7
2-Production du Corpus

8
• Corpus Web de départ constitué à partir de : • Domaines identifiés module 2 : (41 requêtes EN/FR) = 4100
pages • Veille Presse = 1 464 pages • Hétérogénéité : Presse, Blogs, Professionnels, Institutions
• Crawl à partir de Hyphe : http://hyphe.medialab.sciences-po.fr

9
• Nettoyage et Affinage du corpus « à la main »: • Suppression erreurs et sites inactifs • Suppression des sites hors thématique • Suppression couches hautes et basses (« discovered »
partageant moins de 5 liens avec le reste du corpus) • Crawl des pages « discovered » dans la thématique

28/11/17 10
3-Analyse topologique du réseau

28/11/17 11
Corpus Web Final :
• 7 578 entités web (2 256 entités non connectées mais indexées) • 50 904 liens hypertextes • Plus de 380 000 pages web de contenu

28/11/17 12
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

28/11/17 13
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

28/11/17 14
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
01-ModuleN04=CybersécuritéTag:CybersécuritéActeurTechcompaniesetExpertITLang:EN02-ModuleN01=DataProtectionTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Organisation(lobby)/MediaLang:EN03-ModuleN08=DataRegulationEUTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Organisation(lobby)/MediaLang:FRetEN04-ModuleN09=DataRegulationFRTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Media/MediaIT/Organisation(lobby)/MediaLang:FRetEN05-ModuleN03=CryptoetDataprotectionActeurTechcompanies/Organisation/MediaITTag:Anonymity/HttpRefer/Dataprotection/CybersecurityLang:EN06-ModuleN00=Surveillance&IOTMediaActeur:MediaIT/MediaTag:Surveillance/PersonnelData/IOT/ConnectedCarLang:EN(+FR)07-PlusieursModules-Media/Plate-forme/Institution/StandardTwitter/linkedin/LePointUsineDigitale/ArgusurlandCnet/Reddit/GizmodoTruste/SaysafeonlinePrivacyCommission

28/11/17 15
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 1CLUSTERCENTRAL
CryptoetDataprotection

28/11/17 16
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 4CLUSTERSPERIPHERIQUES
CybersecurityDataprotectionDataregulationFRDataregualtionEU

28/11/17 17
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 8PETITSCLUSTERS
NonthématiquesParplateformes

28/11/17 18
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
CRYPTO&DATAPROTECTION

28/11/17 19
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
DATAPROTECTION

28/11/17 20
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
CYBERSECURITY

28/11/17 21
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
DATAREGULATIONFR

28/11/17 22
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
DATAREGULATIONEU

28/11/17 23
TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION
DIVERS-Media/Plateform/Institution/Standard

28/11/17 24
4-Topic modeling

25
Topic Modeling Spécificités et contraintes • Corpus multilingue : filtrage pour conserver EN FR • Volumineux : 380k pages • Nettoyage du texte : balises, ponctuation, etc. • Corpus taggué à la source (requête et tag à la main) Nettoyage et test • Corpus réduit (seed EN déjà taggué) : 2500 pages • Nettoyage du texte : canola, raw, etc. • Puissance / tps de calcul • Cohérence des topics (tags, connaissance coprus, nb topics) • Ajout itératif de stop words

26
Topic Modeling

27
Topic Modeling Finalisation de la LDA • Demande de 60 topics • Suppression des topics non pertinents • Fusion des topics proches • Stabilisation de 32 topics cohérents EN et FR
Maximiser la couverture des topics sur le coprus • Choix du seuil d’attribution 15% (couvre 90% du corpus) • Choix du nombre de topic par page (0 à 3 selon seuil et score) • Choix mode d’attribution des topics pages aux topics entités

28/11/17 28
5-Production du Datascape

28/11/17 29

28/11/17 30

31
Datascape : Mockup

32

33
Datascape : Architecture pour navigation verticale

34
Datascape : Architecture pour navigation horizontale

35

36

37

38

39

28/11/17 40
6-Etudes de cas

28/11/17 41
• FBI vs Apple : Requête : FBI AND (Apple or Iphone) AND backdoor AND (Terrorist OR attack) Corpus : 112 entités contennant 1356 pages répondant à la requête Pages Web du corpus sélectionnées pour analyse qualitative : 58 pages de départ Pages hors corpus : 11 pages de départ • Vtech : Requête : Vtech AND (Breach OR Leak OR Hack OR attack) Corpus : 77 entités web Pages Web du corpus sélectionnées pour analyse qualitative : 27 pages

28/11/17 42
FBI vs Apple : • Controverse entre le FBI et Apple suite aux attentats de San
Bernardino et l’impossibilité d’accéder aux données d’un iphone d’un assaillant
• Contexte Post-Snowden besoin de construire la confiance
envers les utilisateurs par les GAFA : Apple intègre le Privacy by design par la crypto chez Apple
• Refus d’Apple d’ouvrir une « backdoor » : conflit judiciaire avec le FBI
• Justice et gouvernement en échec face à un débat qui sort de la sphère politique et du débat de société pour se centrer uniquement sur la technique (textes inadaptés, décisions trop lentes = hacking par le FBI et refus de créer des backdoor par Apple)

28/11/17 43
Etudes de cas : FBI vs Apple backdoor

28/11/17 44
Vtech hack : • Piratage par un hacker des seveurs de données Vtech fabricant
de jouets connectés • Hack publié dans la presse pour alerter sur le manque de
sécurité : adresses, mail, noms, vidéo et images produites par les jouets connectés
• Problèmes : • Sécurisation et compétences des fabricants IOT • Définition des données personnelles (Vtech n°CB et Sécu) • Pas de monitoring et de robustesse de la sécurité • Communication désastreuse : aveux tardifs, refus de
responsabilité
• Résolution sur le plan juridique par une modifications des conditions d’utilisation

28/11/17 45
Etudes de cas : Vtech

28/11/17 46
Conclusion

28/11/17 47
Conclusion • Orienté search / Requêtes complexes • Fonctions d’exports pour analyse quali et quanti approfondies
Pas un résultat de recherche mais outil pour l’exploration et l’analyse
• Corpus riche en données pour l’étude de cas de controverses mais photo à un instant T (protocole de màj)
• Les web entités ne correspondent pas toujours avec les acteurs des controverses
• La présence d’une web entité ne signifie pas systématiquement la production de contenu à analyser : sites vitrines
Datascape Privacy Web Corpus http://tools.medialab.sciences-po.fr/privacy/
