anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive c....

29
Anonymisation semi- automatique de corpus d’interactions Éléments pour une méthode interactive C. Reffay 1 , F.-M. Blondel 1 , S. Allaire 2 , E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

Upload: idette-foulon

Post on 03-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

Anonymisation semi-automatique de corpus d’interactions

Éléments pour une méthode interactive

C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3

1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada

3 GREYC, Université Caen Basse-Normandie, CNRS

Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

Page 2: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 2

Le fil conducteur

• Introduction– Contexte, problématique– Les 2 Corpus traités – Anonymiser : définitions, exemples

• Le processus d’anonymisation– Marquage– Fouille– Substitution

• Bilan de l’application aux 2 corpus• Perspective

Page 3: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 3

Introduction

• Partage de données en recherche– Mulce : "Repository" de Corpus multimodaux

d’enseignement et d’apprentissage– Calico : "Repository" + Outils d’analyse de

Forums, Blogs, etc.

• Données personnelles non partageables Anonymisation nécessaire• Corpus d’interaction = Gros volumes Besoin de méthode et d’outils

Page 4: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 4

Anonymiser : pourquoi ?

• Obligation légale (selon les pays) : – En France : CNIL, – Directives de la Commission Européenne– Canada : comités éthiques

• Déontologie de la recherche– Protéger les données perso. des participants– Gagner leur confiance – Mieux garantir l’indépendance

Page 5: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 5

Anonymiser : le « quoi »

• Cacher les données personnelles– Noms (prénoms, patronymes, noms utilisateurs, …)– Identifiants (N°Passeport, N°Etudiant, N°INSEE, …)– Lieux (villes, rues, adresse, coordonnées)– Institution (école, club, entreprise, …)– Références de contacts (e-mail, mobile, MSN, skype,

twitter, téléphone/fax, …)– Références explicites (URL page perso, blogs)– Noms d’utilisateurs de média sociaux (facebook,

MySpace, Hi5, Soundcloud, Badoo, Friendster, …)

• Et maintenir cohérence et consistance du texte

Page 6: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 6

2 corpus

Nomades (1) Pgm Court (2)

Durée 3,5 mois 5 mois

Outils Galanet Knowledge F.

Niveau Format°Langues

1ère (Lycée) fr, it, es, br

Masterfr (qc)

Participants2 tuteurs,101 élèves

1 tuteur7 étudiants

Taille : 915 messages46 825 graphiesLexique : 9 652

203 messages41 317 graphies

Lexique : 4 900

Page 7: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 7

Ex: Données personnelles• {2011-11-30T19:24 Gabibr Re: Quelques informations ...}

“Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS.”

• {2011-12-27T09:25 Miche Re: Les stéréotypes culinaires answers} “inviate i vostri documenti alla mia mail [email protected] grazie!!!;)”

• {2011-10-22T19:52 PBS Re: Por que me chamo assim?! } “Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia”

Page 8: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 8

En cherchant sur la toile…

Page 9: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 9

Peimikà Bibiana… suite

Page 10: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 10

Anonymisation

Contraintes:1. Toute référence (ex: nom, lieu, etc.) doit être

suffisamment imprécise pour englober plusieurs centaines de personnes.

2. Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée.

3. Conserver le maximum de dépendances sémantiques et culturelle.

Dans un corpus anonymisé, aucun participant ne doit être identifiable

par une personne externe

Page 11: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 11

Comment rendre anonyme ?

• Une info (isolée) => 100+ personnes

• Faisceau d’infos combinées => 7+ pers.

• Penser aux sources externes…

« Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans

le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »

Page 12: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 12

Anonymisation• Avant :

{2011-10-17T08:22 KellyM Re: Qui sommes- nous? }Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève

en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan…

• Après:{2011-10-17T08:22 FLG01 Re: Qui sommes- nous? }

Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues-Vives*, non loin de Perpignan…

Avant Après

Page 13: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 13

Quelques difficultés

• Synonymie ou altérations lexicalesExemple : Venise– Erreurs de typo: Verise, Venize…– Multilinguisme : Venizia, Venice, …

• Homonymie :

«Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels

Urbains). Elle fréquente assidument l’hippodrome de Longchamp à côté de Paris. »

Page 14: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 14

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

Page 15: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 15

Table de transformation : exemple

Synonymes : 2 graphies différentes représentent la même entité nommée

=≠

Homonymes: La même graphie représente différentes entités

Page 16: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 16

Marquage : Exemple (Kelly)A - Le concordanceur donne le contexte de chaque occurrence

Page 17: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 17

Marquage: Exemple (Kelly)

+

B – Ajouter “Gene Kelly” comme personne publique dans la table

Page 18: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 18

Marquage : Exemple (Kelly)

C- Associer chaque graphie à l’entité correspondante

Patronyme, forme normale, inchangéereprésente la célébrité Gene Kelly

Prénom, forme normale, à changer :représente le participant KellyM

Page 19: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 19

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

Page 20: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 20

Détection de nouvelle graphies : 2 stratégies

• Règles lexicales : syntaxe proche – Eli -> Elô Ely ELY Seli– Gabriela -> GABRIELA– José -> Jose

• Règles contextuelles : même contexte– First names: “mi chiamo …”, “accord avec …”– Cities: “Soy de …”, “vivo en …”, “j’habite à …”

Page 21: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 21

1ère Stratégie : Règles Lexicales

adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer

Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer

103graphiesconnues

31nouvellesgraphies

Page 22: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 22

2ème Stratégie : Règles contextuelles

103 prénoms connus (Adrià, …, Veronica)

145 contextes : Gauches/DroitsTotal: + 250 règles testées

15 nouvelles graphies retenuesAntonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo

47 règles retenues

Page 23: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 23

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

Page 24: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 24

Substitution : principes & précautions

• Vérifications avant exécution:– Homonymie (entre participants) maintenue– Pas d’introduction de nouveaux homonymes– Cohérence des graphies de substitution– Codage des acteurs (intra/inter corpus)

• Exécution en une seule passe pour éviter les remplacements en cascade

• Vérification par le chercheur par lecture (au moins sur un échantillon)

Page 25: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 25

Evaluation de l’anonymisationSur le corpus 1 (Nomades)

• Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences

Méthode : Relecture exhaustive par l’animatrice• 7 graphies oubliées // 117 trouvées • 6 sur 7 dues à une application manuelle

=>1 seule vraie oubliée par la méthode : Excellent résultat pour l’anonymisation

Page 26: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 26

Evaluation de l’anonymisationSur le corpus 2 (Prog. court)

• Annuaire des données personnelles : prénoms, patronymes :

• 9 données / 11 trouvées / 115 occ. marquées

Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes

• 8 graphies : 2 institutions, 1 village, 5 pers.• Soit 31 occurrences oubliées

Peu d’information au départ => moins efficace.

Page 27: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 27

Discussion

• Expressions régulières (majuscules) :– Corpus 1 (Nomades) : 6 287 occ. (1509 g)– Corpus 2 (Pgrm court) : 792 occ. (328 g)– Règles inutilisable en Allemand, autres ?

• Dictionnaires externes– Corpus 1 (Nomades) : 5 langues (avec

recouvrements)– Corpus 2 (Pgrm court) : Français du Québec

• Réutilisation des règles : (1) -> 2 ?

Page 28: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 28

Conclusion

1. Une méthode (sans dictionnaire) pour anonymiser

2. Retour aux hypothèses– Automatisation 100% impossible– 2 techniques de fouille complémentaires prometteuses– Selon contexte : ajouter expressions régulières

3. Le paradoxe de l’anonymisation– Ex: Google facilite la ré-identification => utilisons-le

pour déterminer ce qu’il faut anonymiser !

4. Perspectives– Développement (au dessus de Calico)

Page 29: Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C. Reffay 1, F.-M. Blondel 1, S. Allaire 2, E. Giguet 3 1

MerciC. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3

1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada

3 GREYC, Université Caen Basse-Normandie, CNRS

Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.