responsabilité en analyse de neutralité et transparence · techniques disponibles : fouille de...

19
Responsabilité en analyse de données massives : équité, neutralité et transparence Serge Abiteboul Inria et ENS Cachan Avec la participation de Julia Stoyanovich 6/8/16 1 Serge Abiteboul Un déluge de données 2 6/8/16 Serge Abiteboul

Upload: buidieu

Post on 12-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Responsabilitéenanalysededonnéesmassives:équité,neutralitéettransparenceSergeAbiteboul

InriaetENSCachan

AveclaparticipationdeJuliaStoyanovich

6/8/16 1SergeAbiteboul

Undélugededonnées

26/8/16 SergeAbiteboul

DataResponsibly,SergeAbiteboul

Etmêmeuneexplosiondedonnées

Donnéespersonnellesquenousproduisonsnous-mêmesQued’autreshumainsproduisentsurnousProduitespardescapteursdiversetpardesprogrammes

LesdonnéesWeb:4V:Volume,véracité,vitesse,variétéLesindividusetlasociétéperdentlecontrôlesurcesdonnées

36/8/16

Promessesetrisquesdesdonnéesmassives

Améliorerlaviedesgens:recommandationsAccélérerladécouvertescientifique:médecineNourrirl’innovation:voituresautonomesTransformerlasociété:gouvernementouvert(opengovernment)Optimiserlebusiness(publicitésciblées)

Unressentimentcroissantcontre:• Lescomportementsdéviants:

racisme,terrorisme,pédophilie,vold’identité,cyber-harcèlement,cybercrime.

• Lesentreprises:marketingagressif,personnalisationcryptique,décisionscommerciales…

• Lesgouvernements:NSAetsesanalogueseuropéens

• Uneprisedeconsciencecroissantedel’asymétrieentrecequelessystèmesconnaissentdenousetcequenousconnaissons.

46/8/16 SergeAbiteboul

Motivation

• Beaucoupdeproblèmessociauxsontliésàl’acquisitionetautraitementdedonnées• Cequ’ondevraitfaire

–Changerlamanièredontnoustraitonslesdonnéespersonnelles?–Changerleweb?

6/8/16 5SergeAbiteboul

Références

Dataresponsibly,withJuliaStoyanovich(Drexel)&GeromeMiklau(U.Mass),EDBTTutorial2016Dataresponsibly,withJuliaStoyanovich(Drexel),SigmodBlog

(inFrench,LeMonde),2016ManagingyourdigitallifewithaPersonalinformationmanagementsystem,withBenjaminAndré(CozyCloud)&DanielKaplan(Fing),CACM2015Personalinformationmanagementsystems,withAmélieMarian(Rutgers),EDBTTutorial2015PlatformNeutrality,CNNumReport,2015

6/8/16 6SergeAbiteboul

Organisation

MotivationVieprivéeAnalysededonnéesEvaluationdelaqualitédesdonnéesDisséminationdesdonnéesMémoiredesdonnées

6/8/16 7SergeAbiteboul

VIEPRIVÉE

1. Vieprivéeetdonnées2. Lessystèmesdegestion

d’informationpersonnelle,(PIMS–personalinformationmanagementsystems)

6/8/16 8SergeAbiteboul

Sécuritédesdonnéesetviepersonnelle

• Deplusenplusdesoucisaveclavieprivée(privacy)• Deslimitessurcequelescompagniesdegestiondedonnéespeuventfaire• Desloisforcentlescompagniesàdemanderuneautorisationpourconstruiredesbasesdedonnéesavecdesinformationspersonnelles(France)• Desrèglessurcequelesutilisateursdevraientpouvoirfaire• Desloisobligentlescompagnies(banques,sociétésdecréditàlaisserlesusagersvoiretcorrigerlesinformationsquilesconcernent(USA)• Cesloisdépendentdespaysetilestdifficiledelesfairerespecter

Déconnecter?

6/8/16 9SergeAbiteboul

Confidentialitédesdonnées:est-cequ’ilyaquelquechoseàfaire?

Existencedemoyenspourgarantirlaconfidentialitédesdonnées:inutilisés-tropcompliquésàutiliserouàcomprendre

OutilsdecryptographieDroitsd’accèsContratsd’utilisationillisiblesDifficultéàtransférerlesdonnéesd’unlogicielàl’autre:

«enfermementpropriétaire»(Vendorlockin)

6/8/16 10SergeAbiteboul

Protectiondesdonnées:lesPIMS

Unserviceduweb

s’exécute

• Surunemachineinconnue• avecnosdonnées• traitéesparunlogiciel

inconnu

Perspective

• Unemachinepersonnelle,

connue

• Avecnosdonnées

– répliquantdessystèmesquenousapprécions

• Avecnotrelogicieloupermettantl’utilisationdeservicesexternes

Unsystèmed’informationspersonnelles(PIM)estunsystèmeennuagequigèretoutel’informationd’unepersonne

6/8/16 11SergeAbiteboul

DataResponsibly,SergeAbiteboul

L’idéeprincipale:l’intégrationdedonnées

6/8/16 12

m

i

m

i

lu

lu

za

za

localization

webSearch

calendar

mail

contacts

facebook

tripadvisor

banks

whatsap

Facebook Intégrationdesdonnéesdenombreux utilisateurspourunservice

Intégrationdesservicespourunutilisateur

ALICEX

X

X

X

X

X

X

X

X

SergeAbiteboul

Desproblèmesderechercheetdéveloppement

Desproblèmesanciens,revisitésIntégrationdesinformationspersonnellesConnaissancedescontextesAnalysedesdonnéespersonnellesSynchronisation/sauvegardeetséquencementdestâchesContrôledesaccèsetdel’échanged’informationsContrôledesaccèsconnectés

136/8/16

ANALYSEDEDONNÉES

1. Equité2. Transparence3. Diversité4. Vieprivée(Privacy)

6/8/16 14SergeAbiteboul

Créerdusavoiràpartirdesdonnées

TrouverdescorrélationsstatistiquesPublierdesstatistiquesagrégéesDétecter

Lespoints«aberrants»Lestendances

Techniquesdisponibles:fouillededonnées,donnéesmassives,apprentissagemachine

6/8/16 15SergeAbiteboul

DataResponsibly,SergeAbiteboul

Analysededonnées:équitéOriginedesbiais

Collectedesdonnéesp.ex,donnéesnonreprésentatives

Analysedesdonnéesp.exmoteurderecherchequifavorisecertainssitespourdesraisonscommerciales

CebiaispeutêtreillégalFairedesoffresfinancièresmoinsavantageusesauxmembresdecertaines

minorités(«sterling»).Exemple:analysedesdonnéesscientifiques

DevraitexpliquercommentlesdonnéesontétéobtenuesQuellesanalysesontétémenéesaveccesdonnéesLesexpérimentationsdoiventêtrereproductibles

Domainetrèsexploré;beaucoupdeproblèmesderecherche

6/8/16 16SergeAbiteboul

DataResponsibly,SergeAbiteboul

Effetssurdessouspopulations

17

Admissionsdanslesécolesvisées

Admis Refusés

F 1512 2809

M 3715 4727Genre

résultats

positifs

35% de femmes

44% d’hommes

UC Berkeley 1973: les femmes candidatent à des départements plus sélectifs, avec de faibles taux d’admission.

ParadoxedeSimpson

Uneinégalitéauniveaudelapopulationdisparaîtous’inversequandonconsidèredessouspopulations

6/8/16 SergeAbiteboul

DataResponsibly,SergeAbiteboul

Equitédegroupeouindividuelle

18

Auniveaudugroupe:l’allocation«moyenne»auxindividusne

dépendpasdelasouspopulation

Score

Bon Mauvais

noirs

blancs

⊕⊖⊖

⊖⊕⊕ ⊖

⊖⊕

résultats

positifs

40% de noirs

40% de blancs

race

Auniveauindividuel

Deux personnes similaires à l’égard d‘un facteur particulier devraient avoir des évaluations semblables

crédit

obtenu

6/8/16 SergeAbiteboul

DataResponsibly,SergeAbiteboul

Analysededonnée:diversitéPertinenceduclassement(pourdesrecommandations) sebasegénéralementsurlapopularité

Lesinformationsmoinspopulairesdeviennentdemoinsenmoinspopulairesunmanquedediversitépeutengendrerunrisquedediscriminationet

d’exclusionExemples

sitederencontresenligne(match.com)marchédefinancementcollaboratifcommeAmazonMechanicalTurkouuneplate-formedefinancementcommeKickstarter

Le riche s’enrichit alors que le pauvre s’appauvrit …

6/8/16 19SergeAbiteboul

DataResponsibly,SergeAbiteboul

Analysededonnée:Transparence

Exemple:manquedetransparencedansletraitementdesdonnéesparFacebook

Engénéral,contratdelicenced’utilisationillisibleLesutilisateursveulentcontrôlercequiestenregistrélesconcernantetcommentcesinformationssontutilisées

Latransparenceaideàvérifierqueleservicefonctionnecommeildevraitlefaire,commec’estannoncéPermetaussiaufournisseurdedonnéesdevérifierquesesdonnéessontutiliséescommecelaaétéspécifié

6/8/16 20SergeAbiteboul

DataResponsibly,SergeAbiteboul

Vieprivéeetanalysededonnées

Publicationdestatistiques: protégerlespersonnesAnonymisation«intimitédifférentielles»->Differentialprivacy

DéjàtrèsétudiéSujetnonclos

6/8/16 21SergeAbiteboul

Problèmes:vérifiercespropriétés

instrumentspourcollecterdesdonnéesetlesanalyserdemanièreresponsableinstrumentspourvérifierqu’uneanalyseaétéréaliséedemanièreresponsableplusfacilesilaresponsabilitéestpriseencomptetrèstôt,

conceptiondesinstrumentsenrapportavecdesutilisationsresponsables>responsibilitybydesignPourvérifierlecomportementd’unprogramme,onpeut:

enanalyserlecode≈preuveparlesthéorèmesmathématiquesanalyserseseffets≈étudesdephénomènes(telsleclimatoulecoeur

humain)

6/8/16 22SergeAbiteboul

Vérification:analysedeseffets

AnalysestatistiqueDétecterlesbiaisDétecterlesutilisationsillégalesd’attributsprotégés

VérifierlatransparenceVérifierla“loyauté”

Lesystèmesecomportecommeill’adéclaré

Exemple:GoogleAdsSettings&AdFisher

6/8/16 23SergeAbiteboul

GoogleAdsSettings

6/8/16 24

Anonymisé

SergeAbiteboul

Transparenceetresponsabilité

AnalyseparAdFisherNesecomportepascommeilestdéclaré

Choixdespublicitésbaséssurdavantagededonnées,parexemple

attributprotégésleshommesreçoiventdemanièresignificativedavantagede

publicitéspourdespostesàhautsalairequelesfemmes

PeudecontrôlesurlespublicitésEnleverunintérêtdiminuelenombredepublicitésrelativesà

cetintérêtparexemple,leschats

6/8/16 25SergeAbiteboul

ÉVALUATIONDELAQUALITÉDES

DONNÉES

6/8/16 26SergeAbiteboul

Cequ’onneveutpasvoirsurleweb

SitesNaziSitesterroristesContenupédophileFaussesinformationssurlasantéThéorieducomplotCybercrimeHarcèlementenligne…

6/8/16 27SergeAbiteboul

Problèmes:quepeut-onfaire?

DétecterlescontenusillégauxsurleWebÉvaluationautomatique

delaqualitédescontenusdelalégalitédescontenusbasésurlatransparenceduclassement

Analyseetclassementcollaboratifdespagesweb

Nombreuxsujetsderecherche

6/8/16 28SergeAbiteboul

DISSÉMINATIONDESDONNÉES

1. Protectiondesdonnées2. Accèsouvertsauxdonnées3. Neutralité

6/8/16 29SergeAbiteboul

Protectiondesdonnées

Pourchacunedenosdonnéesenligne,nousaimerionscontrôler:

QuipeutleslireCommentellessonttransmisesCommentsont-ellesmodifiéesCommentsont/seront-ellesutilisées?

Nousaimerionsgarderunpeudecontrôlesurlesparamètresdediffusion

Contrôledel’accèssurlewebBeaucoupdeproblèmesouverts

6/8/16 30SergeAbiteboul

Neutralité

Neutralitédunetetdesplate-formes(rapportCNNum)Leréseautransportedesdonnéessansbiaisparrapportauxsources,destinations,contenus…Plateformesenligne:discriminationenfaveurdeleursservices?Liensaveclesproblématiquesdel’équitéetdeladiversité

Le riche s’enrichit alors que le pauvre s’appauvrit …

316/8/16 SergeAbiteboul

6/8/16 32SergeAbiteboul

Problèmes

Tests de neutralité Surveillance de la neutralité

6/8/16 33SergeAbiteboul

MÉMOIREDESDONNÉES

1. Donnéespersonnelles2. Archiver3. Archivesduweb

6/8/16 34SergeAbiteboul

Archivagedesdonnées

Problèmes:déciderCequ’ilfautarchiverCequ’ilfautoublier

OublierestunmoyendeproduiredesabstractionsClasser,résumer…

Parexemple,projeteuropéenForgetIT

6/8/16 35SergeAbiteboul

Conclusion

Denombreuxconflitspolitiquesetsociauxsontaujourd’huiliésauxdonnéesLesproblèmessonttrèsclairementpasuniquementtechniques

Ilseraittempsdechangerlafaçondontonutiliselesdonnéespersonnelles?Dechangerleweb?

Desorganismesytravaillent• CNNum• différentsgouvernements

(USA,UE…)Parexemple,pourleweb• InternetGovernmentForum

(UN)• GlobalInternetPolicy

Observatory(UE?)• W3CTechnologyPolicy

InternetGroup

6/8/16 36SergeAbiteboul

http://abiteboul.com http://binaire.blog.lemonde.fr