comment travailler sur des données sans y avoir...
TRANSCRIPT
Comment travailler sur des données sans y avoir
accès? ThomasBaudel,IBMFranceLab
SéminaireCERNA‘Anonymisa@ondesdonnéesenrecherche’3/7/19
Sommaire Enjeuxdelaprotec@ondesdonnéesàIBM
• 100ansd’expérience• donnéessensiblesavantd’êtrepersonnelles.• ‘lesdonnéessontauclient’
Soclecommunpourlaprotec@ondesdonnées
• Forma@ongénéraliséeetrépétée(inspirantlecoursEthics&STICs)
• Auditindépendant• Lignesdedéfenses
ConclusionEventaildetechniquespourtravailleréthiquementetlégalementsurdesdonnéessensibles(pasdecasd’usagedel’anonymisa@on)Accepterlescoûtsinduitsparuneges@onresponsabledesdonnées.
7histoiresvécuesd’u@lisa@onouaccèsàdesdonnéessensibles1. Thèseéconomieindustriellesurladétec@onet
préven@ondelafraudeauxmutuelles:donnéesdesanté,résultatsconfiden@els.
2. SmartDeliveries:projetderecherchesurdestournéesdelivraison,avecpublica@ons
3. Testsdeperformancechezunprocesseurdetransac@onsbancairessansaccèsauxdonnées
4. Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles
5. Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfinsmarke@ng
6. Visualisa@ondedossierspa@entspourunservicehospitalier.
7. Requêtedesuppressiondedonnéespersonnellescross-entreprise
Enjeux de la protection des données pour une très grande entreprise de technologie informatique • IBM,300000employésdanspresquetouslespaysdumonde,uneentreprisedeplusde100ans,fondéepourtraiterladonnéepersonnelleenmasse.
• 1890:tabulatricesHollerithpourtraiterlesdonnéesduUScensus.
• ToutlesystèmedetransfertinterbancairereposesurdesmainframesIBMdepuis50ans.
1. Sécuritédesdonnéesetdesprocess:uneprioritégénérale,non-spécifiquesauxdonnéespersonnelles.NoscadrescontractuelsusuelssontpluscontraignantsqueleRGPD.
2. Pournousdis@nguerdelaconcurrence,leslogan‘vosdonnéessontàvous’estunpointd’accrocheimportantpourl’entreprise.Nouscomptonsdessuspournousdis@nguer.
3. Nombreuxmé@ers:conseil,infogérance,développement,recherche…avecuneexposi@onaurisqueetdesexigencesvariées.
Un socle commun pour la protection des données (et la conformité en général) Forma@on• Forma@onobligatoireannuelle(2heures)pourtoutlepersonnel,sousformedeMOOC.
->inspira*ondirectedelaforma*on‘Ethics&STICs’pourU.Paris-Saclay(aveclesupportdelqCERNA)• +forma@onsorientées‘conformitéetéthique’spécialiséesparmé@er:commercial,consultant,développeur,technicien…aveccer@fica@ons.
• +centre(s)deressources
Audit• Organisa@ond’auditinterne‘Businesscontrols’,rakachéeàladirec@onmondiale
• Responsabilitéau-delàdelaseuleprotec@ondesdonnées:processus,bâ@ments,contenudessystèmes…
• Un‘comitéd’éthique’auxpouvoirsetbudgetconséquents.
• Pra@quecourante(pluri-centenaire)desindustriesfortementréglementées.
hkps://www.ethics.org/
Enpréoccupa@onaddi@onnelle,mesuredel’efficacitéglobaledudisposi@f:Nombreetgravitédesanomaliesconstatéesouprojetées+
Pertesdeproduc@vitéentrainéesparlaforma@onetlesprocéduresdeconformité.
Autour du dispositif TheIns(tuteofInternalAuditors(IIA)ThreeLinesofDefenseModel:• TheIIAissued
"TheThreeLinesofDefenseinEffec@veRiskManagementandControl"Posi@onPaperinJanuary2013.TheThreeLinesofDefensemodelprovidesasimpleandeffec@vewaytoenhancecommunica@onsonriskmanagementandcontrolbyclarifyingessen@alrolesandresponsibili@es.
• ThefirstlineofdefenseistheOpera@onalLineownerwhoownsandmanagesriskonadaytodaybasis.
• ThesecondlineofdefenseincludesRiskManagement,BusinessControlsandCompliancefunc@onsthatprovideframeworksandoversightacrosstheenterprisetomonitorandassistthefirstlineofdefenseineffec@vemanagementofknownandemergingrisks.
• ThethirdlineofdefenseisInternalAuditthatprovidesindependentassurance.
(onleverraenapplica@ondanslesexemples)
Surlesdonnéeselles-mêmesetl’anonymisa(on:
L’accentestmissurlesusagespermisounonetlecontrôled’accèsplutôtquesurl’u@lisa@ondetransforma@onspourrendredesdonnéesouprocesssensiblesaccessiblesàd’autresusages.
Onsupposequ’iln’estpaspossiblededétournerunedonnéeouunprocesspourunusageautrequeceluipourlequelilestconçu:pra@quepourlaconformité,plusennuyeuxpourladécouverte‘parsérendipité’.
LeRGPDestaussiconçudanscetesprit:cen’estpastantl’existencedesdonnéesettraitementsquiestcri@que,maisbienl’usagequienestfait.
7 histoires vécues d’utilisation ou accès à des données sensibles 1. Thèseéconomieindustriellesurladétec@onetpréven@ondelafraude
auxmutuelles:donnéesdesanté,ré[email protected]. SmartDeliveries:projetderecherchesurdestournéesdelivraison,avec
publica@ons3. Correc@fsdeperformancechezunprocesseurdetransac@onsbancaires,
sansaccèsauxdonnées4. Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles5. Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfins
marke@ng6. Visualisa@ondedonnéespa@entspourunhôpital.7. Requêtedesuppressiondedonnéespersonnellescross-entreprise
Thèse en économie industrielle: contexte
Contratdeservices+infogérancesurunnouveausystèmededétec@ondefraudeauxremboursementsmutuelles.
Analyselesdemandesderemboursement,établiunprofilage(parrègles)etremontedesdemandessuspectesàremonterpouraudit(ounon).Lecontrôleurdesdonnéesestlamutuelle.
Plus-valueducontrat:unethèsecoencadréeavecunlaboratoired’économieindustriellepouranalyserleretoursurinves@ssementdusystème.
Enlukecontrelafraude,lapréven@[email protected]éven@on,Dé[email protected]?C’estlebutdelathèse.
Nature des travaux • A/Btes@ng:informer(oupas)lesprestatairessurl’emploidenouveauxou@lsdedétec@on,mesurerlechangementdescomportementsetleslevéesd’alertes.
• Installerlenouveaudesystèmededétec@on,etmesurerlesretoursdusystèmeetsonimpactindépendammentdesmesuresprisesprécédemment.
• Modéliserpoures@merlanon-détec@onetlesfauxposi@fs.
⇒ accèscompletoupresqueauxdemandesderemboursement,quisontdesdonnéesmédicalesetfinancières.Lapseudonymisa@onn’estpasréaliste.
Centre d’accès sécurisé aux données
Lathèsedémarréefin2015serasoutenuefin2019.
Novel real time data gathering systems
(traffic and parking)
Mobility portal
Centralized data warehouse
3 axes of development
Develop high-value services, with self-sustaining business models
Optimizing traffic regulation Through 1h prediction
Real-time, multimodal, accessible travel planner
Optimizing freight and professional moves
Optimisation de tournées de livraison
Transporters,Maintenance
crew managers…City regulation
center
Drivers
Smart Deliveries
advance informationon planned mobilitydemand
Planned vehicletours
Known and forecasttrafic conditions
Optimized tour plansand trafic alerts
mission tracking
Web application
Mobile application
City Monitoring center(such as IBM IOC-IIT)
Global demand taken into account to spread trafic optimally
Original demand10:00 -> 120 trucks at Part-Dieu11:00 -> 160 trucks at Presqu’Ile
Optimized plans10:00 -> 60 trucks at Part-Dieu, 80 trucks at Presqu’Ile11:00 -> 80 trucks at Presqu’Ile 60 trucks at Part-Dieu
Optimisation de tournées de livraison
• 2012-2013:lestransporteurscommencentàgénéraliserlagéolocalisa@ondeleurscamions
• 3partenairesgrostransporteursacceptentdefournirdesdonnéesdetournéesréaliséespourop@misa@on,intéressésparlerésultatpoten@el.
• Lesdonnéessontcekefois-cifourniesparlestransporteurs(contrôleurs)avecuncontratspécifique.
• Lesdes@na@onssontdescommerces,lestournéessontnumérotées:àpriori,pasdedonnéespersonnelles,maisdonnéessensibles.
Pour la publication • Lesdonnéesdelavillesontpubliques,avecunelicencespécifique(droitderegardsurlesusages):data.grandlyon.fr
• Agréga(on,floutage,etcommunica(ondecertainescolonnesseulement(tempsdeparcours,sansoriginenides@na@on)àunchercheurdemandantcesdonnées.
Round categories 183
Rounds 1,715Routes ~65,000
Routes after full cleansing
31,444
Routes per round 18
Average round travel time
2h24
Average trip time 10 min
Stddev trip time 15 min
Actual Optimized Savings
distance: 63km 47km 25%time: 12630s 10744s 20%Arrives at 12h19 11h48 30min
Résoudre un bug sans accès aux données ni aux programmes. • Undesplusgrandscentresdetraitementdetransac@onsparcarteaumonde:desmillionsdetransac@onsparjour,SLAmaximal.
• Chaquetransac@onengendreledéclenchementderèglesdeconformité,développéeseninterneetconfiden@elles,pourdétecterdesirrégularitéspoten@elles.
• Leclientseplaintdeproblèmesdeperformance,laR&Destimpliquée.• Aucunaccès,niauxdonnées,niauxprogrammesn’estautorisé.• Seuleunedescrip@ondusystèmeinstalléetdelavolumétriedesbasesderèglessontfournies,ainsiquelapossibilitédedemanderdessta@s@quessurlesprofilsd’éxécu@on.
Solution: • Reproduc@ondelasolu@onmatériellecomplètedansundatacenterdetest
• Créa@ondebasesderèglessynthé@ques• Créa@ond’unsystèmed’alimenta@onendonnéessynthé@ques• Tuningdesdonnéesetrèglessynthé@quesjusqu’àobtenirdesprofilsderéponsesimilaireauxprofilsderéponseconstatéschezleclient
• Résolu@ondesproblèmes.• Beaucoupplusdetravailquesidonnéesetprogrammesétaientaccessibles.
Lasynthèsededonnéesar(ficiellesàpar(rd’indicateursoudemodèles(réelsouimaginés)devraitêtreunchampderechercheplusac(f.Quelquesar(cles,maisbeaucoupdecasd’usage(tests,performance,démos…).
Maintenance logicielle ‘en nuage’ • C.estdeliverymanagerpourunelignedeproduitsd’automa@sa@ondeladécision,fourniedansunserviceennuage.
• Périodiquement,nécessitédemekreàjourlelogiciel(con@nuousdelivery)quiaccèdeàtouteslesdonnéesclientsetfournileservice.
• Danscecas,lesmachinesducentrededonnéessontaccessiblespardoubleauthen@fica@on,avectraçageintégraldetouteslescommandesréaliséesparlemainteneur.
⇒ Pourchaquemachineàmekreàjour,ilfautunedouble-authen@fica@onpourlancerlescriptdemiseàjour:cequipourraitsefaireparunsimplescriptallantsurtouteslesmachinesréclamedesmanipula@onsfas@dieuses.
⇒ accepta@ondescoûtssupplémentairesaunomdelasécurité.
Geofencing pour applications marketing
• Quepeut-onoffrircommenouvellesapplica@onsdel’informa@quemobileavecdesfonc@onsdecaptureducontexte(posi@onetno@fica@onsdiverses)?
• Travailexpérimentalmenéparuneéquipededéveloppeursavecunegrandeenseigne.Lebutdel’expérienceestdepermekredecréerdesno@fica@onsdutype:S’ilpleutetquel’u*lisateurestàproximitédumagasinXX,alorsproposerlemessage‘nousvousoffronsuncaféenaTendantlafindel’averse’
Geofencing II
Etudesdefaisabilitétechniquelocale(lesdéveloppeurscommesujetsdeleurexpérience)Réalisa@ond’uneconsolepermekantlikéralementdesupervisertouteslesno@fica@onsreçuesdetouslessujets.Etudeetdiscussionspourenvisageruneexpérimenta@oninvivo.
“…Justasthewaristooimportanttobele[tothegenerals,humanexperimenta*onistooimportanttobele[totheresearchersandlawyers.Ifanexperimentisgoodenoughforyourbestcustomer,it’sgoodenoughforyourbestfriend.”M.Schrage
Visualisation de dossiers patients Lesmédecinsontbesoind’accéderàdesvisualisa@[email protected]éesmédicales.
Cons@tu@ondedossiersar@ficiels,«àlamain»inspirésdecasréels,parunesecrétairemédicaleetuninterne.Cesonttouteslesdonnéesdetravailquenousavons.
Miseenplacedulogicielettestsdansl’enceintedel’hôpital,dansleserviceconcerné(donnéesnon-anonymes,sinonpasdetestabilitéparlesmédecins).
Conclusion I : et l’anonymisation dans tous cela? Lestechnologiesu@liséespoureffectuerdescalculssurdonnéessensibles:
• Calculsansaccèsauxdonnées(CASD)• Agréga@on/Floutagepourrendupublic• Synthèsededonnéesar@ficielles(deplusieurstypes)• Traçageintégraldesac@onsréalisées• Êtresonproprecobayepourdesapplica@onsàcaractèresensible.• Minimiserl’usaged’iden@fiantsexplicites/traçageintégraldesfluxdedonnéeslorsquedesiden@fiantsexplicitessontu@lisés.
• Travailleràl’aveugleoupresque(avecforteslimites)
+forma@ongénéraliséeavecrappelsrégulierset3lignesdedéfensedeprotec@ondesdonnées.
Conclusion II • Anonymisa@on–pseudonymisa@on:pasvraimentdecasd’usageflagrantdanslescasprésentés.L’anonymisa@onfaitcraindrelaperted’informa@onu@les,lapseudonymisa@onestunsimplegarde-fou,maistrèsinsuffisante.
• Accepterlessurcoutsliésàlaprotec@ondesdonnées,entoutescirconstances.
• Selonuneenquètedestackoverflow,enanalysededonnées:60%dutempspasséencollec@ondedonnéesetformatage,20%featuresengineeringetanalyse,20%[email protected]éessensibles,cenepeutêtrequeplus,soitdescoûtsde3à5foisletempsd’étudeproprementdit.
• Unepistederecherche:synthèsededonnéesar@ficiellesÀbasedesta@s@quesexternes(modèlegraphiqueconstruitàlamain)Àbasededonnéessensibles(synthèsedemodèlegraphiqueetregénéra@on)Calculhomomorphique‘simplifié’