comment travailler sur des données sans y avoir...

Post on 30-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Comment travailler sur des données sans y avoir

accès? ThomasBaudel,IBMFranceLab

SéminaireCERNA‘Anonymisa@ondesdonnéesenrecherche’3/7/19

Sommaire Enjeuxdelaprotec@ondesdonnéesàIBM

•  100ansd’expérience•  donnéessensiblesavantd’êtrepersonnelles.•  ‘lesdonnéessontauclient’

Soclecommunpourlaprotec@ondesdonnées

•  Forma@ongénéraliséeetrépétée(inspirantlecoursEthics&STICs)

•  Auditindépendant•  Lignesdedéfenses

ConclusionEventaildetechniquespourtravailleréthiquementetlégalementsurdesdonnéessensibles(pasdecasd’usagedel’anonymisa@on)Accepterlescoûtsinduitsparuneges@onresponsabledesdonnées.

7histoiresvécuesd’u@lisa@onouaccèsàdesdonnéessensibles1.  Thèseéconomieindustriellesurladétec@onet

préven@ondelafraudeauxmutuelles:donnéesdesanté,résultatsconfiden@els.

2.  SmartDeliveries:projetderecherchesurdestournéesdelivraison,avecpublica@ons

3.  Testsdeperformancechezunprocesseurdetransac@onsbancairessansaccèsauxdonnées

4.  Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles

5.  Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfinsmarke@ng

6.  Visualisa@ondedossierspa@entspourunservicehospitalier.

7.  Requêtedesuppressiondedonnéespersonnellescross-entreprise

Enjeux de la protection des données pour une très grande entreprise de technologie informatique •  IBM,300000employésdanspresquetouslespaysdumonde,uneentreprisedeplusde100ans,fondéepourtraiterladonnéepersonnelleenmasse.

•  1890:tabulatricesHollerithpourtraiterlesdonnéesduUScensus.

•  ToutlesystèmedetransfertinterbancairereposesurdesmainframesIBMdepuis50ans.

1.  Sécuritédesdonnéesetdesprocess:uneprioritégénérale,non-spécifiquesauxdonnéespersonnelles.NoscadrescontractuelsusuelssontpluscontraignantsqueleRGPD.

2.  Pournousdis@nguerdelaconcurrence,leslogan‘vosdonnéessontàvous’estunpointd’accrocheimportantpourl’entreprise.Nouscomptonsdessuspournousdis@nguer.

3.  Nombreuxmé@ers:conseil,infogérance,développement,recherche…avecuneexposi@onaurisqueetdesexigencesvariées.

Un socle commun pour la protection des données (et la conformité en général) Forma@on•  Forma@onobligatoireannuelle(2heures)pourtoutlepersonnel,sousformedeMOOC.

->inspira*ondirectedelaforma*on‘Ethics&STICs’pourU.Paris-Saclay(aveclesupportdelqCERNA)•  +forma@onsorientées‘conformitéetéthique’spécialiséesparmé@er:commercial,consultant,développeur,technicien…aveccer@fica@ons.

•  +centre(s)deressources

Audit•  Organisa@ond’auditinterne‘Businesscontrols’,rakachéeàladirec@onmondiale

•  Responsabilitéau-delàdelaseuleprotec@ondesdonnées:processus,bâ@ments,contenudessystèmes…

•  Un‘comitéd’éthique’auxpouvoirsetbudgetconséquents.

•  Pra@quecourante(pluri-centenaire)desindustriesfortementréglementées.

hkps://www.ethics.org/

Enpréoccupa@onaddi@onnelle,mesuredel’efficacitéglobaledudisposi@f:Nombreetgravitédesanomaliesconstatéesouprojetées+

Pertesdeproduc@vitéentrainéesparlaforma@onetlesprocéduresdeconformité.

Autour du dispositif TheIns(tuteofInternalAuditors(IIA)ThreeLinesofDefenseModel:•  TheIIAissued

"TheThreeLinesofDefenseinEffec@veRiskManagementandControl"Posi@onPaperinJanuary2013.TheThreeLinesofDefensemodelprovidesasimpleandeffec@vewaytoenhancecommunica@onsonriskmanagementandcontrolbyclarifyingessen@alrolesandresponsibili@es.

•  ThefirstlineofdefenseistheOpera@onalLineownerwhoownsandmanagesriskonadaytodaybasis.

•  ThesecondlineofdefenseincludesRiskManagement,BusinessControlsandCompliancefunc@onsthatprovideframeworksandoversightacrosstheenterprisetomonitorandassistthefirstlineofdefenseineffec@vemanagementofknownandemergingrisks.

•  ThethirdlineofdefenseisInternalAuditthatprovidesindependentassurance.

(onleverraenapplica@ondanslesexemples)

Surlesdonnéeselles-mêmesetl’anonymisa(on:

L’accentestmissurlesusagespermisounonetlecontrôled’accèsplutôtquesurl’u@lisa@ondetransforma@onspourrendredesdonnéesouprocesssensiblesaccessiblesàd’autresusages.

Onsupposequ’iln’estpaspossiblededétournerunedonnéeouunprocesspourunusageautrequeceluipourlequelilestconçu:pra@quepourlaconformité,plusennuyeuxpourladécouverte‘parsérendipité’.

LeRGPDestaussiconçudanscetesprit:cen’estpastantl’existencedesdonnéesettraitementsquiestcri@que,maisbienl’usagequienestfait.

7 histoires vécues d’utilisation ou accès à des données sensibles 1.  Thèseéconomieindustriellesurladétec@onetpréven@ondelafraude

auxmutuelles:donnéesdesanté,résultatsconfiden@els.2.  SmartDeliveries:projetderecherchesurdestournéesdelivraison,avec

publica@ons3.  Correc@fsdeperformancechezunprocesseurdetransac@onsbancaires,

sansaccèsauxdonnées4.  Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles5.  Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfins

marke@ng6.  Visualisa@ondedonnéespa@entspourunhôpital.7.  Requêtedesuppressiondedonnéespersonnellescross-entreprise

Thèse en économie industrielle: contexte

Contratdeservices+infogérancesurunnouveausystèmededétec@ondefraudeauxremboursementsmutuelles.

Analyselesdemandesderemboursement,établiunprofilage(parrègles)etremontedesdemandessuspectesàremonterpouraudit(ounon).Lecontrôleurdesdonnéesestlamutuelle.

Plus-valueducontrat:unethèsecoencadréeavecunlaboratoired’économieindustriellepouranalyserleretoursurinves@ssementdusystème.

Enlukecontrelafraude,lapréven@onestunou@limportant.Préven@on,Détec@onetAuditdoiventallerensemble.Comment?C’estlebutdelathèse.

Nature des travaux •  A/Btes@ng:informer(oupas)lesprestatairessurl’emploidenouveauxou@lsdedétec@on,mesurerlechangementdescomportementsetleslevéesd’alertes.

•  Installerlenouveaudesystèmededétec@on,etmesurerlesretoursdusystèmeetsonimpactindépendammentdesmesuresprisesprécédemment.

• Modéliserpoures@merlanon-détec@onetlesfauxposi@fs.

⇒ accèscompletoupresqueauxdemandesderemboursement,quisontdesdonnéesmédicalesetfinancières.Lapseudonymisa@onn’estpasréaliste.

Centre d’accès sécurisé aux données

Lathèsedémarréefin2015serasoutenuefin2019.

Novel real time data gathering systems

(traffic and parking)

Mobility portal

Centralized data warehouse

3 axes of development

Develop high-value services, with self-sustaining business models

Optimizing traffic regulation Through 1h prediction

Real-time, multimodal, accessible travel planner

Optimizing freight and professional moves

Optimisation de tournées de livraison

Transporters,Maintenance

crew managers…City regulation

center

Drivers

Smart Deliveries

advance informationon planned mobilitydemand

Planned vehicletours

Known and forecasttrafic conditions

Optimized tour plansand trafic alerts

mission tracking

Web application

Mobile application

City Monitoring center(such as IBM IOC-IIT)

Global demand taken into account to spread trafic optimally

Original demand10:00 -> 120 trucks at Part-Dieu11:00 -> 160 trucks at Presqu’Ile

Optimized plans10:00 -> 60 trucks at Part-Dieu, 80 trucks at Presqu’Ile11:00 -> 80 trucks at Presqu’Ile 60 trucks at Part-Dieu

Optimisation de tournées de livraison

•  2012-2013:lestransporteurscommencentàgénéraliserlagéolocalisa@ondeleurscamions

•  3partenairesgrostransporteursacceptentdefournirdesdonnéesdetournéesréaliséespourop@misa@on,intéressésparlerésultatpoten@el.

•  Lesdonnéessontcekefois-cifourniesparlestransporteurs(contrôleurs)avecuncontratspécifique.

•  Lesdes@na@onssontdescommerces,lestournéessontnumérotées:àpriori,pasdedonnéespersonnelles,maisdonnéessensibles.

Pour la publication •  Lesdonnéesdelavillesontpubliques,avecunelicencespécifique(droitderegardsurlesusages):data.grandlyon.fr

•  Agréga(on,floutage,etcommunica(ondecertainescolonnesseulement(tempsdeparcours,sansoriginenides@na@on)àunchercheurdemandantcesdonnées.

Round categories 183

Rounds 1,715Routes ~65,000

Routes after full cleansing

31,444

Routes per round 18

Average round travel time

2h24

Average trip time 10 min

Stddev trip time 15 min

Actual Optimized Savings

distance: 63km 47km 25%time: 12630s 10744s 20%Arrives at 12h19 11h48 30min

Résoudre un bug sans accès aux données ni aux programmes. •  Undesplusgrandscentresdetraitementdetransac@onsparcarteaumonde:desmillionsdetransac@onsparjour,SLAmaximal.

•  Chaquetransac@onengendreledéclenchementderèglesdeconformité,développéeseninterneetconfiden@elles,pourdétecterdesirrégularitéspoten@elles.

•  Leclientseplaintdeproblèmesdeperformance,laR&Destimpliquée.•  Aucunaccès,niauxdonnées,niauxprogrammesn’estautorisé.•  Seuleunedescrip@ondusystèmeinstalléetdelavolumétriedesbasesderèglessontfournies,ainsiquelapossibilitédedemanderdessta@s@quessurlesprofilsd’éxécu@on.

Solution: •  Reproduc@ondelasolu@onmatériellecomplètedansundatacenterdetest

•  Créa@ondebasesderèglessynthé@ques•  Créa@ond’unsystèmed’alimenta@onendonnéessynthé@ques•  Tuningdesdonnéesetrèglessynthé@quesjusqu’àobtenirdesprofilsderéponsesimilaireauxprofilsderéponseconstatéschezleclient

•  Résolu@ondesproblèmes.•  Beaucoupplusdetravailquesidonnéesetprogrammesétaientaccessibles.

Lasynthèsededonnéesar(ficiellesàpar(rd’indicateursoudemodèles(réelsouimaginés)devraitêtreunchampderechercheplusac(f.Quelquesar(cles,maisbeaucoupdecasd’usage(tests,performance,démos…).

Maintenance logicielle ‘en nuage’ •  C.estdeliverymanagerpourunelignedeproduitsd’automa@sa@ondeladécision,fourniedansunserviceennuage.

•  Périodiquement,nécessitédemekreàjourlelogiciel(con@nuousdelivery)quiaccèdeàtouteslesdonnéesclientsetfournileservice.

•  Danscecas,lesmachinesducentrededonnéessontaccessiblespardoubleauthen@fica@on,avectraçageintégraldetouteslescommandesréaliséesparlemainteneur.

⇒ Pourchaquemachineàmekreàjour,ilfautunedouble-authen@fica@onpourlancerlescriptdemiseàjour:cequipourraitsefaireparunsimplescriptallantsurtouteslesmachinesréclamedesmanipula@onsfas@dieuses.

⇒ accepta@ondescoûtssupplémentairesaunomdelasécurité.

Geofencing pour applications marketing

• Quepeut-onoffrircommenouvellesapplica@onsdel’informa@quemobileavecdesfonc@onsdecaptureducontexte(posi@onetno@fica@onsdiverses)?

•  Travailexpérimentalmenéparuneéquipededéveloppeursavecunegrandeenseigne.Lebutdel’expérienceestdepermekredecréerdesno@fica@onsdutype:S’ilpleutetquel’u*lisateurestàproximitédumagasinXX,alorsproposerlemessage‘nousvousoffronsuncaféenaTendantlafindel’averse’

Geofencing II

Etudesdefaisabilitétechniquelocale(lesdéveloppeurscommesujetsdeleurexpérience)Réalisa@ond’uneconsolepermekantlikéralementdesupervisertouteslesno@fica@onsreçuesdetouslessujets.Etudeetdiscussionspourenvisageruneexpérimenta@oninvivo.

“…Justasthewaristooimportanttobele[tothegenerals,humanexperimenta*onistooimportanttobele[totheresearchersandlawyers.Ifanexperimentisgoodenoughforyourbestcustomer,it’sgoodenoughforyourbestfriend.”M.Schrage

Visualisation de dossiers patients Lesmédecinsontbesoind’accéderàdesvisualisa@onsdeleurscaspa@ents.Donnéesmédicales.

Cons@tu@ondedossiersar@ficiels,«àlamain»inspirésdecasréels,parunesecrétairemédicaleetuninterne.Cesonttouteslesdonnéesdetravailquenousavons.

Miseenplacedulogicielettestsdansl’enceintedel’hôpital,dansleserviceconcerné(donnéesnon-anonymes,sinonpasdetestabilitéparlesmédecins).

Conclusion I : et l’anonymisation dans tous cela? Lestechnologiesu@liséespoureffectuerdescalculssurdonnéessensibles:

•  Calculsansaccèsauxdonnées(CASD)•  Agréga@on/Floutagepourrendupublic•  Synthèsededonnéesar@ficielles(deplusieurstypes)•  Traçageintégraldesac@onsréalisées•  Êtresonproprecobayepourdesapplica@onsàcaractèresensible.•  Minimiserl’usaged’iden@fiantsexplicites/traçageintégraldesfluxdedonnéeslorsquedesiden@fiantsexplicitessontu@lisés.

•  Travailleràl’aveugleoupresque(avecforteslimites)

+forma@ongénéraliséeavecrappelsrégulierset3lignesdedéfensedeprotec@ondesdonnées.

Conclusion II •  Anonymisa@on–pseudonymisa@on:pasvraimentdecasd’usageflagrantdanslescasprésentés.L’anonymisa@onfaitcraindrelaperted’informa@onu@les,lapseudonymisa@onestunsimplegarde-fou,maistrèsinsuffisante.

•  Accepterlessurcoutsliésàlaprotec@ondesdonnées,entoutescirconstances.

•  Selonuneenquètedestackoverflow,enanalysededonnées:60%dutempspasséencollec@ondedonnéesetformatage,20%featuresengineeringetanalyse,20%repor@ng.Avecdonnéessensibles,cenepeutêtrequeplus,soitdescoûtsde3à5foisletempsd’étudeproprementdit.

•  Unepistederecherche:synthèsededonnéesar@ficiellesÀbasedesta@s@quesexternes(modèlegraphiqueconstruitàlamain)Àbasededonnéessensibles(synthèsedemodèlegraphiqueetregénéra@on)Calculhomomorphique‘simplifié’

top related