livre blanc big data écosystème français

84

Upload: matthias-fille

Post on 21-Jan-2015

1.081 views

Category:

Technology


6 download

DESCRIPTION

Livre blanc du big data et éclairage sur l'écosystème français (startup, enseignement data scientist, grands groupes, open innovation, US, accélérateur Techstars). « Le Big Data s’impose comme le concept contemporain incontournable dont chacun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup d’entreprises […]. Mais il n’est pas facile d’y voir clair pour les néophytes ». Les auteurs de ce numéro d’Accomex vous proposent « d’y voir plus clair » ; ils sauront vous convaincre que le Big Data est bien plus qu’une simple évolution technologique supplémentaire, qu’il concerne les entreprises de toute taille et de tout secteur, que le terrain de jeu du Big Data est mondial… Stocker des quantités considérables de données est une chose ; les traiter en est une autre. Le Big Data offre cette possibilité d’analyser les données produites par les entreprises, les particuliers, les États, pour créer de nouveaux usages. C’est bien de valorisation des données dont il s’agit, et c’est là que se situe la révolution, une révolution déjà bien engagée aux États-Unis, à laquelle la France porte un intérêt croissant, stimulée par des startups innovantes & créatives.

TRANSCRIPT

Page 1: Livre blanc big data écosystème français
Page 2: Livre blanc big data écosystème français

Directeur de la Publication : Etienne Guyot ; Conseiller : Rémy ArthusRédactrice en Chef : Sandrine RolMise en page/PAO : Karine Cazagou, Perpétue Francina ; Administration : Pascale Fachaux ; Fabrication : Angélique Roux

Comité de rédactionCatherine Druez-Marie, Responsable du département « Information et Colloques », Institut de recherche en propriété intellectuelle (IRPI) ; Luc Dardaud, Responsable du département des Facilitations du Commerce Extérieur, CCI Paris Ile-de-France ; Alain Henriot, Adjoint au Responsable des Etudes économiques, La Banque Postale ; Laurent Jacquet, Directeur desétudes et des ressources d’information, Experts Partenaires pour l’Entreprise à l’Étranger (EPEE) ; Éric Lahille, Professeur d’économie internationale et industrielle, ESIEE Management ; Nicolas Meunier, Consultant risques-pays ; Daniel Solano,Consultant, éditeur de la lettre d’Amérique latine ; Martine Stepanek, Responsable du département Asie-Amériques, CCI ParisIle-de-France ; Corinne Vadcar, Rédactrice en chef des Cahiers de Friedland ; Claudine Dagnet, Directrice générale déléguéedépartementale, CCI Paris.

Contacter l’équipe AccomexChambre de commerce et d’industrie de région Paris Ile-de-FranceRevue AccomexDGA AIE - Service produits éditoriaux et formation2 rue de Viarmes - 75040 Paris cedex 01Tél. 01 55 65 36 31 - Fax : 01 55 65 39 [email protected]

Toute reproduction/traduction/adaptation est interdite sans l’accord de la rédaction.

arce que l'horizon des entreprises s'étend au-delà des frontières et que l'activité économique s'inscrit dans un monde globalisé, la Chambre de commerce et d'industrie de région Paris Ile-de-

France propose à ses ressortissants une revue exclusivement dédiée à l'approche des marchés extérieurs.

Revue bimestrielle, Accomex s'adresse aux entreprises soucieuses de réussir leur développement à l'international, ainsi qu’à tous les acteurs attachés aux problématiques de la mondialisation économique :acteurs du système d'appui, think tanks, monde éducatif, etc.

Sa spécificité repose sur la juxtaposition d'analyses approfondies sur les marchés extérieurs et d'articlesplus pratiques consacrés à l'environnement réglementaire, fiscal et juridique de l'exportation et de l'investissement à l'étranger. Accomex propose, en alternance sur les six numéros de l'année, des approches géographiques, sectorielles et thématiques de l'environnement extérieur des entreprises.

Elle fait appel à des chefs d'entreprise expérimentés, à des professionnels des marchés extérieurs (avocats spécialisés, consultants à l'international, agences de couverture des risques, conseillers du commerce extérieur, etc.) et à des experts -français ou étrangers- reconnus dans leur domaine de compétence (économistes, juristes, politologues, etc.), afin d'offrir à ses lecteurs des contributions dequalité.

Accomex est éditée par la Direction générale adjointe - Actions internationales et européennes de laChambre de commerce et d’industrie de région Paris Ile-de-France.

P

Page 3: Livre blanc big data écosystème français

1L’édito.

L’édito.

Sandrine RolRédactrice en chef d’Accomex

« e Big Data s’impose comme le concept contemporain incontournable dont cha-cun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup

d’entreprises […]. Mais entre circonspection, prosélytisme, promesses opérationnelles,fantasmes vertigineux et apports concrets, il n’est pas facile d’y voir clair pour les néophytes » nous dit Matthias Fille, conseiller en développement de la filière TIC à la CCI Paris Ile-de-France.

Loin de vouloir surfer sur la vague d’un effet de mode, les auteurs de ce numérod’Accomex vous proposent « d’y voir plus clair »... Ils sauront vous convaincre que le BigData est bien plus qu’une simple évolution technologique supplémentaire, qu’ilconcerne les entreprises de toute taille et de tout secteur d’activité, que le terrain de jeudu Big Data est mondial…

Stocker des quantités considérables de données est une chose ; les traiter en est uneautre. Le Big Data offre cette possibilité de « nettoyer », d’analyser, de croiser les données - structurées ou non - produites par les entreprises, les particuliers (réseauxsociaux), les États (données publiques), pour créer de nouveaux usages : optimiser sonprocessus de production, affiner sa connaissance clients, maîtriser sa e-reputation,rationaliser ses coûts d’approvisionnement, stimuler la recherche, etc. Les possibilitéssemblent infinies…

C’est bien de valorisation des données (textes, images, statistiques, etc.) dont il s’agit,le plus souvent en temps réel (ou quasi réel)… Et c’est là que se situe la révolution, « oùle nouvel or noir à raffiner serait la donnée » ! Une révolution déjà bien engagée auxÉtats-Unis et à laquelle la France porte un intérêt croissant, stimulée par une multitudede startups innovantes, créatives & « Born Global ».

“La qualité, c'est de la quantité assimilée”.Léon-Paul Fargue

L

Page 4: Livre blanc big data écosystème français
Page 5: Livre blanc big data écosystème français

3

Big DataUne nouvelle révolution industrielle ?

SommaireSommaire n° 112 - Big Data

Analyses

5 Qu'est-ce que le Big Data ?u Matthias Fille

8 La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois u François Bourdoncle

12 La structuration du secteur du Big Data français : le projet Alliance Big Datau Charles Huot

15 Les initiatives gouvernementales en matière d’Open Data : la mission Etalabu Laure Lucchesi

18 De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Datau Adrien Schmidt

22 Les entreprises européennes sont-elles matures pour le Big Data ?u Hichem Dhrif

Le marché du Big Data aux États-Unis : trois startups, trois regards25 Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley

u Raphaël Guillemot

29 S’implanter à Kansas City : le choix décalé d’une startup françaiseu Rachel Delacour

33 Le Techstars de New-York : un « accélérateur » de startupsu Alexandre Winter

Exemples d’applications sectorielles du Big Data

37 Le Big Data au service de l’analyse des visuelsu Frédéric Jahard

40 Le machine learning appliqué au secteur du e-commerceu David Bessis

43 Les apports du Big Data à la financeu Thanh-Long Huynh

46 Optimiser la performance énergétique des processus industriels grâce à la datau Arnaud Legrand

49 Big Data et santé : enjeux nationaux et illustrations empiriques de l’étrangeru Matthias Fille

54 Pour aller plus loin

... /...

Page 6: Livre blanc big data écosystème français

L’interview !

56 Questions à... Florian Douetteau, Chief Executive Officer de Dataiku

En Pratique61 Les entreprises face aux risques du Big Data - Les enjeux sécuritaires

u Christian Aghroum

65 « Big Data et Business Analytics » : former les nouveaux entrepreneurs de la datau Josiane Gain

68 La formation de Data Scientist, un enjeu complexeu Julien Pouget

71 Les perspectives technologiques du Big Datau Nicolas Liochon

Zoom sur...

73 Cinq conseils pratiques pour gérer au mieux ses paiements en devises u Cyril Léger

76 L’essentiel - résumés des articles

Big DataUne nouvelle révolution industrielle ?

Sommaire (suite)

... /...

Page 7: Livre blanc big data écosystème français

5Qu'est-ce que le Big Data ?

nécessitait de nouvelles architectures techniques.Face à ces enjeux, les approches traditionnelles de lagestion de bases de données relationnelles 2, issuesde l’informatique décisionnelle et de l’ingénierie statistique, étaient techniquement révolues. Elles nepermettaient plus d’interroger ces données parrequêtes. De plus, les données non structurées (quis’opposent aux données chiffrées ou transaction-nelles) sont venues perturber ces technologies detraitement traditionnel. Les calculs algorithmiquesn’étaient pas assez parallélisés et distribués pourgarantir une puissance de calcul d’interrogation suf-fisante.

Ainsi, Google et Yahoo !, confrontés à ces probléma-tiques au début des années 2000, ont théorisé unenouvelle architecture de traitement analytique de l’in-formation. Elle s’appuie sur du traitement déporté,permettant de stocker et manipuler des bases de don-nées NoSQL 3. Ce standard repose sur le déploiementdes calculs sur un grand nombre de machines. Cettedynamique, conjuguée aux capacités de stockage,d’agilité et de calcul du cloud computing (pour gérer

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Les données s’abattent à rythme exponentiel sur lesorganisations. Les nouveaux systèmes d’informations,la mise à disposition d’outils numériques, les vecteursd’expression, les systèmes de paiement et l’ouverturede multiples bases de données publiques et privéesgénèrent chaque jour des afflux soudains de milliardsd’informations. De plus, chaque acteur (particulier,administration, organisation, entreprise, groupementcommunautaire) se fait lui-même, directement, pro-ducteur de nouveaux corpus d’informations non ousemi-structurés : données personnelles, applicationsgéolocalisées (avec une dimension temporelle), conversations sur réseaux sociaux, évènements, contenus dématérialisés, photos, microblogs, etc. De surcroît, sur la dimension « passive », les communi-cations issues de la multiplicité des objetscommunicants numériques (Internet des objets, com-munication M2M, capteurs, sondes, RFID) génèrentde la donnée à grande échelle.

En soi, ce déluge de données était prévisible auregard de la dynamique technologique existante. Maisrequêter dessus s’avérait beaucoup plus complexe et

Qu'est-ce que le Big Data ?

e Big Data s’impose comme le concept contemporainincontournable dont chacun s’accorde à dire qu’il va révo-

lutionner la manière de travailler de beaucoup d’entreprises.Mais il est complexe et difficile de lever l’opacité sur ce buzzword. Entre circonspection, prosélytisme, promesses opéra-tionnelles, fantasmes vertigineux et apports concrets, il n’estpas facile d’y voir clair pour les néophytes. Ainsi, les études deMcKinsey et du Harvard Business Review nous assurent que laprofession de Data Scientist sera l’eldorado de l’emploi « le plus sexy du 21ème siècle » et que le marché natif de ces technologies (les États-Unis) connaîtra une croissancesupplémentaire de 1,7 % d’ici 2020 en s’appuyant sur le Big Data : ce dernier fera partie des cinq secteurs phare de la croissance américaine. Côté français, l’AFDEL 1 estime que le Big Data pourrait générer 2,8 milliards d’euros et10 000 emplois directs, si les conditions d’un écosystème vertueux étaient déployées. Tous les early adopters s’accordent à dire que les possibilités d’usages qui en découlent ne se limitent pas à une simple révolutionnumérique mais posent les fondations d’une 3ème révolution industrielle, où le nouvel or noir à raffiner serait la donnée.

L Matthias [email protected]

Matthias Fille est conseiller en développement de la filièreTIC à la CCI Paris Ile-de-France. À ce titre, il s’intéresse tout particulièrement à l’écosystème du Big Data et del’Analytics et aux startups qui le composent. L’émergence de cette filière, les initiatives et plans d’aide initiés par les pouvoirs publics et associations professionnelles retiennentégalement son attention.

(1) Association Française des Éditeurs de Logiciels et Solutions internet. (2) Langage SQL, jusque-là le standard traditionnel. (3) NoSQL désigne une catégorie de systèmes de gestion de bases de données qui n'est plus fondée sur l'architecture classique des bases relation-nelles SQL.

Page 8: Livre blanc big data écosystème français

les pics de puissance de calcul requis), a permisl’avènement du Big Data.

Mais avec du recul, la rupture de paradigme nerepose pas sur ces nouvelles architectures et ceprisme technique. Ceux-ci ne sont « que » des exten-sions et innovations incrémentales. En d’autrestermes, ces nouvelles architectures sont de nouveauxoutils de production amenés à affiner la matière première : la donnée. Le Big Data n’est que la com-posante informatique de la révolution de la donnée etd’une nouvelle compréhension de son écosystème.Ainsi, il faut davantage chercher les gisements d’inno-vation dans les nouveaux modèles économiques et de relation client à inventer, pour aller chercher la per-formance économique et capter la valeur. En effet, lavaleur et le rapport à la donnée bouleversent, parexemple, les perceptions, l’interaction ou la connais-sance clientèle que peut avoir une entreprise.

Côté marché, les analystes de Gartner ont estimé quel’application des technologies du Big Data représen-tait un marché de l’ordre de 36 milliards de dollars en 2013, contre 28 milliards en 2012. Sans surprise,les fonds de capital-risque se multiplient et se spé-cialisent sur cette thématique. Ainsi, aux États-Unis,sur le seul 1er semestre 2013 4, les entreprises ontlevé au total 1,28 milliard de dollars. Ceci est à mettre en comparaison avec les 4,9 milliards de dollars cumulés entre 2008 et 2012.

Sur ce créneau, on retrouve les Venture Capital tradi-tionnels comme Sequoia Capital, Igition Partners,New Enterprise Associate, IA Ventures, AndreessenHorowitz, Khosla Ventures etMDV-Mohr Davidow Ventures.Traduisant cet engouement,des fonds dédiés se position-nent exclusivement sur cetaxe : Accel Big Data Fund,Data Collective ou encore Big data Boston Ventures.Ce mouvement s’accorde avec l’accélération derachats de jeunes startups disruptives, observée auxÉtats-Unis en 2013 5. En avril 2014, Intel a investi 740 millions de dollars dans Cloudera, qui venait d’an-noncer une levée de 160 millions de dollars quelquesjours auparavant ! Cette levée de fonds valorise lastartup fondée en 2008, qui devrait bientôt s'intro-duire en bourse, à plus de 4 milliards de dollars.

Dès lors, tout un écosystème s’est créé autour de lagestion de données : des fournisseurs technologiquesqui ont développé une offre variée autour des technologies Hadoop 6, aux utilisateurs finaux de cesarchitectures et solutions (ETI, institutionnels et

grandes entreprises) qui cherchent à construire unavantage concurrentiel sur l’exploitation de leurs don-nées, en passant par des entreprises spécialistes dela valorisation et création de la donnée (startups).

Que ce soit aux États-Unis ou en Europe, on observe le même phénomène d’émergence d’acteurs. D’uncôté, ceux qui se spécialisent sur la fournitured’équipements ou qui offrent des outils d’adoption etde prise en mains des technologies Big Data. De

l’autre, ceux qui se position-nent sur les usages etl’analyse de données. Sur cedernier point, cela se traduitpar la mise en relief de solu-tions métier exploitables par

des opérationnels, qui sont certes conscients de l’en-jeu de la statistique, mais néophytes en la matière.Intégrer une couche additionnelle d’applicationsmétiers s’avérera incontournable pour que de nou-veaux acteurs se frayent une place sur l’échiquier desusages de demain.

Au niveau organisationnel, le Big Data change lemode d’organisation intra-entreprise. En effet, le succès d’une démarche Big Data repose sur son universalité, sa pluridisciplinarité et sa transversalité.Elle « casse » les silos entre services, ce qui a des conséquences lourdes sur l’urbanisation des systèmesd’information, car les leviers de prise de décisions sedoivent d’être en temps réel : les démarches et déci-

Accomex n° 112 - Big Data6

(4) Source : CB Insights, août 2013.(5) Voir infographie page suivante : « Big Data acquisitions: per month and who acquired whom »(6) Hadoop est une architecture spécifique open source de bases de données, permettant de traiter en grand nombre tous types de données (y comprisles données non structurées) sur un mode non-relationnel (les données ne sont pas triées en fonction de leurs relations entre elles). Elle constitue enquelque sorte la librairie à partir de laquelle pourront être effectués des calculs parallèles (via MapReduce).

Tableau 1Levées de fonds cumulées à fin 2013 (millions de $)

Source : Crunchbase API.

Entreprises Montant levé

VMware 369

Palantir Technologies 343

MongoDB, Inc. 231

DataStax 167

Cloudera 141

Domo 123

Fusion-io 112

The Climate Corporation 109

Pivotal 105

Talend 102

“Le succès d’une démarche BigData repose sur son universalité,sa pluridisciplinarité et sa transversalité”.

Page 9: Livre blanc big data écosystème français

sions sont guidées par la data (« data-centric »). Parconséquent, ce nouveau socle technologique, ainsique les données que ce dernier exploite, sont devenusfondamentaux dans la refonte des processus de déci-sion. La magnitude d’impact pour appréhender lephénomène sera dès lors d’ordre économique, mana-gérial et organisationnel.

Désormais, tous les secteurs sont impactés par le paradigme et la démarche du « data-driven » : santé,télécommunications, assurance, e-commerce, recrute-ment, distribution et optimisation énergétique, etc. À titre d’exemple, on détecte immédiatement l’appé-tence du marketing à s’approprier l’analyse dedonnées, dans le but d’affiner des données comporte-mentales, comprendre le consommateur et sonexpérience utilisateur, prédire des attentes et propen-sions d’achat, etc.

Or, force est de constater qu’à ce jour, la discipline dumarketing s’appuie majoritairement sur des logiquesde moyennes, d’échantillons et de segments, sommetoute assez réductrices. En effet, les grilles de lecturebasées sur une logique d’analyse par gamme, canalet silos (entrepôts de données) ne sont plus adaptées.Les effets conjugués de flux de données externesimpactantes et la complexité à les synchroniser entemps réel échappent complètement au data mininget à la business intelligence traditionnels, quand bienmême ces données sont les nouveaux leviers de différentiation et de création de valeur.

Il est donc essentiel d’initier ce type de philosophie « data driven » au plus haut niveau de l’entreprise (lesdirections générales et les boards), car la data, cenouvel actif stratégique, influera de façon certaine surla stratégie globale de l’entité.

7Qu'est-ce que le Big Data ?

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Source : http://www.bigdata-startups.com

Page 10: Livre blanc big data écosystème français

Accomex n° 112 - Big Data8

La révolution numérique du Big Data :pour un écosystème français exportateur et créateur d’emplois

ous avons dépassé le simple prisme technologique duBig Data. S’attarder sur la primauté technologique est

une illusion : le Big Data est désormais un enjeu de businesstransformation. Il faut l’appréhender par les impacts qu’il vaavoir, ce qui aura le mérite d’exclure la vacuité de certainsdébats ambiants… Le centre de gravité du débat ne sera plusaxé sur la masse de données (à partir de quel montant demasses de données peut-on considérer que l’on fait du Big Data ?) ou sur les enjeux techniques d’optimisation organisa-tionnelle, mais sur d’autres phénomènes tels que les enjeux deconception de produits, de nouveaux modèles d’affaires, d’organisation client et de gamme de produits. Sur la phasede développement des infrastructures et des solutions technologiques sous-jacentes, le terrain est balisé et l’on pourrait aisément dire : « Les dés sont déjà lancés, que le meilleur gagne ! ». Par conséquent, la bataille n’est plus surl’infrastructure, mais bien sur les usages, sur le développement de nouveaux modèles économiques et sur les déclinaisons verticales. En matière de Big Data, il s’agit maintenant de passer du « comment ? » au « quoi ? » et au« pour quoi ? ».

N François Bourdoncle@fbourdoncle

François Bourdoncle est le cofondateur et actuelDirecteur Technique d'Exalead, aujourd'hui filiale deDassault Systèmes. Il est membre de la CommissionLauvergeon « Innovation 2030 », qui a remis son rapportà François Hollande en octobre 2013. F. Bourdoncle estégalement co-pilote (avec Paul Hermelin, PDG deCapgemini) du Plan d’action Big Data, qui compte parmiles 34 grands projets de la « Nouvelle France industrielle »du Ministère du Redressement Productif 1.

(1) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle

À mes yeux, la vraie création de valeur réside dans desentreprises comme Withings ou Criteo, car celles-cireposent sur un business model complètement intégréverticalement, qui crée, capte, analyse, valorise etmonétise de la data. Pour faire de l'innovation intelli-gente, il faut placer au même endroit les données quel’on fabrique et celles que l’on recueille. La France al’opportunité de se frayer un chemin sur l’échiquiermondial des usages, là où tout n’est finalement pasencore bien défini. Mais l’Hexagone doit composer avecson marché, qui n’a pas la taille du marché américain,ni la même capacité d’investissement.

LE BIG DATA : UN ÉCOSYSTÈME PLUS QU’UNE FILIÈRE

En tant que chefs de file de ce « chantier », avec PaulHermelin, nous avons donc identifié les leviers que lespouvoirs publics peuvent actionner pour favoriserl’émergence d’un écosystème français du Big Dataexportateur et créateur d’emplois. C’est avant tout unobjectif économique, académique et industriel. Nousvoulons rendre le terrain français fertile pour l’ensem-ble de l’écosystème Big Data, en « changeant le PH de

l’aquarium ». Concernant le mode opératoire, l’ambi-tion de nos travaux n’est pas de bâtir une nouvellefilière industrielle au sens classique du terme, commecela peut être le cas à titre d’exemple pour le plan « Avion électrique ».

En effet, le Big Data est plus un écosystème qu’une filière au sens traditionnel du terme, car il n’a pasvocation à déboucher sur un produit industriel précis.Le Big Data est quelque chose de beaucoup plusécosystémique et horizontal, parce qu’il irrigue tousles secteurs.

Le Big Data est donc un enjeu critique pour tous lessecteurs de l’industrie et des services, notammentceux qui n’ont pas encore été fortement impactés parla révolution numérique. Il ne faut pas que nos grandsgroupes ignorent cette révolution, comme cela a été lecas pour le commerce de proximité, la presse, l’indus-trie du disque ou, bientôt, la télévision et le cinéma,car le Big Data va être le moyen par lequel la révolu-tion numérique va s’inviter sur des secteurs quin’étaient pas concernés à ce jour ; il faut éviter que nese reproduise l’aveuglement de ces secteurs au sein

Page 11: Livre blanc big data écosystème français

9La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

desquels les acteurs n’ont pas voulu appréhender larévolution numérique jusqu’à ce qu’elle devienneirréversible.

SE RÉINVENTER POUR FAIRE FACE AUX PURE PLAYERS DU NUMÉRIQUE

Le déni de réalité est à éviter : il correspond à uneforme de défense extrêmement dangereuse.

Le « jusque-là tout va bien » est également à éviter, car à vouloir refuser de se challenger sur son propre business model, de nombreux acteurs courent lerisque de la désintermédiation par des pure playersde la data comme le GAFA 2, IBM, LinkedIn, ce que j’appelle les « barbares modernes 3 ».

En effet, le succès de l’innovation orientée grandpublic de ces quinze dernières années (Internet,moteurs de recherche, téléphonie mobile, réseauxsociaux, etc.) confère à ces pure players un accèsdirect au grand public et à ses données. Cetteconnaissance de la relation client est leur outil pourse positionner dans tous les domaines. Comme ledémontre l’actualité récente 4, ces spécialistes de la data regardent les déclinaisons possibles dansd’autres secteurs traditionnels. Ainsi, le risque pourles grands groupes établis est lié à la menace que ces« barbares » s’imposent partout où il y a de l'ineffica-cité dans la relation clients : l'assurance, la santé, lecrédit, le marché de l’électricité, les opérateurs detélécommunications, etc.

Prenons une illustration dans le domaine de l’assu-rance : Avec Android sur votre terminal, Google disposede votre géolocalisation et accéléro-mètre. Il connait votre mode de vie, type de conduite, oisiveté, mobilité, vos préférences, etc. En mixant ces dataset en faisant travailler un arsenal algo-rithmique, les pure players seront enmesure de proposer une offre assu-rantielle moins chère, granulaire, extrêmement sophis-tiquée quant au profil de risque d’un individu lambda.Puis ils capteront la valeur des bons clients, ceux dontla probabilité de sinistralité est faible.

Ces nouveaux acteurs réinstaureront dès lors unenouvelle forme d’intermédiation. Or, qui dit intermé-diation, dit également sous-traitance et érosion desmarges. Ces pure players du numérique auront lacapacité d’imposer un diktat aux Brick and Mortar(acteurs traditionnels) et de les reléguer à un simplerôle d’opérateurs et de prestataires techniques inter-

changeables. Ces derniers se verront confisquer larelation client, qui représente la grosse partie de lavaleur de leurs activités ; celle-ci ne sera plus captéepar celui qui détient la technicité de l'objet industriel,mais par celui qui détient la technicité de l'optimisa-tion de l'objet ou de la relation client grâce auxtechnologies du Big Data. Les entreprises françaisesdoivent absolument réinventer leurs services clientsou, à défaut, les exécuter mieux que les autres, d’au-tant qu’il y a une vraie demande de produitspersonnalisés dans ces domaines.

Trop d’industries comme le crédit, l’assurance et lafinance se sentent protégés, se considérant à la pointeavec leurs outils informatiques. Cela est illusoire.L’informatique pur n’est qu’un outil de production et deproductivité, il n’a pas d’impact sur le business modelet sur sa transformation. À cet égard, le capitalismefrançais a un problème : il est beaucoup trop dans l'entre-soi et la courtoisie. Plutôt que de subir cette 3ème révolution numérique, il faut anticiper sa dyna-mique et ses enjeux. Cette ouverture culturelle etl’acceptation de la compréhension de la désintermé-diation numérique sont critiques pour changer leslogiciels de pensée.

FAVORISER LA COLLABORATION ENTRE LES GRANDSGROUPES ET LES STARTUPS

En conséquence, l’une des priorités est d’inciter lesgrandes entreprises françaises, aujourd’hui en retardsur leurs homologues américaines, à lancer des projets à grande échelle d’exploitation des données.Pour ce faire, dans le cadre de notre chantier, noustravaillons sur plusieurs pistes avec les grands

groupes. Il s’agit d’abord d’annihiler jus-tement ce déni de réalité, puis devaloriser l’innovation ouverte.

Il est aujourd’hui absolument vital, pourles grands groupes, de collaborer avecdes startups : jusqu'à présent, la ten-

dance était plutôt de les racheter pour les « tuer »avant qu'elles ne puissent devenir des concurrentes.Nous devons favoriser l’interaction vertueuse du tan-dem grands groupes (utilisatrices) et startups du BigData (techno providers). Idéalement, il faudrait queles grands groupes payent trois fois ! Financer les startups en capital-risque, les aider à grandir (logiquebusiness) et les racheter au moment opportun. Sanscela, ces acteurs en herbe que sont les startups ontpeu de chance de grandir, de démontrer la scalabilitéde leur projet et de trouver les forces de s’attaquer à l’export pour contrer l’étroitesse et l’« aversion cultu-

(2) GAFA : acronyme pour désigner Google, Amazon, Facebook et Apple. (3) Cf. Interview de François Bourdoncle dans Challenges, 20 janvier 2014.(4) Acquisitions récentes de Google dans le domaine de l’assurance et de la maison intelligente connectée ; investissement de 250 millions de dollarssur Uber, compagnie de VTC.

Page 12: Livre blanc big data écosystème français

Accomex n° 112 - Big Data10

relle IT » de notre marché intérieur. L’effet de levier decette mesure est double et convergeant pour ces deuxtypologies d’acteurs.

CHANGER LA PERCEPTION DE L’INNOVATIONFRANÇAISE

J’ai l’obsession de changer la perception de l’innova-tion française. Comme chacun le sait, la R&D estgénéreusement financée par de nombreux véhiculesde financement publics (FUI, Crédit d’ImpôtRecherche, etc.). Il faut s’en féliciter. Mais au regarddes investissements publics consentis, l’effet produitest trop minime. La R&D est trop peu impactante pourchanger « les règles du jeu » et créer de la valeur.

Au-delà de la dimension exploratoire des projets deR&D, les PME et startups ne doivent pas oublier qu’illeur faut un marché. D’où notre volonté de tirer l’éco-système par l’aval, en créant le marché. Il s’agit destimuler les projets et les preuves de concept côtédemandeurs. Nous serons ainsi confortés sur l’exis-tence potentielle d’un marché, l’expérimentation deces projets par les grands groupes, l’aide aux PME etleur besoin de scalabilité de projets. Les PME ontdavantage besoin d’un carnet de commande étofféque de subventions (côte offre, en amont). Cettelogique aura un effet de levier maximal : créer le mar-ché plutôt que l’offre, et réduire le time-to-market denos startups.

Avec le récent lancement de la plate-forme TeraLab 5,les entreprises et chercheurs disposeront d’un environnement de recherche et d’expérimentation(briques technologiques, ressources de calcul grandeéchelle). Pour ce faire, il est essentiel que cette struc-ture recense les « bonnes volontés » en matière demise à disposition de données de la part des entre-prises.

FAIRE ÉVOLUER LE VOLET RÉGLEMENTAIREFRANÇAIS

Tout comme le logiciel de pensée, le volet réglemen-taire français doit évoluer. Sur le premier aspect, ilfaut permettre aux usages de s’installer, de s’expéri-menter. Concernant le volet réglementaire, nouspouvons être fiers d'avoir exporté notre modèle de laloi Informatique et Libertés au niveau européen. Maiscette loi comporte un biais : la finalité initiale de la col-lecte des données personnelles est « gravée dans lemarbre » ; on ne peut pas la faire évoluer lors d’utilisa-tions ultérieures. Or le Big Data, en mouvementpermanent, ne peut s’en satisfaire : la déferlante vafaire craquer cette loi, c'est inévitable.

Il s’agit donc de refondre le volet législatif en matièrede réutilisation des données, afin de faciliter, sanslever toute forme de contrôle, l’usage des données.Ainsi, il faut pouvoir expérimenter avant de légiférer, etdéplacer l’équilibre en faveur de l’innovation. À cetégard, il est illusoire de croire que s’interdire le droitd’expérimenter sur l’utilisation innovante des donnéesserait un garde-fou contre les dérives potentielles. Ceprincipe d’audace, d’action et d’expérimentation doitpouvoir rééquilibrer le rapport de force avec notre « sacro-saint » principe de précaution inscrit dans laconstitution française.

Les usages innovants et disruptifs comportent unepart de risque, de sorte qu’avant que la CNIL n’em-pêche d’expérimenter, nous devons appréhender cesusages, sectoriellement et de manière jurispruden-tielle. Or, actuellement, l’utilisateur des données doitrespecter l’usage intentionnel pour lequel les donnéesont été collectées… Nous pourrions remplacer le prin-cipe d’intentionnalité par celui de réciprocité, passerd’une logique déclarative à une logique d’adhésion,grâce à la rédaction d’une charte d’adhésion à desvaleurs de base, par secteur, avec sanction s’il y a unnon-respect de la vie privée.

L’ÉTAT COMME LOCOMOTIVE D’EXPÉRIMENTATION

Il faut également observer l’évolution des usages etprocéder systématiquement à une étude d’impactéconomique avant de légiférer « défensivement etmécaniquement ». Les entreprises ont besoin de cegage de sécurité, tout comme elles ont besoin de stabilité fiscale. Sans ce droit à l’expérimentation, misen avant par le rapport de la Commission Lauvergeon,il sera très difficile de faire émerger une filière Big Data dans notre pays.

C’est de l’action et de l’expérimentation que naitrontla réflexion et les usages, et non pas l’inverse. Maiscomme toute révolution industrielle, l’entrée de notrecivilisation dans l’ère du « tout numérique » ne serésume pas à ses risques potentiels ; et la crispationlégitime sur la protection de la vie privée ne doit pasmasquer les fantastiques enjeux économiques etcitoyens que représente le traitement intelligent desdonnées massives.

À ce titre, l’État se doit d’être une locomotive d’expéri-mentation, d’autant que, comme pour les entreprises,les enjeux sont considérables (gestion des res-sources, des infrastructures, de l’énergie, destransports, du marché de l’emploi, des financespubliques, etc.).

(5) Centre de ressources technologiques destiné à des projets de recherche, d’innovation et de prototypage dédiés aux Big Data, lancé par l’InstitutMines-Télécom et le Groupe des Écoles Nationales d’Économie et de Statistique (GENES).

Page 13: Livre blanc big data écosystème français

11

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Il doit aussi montrer l’exemple sur des thèmes commeles data dans la santé, les données de la CNAM étantun fabuleux gisement de création de valeur avec denouvelles applications et une nouvelle façon deconcevoir les parcours de soins : passer d’unedémarche curative à une logique préventive grâce ausuivi et à une analyse en temps réel. Il en va de mêmedans l’évaluation et le pilotage des politiques d’actionpubliques. À l’heure où le niveau de défiance descitoyens vis-à-vis de la classe politique est le plusélevé de l’OCDE, voilà une formidable opportunité derecentrer le citoyen au cœur du débat sociétal et d’ac-croître le niveau d’exigence des citoyens sur l’exécutifcentral et les collectivités.

DES ATOUTS QUE LA FRANCE SE DOIT D’EXPLOITER

À titre conclusif, je dirais, d’une part, que nous nesommes pas en retard et que, d’autre part, nous disposons de nombreux atouts, comme par exempledes ingénieurs généralistes de haut niveau, formés àl’informatique, aux mathématiques et aux statis-tiques, qui sont très largement plébiscités au niveauinternational, à commencer par la City et Wall Street.

Ne serait-il pas plus vertueux de leur permettre deréussir en France en aidant nos entreprises à déployerle Big Data à grande échelle, en créant de nouveauxbusiness model, en réinventant la relation client par ladonnée ?

Comme je l’ai évoqué, nous avons également lachance d’avoir quelques très belles success stories,comme Critéo ou Withings, l’un des leaders mondiauxde l’« Internet des Objets ». Véritable pourvoyeur dedonnées dans le futur, cet « Internet des Objets », justement, va complètement révolutionner la manièredont les produits sont conçus et commercialisés, ainsique la manière dont l’innovation va se nourrir de l’exploitation du suivi des produits en condition opéra-tionnelle.

Espérons que les dossiers Big Data prochainementfinancés dans le cadre du « Concours Mondial del’Innovation 2030 » accouchent de futures pépites !Mais nous avons actuellement trop peu de championsnumériques, ces « modernes » comme nous les appelons. J’ai en outre l’ambition de faire entrer les « anciens » (nos grands groupes) dans l’ère de cette 3ème révolution numérique.

La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois

Page 14: Livre blanc big data écosystème français

La structuration du secteur du Big Data français : le projet AllianceBig Data

l’EGE, le SFIB, le CEA List, l’INRIA, pour n’en citer quequelques-uns, ont également rejoint l’Alliance.

Plus concrètement, les principaux objectifs del’Alliance Big Data sont de :

è rassembler les connaissances, expériences et technologies du Big Data et de les valoriser par une diffusion multicanal,è fédérer les associations, les offreurs de solutions etles utilisateurs pour construire une vision communedu Big Data et, à terme, englober d’autres tendancesdu numérique,è développer des dossiers thématiques en coordon-nant les associations, les sponsors/offreurs et lesutilisateurs,è donner de la visibilité aux offreurs de solutions,è offrir un lieu de dialogues et d’échanges aux utilisa-teurs en leur donnant la possibilité de s’exprimer, departager leurs expériences, d’améliorer leurs connais-sances du domaine.

L’Alliance Big Data réunit à ce jour 5 000 membres,dont de grandes organisations avec chacune sa

L’Alliance Big Data a été confortée par les récents travaux de la Commission Lauvergeon et les 34 plansindustriels de la Nouvelle France Industrielle 2 duMinistère du redressement Productif, qui ont érigé leBig Data comme chantier prioritaire. Ces initiativessous-entendent un besoin de structurer et d’ouvrirl’écosystème français. L’Alliance, par ses travaux, sacommunication, ses livres blancs, œuvre dans cesens. Elle peut être considérée comme un Do Tank del’écosystème Big Data, qui vient en complément desréflexions menées par la Commission Big Data del’AFDEL et l’ambitieux Plan Big Data présenté par legouvernement.

L’Alliance Big Data a été lancée en début d’année2013. Elle constitue un carrefour unique d’acteursindustriels, services publics, associations profession-nelles, universités et laboratoires représentatifs duBig Data. Les composantes d’innovation et de business (Cap Digital), de contenants et outils docu-mentaires (Aproged), de gestion contenus (GFII), detransaction dématérialisée (APECA), d’enseignement,recherche et innovation (Mines-Télécom) et d’utilisa-teurs (ADBS) y sont représentés. L’ADETEM, le Cigref,

e Big Data est un secteur à forte création de valeur.L’amplitude de choc, les secteurs impactés, les business

model traditionnels « challengés » et toutes les applications quien découleront ne sont, à ce jour, pas tous identifiés. À ce titre,il était important de créer une communauté d’échanges. La « ligne éditoriale » de l’Alliance Big Data est donc de fédérer desacteurs, construire une vision commune, partager des expé-riences et, in fine, de favoriser le développement et la mise enlumière de nouveaux services et applications. L’Alliance aégalement pour objectif d’expliquer à la communauté, que cesoit des citoyens, des politiques ou des industriels, ce qu’est leBig Data : pourquoi ce terme ? Comment en est-on arrivé là ? Quels sont les enjeux stratégiques en termes dedéveloppement économique, d’emplois, de compétitivité ? L’enjeu du Big Data pour la France est essentiel ; il néces-site la structuration de son écosystème, afin que la France trouve une place ambitieuse sur l’échiquier de la data etde cette révolution numérique.

L Charles [email protected]

Charles Huot a passé 10 ans chez IBM en tant que direc-teur international des ventes pour les logiciels de TextMining. Co-fondateur de l’entreprise TEMIS, il en estégalement aujourd’hui le directeur général délégué encharge du développement stratégique et de l'innovation.À ce titre, il représente TEMIS auprès des industriels deson secteur et d'instances françaises et européennes.Charles Hulot est également Président du Comité Édito-rial du portail Alliance Big Data 1.

(1) http://www.alliancebigdata.com ; @AllianceBigData(2) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle

12 Accomex n° 112 - Big Data

Page 15: Livre blanc big data écosystème français

propre préoccupation en matière de collecte, de traitement, de visualisation, d’analyse des données.Elle fédère de multiples institutions autour de la thématique Big Data et travaille à l’homogénéisationd’un discours sur le sujet : celui-ci n’est pas que l’af-faire des spécialistes de logiciels, sa diffusion estcross-channel et impacte tous les secteurs.

La philosophie de l’Alliance n’est pas de se cloisonnerentre « gens du sérail », entre pure players et techno-providers de solutions Big Data ; au contraire, elle secalque sur la dynamique du Big Data, qui synchronise,casse les vases clos et impacte toute une chaîne de valeurs. C’est pourquoi, l’espace est ouvert aux personnes ayant une sensibilité intellectuelle pour lesujet et à celles pour lesquelles celapeut représenter un enjeu et une vraierupture de paradigme dans les métierset secteurs (les verticaux). L’arrivéecontinue de nouveaux partenaires per-met d’élargir les horizons de réflexionde l’Alliance Big Data, de croiser lesdomaines de compétences et d’exper-tise. En fédérant des acteurs répartis sur l’ensemblede la chaîne de valeur, l’Alliance a mis en forme uncontinuum qui pourrait difficilement être dupliquédans une association ou une entreprise classique.

En termes de communication, l’Alliance dispose bienentendu d’un site web 3 et, comme le mouvement estpar essence collaboratif, met à disposition, via sonpartenaire Jampespot, un réseau social de partage 4

et de mise en lumière d’expériences et de réalisa-tions. Une Big Data TV 5 complète ce dispositif. Plusrécemment, des partenaires médias ont manifestéleur intérêt pour la démarche : 01 Business et VeilleMagazine. Enfin, des sponsors viennent apporter leursoutien au développement de l’Alliance Big Data :Exalead, Capgemini, GDF SUEZ et Jamespot.

En ce qui concerne les évènements notoires de lacommunauté, l’Alliance a organisé le Big Data Daydans le cadre du FAN 6 2013 de l’Aproged, le 14 novembre 2013. À cette occasion, se sont succé-dés conférences-débats, plateaux TV et décryptagesdes challenges concernant la problématique du BigData. Cette mobilisation collective favorise la dyna-mique et la variété des thématiques traitées, ainsi quela richesse des compétences réunies entre les anima-teurs et les intervenants.

En termes de livrables et de dossiers thématiques,l’Alliance a axé ses premiers travaux sur la rédactiond’une Charte Éthique & Big Data. Étant données la criticité et les nouvelles problématiques soulevées par

les flux de data, cela apparaissaitcomme un chantier prioritaire. Cettecharte énumère les principes directeurs(transparence, usage, rémunération)destinés à garantir le bon usage et lapérennité des données. La rédaction dela Charte a été pilotée par AlainCouillault, secrétaire de l’APIL et mem-

bre de l’Aproged.

La multiplicité de regards des contributeurs a abouti àfaire émerger quatre volets : la description des don-nées, la traçabilité, la propriété intellectuelle et lesréglementations spécifiques à la nature des donnéestraitées. Ce socle éthique contribue à harmoniser lesrapports entre producteurs, fournisseurs et utilisa-teurs de données sur le plan du respect des lois, decelui de l'éthique, et à garantir la confiance dans lesrapports entre l'ensemble des acteurs impliqués.Cette charte constitue un recueil de bonnes pratiquesen matière de traçabilité et d’exploitation des don-nées, et un guide pratique pour savoir comment traiterles données.

(3) http://www.alliancebigdata.com(4) http://alliancebigdata.jamespot.pro(5) http://www.youtube.com/channel/UCUFUuT-s9mlAuak-SAI6kvg(6) Forum des Acteurs du Numérique.

Glossaire

Aproged : Association des professionnels pour l’économie numérique (http://www.aproged.org)AFDEL : Association Française des Éditeurs de Logiciels et Solutions Internet (http://www.afdel.fr)GFII : Groupement Français de l’Industrie de l’Information (http://www.gfii.fr/fr)APECA : Association de la Maîtrise et de la Valorisation des Contenus ADBS : Association des professionnels de l’information et de la documentation (http://www.adbs.fr)ADETEM : Association nationale des professionnels du marketing (http://www.adetem.org)Cigref : Réseau de Grandes Entreprises (http://www.cigref.fr)EGE : École de Guerre Économique (http://www.ege.fr)SFIB : Syndicat de l’industrie des technologies de l’information (http://www.sfib.org)CEA List, Systèmes numériques intelligents http://www-list.cea.frINRIA, Inventeurs du monde numérique (http://www.inria.fr)APIL : Association des Professionnels des Industries de la Langue (fusionnée avec l’Aproged)

Zoom

sur

...L’

inte

rvie

w !

En p

ratiq

ueA

naly

ses

La structuration du secteur du Big Data français : le projet Alliance Big Data 13

Page 16: Livre blanc big data écosystème français

L’Alliance Big Data travaille également à l’extensionde son réseau social à un réseau social européen.Beaucoup de partenaires, tel Cap Digital, ont d’ail-leurs des liens avec des clusters technologiques à travers l’Europe. Beaucoup d’intégrateurs, telCapgemini, sont prêts à sponsoriser un réseau d’excellence européen sur le sujet, spécialement surle thème épineux de la formation au traitement dedonnées et aux nouveaux métiers de l’information.L’Alliance entretient également des échanges d’expé-riences avec la britannique Open Data CenterAlliance.

En 2014, elle poursuivra les chantiers entrepris etcherchera à développer les grands domaines émer-gents dans le Big Data comme la formation, la R&D, l’Industrie, les objets intelligents. Elle com-mence aussi à se positionner sur des chantiersverticaux comme la santé, l’assurance, les transportset la mobilité, car tous ces secteurs ont un dénomi-nateur commun : la data. L’objectif aujourd’hui estd’étendre l’Alliance et de toucher un maximum de personnes concernées par le Big Data.

TEMIS

TEMIS a été fondé il y a 13 ans. L’entreprise est membre du pôle de compétitivité Cap Digital 7

depuis sa création.

Son cœur d’activité est la vente de logiciels dans le domaine de l’analyse automatique de textes dans le monde (filiale à New York,en Allemagne et au Canada).

TEMIS est le leader français des logiciels d’enrichissement sémantique des contenus : il extrait les métadonnées des contenus non struc-turés afin d’optimiser les processus de recherche, d’exploration et d’analyse de contenu.

Pour en savoir plus : [email protected] ; http://www.temis.com/fr

(7) Créé en 2006, Cap Digital est le pôle de compétitivité des industries des services et contenus numériques. Il a pour objectif de faire de la RégionÎle-de-France l’une des références mondiales du numérique (http://www.capdigital.com).

14 Accomex n° 112 - Big Data

Page 17: Livre blanc big data écosystème français

15

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Les initiatives gouvernementales en matière d’Open Data : la mission Etalab

Quels sont les objectifs qui portent et structurent le projet Etalab ? 1

Au sein du Secrétariat Général pour la Modernisationde l’Action Publique (SGMAP), la mission Etalab estchargée de soutenir l’ouverture et le partage des don-nées publiques (Open Data) au service de latransparence, de l’efficacité de l’action publique et dudéveloppement économique. Elle poursuit cet objectifconformément à la feuille de route du gouvernementen matière d’ouverture et de partage des donnéespubliques définie en février 2013, ainsi qu’au principegénéral de réutilisation 2 libre, facile et gratuite, enmettant l'accent sur les données à fort impact socié-tal (santé, éducation, etc.) et/ou à fort potentield’innovation sociale et économique.

La mission Etalab est en particulier responsable dudéveloppement du portail unique interministériel(http://www.etalab.gouv.fr/) destiné à rassembler et àmettre à disposition librement l’ensemble des infor-mations publiques de l’État, de ses établissementspublics administratifs et, si elles le souhaitent, descollectivités territoriales et des personnes de droitpublic ou de droit privé chargées d’une mission deservice public.

Elle coordonne l’action des administrations de l’Étatet apporte son appui à ses établissements publicspour faciliter la réutilisation la plus large possible de

leurs informations publiques. Elle s’est en outreengagée dans le processus de coordination interna-tionale des stratégies d’Open Data et degouvernement ouvert (Open Government).

Afin de stimuler l’innovation et les réutilisations, lamission Etalab travaille également à développer etstructurer l’écosystème national de l’Open Data :innovateurs, start-ups, partenaires technologiques,chercheurs, etc.

Le décret du 31 octobre 2012, créant le SecrétariatGénéral pour la Modernisation de l’Action Publique, a eu pour conséquence de dissoudre Etalab dans cettenouvelle structure. Cette réorganisation a-t-elle eu desconséquences dans l'approche de l'État quant au partage des données publiques ?

Ce rattachement lui a donné plus de résonnance.

En intégrant la mission Etalab au SGMAP, le gouverne-ment a constitué une force globale d’innovation,associant la conception des systèmes d’informationde l’État, l’ouverture des données publiques, l’évalua-tion des politiques publiques et l’innovation enmatière de politiques publiques. Etalab collabore désormais étroitement avec les services chargés de lamodernisation de l’action publique.

Les initiatives gouvernementales enmatière d’Open Data : la missionEtalab

(1) Propos recueillis par Victor Mourer, chargé d’études à la CCI Paris Ile-de-France.(2) La réutilisation est l’utilisation à d’autres fins que celles de la mission de service public en vue de laquelle les documents ont été élaborés ou sont détenus.

Questions à… Laure Lucchesi, Directrice adjointe de la mission Etalab,rattachée au Secrétariat général pour la Modernisation de l’Action Publique

Page 18: Livre blanc big data écosystème français

Accomex n° 112 - Big Data

La modernisation de l’action publique est en effet l’undes enjeux majeurs de la politique d’Open Data : aufur et à mesure de l’ouverture d’une quantité crois-sante de données (et de leur montée en qualité grâceaux interactions avec toute une communauté decontributeurs), elle conduira au renforcement de lapuissance publique, à la simplification administrativeet à une plus grande efficacité des politiquespubliques (mieux objectivées, avec une meilleure allo-cation des moyens engagés, des outils de mesure etde pilotage renforcés, etc.).

Onze décisions relatives à l’Open Data ont d’ores etdéjà été entérinées lors des trois premiers Comitésinterministériels pour la modernisation de l'actionpublique (CIMAP), qui reflètent les synergies créées etla contribution de l’Open Data à la modernisation del’action publique.

En quoi l’ouverture des données publiques peut-elleêtre bénéfique aux professionnels ? Etalab a-t-il établides partenariats avec des entreprises du secteur privé ?

C’est l’une des promesses de l’Open Data que de sou-tenir l’innovation - économique et sociale - grâce aupotentiel de réutilisation des données partagées parl’État. Nous connaissons déjà des centaines d’entre-prises qui utilisent les données publiques et qui ontcréé de nombreux emplois. Mais cette promesse nese limite pas aux réutilisations… L’Open Data, c’estsouvent un levier pour un État plus simple et plus efficace, ce qui est aussi une forme importante desoutien aux entreprises.

À part les concours dataconnexions, Etalab n’a pas departenariat spécifique avec les entreprises privées,puisque le principe même de l’Open Data est de permettre librement et gratuitement toutes les innova-tions que les entreprises pourront imaginer à partir deces données non personnelles.

En revanche, dans la nouvelle version du portaildata.gouv.fr lancée en décembre 2013, et ouvert àtoutes les contributions d’intérêt public, nous propo-sons à la société civile de s’impliquer dans laconstruction d’un « bien commun informationnel » quereprésentent les données. Les citoyens, les associa-tions, les entreprises peuvent ainsi consulter maisaussi mettre eux-mêmes à disposition des donnéesd’intérêt général sur le portail.

En quoi consiste le programme dataconnexions ? Dansquelle mesure pourrait-il servir de laboratoire auxentreprises françaises pour exporter ces solutionsinnovantes à l’étranger ?

Le programme dataconnexions, qui compte une tren-taine de partenaires dont le groupe La Poste, la SNCF,

Orange ou encore Microsoft, permet d’animer unecommunauté d’acteurs autour de l’Open Data, defavoriser le partage d’expérience et de mettre envaleur des projets qui réutilisent les donnéespubliques et créent ainsi des services innovants. La4ème édition de ce concours a eu lieu le 4 décembre2013 et a récompensé 8 lauréats (parmi 65 dossiersreçus), et ce programme se poursuivra en 2014.

L’ouverture des données publiques permet de soute-nir l’innovation économique et sociale. Elle participe àdiffuser la culture de la donnée au sein des adminis-trations et à développer les stratégies fondées sur ladonnée.

Ces bénéfices s’appliquent tout autant aux acteurs dusecteur privé. De nombreux acteurs ont ainsi d’ores etdéjà mis en place des stratégies autour de l’ouverturede leurs données et de l’innovation ouverte.

Nous pourrions ajouter que l’administration bénéficieelle-même de la rencontre avec ces innovateurs, quiapportent à ses données de nouveaux points de vue,de nouvelles technologies, voire de nouvelles straté-gies de création de valeur.

Existe-t-il des initiatives similaires au projet Etalabdans d’autres pays ? Et si oui, Etalab a-t-il pour projetde coopérer avec d’autres administrations nationalesou internationales en matière d’Open Data ?

De nombreux pays ont d’ores et déjà engagé, avec différents niveaux d’avancement, une politique d’OpenData. La France, par l’intermédiaire notammentd’Etalab, est en lien avec cette communauté interna-tionale, avec laquelle elle entretient des échangesréguliers, en travaillant avec ses homologues(Royaume-Uni, États-Unis, pays de la zone Euro-Méditerranée, Liban, Japon notamment), ainsi qu’autravers des instances internationales auxquelles elleparticipe.

Le 18 juin 2013, le Président de la République et leschefs d’État et de gouvernement, réunis au Sommetde Lough Erne, ont ainsi adopté une Charte du G8pour l’ouverture des données publiques qui marquel’ambition collective des États membres de promou-voir des économies ouvertes, des sociétés ouvertes etdes gouvernements ouverts. Le Premier ministre apublié le 7 novembre 2013 le Plan d’action de laFrance pour la mise en application de cette CharteOpen Data du G8 3.

L’Europe est donc un partenaire naturel pour l’OpenData français, même si les coopérations ne sont pasencore fortement établies avec les initiatives les plusrécentes.

16

(3) http://www.etalab.gouv.fr/article-les-chefs-d-etat-reunis-a-loughe-erne-signent-une-charte-du-g8-pour-l-ouverture-des-donnees-publique-118576420.html

Page 19: Livre blanc big data écosystème français

Les initiatives gouvernementales en matière d’Open Data : la mission Etalab

Quelles perspectives peut-on espérer pour l’initiativeEtalab ? Une coopération renforcée avec le secteurprivé en fait-elle partie ?

En 2014, le nouveau site data.gouv.fr poursuivra sadynamique d’innovation continue. Il s’enrichira en per-manence de nouveaux jeux de données, grâce à uneexpérience simplifiée de publication pour les acteurspublics. Favorisant le dialogue avec la société civile,ainsi que l’enrichissement et la réutilisation des données, cette plateforme continuera de s’enrichir etd’accueillir des contributions inédites. Elle est le pivot de la politique d’Open Data, qui doit contribuer

à renouveler la confiance descitoyens et à stimuler l’inno-vation, tant au sein desadministrations que de l’éco-nomie numérique dans sonensemble.

Par ailleurs, Etalab a été chargée de coordonner lestravaux de transposition de la Directive 2013/37/UEdu Parlement européen et du Conseil du 26 juin 2013modifiant la directive 2003/98/CE concernant laréutilisation des informations du secteur public. Ceux-ci se dérouleront dans l’année à venir, afin derespecter l’échéance de transposition en juillet 2015.

Enfin, Etalab continuera à soutenir l’émergence d’unpuissant écosystème de l’Open Data, incluant les collectivités locales et le secteur privé, àl’échelle nationale comme internationale.

Zoom

sur

...L’

inte

rvie

w !

En p

ratiq

ueA

naly

ses

17

Pourriez-vous expliquer en quoi consiste le projetCoDesign Data.gouv.fr ? L’objectif d’association du projet Etalab avec la communauté française de l’Open Data a-t-il été atteint ?

Une profonde refonte du portail data.gouv.fr a étéengagée à partir du printemps 2013, et a permisd’inaugurer, en décembre, une nouvelle version duportail, encore plus ouverte et plus collaborative.

La conception de cette nouvelle plateforme a étéconduite en étroite coordination avec la communautéde l’Open Data au travers d’une démarche de CoDesign. Une consultationpublique menée au printemps2013 a permis de recueillir unesoixantaine de contributions, etneuf ateliers thématiques ontété conduits pour recueillir lesretours d’expérience et les suggestions des utilisa-teurs et réutilisateurs du portail.

Tout en conservant sa vocation de diffuser largementles données brutes, data.gouv.fr deviendra à terme unoutil grand public pour une utilisation démocratiquedes données publiques, facilitant également la publi-cation, la réutilisation de ces données et leurenrichissement par tous types de contributeurs.

“Etalab continuera à soutenirl’émergence d’un écosystèmede l’Open Data à l’échellenationale et internationale”.

Page 20: Livre blanc big data écosystème français

Accomex n° 112 - Big Data18

Pouvez-vous nous présenter Squid Solutionsen quelques mots ? 2

Nous sommes éditeurs de logiciel dans le domaine dela data. Nous fournissons une plateforme de gestionet d’analyse de données 3 aux entreprises qui souhai-tent exploiter leurs données, par exemple pouroptimiser leur marketing en ligne.

Comment cette aventure a-t-elle commencé ?

Nous sommes quatre co-fondateurs à avoir travaillédans une filiale de Gemplus 4 où nous travaillions surles data télécom et, plus particulièrement, sur lestickets entrants. Cela nous a aidés à comprendre lescomportements des clients. Nous étions en mesurede détecter les usages patterns des clients poursavoir si un client était sur le point de quitter un opérateur pour un autre.

Puis nous nous sommes lancés dans l’édition de logi-ciels avec Squid. Nous avons identifié tout ce qui,dans la chaîne de valeur de l’analyse de données, prenait le plus de temps, était le plus complexe et leplus coûteux à réaliser, afin de mettre au point unetechnique. Grâce à nos premiers clients - notammenteBay et SFR -, qui comptaient parmi les plus grossesbases de données du marché, nous avons fait lapreuve de notre technologie. Cela nous a permis de

lever trois millions d’euros auprès des investisseursen capital-risque en 2008, en pleine crise financière.

Concrètement, comment fonctionne votre technologie ?

L’objectif est de récupérer un maximum de donnéesvia des solutions dites de Big Data. Il s’agit de collec-ter, stocker et « historiser » ces données, afin dedéterminer des tendances. Concrètement, nous utili-sons des bases de production de sites web, des basesde CRM, tout ce qui peut concerner les produits, lestransactions, etc. Ces données sont alors coupléesavec celles que nous remontent nos trackers, et pardes accès à des sources de données que l’on va four-nir. Nos outils permettent ainsi de dépasser la logiqueen silos. Des modèles de données sont alorsconstruits pour croiser toutes ces données.

La levée de fonds effectuée en 2008 nous a permis deconcevoir notre propre plate-forme, qui rassemble juste-ment toutes ces données. Au-dessus de cetteplate-forme, nous aidons nos clients dans leurs problé-matiques métiers à concevoir des applicationsprédictives et analytiques afin, par exemple, de mieuxallouer leurs ressources, d’optimiser leur yield manage-ment 5, de comprendre comment sont utilisées lamachines de distribution de tri (business case de laPoste) ou industrialiser certains processus opérationnels.

De la France aux États-Unis, la vision d’un entrepreneur françaissur le développement du Big Data

Questions à… Adrien Schmidt, Chief Executive Officer chez SquidSolutions et Président de Silicon Sentier 1

(1) Silicon Sentier est une association d’entreprises innovantes ayant pour objectif le développement du secteur numérique de la région Île-de-France.(2) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (3) Data Management Platform ou DMP.(4) Devenue Gemalto.(5) Yield Management (« gestion fine » en français) est un système de gestion des capacités disponibles (telles que des sièges disponibles dans le transportaérien), qui a pour objectif l'optimisation du chiffre d'affaires.

Page 21: Livre blanc big data écosystème français

De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data

Zoom

sur

...L’

inte

rvie

w !

En p

ratiq

ueA

naly

ses

19

À quel(s) enjeu(x) ce type de solution répond-il ?

Cela permet de déterminer et de mesurer ce qui s’estvraiment passé au-delà des tendances, en ayant uneconnaissance micro, une approche « granulaire ». Auniveau de chaque produit, de chaque client, dechaque session, au niveau de chaque source de don-nées, nous pouvons déterminer quel a été le chiffred’affaires généré, le nombre de produits vus, le retoursur investissement (ROI) de chaque campagne marke-ting. Cette technologie est un outil de pilotagebusiness très fin.

En fait, le succès actuel de certains purs players com-merçants du web n’est pas uniquement lié à leurnotoriété : ils procèdent à une analyseprécise de leur activité sur de multiplesaxes et sur des volumes de donnéesconséquents. Pour enclencher ladémarche d’augmentation de la valeurclient et combattre les effets d’attrition, il faut uneapproche exhaustive de la donnée ; il faut multiplierles sources pour obtenir la fameuse vision à 360° duclient, comprendre ses usages. Cette analyse multi-dimensionnelle doit être rendue accessible demanière instantanée pour offrir compréhension et agilité : c’est ce que l’on offre.

Vous avez mentionné le fait que vos clients pouvaient créer leurs propres applications analytiques ? Pouvez-vous nous en dire plus ?

En fait, nos clients peuvent créer leurs propres applica-tions au-dessus de notre plate-forme, en couche haute,répondant ainsi à leur problématique métier. Mais cemarché n’est pas encore assez mature. C’est pourquoinous accompagnons nos clients sur ce volet-là. À ce jour,35 % de notre chiffre d’affaires vient de ce type de ser-vices associés. Même si notre technologie est maturepour créer de telles applications, il faudra encore atten-dre un peu avant que nos clients créent, à partir de notreplate-forme, leurs propres applications.

Vous vous êtes rendu à plusieurs reprises aux États-Unis à titre individuel ou par le biais de missions. Où en est Squid sur le marché américain ?

Nous avons depuis peu notre premier client 100 % américain au Michigan. Cela est d’autant plus valorisantqu’il s’agissait d’un lead entrant : il est venu nous cher-cher, nous, dans le 14ème arrondissement de Paris, pourmonter un projet ensemble ! Ce projet a commencé audernier trimestre 2013 et se poursuivra tout au long del’année 2014. Ce type de démarche nous conforte surnos choix et orientations technologiques.

Quel regard portez-vous sur le marché américain ?

Les Américains ont de toute évidence de très bellesentreprises dans les infrastructures Big Data. Mais auniveau des usages, ils se questionnent sur les applica-tions à concevoir. Sur ce point, je dirais que le marchéest naissant et qu’il y a de vraies places à prendre.L’écosystème français n’est pas tellement en retardsur cette composante. Mais quand un besoin émerge,les entreprises concernées ne doivent pas « se regar-der en chiens de faïence » mais au contraire se lancer,innover et réinventer leur industrie !

À l’inverse, à l’heure où trop d’entreprises françaisesne sont pas encore conscientes de leur patrimoine de

la data, où le ROI doit encore être démon-tré en interne, où l’avancement stagne austade de la curiosité intellectuelle, lesprojets et problématiques existent déjàaux États-Unis. La demande y est plus

forte que l’offre technologique pertinente. Et si cesprojets clients existent, j’observe une carence de dis-ponibilité, d’expérience, d’expertise technologiqueétant à-mêmes d’appréhender, de réaliser ces projetsdans leur globalité et de monter une solution de bouten bout.

Pour vous donner une idée, travailler sur Redshiftd’Amazon (plate-forme assez avant-gardiste surlaquelle on travaille) requiert une expertise pointue et particulière dans le traitement massivement parallèle 6. Vous devez également être en mesure decoupler cela avec une connaissance verticale : lemétier de votre client. Pour abonder dans ce sens, jepense que c’est ce type de problématique rencontréequi pousse une entreprise du Michigan à venir nouschercher à Paris. Donc l’intérêt pour Squid d’aller auxÉtats-Unis repose sur cette demande existante àassouvir.

Dans ce domaine, se pose toujours la question del’arbitrage côte est/côte ouest. Quel est votre point de vue ?

Les deux côtés se justifient complètement dès lorsque l’on est éditeur de software. Mes cibles clientessont plutôt sur la côte est. Par contre, mes concur-rents et partenaires potentiels sont sur la côte ouest.Ce qui compte le plus pour moi, c’est de me plongerdans ce qui se fait de mieux en termes de bain concur-rentiel et technologique.

Cet écosystème unique vous challenge et vous fait progresser au quotidien. C’est forcément salvateur.Trop souvent, le danger qui nous guette en France est

(6) L’architecture Massivement Parallèle repose sur la division du stockage et des traitements sur une grille de serveurs. Elle permet de stocker unequantité de données illimitée et de manière élastique. Plus la taille de la grille augmente, plus sa capacité de traitement augmente.

Page 22: Livre blanc big data écosystème français

Accomex n° 112 - Big Data20

de nous benchmarker entre Français ou Européens, etainsi de nous conforter dans le bien-fondé et l’excel-lence de notre technologie. En fait, nous ne sommestout simplement pas, au quotidien, dans la ligue desmeilleurs. Il est critique de confronter l’écosystèmefrançais à l’international… L’écosystème et l’ADN de laSilicon Valley sont imprégnés de cette fibre innovantequi combat continuellement la « sclérose technolo-gique » et les business model qui ne se remettent pasen cause. Ainsi, pour pas mal de raisons, nous opte-rons pour la côte ouest courant 2014. Mais choisir lacôte ouest, pour une startup française, cela signifie depouvoir appréhender le décalage horaire de neuf heures au quotidien.

Dès lors, comment envisagez-vous la structurationinterne de Squid ? Un modèle « classique » avec R&Den France et marketing & business development auxÉtats-Unis ?

Dans les grandes lignes, oui. On épousera ce modèle « classique » pour une startup française aux États-Unis, avec la base technique, ledéveloppement, la R&D et la compé-tence consulting en France : nonseulement la R&D est soutenue par denombreux dispositifs mais, surtout,nos compétences techniques localessont excellentes. Par ricochet, le business develop-ment (voire le marketing) sera initié de là-bas à terme.Dans un premier temps, en tant que co-fondateur, jeserai amené à m’y installer pour lancer l’entité améri-caine de Squid.

Quels sont les différentes étapes du projet Squid en2014 ?

Un certain nombre de secteurs d’activité ont un inté-rêt à l’investissement dans la data. Je pensenaturellement au secteur du publishing, qui est enmétamorphose complète, avec une vraie rupture deparadigme, fortement challengé sur son modèle éco-nomique et qui nécessite de nouveaux ressorts quipasseront notamment par la data.

Désormais, la monnaie d’échange entre les fournisseursde contenu, les distributeurs de contenu et les consom-mateurs de contenu (universités, étudiants parexemple), c’est l’usage. Aujourd’hui, une université estprête à payer du contenu si ses étudiants le consom-ment ; c’est d’ailleurs une dynamique que j’observe auxÉtats-Unis. La mesure de cet usage et sa segmentationsont devenues des variables vitales et critiques pourcette chaîne de valeurs. Cela représente des téraoctetsde données, car cela concerne des milliers d’universitéset donc, potentiellement, des centaines de milliers d’étu-diants et des millions d’articles. La combinatoire de cestrois dynamiques donne de la data à analyser. L’analyseret la transformer en leviers actionnables, pour que ce

secteur puisse commercer, pourrait être un domainede focalisation pour Squid en 2014-2015. Cela pas-sera inévitablement par une implantation auxÉtats-Unis. Pour cela, notre technologie aura besoind’être légèrement redimensionnée et notre produitrepackagé pour ce marché.

Le président de Silicon Sentier que vous êtes peut-ilnous parler des initiatives entreprises par l’association dans le domaine du Big Data ?

Nous disposons du premier programme d’accéléra-tion en France, le Camping, qui accompagne desprojets startup à grosse dimension disruptive quantau service et à la technologie proposés. Nous accélé-rons, sur un espace-temps intensif, leur phase detransition, de la création de l’entreprise à la mise sur le marché. À ce titre, et ce pour la 1ère fois, Silicon Sentier a trois entreprises sur la promotion dupremier semestre 2014, positionnées sur la data etl’analytics :è Realytics, plate-forme qui démocratise l’analyse de

masses de données pour les PME,è Tastehit, outil de ciblage destinéaux sites de e-commerce qui permetde mieux connaitre les goûts des visi-teurs et de leur proposer des objetsen fonction de leurs préférences,

è Hublo, outil d'analyse web destiné aux spécialistesdu marketing.

Silicon Sentier vient également de lancer DataShaker, un programme très innovant et ambitieux, quia pour objectif de stimuler, via des partenariats, lesprojets Big Data des grands groupes.

Prenons pour exemple la première entreprise partenairede ce programme : la SNCF. Il s’agit de promouvoir la mise à disposition des données de cette entreprise, eten particulier les jeux de données récentes qu’elle n’apas encore mis à disposition. La SNCF est ainsi aucontact d’une communauté de startup, de développeurs,d’entrepreneurs, qui tirent parti de ces données et fontnaître de nouveaux usages et applications. Ces applica-tions dépassent le cœur de métier historique de la SNCF(exploitant de réseau) et sont à forte création de valeur :elles enrichissent l’offre voyageur, par exemple, sur lamobilité ou les services associés en gare.

Le rôle de Data Shaker ne se limite pas à mettre en relations les deux parties : le programme stimule ladémarche, est locomotive de réflexion, fait émerger lesthématiques, mobilise cet écosystème et transformel’essai : que ces applications béta se convertissent encréation de startup. La démarche volontariste desgrands comptes sur ce programme souligne leur intérêtà appréhender ces enjeux critiques. Il s’agit, certes,d’un lancement récent, mais nous recevons un échotrès favorable de l’écosystème de la data.

Page 23: Livre blanc big data écosystème français

On parle beaucoup de travaux pour structurer cet écosystème avec une dynamique vertueuse, quel estvotre regard ?

On ne peut que se féliciter des travaux en cours de la structuration de la filière (vision à long terme). En complément, et à plus court terme, les idées deBertrand Diard (co-fondateur de Talend) complètent biencette initiative : il cherche à créer un fonds de capital-risque (levée de fonds), couplé à un accélérateur (miseà disposition de ressources techniques), dédiéaux phases aval d’exploitation de la data.

21De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Pour en savoir plus : http://squidsolutions.com ; @SquidSolutions ; @a_schm ; datashaker.numaparis.com

Page 24: Livre blanc big data écosystème français

22

Les entreprises européennes sont-elles matures pour le Big Data ?

è Elle révèle que 23 % des entreprises européennesinterrogées (42 % des entreprises françaises) consi-dèrent que le Big Data leur permettrait d’améliorerleur planification et leur prévision ; 28 % une meilleureconnaissance de leur business (34 % pour lesfrançaises). Cependant, seulement 7 % des entre-prises européennes interrogées considèrent le BigData comme un sujet d’actualité.

Comment expliquer le décalage entre le potentielreprésenté par le Big Data et la faible prise en comptede cette problématique par les organisations à l’heureactuelle ?

è L’étude biMA® 2012/2013 montre que les niveauxde maturité de la Business Intelligence (BI) des entre-prises en Europe sont assez hétérogènes, avec uneforte stagnation des entreprises au « niveau 3 », maté-rialisant l’intégration des informations au sein del’entreprise (soit une harmonisation entre les départe-ments partageant un socle et un référentiel communs).L’atteinte du « niveau 5 », permettant l'intégration com-plète de la BI dans des processus stratégiques,

Le Big Data est aujourd’hui une réalité, pas un mytheet surtout un succès médiatique. Il existe des gisements de données dans et à l’extérieur de l’entre-prise, représentant un incontestable levier decroissance et de compétitivité dans un contexte où lesentreprises n’ont d’autre alternative que de se trans-former. On estime que les données structurées,généralement bien exploitées par les entreprises, constituent 20 % des informations disponibles eninterne, contrairement aux informations non struc-turées qui en représentent 80 % et disposent d’unplus fort potentiel. L’enjeu est donc bien d’exploitercette masse d’informations en évitant l’écueil de « l’infobésité ».

LES ENTREPRISES EUROPÉENNES SONT-ELLES PRÊTESPOUR LE BIG DATA ?

è L’étude européenne biMA® 2 2012/2013 est uneenquête en ligne comprenant 41 questions, menéepar le groupe Steria auprès de 668 participants à tra-vers l'Europe entre novembre 2012 et janvier 2013.

n 2011, 1 800 milliards de giga-octets de données ont étégénérés dans le monde, soit un volume supérieur à ce qui a

été créé du début de l’humanité à 2003, et neuf fois plus que celuigénéré sur la seule année 2005, selon le cabinet d’études IDC 1. Cemême cabinet estime que le volume de données généré par lesentreprises pourrait être multiplié par 75 au cours de la prochainedécennie. Par extrapolation, le volume de l’univers numériquepourrait être, en 2020, jusqu’à 44 fois plus important qu’en 2009.

Le Big Data (c’est-à-dire les technologies et les méthodes permettantd’analyser la masse des données produites par les organisations etindividus) va ainsi décider de la réussite future des entreprises, en ayant un impact sur leur croissance, leur productivité etleur compétitivité. Les progrès réalisés en matière de collecte, de stockage et de traitement des données font d’Internet unvéritable pilier de la société du 21eme siècle. Comment les entreprises européennes vont-elles pouvoir saisir les opportunitésque promet le Big Data ? Quels sont les principaux obstacles qui les empêchent d’utiliser les données comme un outilstratégique, moteur de leur compétitivité ?

E Hichem [email protected]

Hichem Dhrif est Directeur du domaine d’excellenceEnterprise information management (EIM) au sein deSteria France et titulaire d’un MBA en systèmes d’infor-mation organisationnels. H. Dhrif a participé, durant sacarrière professionnelle en consulting, à plusieurs projetsde transformation de solutions à vocation information-nelle au sein d’entreprises des secteurs public et privé enFrance et au Canada, en couvrant la chaîne du cadragede projets au déploiement de solutions.

(1) Gantz John, Reinsel David (2011), Extracting Value from Chaos, étude IDC, juin.(2) Carsten Dittmar, Volker Obendorf, Klaus Dieter Schultze (2013), Rapport Steria : Les Entreprises européennes sont-elles prêtes pour le Big Data ?,Enquête Européenne biMA® 2012/2013, http://www.steria.com/fr/

Accomex n° 112 - Big Data

Page 25: Livre blanc big data écosystème français

23

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

tactiques et opérationnels, avec une stratégie de ges-tion de l’information de bout en bout, reste seméed’embuches pour la majorité des entreprises enEurope. L’étude montre aussi que les entreprises n’ex-ploitent pas pleinement le potentiel d’analyse de leurssystèmes BI pour améliorer le ROI (Return OnInvestment) de la BI : mise en place de systèmes de planification, élaboration budgétaire, prévisions et simulations, costing, etc.).

LES CONDITIONS PRÉLIMINAIRES À L’EXPLOITATIONDU BIG DATA NE SONT PAS ENCORE REMPLIES

En l'absence d’outils leur permettant d’extraire les renseignements utiles de cet océan d’informations, lesentreprises risquent bien de se noyer. Malgré le poten-tiel offert par le Big Data, il reste difficile pour beaucoupd’entre elles de se doter des compétences et desmoyens pour exploiter pleinement leurs données.

Pour optimiser l’exploitation du Big Data, il faut dis-poser de bonnes assises en termes de BusinessIntelligence. Cela constitue en quelque sorte les fon-dations sur lesquelles va s’ériger l’exploitation du BigData. Big Data et BI sont donc complémentaires.

Quels sont donc ces obstacles qui empêchent lesentreprises d’utiliser les données comme un outilstratégique ?

QUALITÉ DES DONNÉES ET PÉNURIE D’EXPERTS : LESTALONS D’ACHILLE DES STRATÉGIES DE LA BUSINESSINTELLIGENCE

Un niveau de qualité des données insuffisant est laprincipale difficulté des organisations au regard deleur stratégie BI, pour 38 % d’entre elles en Europedont 34 % en France. Jusqu’ici, une trop forteemphase a été mise sur les solutions technologiques(le contenant), au détriment des données et de leurqualité (le contenu).

Dans ces conditions, il est quasi impossible de traiterles gros volumes de données que les clients etprospects génèrent pour en extraire des informationsprécieuses, sur lesquelles fonder des décisions.

Il est donc plus que nécessaire de travailler sur laqualité et la fiabilité des données, notamment en mettant en place une gouvernance dédiée, se maté-rialisant, entre autres, par une « autorité référente dela donnée », responsable de sa définition, de sa miseà jour, de sa diffusion, etc., soit la gestion de sa qualité et donc de sa pérennité. L’absence d’unestratégie formalisée et d’une gouvernance dédiée à laBI sont ainsi clairement mis en cause par les entre-prises européennes : 23 % (24 % en France) jugent les systèmes trop complexes et 19 % (21 % en France)estiment que la BI ne permet pas de donner unevision globale et consolidée de l’entreprise.

Cette stratégie est indispensable mais d’autant plusdifficile à mettre en place que les compétencesdédiées à la gestion des données se font rares sur lemarché ; trop rare pour les entreprises, qui relèventune pénurie de compétences en BI, et particulière-ment en Data Scientists. Cette pénurie constitue unfrein pour 24 % d’entre elles et 27 % en France.

METTRE EN PLACE, EN AMONT, LES MÉCANISMESPÉRENNES DE GESTION DES DONNÉES

Les organisations doivent, en amont, mettre en placeles mécanismes pérennes de gestion des données etde leur qualité pour tirer pleinement avantage de leuranalyse.

Donner la priorité à la qualité des données

Il est indispensable de partir de données de bonnequalité, préparées, triées et intégrées. Sans cettephase préalable, le traitement analytique ne produirapas les informations de performance justes etactuelles que l’entreprise attend, vitales pour le main-tien de sa compétitivité.

(1) Allemagne, Suisse Source : Enquête européenne biMA® 2012/2013

Tableau 1Potentialités du Big Data reconnues par les entreprises interviewées

Les entreprises européennes sont-elles matures pour le Big Data ?

Page 26: Livre blanc big data écosystème français

24

è Il convient tout d’abord de structurer les données et les informations de l’entreprise à travers unedémarche d’urbanisation de son système d’information,afin de l’aligner avec son modèle organisationnel,è Il faut ensuite « nettoyer » les données, pour les ren-dre fiables et intègres,è Il est important de standardiser ensuite ces infor-mations en travaillant sur les référentiels de données.

Toutes ces étapes préalables mettent au service del’environnement décisionnel une information fiable etde qualité.

Adopter une approche tactique du Big Data, étape par étape

Plusieurs étapes doivent être respectées :

è Tout d’abord, former et sensibiliser : expliquer quele Big Data ne se résume pas à traiter davantage dedonnées dans le format voulu. Il s’agit plutôt de créerde nouvelles structures.è Élaborer des cas d’utilisation pertinents, juridique-ment mais aussi en termes de contenus et de délais.Il faut également que les avantages fonctionnelsenvisagés justifient l’investissement dans la technolo-gie et l’acquisition d’expertise, et non le contraire.è Examiner chaque cas d’utilisation du Big Data issud’autres secteurs d’activité et pertinent pour l’entre-prise.è Enfin, vérifier la validité des cas d’utilisation en ter-mes de valeur ajoutée et non simplement sous l’anglede la faisabilité technique.

LA COMPÉTITIVITÉ DES ENTREPRISES PASSERA PARLE BIG DATA

Un certain nombre d’entreprises ont compris le poten-tiel du Big Data et s’y appliquent déjà. Dans le secteurde la santé, l’analyse du Big Data aide à stimuler l’in-novation et à accroître l’efficacité des soins ou desessais cliniques. Dans le commerce de détail, le BigData peut aider à accroître les marges opéra-tionnelles, à réduire les gaspillages et à mieux ciblerles consommateurs avec des produits et servicesdavantage adaptés à leurs besoins. Même lesagences gouvernementales appliquent les techniquesd’analyse du Big Data à leurs vastes registres d’ad-ministrés pour guider leurs efforts législatifs.

Le marché du Big Data (Software et IT Services) enFrance devrait être multiplié par quatre d’ici 2017,pour atteindre 1,7 million d’euros 3.

Le Big Data devient un véritable levier de croissancepour les économies du monde entier, tous secteurs ettoutes tailles d’entreprises confondus. Dans lesannées à venir, il permettra de faire la différenceentre les entreprises qui innovent et celles qui stag-nent, entre les entreprises rentables et les autres et,au final, entre celles qui réussissent et celles quiéchouent.

(3) Source PAC (2013).

Accomex n° 112 - Big Data

Page 27: Livre blanc big data écosystème français

25

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

(1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France.

Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley

Pouvez-vous vous présenter en quelquesmots ? 1

Je suis né en France mais y ai très peu vécu puisquej’ai effectué mon parcours dans le design industriel et interactif successivement au Canada, au Japon, en Suède… Puis, j’ai rencontré l’un des futurs co-fondateurs franco-marocain d’Enigma.io, HichamOudghiri, au lycée en France. Quant à l’autre co-fondateur, Marc Da Costa, j’ai fait sa connaissance àColumbia. À l’époque où je les ai rencontrés, ilsavaient commencé le concept et le prototypaged’Enimga.io, mais étaient intéressés par l’intégrationd’une expertise et d’une composante de design. C’estlà que j’ai rejoint l’équipe d’Enigma.io, en phase trèsembryonnaire du projet.

Comment le concept d’Enigma.io a-t-il émergé ?

L’idée d’Enigma.io leur est venue en parcourant l’articled’une personne qui avait découvert avant tous les analystes politiques, qu’à la surprise générale, SarahPalin serait nommée en colistière de John Mc Cain àl’élection présidentielle de 2008. Pour cela, elle avaitconsolidé et croisé des datasets publics (donc à la portée de tous) qui recensent les propriétaires d’avions,puis avait affiné ceux s’avérant être des donateursrépublicains. Elle avait, par la suite, établi des corréla-tions d’appartenance ou d’influence entre eux et s’étaitainsi rendu compte avant tout le monde que ces der-niers affluaient simultanément vers Wasilla, en Alaska(fief de Sarah Palin).

Cet exemple symptomatique souligne l’ambition et laproposition de valeur d’Enigma.io à vouloir démystifierl’Open Data (qui est à ce jour trop énigmatique et « indi-geste »), en créant de l’usage, de la valeur et de lacontextualisation à partir de ces données publiques.

Comment se décline votre solution ?

Nous proposons une plate-forme de recherche, dedécouverte et d’approvisionnement de donnéespubliques, fournies par le gouvernement, des entre-prises privées et autres organisations que nousjugeons pertinentes. Notre outil permet de trouver desfaits et des liens cachés, à travers des sources de données disparates et cloisonnées.

Notre plate-forme fournit de la data et de l’intelligenceà laquelle personne n’était « prédisposé ». Par exem-ple, sur un sujet qui intéresse un client, nous ne nouslimitons pas à fournir des datas directement liées ausujet : nous procurons également des datas qui ont unimpact sur le sujet d’étude du client, mais auquelcelui-ci n’avait pas pensé, ou pour lesquelles il n’avaitpas découvert la corrélation et l’impact d’influence.

Nous sommes ainsi très positionnés sur les donnéesqualitatives et la contextualisation. Notre solution estainsi en mesure de s’appuyer, par exemple, sur desréseaux d’entité, des réseaux de filiales, de connexionscontractuelles ou d’influence entre opérateurs. À cetitre, il faut avoir à l’esprit que la contextualisation est laphilosophie de l’Open Data chez Enigma.io.

Démystifier l’Open Data grâce audesign interactif : l’ambition d’unestartup de la Silicon Alley

Questions à… Raphaël Guillemot, Design Manager chez Enigma.io

Page 28: Livre blanc big data écosystème français

Accomex n° 112 - Big Data26

À quelle clientèle, quels secteurs et métiers, la sociétéEnigma.io s’adresse-t-elle ?

Nous collaborons avec de grosses entités de consul-ting, de crédit, d’assurance, de banques et hedgefunds. Ces clients cherchent à étoffer leurs analyses,élaborer de nouveaux indicateurs connexes, améliorerleurs leviers décisionnels, faire de nouvelles projec-tions avec des modèles plus élaborés via de nouveauxjeux de données. À titre d’exemple, des banquesauront recours à nos services pour améliorer les algo-rithmes dont elles disposent, afin de déterminer lasolvabilité de leurs clients. Cette collaboration avecces clients importants nous demande beaucoup d’ef-forts, étant donné que nous sommes partie prenantedans la recherche des datas.

Nous avons une autre catégorie de clientèle profes-sionnelle qui, elle, souscrit un abonnement pour avoiraccès à notre plate-forme d’outil de recherche de données et de représentation. De surcroît, notre API 5

fournit une infrastructure dédiée et accessible auxdéveloppeurs et professionnels. Ils peuvent ainsi intégrer nos corpus de data en temps réel, à grandeéchelle, afin d’étoffer leurs applications tierces, leursservices analytiques et leurs tableaux de bord.

Le Président Barack Obama a retweeté vos travauxd’Open Data sur le shutdown 6 en octobre 2013. Sur quels autres types de projets travaillez-vousactuellement ?

Nous avons récemment travaillé sur un projet d’import-export avec les douanes américaines, quivise à recenser l’ensemble des containers et leurscontenus, entrant et sortant des États-Unis. Chaquesemaine, les douanes nous envoient un CD de jeux de données à partir duquel, grâce à notre savoir-faired’enrichissement et de contextualisation, nous pouvonspar exemple déterminer le nombre de nouvellesLamborghini sur le sol américain. À partir de là, nous pou-vons très simplement extrapoler sur l’évolution de laconsommation intérieure ou du nombre de millionnaires !

Vous venez de réaliser une nouvelle levée de fonds.Quelles évolutions structurelles envisagez-vous ?

Nous avons en effet levé, fin janvier 2014 (en série A)4,5 millions de dollars auprès de Comcast Ventures,avec des participations d’American Express Ventures,Crosslink Capital et New York Times Company. Pourrappel, nous avions également levé, début 2013, 1,1 million de dollars en seed funding.

(2) Robots d’indexation conçus pour collecter des ressources.(3) Le Freedom of Information Act est une loi américaine de 1966, fondée sur le principe de la liberté d'information, et qui oblige les agences fédérales à transmettre leurs documents à quiconque en fait la demande.(4) Moteur de recherche qui puise ses informations sur plusieurs moteurs de recherche généralistes.(5) Une Interface de programmation (API) est un protocole de communication en temps réel, par lequel un logiciel offre des services à d’autres logiciels, tels que la mise à disposition et l’actualisation de données en temps réel.(6) Mésentente parlementaire sur le budget 2014 qui a entraîné durant quelque semaine l’arrêt du financement des agences gouvernementales.

À quel problème de l’Open Data Enigma.io cherche-t-ilà répondre ?

Le problème inhérent aux données publiques, auxÉtats-Unis et de manière plus générale également, estqu’elles sont publiées par le gouvernement américain,des services décentralisés ou des agences marketingde manière indépendante et atomisée. De sorte qu’ilest complexe de centraliser ces données et de déter-miner leur usage et leur intérêt.

Par ailleurs, les données publiques navigant surInternet ne sont pas facilement identifiables et uni-fiées en tant que telles, puisque par nature elles sontdisséminées. En soi, les données publiques n’ont pasbeaucoup de valeur. Or, c’est justement sur ce pointque nous intervenons, en tant que créateur de valeurà partir de ces données.

Comment allez-vous chercher ces données ?

La première façon de collecter les données est d’im-plémenter des crawlers 2, adossés à des domaines et portails gouvernementaux dédiés à l’Open Dataafin d’aller chercher et indexer les données mises àdisposition.

La deuxième manière consiste, lorsqu’il s’agit decibles et d’agences très particulières, sur des théma-tiques spécifiques, d’aller chercher nous-mêmes ladonnée. Ainsi, en nous fondant sur le Freedom ofInformation Act 3, qui impose aux agences fédéralesde transmettre les données à leur disposition, nousavons la possibilité d’effectuer des requêtes auprèsd’agences gouvernementales pour obtenir de nou-velles sources de données.

Mais ces agences n’ont pas d’exigence de délai, peu-vent demander des coûts de publication auprès desdemandeurs et nous publier sous n’importe quel for-mat ! Par conséquent, avec ce deuxième modeopératoire, nous devons faire face à une bureaucratierelativement lourde.

Notre troisième méthode de collecte de données estfondée sur notre méta-moteur 4 qui se charge deregrouper des données disséminées sur Internet, parnature difficilement identifiables et consolidables.

Page 29: Livre blanc big data écosystème français

27

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Nous allons prochainement rendre l’accès à notreplate-forme et à la recherche de données gratuit ! C’estquelque chose que nous avions en tête dès le départdans notre feuille de route, mais l’intégrer dès le débutde notre projet aurait été trop coûteux. Cela marque untournant majeur dans notre stratégie et la montée enpuissance de notre projet. L’idée est de démocratisernotre plate-forme, de démontrer notre scalabilité et deproposer davantage de services premium et d’outilsanalytiques. La combi-naison de ces deux éléments vanous permettre de nous adresser à davantage de « gros clients » et de poursuivre nos travaux sur lesréseaux d’entités en web sémantique 7.

Quelles distinctions ou similitudes observez-vousentre les écosystèmes d’Open Data de France et desÉtats-Unis ?

Tout d’abord, je salue le travail qu’entreprend HenriVerdier 8 au sein d’Etalab. Je trouve que son agencefait un travail remarquable pour libérer la donnée etinciter les pouvoirs publics et les ministères à faire demême. Il a donné à Etalab un véritable second souf-fle, car pour opérer dans l’Open Data, il estinconcevable et impossible, pour une entreprise pri-vée, d’inciter les pouvoirs publics à libérer la donnée,sans le travail de sensibilisation que réalise une agencepublique telle qu’Etalab. En effet, pourfaire émerger un écosystème vertueuxde l’Open Data, il faut que la dyna-mique soit insufflée au niveau despouvoirs publics, ce que fait remar-quablement bien Etalab.

Aux États-Unis, le mouvement s’est accéléré par le biais du Freedom of Information Act et de l’OpenGovernment Initative 9 de l’Administration Obama. LeFreedom of Information Act relève d’un volet législatifqui stimule, certes, l’Open Data, mais qui dépasse largement ce périmètre. Cela résulte de la culture historique de la transparence aux États-Unis, même

auprès des opérateurs privés, dont la libéralisation desdonnées publiques est un axe central. Cette conjonc-tion permet de faire émerger un écosystème et uneéconomie autour des applications et des usages.

Notons également que la France est très stricte sur l’anonymisation et la mention de noms privés ausein de jeux de données. A contrario aux États-Unis, il est particulièrement aisé, notamment via leGouvernement de New York, de savoir par exemplecombien de propriétés immobilières Robert de Nirodispose dans cette ville !

Quel regard croisé transatlantique portez-vous sur ledesign interactif, quand on connait la primauté dumarketing et du design aux États-Unis dans la com-posante produit ?

Les français sont bons en design, et plus particulière-ment en graphisme, ce qui n’est pas tout à fait lamême chose. Ainsi, je pense que trop de talents fran-çais se prédestinent au design industriel ou augraphisme, par exemple dans le domaine publicitaireet industriel.

Il manque à la France une culture plus prononcée del’interaction design 10, discipline très imprégnée et très

enseignée aux États-Unis. En effet,j’estime que le plus gros obstacle à lacompréhension et à la démocratisa-tion des données, par le public, est liéà la difficulté à faire ressortir des cas

d’usages et d’applications. Ainsi, le design interactif aémergé car nous étions jusqu’ici limités par les possi-bilités techniques très réduites de l’infographie et dela visualisation classique. À titre d’exemple, on nepouvait mettre en relief qu’un seul sujet d’étude. Or, ledesign interactif permet justement de rendre les outilsde recherche accessibles et d’offrir un cadre decontextualisation.

(7) Recherche, structuration et exploitation de données sur le web. Le web sémantique permet de rendre du contenu des ressources web interprétablesautomatiquement par les machines.(8) Ancien entrepreneur dans la data et ancien Président du pôle de Compétitivité Digital, Henri Verdier est, depuis janvier 2013, Directeur d’Etalab -Voir l’article de Laure Lucchesi dans ce même numéro d’Accomex.(9) Cette « initiative » vise à créer un niveau sans précédent de transparence et d'ouverture du gouvernement dans la tendance de l'Open SourceGovernance et de l’Open Data, pour permettre à tout citoyen et entreprise intéressé de contribuer à créer les contenus de la politique.(10) Design numérique des systèmes interactifs.

Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley

Page 30: Livre blanc big data écosystème français

Accomex n° 112 - Big Data28

Vue de France, la Silicon Alley 11 semble prendre sarevanche sur la Californie en ce qui concerne l’entre-preneuriat numérique. Pouvez-vous nous livrer vosimpressions ?

En effet, le nombre de startups explose actuellementà New-York, la Silicon Alley étant un écosystème trèsvivifiant. Par rapport à la Californie, les businessmodel des startups de New-York sont, dans une certaine mesure, peut-être moins nombreux, maisplus sérieux et réalisables.

Par ailleurs, les startups new-yorkaises sont position-nées, pour la très grande majorité, sur le créneau duB2B, a contrario de la Silicon Valley. Elles sont égale-ment très portées sur le design interactif. On peutexpliquer cet aspect par l’histoire de New-York dansles secteurs de l’industrie, de la publication et desmédias. De surcroît, les Venture Capital locaux sontmoins spéculatifs et préfèrent se positionner sur des

business model plus « sérieux » comparativement à laSilicon Valley.

Pour conclure, pourriez-vous me présenter quelquesstartups que vous appréciez ?

En France, j’appréciais beaucoup Everpix 12 (soutenupar Index Ventures) que je considérais comme le meil-leur service de stockage de photos dans le cloud et ce,peu importe le terminal. Mais ils ont malheureusementdû stopper leur activité fin 2013, faute de financementssuffisants. Everpix n’a pas eu le temps d’atteindre samasse critique monétisable afin d’être rentable.

Côté américain, je suis admiratif de Zendesk 13 auregard de l’excellence du niveau produit qu’ils ontatteint. Même chose pour GitHub 14, qui a réussi à rendre accessible à tout un chacun la publication decodes et la construction d’applications (paressence très compliqué).

(11) La Silicon Alley est un pendant de la Silicon Valley, située en plein cœur de Manhattan. C’est une technopole concentrant des startups spécialiséesdans l’Internet, les médias, l'édition, la publicité.(12) Everpix a été créé en août 2011 par deux français, Pierre-Olivier Latour, ancien de chez Apple et fondateur de Quartz Composer, et KevinQuennesson.(13) Zendesk propose aux entreprises les outils nécessaires à l’établissement d’un service de support auprès de leurs utilisateurs..(14) GitHub est un service web d'hébergement et de gestion de développement de logiciels, utilisant le programme Git.

Pour en savoir plus : [email protected] ; @enigma_io ; @a_schm ; http://www.enigma.io

Page 31: Livre blanc big data écosystème français

29

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

S’implanter à Kansas City : le choix décalé d’une startup française

Pouvez-vous nous présenter brièvement lasolution Bime ? 1

Bime est une solution logicielle d’analytique décision-nelle en mode 100 % cloud. Notre intelligenceanalytique permet de coupler toutes les sources dedonnées d’une entreprise (fichiers internes, servicesen lignes), en provenance de grandes bases de don-nées propriétaires telles qu’Oracle ou issues dessolutions telles que Google Analytics ou Salesforce.

Notre technologie propose une analyse de ces données en temps réel, via une interface intuitive etsimple ; elle permet de partager ces analyses via destableaux de bord dynamiques, attractifs, créés par lesutilisateurs et visualisables en toute mobilité sansinterface propriétaire. Sur la partie infrastructures,nous proposons un service 100 % cloud public, basésur l'environnement Amazon Web Services. De plus,nous sommes la seule solution technologique parte-naire de Google Cloud Platform sur Big Query. L’idéeest vraiment de laisser l’entreprise piloter son activitégrâce à la Business Intelligence (BI) en cloud, avecune solution agile, simple d’utilisation et adaptable àtous les besoins avec des visuels séduisants etdynamiques.

Notre outil est délivré en mode SaaS 2, avec un prixadapté en fonction du nombre d’analystes (créateursdu tableau de bord) et du nombre de lecteurs de ces mêmes tableaux. L’entreprise peut créer autant

de tableaux qu’elle le souhaite et les visualiser àvolonté. Notre équipe d’experts propose également dedesigner les tableaux de bord.

Comment l’idée de Bime a-t-elle émergé ? À quelleproblématique avez-vous cherché à répondre ?

L’idée de Bime est née d’une certaine frustrationquant aux coûts et contraintes de déploiement de pro-jets BI lors de nos parcours professionnel respectifs !

J’ai été contrôleur de gestion et j’utilisais alors la BI auquotidien, à un niveau assez poussé. Je mettais ainsien place les KPI (indicateurs clefs de performance)pour ma direction. Par la suite, au sein d’une autrestructure, j’étais en charge de mettre en place tous lesprocess de contrôle de gestion à l’échelle nationale.J’ai alors été confronté à l’inexistence, en interne,d’outils de BI. Pour y pallier, il m’a été recommandéd’aller quotidiennement pousser la porte du départe-ment IT pour faire mes extractions ! Je n’avais aucunevaleur ajoutée à faire cela et à retraiter les datas surExcel. Plus tard, même grâce à l’octroi d’un budgetdédié à la BI, je n’ai obtenu que 3 licences utilisateurs,à peine 2 jours d’intégration et aucune formation !

Nicolas Raspal, qui allait devenir mon co-fondateur,était, lui, architecte en informatique au Bon Marché -LVMH Groupe. En recoupant nos expériences respec-tives, nous nous sommes rendus compte de la peineet des budgets conséquents consacrés à l’intégration

S’implanter à Kansas City : le choixdécalé d’une startup française

Questions à… Rachel Delacour, Chief Executive Officer chez We AreCloud – Bime Analytics

(1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France.(2) Le SaaS, Software as a Service, propose de consommer un logiciel sous la forme d'un service hébergé.

Page 32: Livre blanc big data écosystème français

Accomex n° 112 - Big Data30

d’une solution BI : la BI ne tirait pas partie du cloud etdes perspectives de l’analyse de données multi-sources.

La montée en puissance de Salesforce ou Amazon, quidevenaient très solides en termes d’infrastructurespour supporter la BI en mode cloud sur des architec-tures multi-tenantes, nous a confortés dans notredémarche. Nous avons décidé de monter « le produit de nos rêves à partir de rien », avec une touche de fraîcheur, de simplicité d’utilisation et de puissance,afin de séduire l’utilisateur qui, comme nous, a peinépendant des années. Nous avons donc commencé àcoder pour disposer d’une version beta à montrer auxincubateurs fin 2007, puis créé la structure en 2009.Dans la foulée, nous avons bénéficié d’une subventionsignificative, remportée lors d’un concours du Ministèrede la Recherche.

Dès le début vous vous êtes tournés vers les États-Unis.Comment cela s’est-il passé ?

Dès le départ, nous avons volontairement axé notrecommunication sur les États-Unis, afin de récupérerun maximum de feedbacks de la communauté de la BIet de la data. Le caractère innovant de notre projet aété salué, même à ce stade d’avancement relative-ment early stage. Parallèlement pourtant, l’écho deDirecteurs de la technologie (CTO) de grands groupes

français rencontrés n’était pas forcément très mélio-ratif sur notre démarche de pure player cloud. Celam’a immédiatement convaincu d’essayer de lever desfonds auprès de Business angels ayant une sensibilitéaux produits technologiques à l’américaine.

Ainsi, nous avons levé du seed capital 3 auprès deBusiness Angels franco-américains (mais dont le mon-tant pourrait s’apparenter à une levée de fonds série A en France). La logique de passer sous silencecette opération était volontaire, car dans le mêmetemps, notre produit s’étoffait. Nous étions listés dansles analyses des Gartner 4 ou Forrester 5, où l’oncôtoyait des concurrents qui, eux, avaient levé destickets de l’ordre de 50 millions de dollars ! Les princi-paux noms de l’intelligence décisionnelle en cloudsont, en effet, américains (Tableau Software,Qlickview, GoodData ou Microstrategy). Les investisse-ments se produisent ainsi dans des écosystèmes dontles échelles sont multipliées par dix ou vingt à tous lesniveaux. Nous avons donc fait « profil bas » pour conti-nuer à les côtoyer dans les grilles d’analystes, afin dene pas être jugés d’emblée sur notre surface finan-cière mais sur notre proposition de valeur.

Puis les États-Unis ont commencé à représenter unepart de plus en plus significative de notre tractionclient. Nous y réalisions un part non négligeable denotre chiffre d’affaires sans même avoir d’équipe sur

(3) “capital-amorçage” qui intervient très en amont (parfois en post-création), lorsque l'entreprise poursuit le développement de sa technologie.(4) http://blog.bimeanalytics.com/english/gartner-positions-bime-in-a-whos-who-of-bi-vendors(5) http://blogs.forrester.com/boris_evelson/11-10-19-bi_in_the_cloud_separating_facts_from_fiction

Schéma 1Visual Showcase

Page 33: Livre blanc big data écosystème français

31

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

place ! Il était évident, dès le départ, que lesAméricains seraient plus matures et moins réticents àl’adoption de solutions cloud de BI que les Français.L’ouverture d’une filiale aux États-Unis devenait doncimpérative : il fallait se rapprocher de nos clients etles États-Unis représentent notre caisse de réson-nance technologique.

Pourquoi avoir préféré Kansas City (Missouri) à laSilicon Valley ou à la côte Est pour votre implantation ?

Pour déployer notre projet États-Unis et répondre à lanécessité d’avoir une présence locale, nous avionsbesoin de disposer très rapidement d’une équipelocale à très fort potentiel, sans réduire notre time-to-market. La rapidité d’execution était donc primor-diale, tout en composant avec notre récente levée defonds de 3 millions d’euros 6. Au regard du climatactuel du capital-risque français, qu’une startupcomme la nôtre réussisse à lever ce montant est unefierté, surtout au regard du prestigieux portefeuille departicipations d’Alven Capital.

Mais pour avoir un projet ambitieux aux États-Unis - etparticulièrement dans la Silicon Valley - il manqueencore un 0 derrière ! Même constat à peu de chosesprès pour la côte Est…, avec un coût de démarrageénorme : attirer des talents locaux au sein d’une jeunestartup française est impossible à ce stade de maturité, car tous rêvent de travailler pour le GAFA,Twitter ou Yahoo ! Et même si l’on était parvenu àrecruter, nous y aurions subi le turnover classique.

Nous ne voulions pas freiner la vitesse d’exécution etl’ambition de notre projet et, de fait, la démarchedécalée consistant à s’implanterdans une zone technologique à fortpotentiel comme Kansas City a per-mis d’y pallier.

Pourriez-vous apporter des précisions concernant l’attractivité technologique de Kansas City ?

Kansas City est une cité technologique à fort potentiel.Google a en effet sélectionné Kansas City comme projet-pilote de son réseau de fibre optique à 1000Mbp/s 7. Or, tout le monde connaît l’élasticité positivede l’existence de très bonnes infrastructures de télé-communication pour faire émerger l’attractivitétechnologique d’un territoire. De surcroît, la municipa-lité a lancé un ambitieux projet, LaunchKC 8, pourattirer les startups technologiques disruptives, et offredes incitations aux entreprises technologiques quisouhaitent s’implanter. Kansas City ne restera pas en

marge longtemps : c’est la ville qui monte dans le hightech, une progression d’ailleurs soulignée par tous lesclassements d’attractivité 9. C’est également unendroit où l’on peut se démarquer en attirant destalents commerciaux agressifs, en leur montrant quenotre solution, c’est l’avenir de la BI.

Nous avons reçu un accueil très favorable : le jour del’ouverture de notre bureau, 80 CV nous attendaient !Je ne suis pas certaine que l’accueil aurait été aussispontané en Silicon Valley ! Notre antenne, ouverte le6 Janvier 2014, compte huit personnes à ce jour.

Notre modèle de vente étant direct, les démos etwebinars s’opèrent en ligne ; le fait de ne pas être physiquement dans la Silicon Valley n’est donc pasrédhibitoire pour accélérer notre dynamique commer-ciale. De surcroît, il y a un fort ancrage de call centersdans le Middle West et la population a un accent relativement neutre… Enfin, dans le Middle East, setrouvait historiquement une industrie du softwareassez traditionnelle et déclinante.

Reste que tous les évènements liés à la data et à la BIse déroulent à San Francisco… Il faut donc s’y rendrerégulièrement pour être présents dans notre éco-système.

La solution Bime est-elle destinée à des verticaux spécifiques ?

Non pas réellement, car les verrous que nous avionsidentifiés, lors de nos expériences précédentes,impactaient bon nombre d’industries et étaient trèshorizontaux. En revanche, la BI est, par essence, trèscomplexe, car chaque business a sa propre logique

d’analyse, ce qui nécessite un degrétrès avancé d’ultra-customization del’outil proposé. Cela nécessite ausside proposer la plus grande capacitéde calcul possible, car il faut répondre

à des problématiques métiers, des approches debases de données, des aperçus de tableaux de bord,des KPI très différents les uns des autres selon l’in-dustrie considérée. Il est donc critique de proposerune plate-forme la plus standard possible mais qui, enparallèle, offre de multiples fonctionnalités customi-sées à l’extrême.

Nous ne nous adressons donc pas à des verticaux enparticulier, mais tous nos clients ont en commund’avoir un fort ADN web. Ce sont des structures quiexcluent de fait de repartir sur un outil BI traditionnel,hébergé sur leurs serveurs. Par exemple, les départe-ments marketing de grandes entreprises sont très

S’implanter à Kansas City : le choix décalé d’une startup française

(6) Bime a annoncé, le 21 novembre 2013, une levée de fonds de 3 millions d’euros auprès d’Alven Capital.(7) 100 fois plus rapide que la plupart des connexions ADSL citadines.(8) http://launchkc.org/(9) http://www.businessinsider.com/hottest-startup-cities-2013-9?op=1

Page 34: Livre blanc big data écosystème français

Accomex n° 112 - Big Data32

sensibles à notre solution, car ils recherchent unecommunication moderne, on line, collaborative pourfaire leurs reports.

Nous avons beaucoup de profils clients différents, deplusieurs universités américaines au gouvernementcanadien, en passant par la maison mère Shell, Ciscoou encore la ville d’Atlanta. Toute entité qui a de lavolumétrie de données à analyser, qui veut s’affran-chir de solutions BI lourdes à mettre en œuvre, serasusceptible d’être intéressée par notre solution.

À quoi sera dédiée votre récente levée de fondsauprès d’Alven Capital ?

Elle sera consacrée à renforcer notre force commer-ciale et marketing aux États-Unis, qui reste trèslargement la 1ère place de marché pour le BI en cloud.Mais elle servira également à étoffer la structure mont-pelliéraine : le message marketing, la R&D et l’antennecommerciale qui sert l’EMEA (Europe, the Middle Eastand Africa). À ce jour, plus de 75 % de notre chiffred’affaires est réalisé à l’étranger. On constate que la BIen cloud prend le pas sur la BI traditionnelle ; nos pers-pectives sont donc très prometteuses.

Comment percevez-vous l’écosystème français actuel ?

La France a de bons ingénieurs, de bons entrepre-neurs ; il ne manque donc plus que l’action despouvoirs publics et, sur ce point, je me félicite du lan-cement de l’initiative French Tech 10 portée par FleurPellerin sur le volet international et l’animation desécosystèmes numériques. C’est un très beau projetcollectif pour accélérer le développement des pépitesnumériques françaises. La Ministre a été trèsmoderne dans sa démarche de consultation et demobilisation ; son message à la communauté entre-

preneuriale technologique est très positif pour fertili-ser notre écosystème.

De plus en plus de pépites numériques montpelliéraines émergent (Bime, Teads, CodeinGame,Nelis, 1001Pharmacies ou Medtech, etc.). Quel est le « secret » de Montpellier ?

Entre la levée de fonds de Teads 11 (et sa prochaineintroduction sur le Nasdaq) et l’introduction sur leNyse Euronext de Medtech, il est certain que notreécosystème fait émerger de belles success stories.

Il y a tout d’abord un très bon vivier d’universités etd’ingénieurs, et nous bénéficions d’une moindreconcurrence qu’à Paris pour attirer des profils d’excel-lence. Et le recrutement est le nerf de la guerre pourdémarrer une startup. En outre, la ville mise sur lenumérique et essaie de se positionner en tant quemétropole numérique « French Tech ». Cela va dans lebon sens pour l’émergence de clusters régionaux « décentralisés ». Nantes regorge d’ailleurs aussi debelles startups (Lengow, iAdvize). Mais les chambresde commerce et d’industrie pourraient faire beaucouppour stimuler encore ces écosystèmes, en investis-sant dans le lancement de programmes dédiés auxstartups.

Ce mouvement de « décentralisation » a déjà étéobservé aux États-Unis avec Austin (Texas) ou Boulder(Colorado). La Silicon Valley n’a plus le monopole del’émergence de pépites. De plus en plus de VentureCapital californiens investissent à Portland (Oregon),Omaha (Nebraska), Stamford (Connecticut) ou SaltLake City (Utah). À titre d’exemple, le fonds Hyde ParkVC vient d’annoncer une allocation de 25 millions dedollars spécifiquement dédiée aux startupsdu Midwest.

Pour en savoir plus : @bimeanalytics ; http://www.bimeanalytics.com

(10) http://www.lafrenchtech.com(11) Teads (solution de monétisation de vidéos) a levé 4 millions d’euros en octobre 2013 auprès de Partech et Isai.

Page 35: Livre blanc big data écosystème français

33

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Le Techstars de New-York : un « accélérateur » de startups

Pouvez-vous vous présenter brièvement ? 1

Après avoir passé un an dans la conception de sys-tèmes de vision pour l'aéronautique au seind'Aérospatiale, aujourd'hui EADS, je suis devenuchercheur en reconnaissance d'images et vision robo-tique à l'INRIA. Nous nous sommes rencontré entreco-fondateurs à l’INRIA en collaborant sur l’indexationd’images, pour ce qui allait devenir LTU Technologies,startup que nous avons montée en 1999 2. Nousavons ensuite effectué une levée de fonds en 2000avec Mars Capital. Assez rapidement, après avoiressayé plusieurs business models, nous noussommes axés sur le law enforcement (cyber crimi-nalité, applications dédiées à l’investigation policière,vol d’objets d’art, enquête pédo-pornographiques,etc.) et avons commencé à vendre sur le marchéaméricain.

Justement, pourriez-vous retracer les grandes étapesde LTU Technologies aux États-Unis ?

En tant que Directeur Technique, je suis parti en 2003monter notre bureau États-Unis, car 80 % de notrechiffre d’affaires était généré là-bas (Secret Service,Department of Defense, FBI, différentes agences derenseignement, douanes américaines, etc.). Au regardde ce vertical initial que nous adressions, nous noussommes très logiquement installés à Washington DC.

J’ai ainsi constitué l’équipe américaine de LTUTechnologies et ai continué, parallèlement, à dirigerl’équipe technique, basée en France, à partir desÉtats-Unis.

Puis, nous avons vendu l’entreprise en 2005 à Jastec 3. Nous avons décidé de déménager l’antenneaméricaine sur New-York, car nous générions moinsde business avec les agences gouvernementales et,surtout, afin d’accélérer notre essor avec des entre-prises de marketing, de publicité et de média. Dèslors, nous avons « dupliqué » et « repackagé » notretechnologie de reconnaissance d’images pour être enadéquation avec les problématiques de ces secteurs.

Pourquoi avoir quitté LTU technologies pour fonderPlacemeter ?

J’avais simplement l’intention de redémarrer uneexpérience entrepreneuriale. Je suis donc parti, fin2011, d’une page blanche, à faire des analyses, regar-der les tendances, observer le marché. J’ai commencéà travailler sur des technologies de géolocalisationindoor, mais tandis que je travaillais sur des proto-types, Google se lançait massivement sur le créneau,ce qui m’a conduit à vite abandonner ce marché !Puis, je suis revenu à l’idée originelle que j’avaisdepuis longtemps, qui consiste à mesurer les flux depersonnes et la manière dont les individus interagis-sent avec la ville.

Le Techstars de New-York : un « accélérateur » de startups

Questions à… Alexandre Winter, Chief Executive Officer chezPlacemeter

(1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (2) Voir la papier de Frédéric Jahar sur l’analyse visuelle dans ce même numéro d’Accomex.(3) société japonaise cotée à la Bourse de Tokyo.

Page 36: Livre blanc big data écosystème français

Accomex n° 112 - Big Data34

Cette problématique sociétale est un défi planétaire :les villes sont de plus en plus denses, conjuguéesavec de plus en plus de flux urbains entrants. À titred’exemple : 300 millions d’habitants vont emménageren mégalopole lors des dix prochaines années enChine.

L’idée de Placemeter est née de cette rupture de para-digme concernant les flux urbains et l’interactionhomme-ville. Dès lors, j’ai travaillé sur des techno-logies de mesure et de détection, et ce qui s’est révéléle plus sensé s’avéra être la reconnaissanced’images. J’ai rencontré mon associé sur New-York,Florent Peyre : il a travaillé dans la fusion/acquisitionaux États-Unis pour le compte de Lagardère, puis estentré en tant qu’employé « n° 5 » chez Gilt City 4, c’est-à-dire au tout début de cette aventure (ils sont passéstrès rapidement à 200 employés et 100 millions d’euros de chiffre d’affaires). Florent a ensuite crééune entreprise de réseau social de voyages mais sanssuccès. Un ami, Matt Turck (à l’époque DirecteurGénéral chez Bloomberg Ventures) nous a présentéset c’est ainsi que tout a débuté ! Florent et moi avonscommencé à travailler ensemble sur le sujetPlacemeter en octobre 2012.

Quelle est la proposition de valeur de Placemeter ?

Il y a beaucoup d’autres acteurs sur le domaine d’activité de Placemeter, mais notre élément diffé-renciant repose sur lamanière dont nous mesu-rons la donnée.

Les autres acteurs ven-dent aux commerçantsdes capteurs pour appré-hender ce qui se passedans leurs magasins. Àpartir de là, les commer-çants installent unecaméra et la donnée qui résulte de ce système leurappartient. L’approche de Placemeter est sensiblementdifférente : nous produisons de la donnée et de l’infor-mation sur tous les endroits concernés car nousvoulons être propriétaires de la donnée. Nous ne fabri-quons donc pas de capteurs, ni de hardware : notresolution, ainsi que notre application, s’intègrent et ana-lysent des flux vidéos d’un parc de caméras existant.Nos algorithmes travaillent sur ces flux, ce qui nous permet de fournir à nos clients de l’intelligence, del’analyse et de la data en temps réel concernant les fluxde personnes dans les espaces concernés. La mise enplace de partenariats avec les municipalités et compa-gnies de sécurité ayant déjà leur parc de caméras nousoffre un avantage évident de scalabilité.

Notre plate-forme collaborative de contribution de fluxest large : cela va du simple individu, via son terminalou des caméras reliées au wifi, aux acteurs munici-paux (trafic, civil, vidéosurveillance) en passant pardes compagnies privées et de sécurité (parc de camé-ras en propre). À noter que Placemeter n’est pas uneentreprise de vidéosurveillance : nous sommes davan-tage une force de contribution sur le domaine de laville intelligente du futur, en mode crowdsourcing(collaboratif), dont la solution passe par de l’analysede flux vidéos existants.

L’idée derrière cela est d’indexer le monde physique etla manière dont les individus interagissent avec leurville en temps réel. Nous proposons ainsi notre outild’analytics à des commerçants, des municipalités oudes acteurs qui conçoivent des applications dites « lifestyle » cherchant à faciliter aux individus leurs accès etleurs interactions avec la ville.

Au Printemps 2012, Placemeter a participé au Techstars 5

de New-York. En quoi consiste ce programme ?

C’est une nouvelle fois Matt Turck qui nous a guidé et conseillé de rentrer dans ce programme d’accélé-ration de startups du Techstars de New-York. Nousavons candidaté, sans plus de convictions d’ailleurs…Nous avons été retenu et là, je n’ai plus fait la finebouche concernant mon investissement dans ce programme, en raison du degré de sélection des

projets : 1 700 candida-tures en provenance de 66 pays et seulement 11 sélectionnées ! L’expé-rience fut exceptionnelle !

Je n’ai toujours pas réussi à décrypter la recettemagique de Techstars etcette alchimie si particu-lière ! Au Techstars, il n’y a

pas de cours magistraux, ni de méthodologies particu-lières délivrées. En revanche, on évolue dans unenvironnement où pèse une grande pression avec desattentes extrêmement élevées. Je pense que se sont cescomposantes qui poussent à se démener.

De plus, on côtoie des sommités du milieu que, per-sonnellement, j’ai toujours rêvé de rencontrer et quiéchangent avec vous librement, vous délivrant dufeedback. La compétition « officieuse » et la pressionentre lauréats poussent également chacun à se sur-passer quotidiennement. Au risque de me répéter, cetenvironnement est exceptionnel ! Avec du recul, c’estvraiment à la suite de ce programme que nous avonsfait décoller notre startup. D’ailleurs à ce sujet, nous

(4) Site d’e-commerce.(5) Programme d’accélération de startups.

Page 37: Livre blanc big data écosystème français

35

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

avons récemment conclu notre premier tour de tablede levée de fonds.

Pouvez-vous nous dire où en est Placemeter à cestade ?

Nous sommes désormais huit. Nous avons égalementbouclée une levée de fonds ainsi que je vous le préci-sais auparavant. Actuellement, nous construisons lesystème de maillage afin de couvrir intégralementNew-York d’ici un mois. Notre application est dispo-nible sur les app-stores depuis février 2014, ce quicontribuera à densifier notre plate-forme de contri-butions. Par ailleurs, notre application va couvrir les100 endroits les plus « busy » de New-York, tels que :Shake Shack, Trader’s Joe, etc…

Avec du recul, sur quelles composantes avez-vous progressé en tant qu’entrepreneur aux États-Unis ?

Sans surprise, j’ai beaucoup appris sur les aspects dedesign et de packaging de solution.

Mais un autre point est également à prendre encompte : aux États-Unis, on apprend à vendre avant defabriquer ; de sorte qu’il est primordial de bien affinersa proposition de valeur avant de concevoir son produit.

Autre aspect important : vu de France, nous avons uneimage d’Épinal assez emphatique comme quoi lesAméricains ne seraient pas forcément de bons techni-ciens, de bons développeurs, et que les Françaisseraient bien meilleurs. Pour moi, en France, nousavons un important peloton de très bons dévelop-peurs de classe A - / B +, alors qu’aux États-Unis, ilexiste une classe de développeurs exceptionnel-lement bons et, ensuite, une grande classe dedéveloppeurs relativement moyens. Cette premièreclasse n’émerge pas directement des Universitésmais bien des « écoles » GAFA (Google, Apple,Facebook, Amazon). Or, ces entreprises ont une cul-ture de l’excellence technique que l’on ne trouve nullepart ailleurs.

New-York semble être « the place to be » pour les startups, l’environnement de la Silicon Alley est très stimulant et bien soutenu par la municipalité. Quel estvotre sentiment à ce sujet ?

Concernant l’investissement dans les startups, New-York est passé en quelques années de la 4ème / 3ème

place à la 2ème place, et ce loin devant Boston. De sortequ’en effet, la croissance et la profusion de startups à

New-York est exponentielle : New-York est devenuetrès « tech-friendly ». Je vois ainsi des entrepreneursarriver chaque semaine, dont beaucoup de françaisd’ailleurs.

Au-delà des initiatives entreprises par le maire de New-York, Michael Bloomberg, et par la municipalité(difficilement mesurables mais qui ont facilité le pro-cessus), je pense qu’il faut chercher les facteursexplicatifs du succès de cette ville autre part. Pourcréer un écosystème numérique vertueux pour lesstartups, il faut en effet trois éléments combinatoires :du talent, des investisseurs et un environnement socialet collaboratif (une culturel sociale dans l’écosystème).New-York revêt tous ces ingrédients :è Les talents sont venus suite à la crise de 2008lorsque, d’un coup, 600 000 personnes ultra-qualifiéesse sont retrouvées au chômage ; beaucoup se sonttournés naturellement vers l’entrepreneuriat et les startups.è Pour ce qui relève du financement, à l’époque, des structures comme le Huffington Post (la « mafiaPayPal 6 ») ont investi dans une myriade de startupsqui sont devenues de véritables succès.è Et pour finir, New-York a un tissu social très dense ;les leviers d’introduction sont donc très faciles.

Ces trois ingrédients font que New-York est devenueune place forte pour les startups.

Par effet de miroir, et pour évoquer Paris, cela peutégalement fonctionner : il faudrait accentuer le levierdu tissu social afin qu’il devienne plus actif et impac-tant. Nous n’avons pas forcément besoin d’uninvestissement plus significatif de la part des pouvoirspublics pour faire émerger un écosystème vertueux. Àce titre, Boulder au Colorado, lieu d’où a émergé leprogramme Techstars, en est le meilleur exemple.Boulder, historiquement ville de hippies, n’est pas dutout « tech-friendly ». Pour autant, il y a six fois plus destartups par habitant que la moyenne nationale. À titre de comparaison, la ville de San Jose en SiliconValley, c’est trois fois plus que la moyenne nationale.

Selon vous, quels programmes les pouvoirs publicsdevraient-ils mettre en place pour stimuler l’éco-système français du Big Data et de l’Analytics ?

Au niveau des tendances technologiques, le discoursambiant a toujours une approche sectorielle : hier, onparlait d’usage de BYOD 7, aujourd’hui de Big Data,demain d’IoT 8, et après ce sera naturellement autrechose…

Le Techstars de New-York : un « accélérateur » de startups

(6) La « mafia PayPal » désigne tous les anciens fondateurs et employés de PayPal ayant par la suite connu de grandes réussites : Tesla, LinkedIn,Youtube, Yammer, Tesla Motors, SpaceX.(7) BYOD : Bring Your Own Device, pratique qui consiste à utiliser ses équipements personnels (téléphone, ordinateur portable, tablette électronique)dans un contexte professionnel.(8) IoT : Internet des Objets, tendance représentant l'extension d'Internet à des objets connectés et à des lieux dans le monde physique.

Page 38: Livre blanc big data écosystème français

Accomex n° 112 - Big Data36

Je pense humblement que les pouvoirs publics ne doi-vent pas faire de focus trop appuyé, marqué etdistinctif sur chacun de ces secteurs. Ce qui compte,c’est de soutenir de bons entrepreneurs, leur offrir unenvironnement stable, leur donner les clés. Ils défri-cheront et structureront eux-mêmes les tendancesporteuses et disruptives de demain. C’est l’aspecthumain qui l’emporte sur le domaine, de sorte qu’ilfaut surtout renforcer l’environnement collaboratif etla dynamique inter-startup. Ceci est une différencemajeure par rapport à ce que j’ai pu expérimenter auxÉtats-Unis.

Pour finir de manière plus légère, pouvez-vous nousciter les entrepreneurs que vous admirez ?

Elon Musk 9 sans hésitation ! Et Xavier Niel pour laFrance. Tous deux ont en commun cette volonté desortir de leur zone de confort, de réinvestir sur de nouveaux secteurs. Je suis admiratif de leur capacitéà remettre en cause l’ordre établi par de nouveauxbusiness models. Un autre entrepreneur que j’admireest Aaron Levie de Box, très humble et trèsabordable.

Placemeter

Créée fin 2012 à New-York par deux Français, Placemeter est une startup quianalyse des images récupérés à l’aide d’une caméra wifi ainsi que de capteurs etles transmet à son client sous forme de données : statistiques, graphiques, tableaux,plans.

Pour en savoir plus : http://www.placemeter.com ; http://awinter.me/ ; @placemeter ; @awinter

(9) Elon Musk, ancien co-fondateur de PayPal, fondateur de Tesla Motors et SpaceX.

Page 39: Livre blanc big data écosystème français

37

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Le Big Data au service de l’analysedes visuels

image est nettement plus visible et engageant qu’untweet de texte ! Dans le flux d’informations continuauquel nous sommes aujourd’hui confrontés, l’imagejoue un grand rôle de valorisation du contenu.

Mais les marques ne disposent que rarement del’arsenal technologique pour appréhender les flux dephotos les concernant, si elles ne sont pas associéesà des tags, des hashtags explicites ou des référencestextuelles. Or, la majorité des photos sont dépourvuesde ces mentions. Cet actif numérique viral qui impacteleur e-réputation leur échappe. Les entreprises nepeuvent donc plus se contenter de stratégies de surveillance de marque exclusivement basées surl’analyse textuelle des tweets, posts et autres com-mentaires via l’analyse sémantique. Il est possibled’aller plus loin en capitalisant sur les technologiesavancées d’analyse de visuels, afin de pouvoirrechercher et comparer automatiquement des mil-lions de visuels, sur la base de leurs caractéristiquesindividuelles - couleur, ombre et forme - comme nosyeux le font à chaque instant.

L’offre technologique de LTU technologies repose surl’analyse de photos sur les réseaux, dans l’objectifd’appréhender les sentiments (perception, dénigre-

LES MARQUES ET LE POUVOIR DE L’IMAGE

Depuis quelque temps, les réseaux sociaux sontdevenus le royaume de l’image : images et photossont au cœur de toutes les plateformes. Sous lapoussée d’Instagram, Pinterest et autres outils departage de photos, les réseaux sociaux sont devenusde vrais « recueils visuels », avec 500 millions de photos publiées quotidiennement ; 880 milliardsdevraient être postés en 2014. Sur Twitter, ce sontprès de 2 millions d’images qui sont publiées chaquejour, sur Facebook, 3 milliards chaque mois. Ainsipotentiellement, la quantité de visuels à analyser estexponentielle.

La photographie devient le levier de moyen d’expres-sion le plus facile pour partager de l’information etpour « commenter » une marque ou un objet. Pour s’enpersuader, il suffit de se souvenir que Twitter favorisaitla communication par le partage de liens. Mais àquelques semaines de son entrée en bourse en octo-bre 2013, le réseau social a réalisé une petite mise àjour en permettant l’affichage direct des images dansles flux d’actualité des utilisateurs. Pourquoi cettemodification ? Parce qu’un tweet comportant une

« ne image vaut mille mots » disait Confucius… Voilà uneaffirmation particulièrement pertinente dans notre monde

contemporain ! En effet, avec l’avènement des réseaux sociaux, unconstat s’impose à tous : l’image, en tant que moyen d’expression,est un vecteur dont l’expansion ne connaît pas de limites ! Facile àréaliser, immédiatement porteuse de sens, valorisant les proposécrits de façon certaine, l’image se pose aujourd’hui comme un élément incontournable de la communication des entreprises. Maiscela n’est pas sans risque : il s’agit, pour les marques, de savoirgérer leur e-reputation. Et dans ce domaine, les dispositifs de veilleexistants se fondent essentiellement sur des éléments textuels…Avec son offre technologique de reconnaissance et de recherche visuelle multimédia, LTU technologies offre aux entreprisesles moyens d’appréhender les buzz autour de leur marque, ainsi que les usages que les internautes peuvent en faire.

U Frédéric [email protected]

Diplômé de l’ENST en traitement de l’image, FrédéricJahard a travaillé pour Peugeot/Citroën/Jaguar puisMATRA, avant de rejoindre LTU technologies.Consécutivement Business Development Engineer, Vice-President Engineering puis Chief Technology Officer, F. Jahard est aujourd’hui Chief Executive Officer de LTUtechnologies. Il a notamment rédigé le Livre Blanc LaSurveillance de Marque à l’ère de l’image, disponible surle site de la société (http://www.ltutech.com).

Le Big Data au service de l’analyse des visuels

Page 40: Livre blanc big data écosystème français

38

ment, appréciation, etc.). Nos outils de reconnais-sance d’images permettent de mesurer le buzz d’unemarque ou encore d’identifier l’usage négatif oufrauduleux qui peut être fait de ses images non taggées. Cela va bien au-delà de l’analyse sémantiqueétant donné que nos technologies reproduisent lefonctionnement de l’œil en capitalisant notammentsur l’intelligence artificielle ; elles sont ainsi capablesd’identifier en quelques secondes les points de dif-férence et de similarité existants entre deux visuels a priori différents.

Nos clients peuvent bénéficier de deux briques tech-nologiques connexes.

è En premier lieu, ils bénéficieront d’une vued’ensemble axée e-reputation (surveillance de la mar-que), via un mur d’images :

Qui partage les photos de ma marque ? Dans quelcontexte sont-elles utilisées ? À quelle fréquencevirale ? Qu’en est-il de mes concurrents ? Est-ce quema campagne visuelle virale a bien marché ? Cetteconnaissance leur permettra d’arbitrer sur des leviersde décision marketing.

è Sur un volet d’intelligence plus poussé, nousanalysons le détournement, l’utilisation et la consom-mation de la marque par les utilisateurs finaux dansun environnement contextuel.

Dans le cas « dépréciatif », ce qui nous intéresse peutêtre le détournement, le dénigrement d’une publicitéou du visuel d’un produit. Nos outilsd’analyse seront en mesure d’alerter unemarque et d’endiguer le déclenchementd’une situation de nature à entacherfortement et durablement leur réputationsur les espaces digitaux.

Par exemple, nous sommes capables d’identifier l’image d’un consommateur ayant pris une photo d’unrat dans une chaîne de restaurant et de quantifier lamagnitude d’impact pondéré par l’audience de laditepersonne sur ces réseaux. De plus, lorsqu’une crisecommence pour une marque ou un produit, le risqueest de voir des internautes utiliser l’univers de com-munication de la marque pour en détourner lemessage ou le contexte.

Dans le cas « mélioratif », l’entreprise se doit d’identi-fier l’appréciation et l’exposition contextuelles de samarque, voire d’engager une conversation avec sesclients les plus « influents ». Ces visuels contextuelsgénérés par les ambassadeurs et avocats de la mar-que ont une force engageante, sans communemesure avec un visuel produit par la marque elle-même.

À l’ère de l’image, les actifs visuels d’une marquedeviennent plus stratégiques que jamais. Il est donccrucial de déployer des technologies d’analyse d’images pour déterminer où sont exploités les visuelsde marque d’une entreprise, dans quels contextes ilssont utilisés et partagés, et s’ils ont été détournés oualtérés.

L’ANALYSE DE L’IMAGE : DES SERVICES PUBLICS AUXRÉSEAUX SOCIAUX, UNE MULTIPLICITÉ D’USAGES

La première technologie développée par LTU technolo-gies s’est déclinée en de nombreuses applicationssensibles : enquêtes criminelles, renseignement mili-taire, trafic d’objets d’art, contrefaçon. Dans ledomaine de la lutte contre la pédopornographie, ellepermet à la police de comparer les images stockéesdans ses bases de données avec celles récupéréessur des newsgroups ou lors de saisies d’ordinateurs,permettant alors de confondre des personnes suspec-tées. Les premiers logiciels LTU technologies ont ainsiéquipé aussi bien le FBI, Secret Services et lesdouanes américaines, que la Gendarmerie Nationaleet la plupart des polices européennes.

Notre solution donne du sens aux images et analyseles visuels pour en extraire les éléments constitutifs.C’est cette signature numérique qui permet d'indexer,de reconnaître et de comparer des images. Assezétonnement, il a été plus facile pour nous, startupfrançaise, de nous attaquer à ces marchés critiques etsensibles aux États-Unis qu’en France. En France,

nous sommes souvent contraints dedevoir passer par des intégrateurs (là oùnotre brique technologique et notreproposition de valeur sont assez diluéesdans une proposition finale), tandisqu’aux États-Unis, nous avons signé descontrats en direct. Le Small Business Act

américain, qui réserve certains marchés publics auxPME et startup, a été très salvateur pour nous en cesens. De même, le degré d’aversion au risque, àexpérimenter une technologie, n’est pas le mêmequ’en France pour ce qui est des acheteurs publics.

À partir de 2008, nous nous sommes progressive-ment détachés des marchés gouvernementaux, suiteà la réduction drastique des budgets publics, afin detrouver de nouveaux relais de croissance. Nous avonsainsi décliné notre cœur de technologie pour nousadresser au mobile et à la media intelligence et cher-chons aujourd’hui à comprendre ce que les genspublient sur les réseaux sociaux. Pour nous rap-procher de nos nouveaux clients (telcos, agencesmarketing, agences PR), nous avons relocalisé notreantenne américaine de Washington à New-York.

Accomex n° 112 - Big Data

Page 41: Livre blanc big data écosystème français

39

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

vons également nos travaux sur l’analyse contextuellede la consommation de la marque via les images ; àtitre d’exemple : « est-ce que les consommateurs con-somment du Coca-Cola dans un verre ou en canette,en soirée ou pas ? ».

Nous venons de signer un partenariat avec DataSift,spécialisé dans l'analyse de données sociales.L’objectif ici est de fournir à tous les clients deDataSift une augmentation visuelle et de proposeraux marques du marketing research. Nous poursui-

Le Big Data au service de l’analyse des visuels

Page 42: Livre blanc big data écosystème français

40

Pouvez-vous vous présenter en quelquesmots ? 1

J’ai passé près de 10 ans en recherche fondamentalesur des sujets de mathématiques abstraites, d’al-gèbre, de géométrie et de topologie. Après cettedizaine d’années de recherche fondamentale à l'uni-versité de Yale et au CNRS, j’ai cofondé tinyclues enavril 2010.

Comment a émergé l’idée de tinyclues ?

Les possibilités techniques des CRM (CustomerRelationship Management) traditionnels n’ont quepartiellement tenu leurs promesses pour délivrer de lavaleur, de la connaissance client. En outre, lesapproches traditionnelles de segmentation, de silosfermés ou de scenarii de ciblage sont mathémati-quement erronés et reposent sur une sociologie trèsliée au marketing classique.

Il est donc critique, pour les pure players de l’e-commerce, d’améliorer la compréhension fine desvéritables souhaits et besoins de leurs clients et prospects. À ce titre justement, les données sociales sont très propices à faire des constructions mathé-matiques. Pour cela, il faut se confronter àl’apprentissage automatique afin de chercher et valoriser ces signaux.

Mais compte tenu de la taille et, surtout, de la com-plexité des données au sein de ces bases, il esthumainement et instinctivement impossible de capterla multitude et la diversité de signaux qui s’y trouvent.Seule une machine peut appréhender les millions decorrélations qui existent entre les différentes informa-tions contenues dans une base. Ainsi est née l’idée detinyclues en 2009 : partir des données sociales brutesjusqu’à obtenir un impact business, tout cela à uneépoque où, lorsque l’on évoquait le Big Data, cela renvoyait invariablement aux problématiques d’infra-structure et de stockage, sans questionnement sur « Comment délivrer la valeur ? ».

Quelle est votre proposition de valeur concrètement ?

Nous proposons une solution plug and play d’optimi-sation des opérations de marketing direct.Concrètement, cela repose sur une plateforme cloud en mode SaaS (Software as a Service) de « CRM prédictif » (ciblage, recommandation, prédiction d’offres), qui s’appuie sur des algorithmes avancés demachine learning 2 et sur l’analyse de grands volumesde données.

Notre solution permet aux e-commerçants de mieuxcibler leurs clients et prospects en analysant ces millions de données (déclaratives, engagement multi-canal, sociales, étymologie d’un email, évènements,

Le machine learning appliqué au secteur du e-commerce

Questions à… David Bessis, Chief Executive Officer de tinyclues

(1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (2) L'apprentissage automatique repose sur l'intelligence artificielle et les méthodes automatisables qui permettent à une machine d'évoluer grâce àun processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.La machine adapte son comportement en fonction des données.

Accomex n° 112 - Big Data

Page 43: Livre blanc big data écosystème français

41

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Le premier dataset « labellisé » en e-commerce surlequel nous avons travaillé en 2012 était issu dePriceMinister ; il nous a permis de passer d’une phasede travail manuel (très peu réplicable) au prototypageet à la scalabilité de notre solution. Ensuite, la mise àdisposition de notre plate-forme de services en tempsréel, en janvier 2013, a permis à nos clients deconstruire leurs templates 3 et de « requêter » sansavoir à échanger avec nous.

Aujourd’hui, absorber de nouveauxdatasets n’est plus une contraintetechnique, bien au contraire : l’intelli-gence de notre outil s’en nourrit. En

effet, l’approche basée sur l’apprentissage statistiqueest à rendement marginal croissant, ce qui signifieque la performance prédictive de nos outils croît d’au-tant plus vite qu’ils sont confrontés à de nouveauxjeux de données.

Pouvez-vous nous citer quelques exemples de casque vous avez traités ?

Cdiscount cherchait à augmenter la part de revenugénérée par leur CRM. Grâce à nos outils de ciblageprédictifs qui permettent de trouver le bon acheteurpour le bon produit (le résultat peut parfois être sociologiquement surprenant !), Cdiscount a pu voir,dans le cadre d’un A/B testing, non seulement uneaugmentation de 30 % de ce type de revenus, maisaussi un tiers de désabonnements en moins.

Pour PriceMinister, nous avons repensé leur stratégiede communication personnalisée afin de dépasser lesnewsletters génériques qui spamment. Ainsi avons-nous transformé l’essai avec un early adopter de nostravaux ! Désormais, ils se servent au quotidien denotre plate-forme pour requêter.

Quel est votre regard sur le profil en vogue en cemoment : celui de Data Scientist ?

Je pondère, pour plusieurs raisons, le besoin croissantet cette pénurie supposée de centaines de milliers deData Scientist.

Tout d’abord, il est complexe de proposer une offreacadémique capable de couvrir les différentes disci-plines que recouvre la data science. De plus, lesgrands comptes, dans leurs problématiques métiers,ont besoin d’industrialiser un savoir-faire de datamining à grande échelle. Un Data Scientist sera trèsutile sur des proof of concept ou sur du prototypage.Mais sur l’étape suivante, la contribution « manuelle »d’un Data Scientist ne peut répondre à l’automatisa-tion et à l’industrialisation des processus. Selon moi,lorsqu’une entreprise fait appel à l’expertise d’un

tracking, comportements, interaction, etc.) sans limi-tation de taille ni de complexité pour valoriser dessignaux. Nous sommes, par exemple, capables detrouver des corrélations entre l'hébergeur de votre e-mail (@yahoo.fr, @gmail.com) ou vos pseudos, et vosachats. Votre prénom en dit aussi beaucoup sur votreâge et le milieu dont vous êtes issu, et la moindreseconde pendant laquelle votre souris s'attarde surune page est décortiquée pour choisir, par exemple,quelle offre pertinente vous envoyer.

Notre solution est packagée pour deséquipes CRM et marketing qui seronten mesure de mieux cibler et personna-liser leur communication directe. À titre d’exemple,pourront être déterminés en quelques minutes, grâceà une interface web, un public réceptif, des cibles d’of-fres pour l’envoi d’une newsletter. Nos clients enretirent un levier actionnable, profitable et tangible :proposer de manière prédictive, granulaire, le bon pro-duit au public qui sera le plus à même de l’acheter.Notre solution a démontré des gains de performancesupérieurs à 30 % par rapport aux offres concurrentes.Par ailleurs, nous maîtrisons la chaîne logicielle com-plète (architecture cloud sécurisée, solutionpropriétaire de traitement des données, algorithmesmathématiques, interface simple d’utilisation).

Quels sont pour vous les grands enjeux de l’e-commerce ?

Proposer une offre commerciale sans cibler les desti-nataires revient à jeter une bouteille à la mer ! Lesinformations pour cerner les clients potentiels nemanquent pas, mais la difficulté porte sur « commenttrier les millions de données sociales, de navigation,d'historiques d'achat et d'interaction de nos clients ? ».La machine trouve ce que l’intuition humaine pourraitéventuellement suggérer. Or, les sites qui déploientles meilleures pratiques en matière de connaissancedu client affichent des taux de croissance significati-vement supérieurs ; bien plus que leur notoriétérelative.

Comment avez-vous procédé pour industrialiser votresolution et vous confronter à des problématiquesmétiers de l’e-commerce ?

Il est impossible de bâtir des algorithmes de machinelearning sans des données réelles. J’ai donc priscontact, en 2010, avec des acteurs de l’email marke-ting afin de travailler sur leurs datasets (jeux dedonnées). Ces collaborations nous ont permis de tra-vailler et d’affiner nos algorithmes puis, par la suite,nous avons construit notre infrastructure dans lecloud afin de garantir la fiabilité et la confidentialitéde nos données.

(3) Modèles de requêtes.

Le machine learning appliqué au secteur du e-commerce

Page 44: Livre blanc big data écosystème français

42

Pouvez-vous nous dire où en est actuellement tinyclues ?

Sur l’aspect produit, notre plate-forme est commercia-lisée sous forme d’abonnement depuis janvier 2013.Parallèlement, nous avons annoncé en décembre 2013notre 1ère levée de fonds de 1,4 million d’euros auprèsd’ISAI et Elaia, Venture capital majeurs du logiciel et des acteurs disruptifs de l’e-commerce. Desurcroît, nous sommes ravis de pouvoir bénéficier du mentoring de Denis Payre (fondateur de BusinessObjects et de Kiala) et de Stéphane Treppoz (présidentde sarenza.com) au sein de notre conseil d’adminis-tration. Aujourd'hui, tinyclues emploie 12 personnes,principalement des développeurs, mais aussi des spécialistes du data mining.

Avez-vous comme objectifs de vous attaquer à d’autres secteurs d’activité et de décliner votre technologie ?

Bien des secteurs requièrent l’intelligence de ce typede solutions. En revanche, le point de vigilance pourune startup est de ne pas confondre « comment trans-poser sa technologie » et « comprendre ce que sastratégie et son modèle économique peuvent faire ».Le packaging de l’offre et le cycle de vente sont biendifférents sur ces secteurs que l’e-commerce.Aujourd’hui, nous nous concentrons sur un secteurpour être tangible, mais il est certain que des secteurscomme les télécommunications, la santé ou l’assu-rance seront très intéressants pour nous àl’avenir.

Data Scientist, cela signifie qu’elle a abandonné l’idéed’implémenter une solution.

De plus, nous nous attaquons à des problématiquesmétiers, pour lesquelles des profils marketing (sanscompétences techniques particulières) doivent pou-voir générer des populations ciblées via une solutionclés en mains et une interface web intuitive. Nousmettons ainsi notre ambition scientifique du machinelearning au profit direct d’équipes marketing au tra-vers d’un produit intelligible et utilisable.

Trop de solutions Big Data fonctionnent avec unegrande couche de conseil et une configuration spéci-fique. Je crois beaucoup en l’émergence de solutionsavec une combinaison de quatre aspects :è une composante scientifique et technique très prononcée,è un vertical et un contexte métier identifiés,è une utilisation par des profils non-techniques,è un aspect d’industrialisation à grande échelle.

Ainsi, des normes, des standards et des produitsémergents pourront remplacer ce que l’on est en droitd’attendre d’un Data Scientist ou d’un statisticien. Parexemple, SPSS ou SAS utilisent des boîtes à outils statistiques et de machine learning que nous utilisonségalement, mais c’est un outil dimensionné pour desstatisticiens, pas un simple outil d’usage adressé à unmétier.

Accomex n° 112 - Big Data

Pour en savoir plus : http://www.tinyclues.com ; @tinyclues

Page 45: Livre blanc big data écosystème français

43Les apports du Big Data à la finance

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Les apports du Big Data à la finance

Par ailleurs, la valeur de marché d’une entreprisedépend également de ses actifs immatériels. Si la valorisation des actifs intangibles pose encore ques-tion, l’E-Réputation d’une marque calculée parQuantCube Technology offre un élément de réponse,objectif et quantifié, et permet d’en suivre l’évolution.L’approche développée par QuantCube Technology estpertinente pour les investisseurs « value » dès lorsqu’ils s’intéressent à des entreprises dont les clientscommuniquent sur les réseaux sociaux : luxe, grandedistribution, produits de grande consommation, constructeurs automobiles, etc. À titre illustratif,QuantCube Technology s’est intéressé aux marquesde la division « mode & maroquinerie » du GroupeLVMH, ainsi qu’à celles de ses concurrents. Legraphique 1, anonymisé, présente les résultatsobtenus pour différentes sociétés du secteur.

Loin de n’intéresser que les investisseurs fondamen-taux, les données des réseaux sociaux permettentégalement de mettre en œuvre des stratégies de trading intraday 1, lors d’événements ponctuels. Parexemple, l’analyse en temps réel des tweets de laconférence Blackberry du 30 janvier 2013 (dédiée au

LE BIG DATA : DES INFORMATIONS PERTINENTESPOUR LES INVESTISSEURS

Les sources de Big Data intéressantes pour le secteurde la finance sont multiples. Spontanément, nouspensons bien sûr aux données des réseaux sociaux.Parmi les 500 millions de tweets échangés tous lesjours, ceux relatifs à un produit, une société ou uneactualité sont autant de signaux qui, dûment agrégéset analysés, constituent une information précieuse. Ilen est de même pour les « like » sur Facebook, ouencore les commentaires sur Youtube, Google+,Instagram, les forums, les blogs, etc.

Les algorithmes développés par QuantCubeTechnology, société française pionnière en analyse duBig Data appliqué à la finance, permettent de quanti-fier non seulement la popularité d’une marque oud’un produit, mais aussi la perception, le sentimentqu’en ont les utilisateurs des réseaux sociaux. Un ana-lyste financier peut donc utiliser ces indicateurs afind’estimer plus finement les revenus d’une société etceux de ses concurrents.

L’accès rapide à l’information n’est pas vraiment un nou-vel enjeu pour les professionnels de la finance. Ainsi, les

compagnies florentines installées à Avignon et prospérantdans la banque et le négoce ont-elles développé les premièrespostes, bien avant les rois et les princes. Au milieu du XIVème

siècle, leurs courriers prenaient déjà la route plusieurs fois parsemaine. Plus tard, la famille Rothschild a, quant à elle, utilisédes pigeons voyageurs afin de recueillir des informationsinédites. C’est ainsi que Nathan Rothschild aurait été informéde la victoire anglaise à Waterloo. Les courriers et les pigeons voyageurs ont certes disparu, mais le principedemeure : les investisseurs les mieux informés bénéficient d’un avantage concurrentiel ; ils ne peuvent plus, aujour-d’hui, ignorer le Big Data.

L Thanh-Long [email protected]

Thanh-Long Huynh officie en tant que CEO au sein deQuantCube Technology. Il est spécialisé dans le dévelop-pement d’algorithmes appliqués aux marchés financiers.Diplômé en statistiques de l’ENSAE, en mathématiquesfinancières de l’Université de Chicago, et titulaire de lacharte CFA, il enseigne également la gestion des risquesà l’Université Paris-I Panthéon-Sorbonne.

(1) Trading Intraday : pratique qualifiant les opérations monétaires ou financières initiées et dénouées en cours de journée ou dans le cadre des opérations de refinancement de la trésorerie interbancaire, notamment auprès de la banque centrale.

Page 46: Livre blanc big data écosystème français

44 Accomex n° 112 - Big Data

lancement des modèles Q10 et Z10 de la marque) arévélé le scepticisme de l’audience face à ces nou-veaux produits. La chute marquée du QuantCubeSentiment Index, constatée en temps réel, a créé unsignal de vente de l’action en séance (Cf. Graphique 2).

De la même façon, l’on notera sur le graphique 3 laforte corrélation entre le cours de bourse d’Apple et leSentiment Index généré à partir des tweets lors de laconférence du 22 octobre 2013 (dédiée au lancementde l’iPad Air, de Mavericks OS et du nouveau Mac Pro).

Les données des réseaux sociaux offrent égalementdes informations précieuses aux investisseurs « macro ».QuantCube Technology a ainsi pu prédire avec succèsle résultat des élections allemandes en 2013.

Mais les réseaux sociaux ne constituent pas l’uniquesource de Big Data pertinente pour la finance.L’analyse des données météorologiques, couplée avecla géolocalisation des principales zones agricoles, per-met par exemple à QuantCube Technology de réagiren temps réel à des événements climatiques affectantle prix de certaines matières premières.

Les applications financières du Big Data sont doncmultiples. Toutefois, les professionnels de la financesont confrontés à de nombreux écueils, certains in-hérents au Big Data, d’autres spécifiques à la finance.

Graphique 1Exemple de résultats d’analyse de QuantCube Technology dans le secteur mode & maroquinerie

Graphique 2QuantCube Sentiment Index et prix du cours de bourse d’une société

Graphique 3QuantCube Sentiment Index et prix du cours de boursed’Apple

Page 47: Livre blanc big data écosystème français

45Les apports du Big Data à la finance

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

DES ÉCUEILS QUI NÉCESSITENT UNE DOUBLE COMPÉTENCE : FINANCIÈRE ET TECHNOLOGIQUE

Certains écueils technologiques sont bien connus :

è 90 % de l’ensemble des données aujourd’hui dispo-nibles ont été créées ces deux dernières années 2 etles investisseurs ne sont pas épargnés par la multipli-cation des données numériques.è Les données proviennent de sources différentes(réseaux sociaux, stations météorologiques, etc.) etne sont pas structurées.è Pour ne reprendre que l’exemple des réseauxsociaux, l’information est fragmentée sur de nom-breuses plateformes : Facebook, Twitter, Youtube ouGoogle+ bien sûr, mais aussi les sites locaux tels queVKontakte en Russie ou Sina Weibo en Chine.L’analyste qui s’intéresse au secteur du luxe, parexemple, ne peut négliger le marché chinois, dominépar Sina Weibo (500 millions d’utilisateurs).è L’analyse fine des ventes d’une société internatio-nale nécessite des algorithmes multilingues.

D’autres difficultés sont propres à lafinance. D’une part, la mise en œuvre destratégies de trading intraday nécessitel’analyse de Big Data en temps réel afin deprendre des décisions adéquates d’achatou de vente en cours de séance. D’autrepart, les données n’apportent pas une ana-lyse toute prête. Autrement dit, il convientd’identifier a priori les données applicablesà telle stratégie ou tel instrument financier.

Certes, certaines considérations sont triviales : ilserait faux d’appliquer un indice d’E-Reputation à unproduit exclusivement dédié à une clientèle B2C quine s’exprime pas sur les réseaux sociaux. Rarementavons-nous vu, en effet, des internautes s’enthou-siasmer sur Twitter ou Facebook sur la beauté d’unsac de béton, quelle que soit la qualité du produit !

Toutefois, d’autres stratégies, complexes, nécessitentl’intervention de professionnels de la finance. Maisces derniers se heurtent alors aux écueils technolo-giques susmentionnés, qui ne relèvent pas de leurdomaine d’expertise.

À la croisée de deux mondes, le Big Data appliqué à lafinance nécessite donc la conjugaison de deux com-pétences clefs :

1. L’expertise financière. QuantCube Technology compteainsi parmi ses membres fondateurs des profes-sionnels de la finance (trading, gestion de portefeuilleet risk management) qui cumulent plus de 55 annéesd’expérience dans ce domaine.

2. L’expertise technologique. QuantCube Technologydispose d'un savoir-faire reconnu dans l'analyse duBig Data. Ses algorithmes ont notamment été récom-pensés par le Prix du Jury SAP dans le cadre duStartup Forum 2013.

Au-delà de cette double compétence, l’avènement d’ou-tils permettant de stocker et de traiter des donnéescolossales s’est avéré essentiel dans l’application desBig Data à la finance. À titre illustratif, QuantCubeTechnology s’appuie, grâce au Prix du Jury SAP, sur SAPHANA, une technologie in-memory database qui offredes capacités d’analyse 3 600 fois plus rapides qu’unesolution traditionnelle. Plusieurs terabytes de Big Datapeuvent donc être traités en quelques millisecondes et ainsi répondre à l’exigence de la prise de décisiond’investissement en temps réel.

QuantCube Technologie utilise également le cloud,notamment Amazon Web Services, afin d’améliorer lapuissance de calcul et stocker des données. Sur labase d’une infrastructure informatique performante,QuantCube Technology a développé ses algorithmes

propres afin de collecter des données desréseaux sociaux, les nettoyer et les struc-turer. Elle procède ensuite à l’analysemême, en fonction des données considé-rées. Celle-ci peut, par exemple, êtreréalisée par inférence bayésienne, c’est-à-dire en comparant les tweets recueillis àceux d’une base de tweets de référencedéjà évalués. À cette fin, QuantCube dis-pose actuellement de bases de référenceen français, en anglais et en allemand

(riches de plusieurs millions de tweets), et construitactuellement une base en mandarin et une autre enarabe. Par ailleurs, la pertinence de l’analyse dépendnon seulement du sentiment mais aussi d’autres critères, tels que l’influence. Autrement dit, tous lestweets ne se valent pas et il convient d’en tenircompte. Enfin, QuantCube Technology s’appuie surles derniers développements en matière de machinelearning afin de conserver son avance technologique.

Les Big Data constituent une source d’informationprécieuse pour les investisseurs dans leur quêted’une image toujours plus fidèle de la réalité écono-mique. Les applications sont multiples (analyse « value », stratégie de trading intraday, investissement« macro ») et concernent différents éléments sous-jacents (actions, matières premières, devises, etc.).Malgré les écueils, nul doute donc que le Big Dataappliqué à la finance n’en est qu’à ses débuts. C’estdans cet esprit que QuantCube Technology a lancé, le1er janvier 2014 le premier indice Big Data :QuantCube Big Data Top-Reputation Index 3.

(2) Brasseur C. (2013), Enjeux et usages du Big Data. Technologies, méthodes et mise en œuvre, Paris, Lavoisier.(3) Consultable sur www.q3-technology.com

Page 48: Livre blanc big data écosystème français

46 Accomex n° 112 - Big Data

Optimiser la performance énergétique des processus industrielsgrâce à la data

Au niveau mondial, le volume de données liées à l’énergie croit à une cadence de 60 % par an et secomptera d’ici 2020 en exaoctets, soit des milliardsde milliards de données brutes par an à transmettreet stocker. C’est l’équivalent du seul trafic Internetjournalier sur mobile actuel ; mais l’enjeu est déjà crucial au regard des tensions déjà fortes en termesde précarité énergétique, de blackout ou de stabilitégéopolitique dans certaines zones du monde.

LE COMPTEUR CONNECTÉ OU LA COMPÉTITIVITÉPAR L’ÉNERGIE

Le nombre de compteurs connectés est en constanteaugmentation dans le monde. Aux États-Unis, ce sontdéjà 46 millions de compteurs communicants instal-lés dans 40 % des foyers qui produisent un milliard de données quotidiennes… De même ERDF prévoit l’installation de 35 millions de compteurs d’électricitécommunicants Linky chez les particuliers en Franced’ici 2020.

Les industriels investissent également massivementdans des compteurs communicants pour retrouver de la compétitivité grâce aux économies d’énergie.

LA GESTION DE L’ÉNERGIE : ENTRE SMART GRID ETSMART ENERGY MANAGEMENT

La capacité à fournir et à consommer sans cesse plusd’énergie atteindra bientôt les limites physiques denotre planète. Le prix et la rareté croissants desressources naturelles, la réglementation toujours pluscontraignante, la responsabilité des hommes et desentreprises incitent inexorablement à mieux gérerl’énergie et les émissions de CO2 induites. Surl’ensemble du cycle, des fournisseurs d’énergiejusqu’aux consommateurs finaux, c’est donc la capa-cité à mieux gérer, contrôler et anticiper à distanceces enjeux que constituent le smart grid, du point devue du fournisseur, et le smart energy management,du point de vue du consommateur final.

Le sujet « Énergie » est par nature global ; c’est doncun périmètre élargi et un volume énorme de donnéesénergétiques et de métadonnées hétérogènes qu’ilfaut créer, transmettre, stocker, confronter, analyseret restituer en continu partout dans le monde pourrendre cette gestion de l’énergie intelligente.

areté des ressources énergétiques, contraintes environ-nementales croissantes, diversification des sources et des

distributeurs d’énergie, multiplication des innovations, etc. :voilà autant de facteurs à l’origine des mutations dans lesecteur de l’énergie… Ces mutations induisent une multiplica-tion des données disponibles et posent la question de leurstockage et de leur analyse : le volume de données liées à l’énergie au niveau mondial croît sur un rythme de l’ordre de60 % par an et se comptera, d’ici 2020, en exaoctets, soit desmilliards de milliards de données brutes par an. Les entre-prises étant, de leur côté, confrontées à la nécessité de réduireleurs coûts d’approvisionnement et de consommation en énergie, l’exploitation de ces données devient indispen-sable : une gestion intelligente de la consommation sur la base d’une comptabilité analytique en temps réel estaujourd’hui possible grâce à la révolution numérique et au Big data. La startup Energiency peut fournir les outils nécessaires à l’analyse de ces datas et favoriser ainsi l’optimisation de la performance énergétique du processusindustriel ; un atout pour le renforcement de la compétitivité économique des entreprises.

R Arnaud [email protected]

Arnaud Legrand est diplômé d’AgroParisTech et del’École nationale du génie rural, des eaux et des Forêts(AgroParisTech ENGREF). Il a fondé Energiency, avecdeux associés, en septembre 2011, après avoir travailléen tant que consultant en solutions énergétiques inno-vantes successivement au sein du CEA, d’Ernst & Young,de Neutroclimat et de Blue-e. A. Legrand est aujourd’huiChief Exectuive Officer chez Energiency, Cleantech &Software Entrepreneur.

Page 49: Livre blanc big data écosystème français

47Optimiser la performance énergétique des processus industriels grâce à la data

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Par ailleurs, l’utilisation rationnelle des machines selonl’optimisation du carnet de commande, de la disponi-bilité de l’outil industriel et des équipes, fourniraégalement d’importantes marges de progrès énergé-tique, ainsi qu’une meilleure flexibilité pour accélérerles cadences et les taux de rendement synthétiques.À l’arrivée, les coûts opérationnels de l’énergie, maiségalement de la maintenance ou des achats (opex) etles coûts d’investissement (capex) se trouveront toussignificativement réduits. La capitalisation du savoir-faire énergétique grâce aux Systèmes d’Information

de Management de l’Énergiesera un atout considérable pouranticiper les meilleurs scénariosselon les situations productives.En effet, grâce à l’accès rapide

aux données historiques de consommation énergé-tique et l’aide à la décision prédictive en continu surmobile ou smartphone, les industriels pourront mieuxopérer l’énergie avec une meilleure réactivité au seinde leurs ateliers : démarrage intelligent et ordonnancédes machines, maintenance préventive avant lespannes lourdes, arrêts et mise en veille actives en casde ralentis-sement non prévu, mobilisation opportunedes certificats d’énergie et du lean managementappliqué à l’énergie, etc.

ENERGIENCY : « DATA DRIVEN ENERGY ANALYTICS FORINDUSTRY »

Energiency édite un logiciel web et mobile qui fournitdes outils numériques innovants d’analyse Big Data dela performance énergétique du processus industriel.L’idée à l’origine de la startup, créée en avril 2013, vientdu souhait formulé un jour, par un industriel, de possé-der un outil collaboratif et analytique afin d’avoir à sa

disposition sur le web des préco-nisations pour mener lui-même,à moindre coût, son projet d’éco-nomies d’énergie.

L’algorithme Energiency réaliseen continu, sur le cloud, l'ana-lyse croisée des donnéesissues des systèmes d’informa-tion présents dans les usines(énergie, production, mainte-nance, tarifs fournisseurs, etc.).De plus, le portail collaboratifweb et mobile Energiency resti-

tue, en mode SaaS, des outils de monitoring,d’analyse et de plans d’action de la performance éner-gétique qui sont personnalisés selon les utilisateurs,depuis les opérationnels (opérateurs, chefs de pro-jets) jusqu’aux décideurs (directeurs d’usines,directeurs industriels).

Or un compteur électrique industriel qui mesure laconsommation d’énergie active et réactive en triphasétoutes les dix minutes génère à lui seul au moins 315 360 données par an 1. Une usine peut ainsi posséder jusqu’à 100 compteurs (toutes énergiesconfondues), soit 32 millions de données par an etautant de métadonnées à gérer.

Bien que la plupart des industriels relèvent encore àla main leurs compteurs seulement quelques fois paran, ils doivent d’ores et déjà, à l’image des gestion-naires de réseaux électriquespour les particuliers, se prépa-rer à gérer ce raz-de-marée dedonnées. En finir avec le relevémanuel et fastidieux des don-nées et leur traitement hasardeux sur tableur 2 passeà la fois par le compteur communiquant et par le BigData. Contrairement aux particuliers, le secteur indus-triel concentre peu de consommateurs et beaucoupde données brutes, qui sont souvent inexploitablesseules. En effet, elles doivent être consolidées en continu à une maille de temps utile, puis croiséesavec d’autres systèmes d’information pour faire sens.À titre d’exemple, connaître la part de l’énergie con-sommée par un atelier ou une famille de produits à sasortie d’usine nécessite une comptabilité analytiqueen temps réel que seule l’analyse Big Data peut offrir.

LE BIG DATA AU SERVICE DE L’USINE DU FUTUR

La troisième révolution industrielle liée aux mutationsnumériques des secteurs traditionnels constitue uneexcellente opportunité pour permettre à l’industried’honorer, de manière compétitive, nos besoins expo-nentiels en produits manufacturiers de grandeconsommation. De sorte que,grâce à cette capacité d’analyseintelligente 3, les opportunitésd’innovations dans les servicesde gestion intelligente de l’énergiesemblent illimitées.

L’optimisation tarifaire est unepremière conséquence de l’ac-cès aux données, avec uneestimation prédictive plus justedes courbes de charges à venir.De même, la capacité à anticiperl’arrêt de machines et réaliserainsi de l’effacement électrique diffus en période depointe (là où l’énergie est la plus chère, comme parexemple en hiver ou en fin de journée), allègera signi-ficativement des factures de plus en en plus élevéespour les industriels.

(1) http://www.energiency.com/compteurs(2) http://www.energiency.com/tableur(3) http://www.energiency.com/technologie

Page 50: Livre blanc big data écosystème français

48 Accomex n° 112 - Big Data

Energiency permet ainsi aux industriels dont le pro-cess est très consommateur d’énergie de menereux-mêmes leur projet d’efficacité énergétique. Ilspeuvent alors concrétiser et maintenir dès la premièreannée jusqu’à 20 % d’économies d’énergie sur leur

facture, et ainsi renforcer leur compétitivité écono-mique. Energiency équipera plus de 20 usines en2014, et vise plus de 500 usines connectées en 2016dans toute l’Europe.

Pour en savoir plus : http://www.energiency.com ; @energiency

Page 51: Livre blanc big data écosystème français

l existe de nombreuses perspectives de réutilisations inno-vantes des données publiques de santé. L’analyse des Big

Data de la santé implique plusieurs bénéfices majeurs : prendreen charge le patient de façon optimale (passer d’une logiquecurative à une logique préventive), contenir drastiquement lesdépenses nationales (doublement de la population sénior d’ici2030) et offrir de nouveaux terrains d’analyses et d’expérimen-tations à la communauté de recherche scientifique (dans lessecteurs de l’épidémiologie, des maladies chroniques, de lapharmacovigilance, etc.). À l’heure où la France se refuse de libérer les données de santé de la CNAM, véritable actifnumérique de quelques 450 téraoctets, de nombreuses initiatives riches d’enseignement se développent à l’étranger,des pays européens aux États-Unis en passant par l’Australie, Singapour ou le Canada…

49Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger

Big Data et Santé : enjeux nationauxet illustrations empiriques de l’étranger

I

La CNAM se refuse cependant de libérer ces infor-mations. Or, celles-ci pourraient être d’une grandeutilité : servir à la recherche afin de mieux appré-hender les épidémies, qualifier les prescriptions,jauger l’efficacité des médicaments, recouper desinformations pour prévenir de drames sanitaires oucomparer les frais médicaux. Tous les analystes s’accordent sur le fait qu’une veille sanitaire calquéesur l’analyse des données de la CNAM aurait endiguéà coup sûr le mésusage inapproprié d’un médicamentcomme le Mediator, via le recoupage et la mise en évidence de facteurs de corrélation. On estime lenombre de décès attribuables à des prescriptionsinjustifiées à environ 6 000 par an.

Aujourd’hui, l’efficience de notre système de santé estsacrifiée sur l’autel de l’opacité, ces informationsreprésentant le principal levier de négociations avecles assureurs, les laboratoires, les syndicats profes-sionnels et les industriels. Lever le voile sur l’opacitédu système de la CNAM dévoilerait au grand jour

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

FRANCE : LES ATOUTS ÉVIDENTS D’UNE EXPLOITATION DES DONNÉES DE LA CNAM

La CNAM, un vivier numérique inexploité

Notre modèle de santé se doit de faire mieux avecmoins. Il doit être vecteur d’amélioration du parcoursde soins et doit replacer le citoyen au centre de ce par-cours. Par extension, il doit être challengé de manièrevertueuse en s’appuyant à bon escient sur les outilsd’analyse prédictive et de machine learning. EnFrance, les données de santé sont consolidées par laCNAM 1, qui constitue la base de données la plus étof-fée au monde toutes catégories confondues. Ainsi, leSNIIR-AM 2 retraite et stocke 1,2 milliard de feuilles desoins chaque année, 500 millions d’actes médicauxet 15 millions de séjours hospitaliers d’un peu plus de65 millions d’individus, soit à peu près 20 milliards delignes de prestations depuis 15 ans : un véritable actifnumérique de 450 téraoctets de données…

Matthias [email protected]

Matthias Fille est conseiller en développement de la filièreTIC à la CCI Paris Ile-de-France. À ce titre, il s’intéresse tout particulièrement à l’écosystème du Big Data et del’Analytics et aux startups qui le composent. L’émergence de cette filière, les initiatives et plans d’aide initiés par les pouvoirs publics et associations professionnelles retiennentégalement son attention.

(1) Caisse Nationale d’Assurance Maladie.(2) Système National d’Informations Inter-Régimes de l’Assurance Maladie.

Page 52: Livre blanc big data écosystème français

certaines de ses insuffisances, ainsi que son ineffi-cience à réguler les dépenses de santé et à optimiserle pilotage du système de santé. À titre d’exemple, ilfaut savoir que, jusqu’à peu, l'Institut de VeilleSanitaire n'avait pas accès au SNIIR-AM. Or, l’accès àces datasets permettrait de cerner tous nos excès etdérives, tels que les prescriptions excessives demédicaments placebo 3 et antibiotiques, les dépas-sements d’honoraires, la multiplication des arrêts detravail de complaisance, les fraudes à l’assurancemaladie ou le recours trop systématique à la prescrip-tion « chimique ». Optimisé, l’accès aux données de laCNAM permettrait ainsi de réaliser de forteséconomies, sans toucher à la qualité des soins ; c’estd’ailleurs le combat entrepris par le collectif InitiativeTransparence Santé 4.

Vers une médecine personnalisée et préventive

L’intégration du numérique et l’exploitation de la datacomme outil analytique permettraient de tendre versune médecine personnalisée, granulaire, préventive(donc plus efficace) et moins coûteuse. En effet, notremédecine traditionnelle obéit à des impératifs qui neprennent que trop peu en compte l’environnementmultifactoriel dans lequel évolue le patient au quoti-dien et dérive, de fait, vers des parcours de soins « taylorisés », protocolaires. Il est dénué de sens que deux personnes souf-frant d’une même pathologiereçoivent, selon un protocolede soin standard, un traite-ment identique.

La communauté médicale pourrait tirer profit de l’ana-lyse de ces datas, en appréhendant mieux, à traverscette nouvelle grille de lecture, les rythmes de vie despatients, et en faisant ainsi face, de manière plus efficace, aux risques potentiels auxquels ces dernierssont soumis. C’est en croisant ces datas que la poso-logie, les choix thérapeutiques, la prédisposition oules indicateurs de récidive à certaines maladies chroniques pourraient être mieux adaptés. En effet,en ayant à sa disposition de nouveaux outils d’aide àla décision, basés sur l’empirisme analytique de ladata, le praticien pourrait mieux arbitrer par rapportaux modalités d’intervention, car il lui manqueaujourd’hui une transversalité collaborative et uneinterdisciplinarité de l’analyse des données. Il nes’agit pas seulement de se limiter à un meilleur traite-ment curatif et d’optimiser l’existant, mais biend’explorer de nouveaux horizons préventifs (anticiperde manière prédictive de potentielles pathologies parexemple).

Cela aurait pour conséquence une mutation organisa-tionnelle du système de santé, particulièrement enmatière de processus et de protocoles métier ou d’optimisation des allocations de ressources. Enoutre, ces nouvelles perspectives permettraient deréguler notre consommation médicamenteuse ainsique notre recours systématique aux services d’ur-gence. Notre système se révèlerait plus efficient et à moindre coût pour la société. Cela répondrait, par ailleurs, aux enjeux de proximité, de personna-lisation et de prise en compte de ses spécificités indi-viduelles voulues par le patient.

Le patient : un acteur actif dans la maîtrise de soncapital informationnel

Désormais, le patient est engagé et est devenu générateur volontaire d’un corpus d’informations relatif au domaine de la santé : l’information n’estplus en silos compartimentés ; elle est devenue ubiquitaire. Le patient s’auto-responsabilise, il inter-agit, cherchant à prendre part à l’actif informationnelqu’il génère.

Avec cette vague du Quantified Self 5, il recourt à desappareils connectés en permanence (bracelets,balances intelligentes, tee-shirt enregistrant les batte-ments de cœur, etc.), qui balayent ses comportements

alimentaires, sportifs, seshumeurs, ses habitudes, sonindice de masse corporelleou encore ses performancescognitives. Il s’agit donc devéritables extensions du

système nerveux, potentiellement capables de détec-ter en amont les premiers signes d’une maladie. Cesappareils interconnectés automatisent la collecte dedonnées et font naître un usage spécifique ; sontconcernées des solutions combinant capteursconnectés et applications sur smartphone (Fitbit,NikeFuelband, Jawbone, Withings, etc.), qui permet-tent d’indiquer la vitesse, la distance, les caloriesbrulées, le rythme cardiaque, la pression artérielle, ouencore les cycles du sommeil.

Les flux d’informations de ces little data, transmis entemps réel aux praticiens, pourraient modifier en profondeur la compréhension du mode de vie d’unpatient, ainsi que celle des maladies chroniques. Nuldoute que cela améliorait la réponse de la santépublique. Il paraît en effet absurde d’être le payschampion des objets connectés (Netatmo, Withings,Parrot, etc.) et de ne pas être en mesure de l’expéri-menter à grande échelle, en matière de santépublique.

50 Accomex n° 112 - Big Data

(3) Médicaments sans effet pharmacologique démontré dans la pathologie considérée.(4) Initiative Transparence Santé est un collectif d'acteurs œuvrant dans le domaine de la santé qui réclame l'accès aux données publiques relatives ànotre système de soins (http://www.opendatasante.com).(5) Le Quantified Self est un mouvement qui regroupe les outils, les principes et les méthodes permettant à chacun de mesurer ses données personnelles, deles analyser et de les partager. Les outils du Quantified Self peuvent être des objets connectés, des applications mobiles ou des applications web.

“Désormais, le patient est engagéet générateur volontaire d’uncorpus d’informations relatif audomaine de la santé”.

Page 53: Livre blanc big data écosystème français

Par ailleurs, le patient exige de la transparence (sur les tarifs médicaux ou les dépassements d’honoraires par exemple). Il est demandeur etconsommateur d’applications et de services de réutilisation innovants, lui permettant de mieux arbi-trer et appréhender son accès au parcours de soins. Ilconvient donc de recentrer le patient au cœur de laplate-forme de santé, via la data, le laisser accéder àses données et en reprendre le contrôle. Pourquoimême ne pas imaginer que le patient lègue volontaire-ment sa banque de données numériques à larecherche, plutôt que la CNAM en soit la gardienne ?Mais cela nécessite l’obtention de données objectives…Il est donc grand temps, pour le système de santé, d’appréhender cette nouvelle rupture de paradigme, oùle patient n’est plus considéré comme un simple admi-nistré : cette relation au patient passif est révolue.

L’Open Data : un outil au service de la recherche

Les données de santé sont fondamentales pour produire de la connaissance scientifique et de larecherche avancée. La possibilité d’avoir accès à cesdatasets permettrait des études cliniques à grandeéchelle en matière d’épidémiologie, de pharmaco-vigilance et d’effets secondaires d’un traitement. Lestravaux de la communauté scientifique nécessitentdes études plus innovantes dans leurs approchesméthodologiques que celles des essais cliniques classiques.

C’est ce qui est appelé à se manifester dans la dimen-sion participative et contributive de la recherche dedemain, où les données des patients s’enrichiront lesunes par rapport aux autres en vue d’un bénéfice socié-tal. De plus, le format de travail Open Datapermet de connecter en réseau les communautés, defédérer les expertises et ainsi de court-circuiter lesrouages de fonctionnement cloisonnés et corporatistes.

Ces données représentent un fabuleux terrain d’expé-rimentation pour la recherche approfondie : l’étude à l’échelle d’une population ou sur une couche depopulation précise permettrait de nouveaux anglesd’approches sur les diagnostics et la connaissancemaladie. Cela est notamment le cas lorsqu’il s’agit decroiser les corrélations entre le patrimoine génétiqueet certaines maladies telles que le cancer (phénotype)dans l’objectif de rechercher des signaux rares.L’étude de fonctionnement de la génomique et la protéomique, à l’heure de l’Open Data massif, permet-trait de mieux anticiper les évolutions d’une maladie.Après l'effondrement du coût du séquençage ADN,l'enjeu majeur porte désormais sur la capacité àexploiter les données génomiques.

À L’ÉTRANGER, DE NOMBREUSES INITIATIVES DERECHERCHE ET D’APPLICATIONS

La réflexion nationale doit se nourrir des expérimenta-tions réalisées à l’étranger : des pays européens auxÉtats-Unis en passant par l’Australie, Singapour ou leCanada, les illustrations sont nombreuses.

En Italie, les autorités publiques se sont attaquées à la fraude à l’assurance maladie : le croisementautomatique des données de l’assurance maladieavec celles disponibles en libre accès sur les réseauxsociaux permet d’identifier les arrêts maladie suscep-tibles d’être frauduleux du fait de leur date ou de leurrécurrence.

En Australie, de très nombreuses informations relatives au système de santé sont mises en ligne,comme par exemple sur My Hospitals, qui permet decomparer la performance des hôpitaux : d’une donnéelibérée est né un usage…

Au Royaume-Uni, l’institut pour les Données Ouvertes(ODI) 6 a mis à disposition les Open Data de santé dèsdécembre 2012. Lancé par Sir Tim Berners-Lee,inventeur du World Wide Web, et Dr. Nigel Shadbolt,spécialiste du Web Sémantique, membre duGovernment Transparency Board et du gouvernementde David Cameron, l’ODI vise à « la collaboration entreles entreprises, les entrepreneurs, les chercheurs, l’État et la société civile, pour concrétiser la promessede valeur économique et sociale liée aux grandesquantités de données publiques désormais acces-sibles à tous et réutilisables par chacun ».

Le National Cancer Registration Service a, lui, mis aupoint une giga base de données, unique, extrême-ment fournie en matière de diagnostics et detraitements du cancer. Il consolide les données : diag-nostics, réactions au traitement, premiers soins,traitements, suivi quotidien, résultats, soins palliatifs.Cette base de données est enrichie de 11 millionsd'enregistrements sur le cancer et s'agrandit tous lesans avec 350 000 nouveaux cas de tumeurs. Sesalgorithmes produisent des analyses prédictives sur la manière dont les patients réagissent aux traite-ments. Les informations relatives à la progression dudiagnostic et de la maladie sont reliées aux analysesmoléculaires et génomiques du patient.

Toujours au Royaume-Uni, le Département de la Santéa demandé aux médecins d’encourager leurs patientsà avoir recours à des applications mobiles (homo-loguées et gratuites) pour suivre leurs signes vitaux etleurs symptômes dans toutes sortes de situations,afin de réduire le nombre de consultations.

51Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

(6) Open Data Institute : organisme à but non lucratif dédié à l’ouverture des données publiques.

Page 54: Livre blanc big data écosystème français

L’intensification des transmissions de ces donnéesaméliore également les prises en charge ultérieures.

Au Canada, a été lancé dès 2000, Génome Canada 7,qui a permis le financement de projets innovants deBig Data génomique. Citons aussi par exemple l’entre-prise GenePOC, qui a mis au point un disque compactde diagnostic utilisant des tests à base d’ADN, ou BD Diagnostic GeneOhm, une société de diagnosticmoléculaire qui se classe au premier rang mondialparmi les développeurs de tests rapides visant àdétecter et à identifier une variété d’agents infectieuxet de variations génétiques.

Aux États-Unis, des projets de recherche connexes ont généré 67 milliards de dollars pour l’économieaméricaine, 20 milliards de dollars en revenus et 310 000 emplois. En outre, le projet CATCH du MITcroise génétique et analyse passive des comporte-ments des patients atteints de diabète. Ainsi, en plusdes informations médicales classiques sur lespatients, une équipe recueille et analyse les informa-tions comportementales, la géolocalisation decelles-ci ou encore les habitudes de vie transmisespar leurs téléphones.

Les États-Unis ont également usé de procédés algo-rithmiques afin de procéder à des essais sur deséchantillons cliniques plusgrands, faisant ainsi émergerdes tendances qui n’auraientpas été imaginées à l’avance.Par exemple, en 2009, enpleine pandémie de grippeH1N1, le ministère américain a eu recours aux ser-vices de Google. Via la collecte et la localisation desrecherches mots clés et données relatives, Google apu anticiper l’évolution de l’épidémie et décliner celaà travers l’indicateur Google Flu Trends, pour fourniren prédictif des indicateurs de propagation de lagrippe.

Enfin, la société américaine Qualcomm, historique-ment spécialisée dans la conception de processeurspour téléphones portables, vient de lancer 2netMobile, une application grand public sous Android quipermet d’agréger sur smartphones et tablettes desdonnées cliniques (médicales et biométriques) trans-mises par les capteurs de multiples dispositifsmédicaux. Cette application fait écho à son produitd’infrastructure hub2net qui, lui, répond au suivi à domicile des patients atteints de maladieschroniques.

À Singapour, les apports de l’analyse prédictive s’appliquent à la politique organisationnelle de soins,

afin de mieux industrialiser les processus métiers : lesdonnées relatives aux patients réadmis dans l’hôpitalà plus de deux reprises dans un intervalle de six moissont analysées et servent à l’élaboration d’un modèleprédictif. Celui-ci permet d’anticiper la demande desoins un mois à l’avance, notamment celle despatients qui souffrent de maladies chroniques.L’hôpital affecte ainsi ses ressources avec davantaged’efficacité et améliore l’expérience du patient aucours de son parcours de soins.

En Norvège, l’information est utilisée pour favoriserune meilleure coordination des services de santé et,in fine, une meilleure prise en charge du patient : lesmunicipalités fluidifient l’accès à l’information via lesécrans tactiles de services et l’accès aux informationsde services de santé. Ces écrans équipent les sallesd’infirmières en ville et affichent l’état des chambresou le nombre de patients en attente.

En Europe, mentionnons le projet européen Sim-e-Child appliqué à la cardiologie pédiatrique : cetteplate-forme cloud permet aux praticiens de valider denouveaux modèles de simulation concernant lespathologies cardiaques complexes ; elle contribue à s'affranchir des infrastructures lourdes et des contraintes propriétaires des systèmes d'information.Les cardiologues peuvent ainsi requêter une énorme

base de données, croiser les datas et obtenir des rendus statistiques. La plate-forme pourrait même seconvertir en outil d’aide à ladécision médicale : qualifier

plus facilement le diagnostic des patients et consulterdes cas de référence ; un modèle déclinable pourtoutes sortes de pathologies.

Au Rwanda, la startup Foyo 8 s’appuie sur le vaste parcmobile du pays 9 pour toucher le plus grand nombre de patients. L’application de Foyo propose auxpatients de s'abonner afin de recevoir tous les joursun SMS leur préconisant un régime équilibré et adapté à leur maladie (cancer, problèmes cardia-ques, diabète, obésité, sida et hépatites). Le voletparticipatif s’enrichit par leur plate-forme m-Healthd’échanges entre patients et praticiens.

Au Japon, saluons le prototype de canne intelligenteconnectée de Fujistu : tout individu est géo-localisé enpermanence et peut télécharger son itinéraire. Descapteurs de température et d’humidité permettentd’évaluer un changement météo et de modifier sonitinéraire pour le mettre à l’abri si nécessaire. Lacanne intègre également un capteur de fréquencecardiaque.

Accomex n° 112 - Big Data52

(7) Génome Canada : Agence de financement de projets de recherche en génomique.(8) Lauréate du concours SSW de Kigali.(9) 62,8 % de la population rwandaise utilise le téléphone mobile.

“Le bénéfice d’une ouverture desdonnées de santé est indéniable.L’éviter relèverait d’un certaindéni de réalité”.

Page 55: Livre blanc big data écosystème français

L’ONU, quant à elle, via le projet Global Pulse, analyseà un niveau microéconomique les flux migratoires, la nature des intégrations sur les réseaux sociaux, les pics soudains d’achats de denrée alimentaire /médicamenteuse. Ce projet a pour ambitiond’analyser ces éléments en temps réel, dans unelogique prédictive, pour mieux appréhender lesdrames humanitaires, crises alimentaires ouépidémies. Comme le souligne Henri Verdier, directeurd’Etalab : « La plupart des actions de l'ONU ont besoin de données fiables, actionnables, et obtenuesdans un délai très court. Puisque désormais, l'em-preinte de presque toutes les activités humaines etl’implication sociétale sont imprimées et géo-localis-ables dans les réseaux numériques, il devient donctrès tentant d'aller chercher, dans ces donnéesouvertes et anonymisées, les éléments de décisiondont l'organisation a besoin ».

Enfin, Twitter s’intéresserait désormais à la dépres-sion, fléau sanitaire du 21ème siècle, après avoir étudiéla progression de la gastro-entérite : une véritablecréation de valeur quand onsait que la France détient letriste record de consomma-tion de médicamentspsychotropes… Le croisement de données permetainsi d’appréhender des phénomènes imperceptibleset d’améliorer la pharmacovigilance : le requêtage,sur Google, de patients consommant du paroxetine etpravastin, a permis de comprendre que cela augmen-tait les risques d’hyperglycémie. Faute d’une positionvolontariste de la CNAM, ce sont aujourd’hui les pure-players de la data (Google, Twitter, etc.) qui participentà la veille épidémiologique via les analyses de signaux. Ils pourraient aussi, à terme, s’intermédierentre le citoyen et les praticiens et monétiser cetteconnaissance patients…

CONCLUSION

D’une façon générale, les pouvoirs publics n’ont pasencore suffisamment réalisé leur transition vers lenumérique et la data dans le domaine de la santé,aussi bien en ce qui concerne les nouveaux usagesque les compétences métiers ou les infrastructures.

Dans les pays les plus précurseurs, le ratio de person-nel informatique est de 2 %, soit un spécialiste de l'ITpour 50 hospitaliers… En France, ce ratio atteintpéniblement 0,4 %. Exprimés en données brutes, cesécarts se traduisent en dizaines de milliers d'emplois(par exemple 25 000 en Angleterre contre 5 000 enFrance). Quant aux infrastructures, le taux des hôpi-taux raccordés aux réseaux haut débit (>100Mbps)est catastrophique : la France se situe à la 25ème placedu classement du continent européen ; elle est avant-dernière en termes de disponibilité de systèmed’archivage numérique d’images médicales, 16ème

pour le déploiement de la télémédecine…

Le bénéfice d’une ouverture des données de santéest indéniable. L’éviter relèverait d’un certain déni deréalité ou d’un obscurantisme à l’innovation et au progrès scientifique. Il est regrettable de constaterque de plus en plus d’acteurs publics et de collec-tivités libèrent leurs données quand, dans le mêmetemps, la CNAM conserve une position traditionnelle

et sclérosante. Certes, lacrispation est légitime face à la menace d’une utilisationfrauduleuse de ces données.Mais il revient aux pouvoirspublics de mettre en place un

cadre de confiance et d’éthique qui jugulerait lesdérives, garantirait l’anonymisation des données etlibérait l’innovation ainsi que la création de valeur.

Tous les éléments convergent : la maturité des tech-nologies d’exploitation de Big Data, l’interconnexiondu patient qui fait de lui un générateur d’information,l’exigence de transparence et de personnalisation,etc., et démontrent que les nouveaux usages nedemandent qu’à émerger. Il est ainsi grand temps delibérer ces Big data. À l’heure où notre système d’accès aux soins se dégrade, où la santé à deuxvitesses se confirme, où le financement dérape, l’inté-gration des technologies d’exploitation de la datareprésente un formidable levier de modernisationstructurelle qui ne se discute plus. De nouveauxchamps disciplinaires verraient ainsi le jour, mais toutcela reste conditionné au principe du droit à l’expéri-mentation.

53Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

“L’intégration des technologiesd’exploitation de la datareprésente un formidable levierde modernisation structurelle”.

Page 56: Livre blanc big data écosystème français

Pour aller plus loin

Accomex n° 112 - Big Data54

Sur la toile...

è United Nations Global Pulsehttp://www.unglobalpulse.org

è Commission européenne : Digital Agenda for Europehttp://ec.europa.eu/digital-agenda/en/making-big-data-work-europe-0

è Etalab - Plateforme ouverte des données publiques françaises http://www.data.gouv.fr

è Alliance Big Data - Le portail du Big Datahttp://www.alliancebigdata.com

è AFDEL - Association Française des Éditeurs de Logiciels et Solutions Internethttp://www.afdel.fr

è L’USINE digitale - Quand le numérique réinvente l’industriehttp://www.usine-digitale.fr/cloud-et-data

è The online Big Data knowledge plateformhttp://www.bigdata-startups.com

Lecture approfondie...

è Cigref (2013), Big Data : la vision des grandes entreprises, octobre.

è Brasseur C. (2013), Enjeux et usages du Big Data : technologies, méthodes et mise en œuvre, Paris, Lavoisier, avril.

è Mayer-Schönberger V., Cukier K. (2013), Big Data: A Revolution That Will Transform How We Live, Work, and Think, Copyrighted Material, 5 mars.

è Nieuwbourg P. (2013), Big Data : enjeux stratégiques & études de cas, janvier.

è World Economic Forum (2012), Big Data, Big impact: New Possibilites for International Development.

è IBM (2013/2014), Guide du Big Data - L'annuaire de référence à destination des utilisateurs.

è Commission Innovation, sous la Présidence d’Anne Lauvergeon (2013), « Un principe et sept ambitions pour l’innovation », Rapport.

è Commissariat général à la stratégie et la prospective (2013), « Analyse des Big Data : quels usages, quels défis ? », La note d’analyse n° 08, novembre.

è Tata Consultancy Services - TCS (2013), « The Emerging Big Returns on Big Data », a TCS 2013 GlobalTrend Study.

è Levallois-Barth C. (2013), « Big Data et protection des données personnelles : un défi quasi impossible ? »,Télécom n°169, juillet.

è Meunier C. (2012) « Big Data index France EMC/IDC », Livre blanc, septembre.

Page 57: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Pour aller plus loin (suite)

55

Dans la presse...

è De Montcheuil Yves (2014), « Quand les Big Data créent de nouveaux business models », La Tribune, 7 avril.

è Lévy-Lang André, Lasry Jean-Michel (2014), « Le "Big Data" et les atouts français », Les Échos, 20 mars.

è David Forest David (2014), « Big data : le cadre juridique existe », L'Usine Nouvelle n° 3359, 9 janvier.

è Caulier Sophy (2013), « La montée en puissance de la Datamasse », Le Monde, 10 décembre.

è Vittori J-M. (2013), « Big Data, troisième étape de la révolution de l’information », Les Échos, 27 novembre.

è Cassini S., Hecketsweiler C., Michel A. (2013), « Dix secteurs bouleversés par le déluge d'informations »,Le Monde, 15 octobre.

è Belliard D. (2013), « Big Data, le nouvel Eldorado d'Internet », Alternatives Économiques n° 327, septembre.

è Dauvergne G. (2013), « Big Data : de formidables opportunités professionnelles », Les Échos, 15 avril.

è Belouezzae S., Ducourtieux C. (2012), « Vertigineux Big Data », Le Monde, 26 décembre.

è Groupement français de l’industrie de l’information - GFII (2012), « Big Data : exploiter des grands volumes de données : quels enjeux pour les acteurs du marché de l’information et de la connaissance ? »,Dossier de synthèse de la journée d’étude du GFII, 3 juillet.

è Yiu C. (2012), « The Big Data Opportunity: Making Government Faster, Smarter and More Personal », Policy Exchange Report, juillet.

è TechAmerica Foundation (2012), « Demystifying Big Data: A Practical Guide to transforming The Business of Government », Report.

è Mckinsey Global Institute (2011), « Big Data: The next frontier for innovation, competition and productivity », rapport, juin.

Page 58: Livre blanc big data écosystème français

56 Accomex n° 112 - Big Data““±

La vraie rupture vient du fait que l’on passe de la Business Intelligence à

une logique prédictive

Questions à... Florian Douetteau, Chief Executive Officer de Dataiku

Je travaille dans le domaine de la data depuis à peu près 12 ans. J’ai commencé commestagiaire fondateur chez Exalead 1. J’y suis resté pendant 10 ans en tant que DirecteurTechnique (CTO), avec des responsabilités telles que la définition de la stratégie produit,le pilotage d’une équipe de 55 ingénieurs R&D et la réalisation des versions successivesdu produit. Je suis parti lors de la cession de l’entreprise à Dassault Systèmes en 2010.J’ai ensuite été CTO d’une société de Social Gaming (IsCool Entertainement) au sein delaquelle j’analysais les raisons pour lesquelles les joueurs acceptent ou non de payer,en mesurant notamment l'influence des nouvelles fonctions d'un jeu ou celle des com-munautés. J’ai également été Data Scientist chez Criteo, en tant que consultant auprèsde la direction technique. Au fil de ce parcours, j’ai donc découvert le monde merveilleuxde la data !”

“Pouvez-vous vous présenter en quelques mots ?

Big Data est un terme en vogue en ce moment ; pouvez-vous nous en donner votre définition ?

Je définirai en 1er lieu le Big Data comme une émergence de flux de données que l’onest amené à manipuler pour créer de la valeur. Cette émergence est due à la digitalisa-tion de l’univers. « Big » est entre guillements, parce que la donnée n’a pas besoin d’être« grosse ». « Datas » est au pluriel pour moi, car la plupart des projets qui portent de lavaleur consistent à créer des liens entre des données que l’on n’avait pas imaginé d’em-blée ou que l’on ne pouvait pas relier auparavant.”

“Selon vous, dans quelle mesure le Big data représente-t-il une rupture de paradigme ?

Ill y a selon moi deux types de ruptures majeures. Paradoxalement, je dirai que ce n’estpas le volume, car faire des analyses de données sur des volumes à l’échelle dequelques dizaines de téraoctets, c’était déjà une réalité dans le domaine de la financeou de l’assurance. Aux États-Unis, des acteurs manipulent même du petabyte, enEurope relativement peu.

La vraie rupture vient plutôt du fait que l’on passe de la Business Intelligence à unelogique prédictive, que l’on change fondamentalement les processus métier. Certainsleviers de décisions, non identifiés jusque-là, sont parfois suggérés par l’apprentissage

(1) Exalead est un éditeur de logiciels, leader français des technologies de moteur de recherche basées sur les usages en entreprise et appartenant augroupe Dassault Systèmes.

Page 59: Livre blanc big data écosystème français

57La vraie rupture vient du fait que l’on passe de la Business Intelligence à une logique prédictive

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Chez Dataiku, nous sommes quatre cofondateurs avec des profils différents (business,statisticien, technologies de l’information) et provenant de métiers différents : biologie,marketing en ligne et grande distribution. C’est dans ces différents métiers et au coursde nos expériences respectives que nous avons réalisé la difficulté qu’il y a à répondreà la promesse du Big Data dans les entreprises : les entreprises ne savent pas par oùcommencer…

Les nombreuses technologies open source disponibles pour analyser l'information per-mettent rarement son exploitation au quotidien, et mieux vaut être polyglotte du point devue des technologies, c’est-à-dire pouvoir choisir la meilleure technologie - Open Sourceou propriétaire - par rapport à son besoin. Dois-je faire du SQL (Structured QueryLanguage) ou du NoSQL (Not only SQL) ? Dois-je faire de l’Hadoop 2 ou du fichier ?Python ou R 3 ?

En outre, le Big Data touche plusieurs métiers dans l’entreprise, de l’informaticien quitravaille sur la donnée d’un point de vue de la programmation au marketeur et à l’ana-lyste. Ces personnes perdent un temps considérable à nettoyer des fichiers, à essayerde comprendre les causes ou de faire des prévisions avec des outils qui ne sont plusadaptés à l’univers Web et Big Data. Plus concrètement, nous avons senti un fort besoind’outillage de tous les nouveaux acteurs qui veulent fabriquer des applications Big dataet prédictives appliquées à l’apprentissage automatique pour leur métier.

Ill faut également savoir qu’il existe plusieurs stratégies de traitement du Big data selonles entreprises : soit via des partenaires qui vont traiter la donnée et la valoriser pourune meilleure utilisation ; soit - et c’est la stratégie que Dataiku promeut - via la mise enplace d’un datalab interne, le client créant alors sa propre stratégie de structure de compréhension de données. Dans ces « datalabs », des spécialistes de la data et de laproblématique métier collaborent pour fabriquer de nouveaux services à partir de la donnée.”

“Comment l’idée de créer Dataiku a-t-elle émergé ? Et quelles difficultés relatives au Big data avez-vous identifiées dans les entreprises ?

Quelles réponses Dataiku apporte aux entreprises ?

Chez Dataiku, nous avons fait le pari de l’évolution des métiers de la donnée face à laquantité croissante de données et à la nécessité d’internaliser plus de data pour faire descroisements, dégager de la valeur et industrialiser ce type de levier de décision. En réalité, générer plus de production et chercher à bénéficier d’avantages compétitifs sur ladonnée, cela existe effectivement dans les entreprises ; aux États-Unis, un acteur commeWall Mart a, dès les années 1990, eu recours à l’usage et à l’analyse de la data afin degénérer des taux de croissance à deux chiffres là où ses compétiteurs stagnaient.

Nous avons donc créé un outil qui simplifie la tâche de tous ceux qui, dans l’entreprise,doivent travailler la donnée. Il s’agit en fait de lever des verrous technologiques : nettoyer la donnée, intégrer des données brutes, industrialiser les projets à l’échelle Big Data et utiliser des technologies prédictives.

Pour faire simple, disons que Dataiku est un logiciel d’analyse de données qui aide, trèsvisuellement, à préparer, canaliser et faire des prédictions à partir de gros volumes dedonnées. Une interface simple permet de traiter les données et de les rendre intel-

automatique ainsi que par les machines elles-mêmes. Cela change donc la manière detravailler. Deuxième aspect : se greffe à cette logique prédictive une logique de prise dedécision en temps réel, pour laquelle des services qui personnalisent une offre sontcréés. Cela change radicalement la manière de concevoir des projets en entreprise.”

(1) Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables.(2) Langages de programmation informatique.

Page 60: Livre blanc big data écosystème français

58 Accomex n° 112 - Big Data

ligibles, via des probabilités d’achat ou de clics par produits. Notre studio intègre etanalyse des données externes, des données brutes ou « sales », qui sont souventsources de valeur. Grâce au Studio, nos clients peuvent fabriquer des applications pré-dictives plus rapidement et plus efficacement.

À l’arrivée, l’entreprise peut mieux cerner ses clients et leurs habitudes d’achat ; ellepeut alors développer des opérations marketing ciblées ou prendre des décisionsstratégiques en termes de profitabilité, comme mettre en avant les produits quigénéreront le plus de marge, plutôt que d’afficher un top 15 des ventes.”

A qui s’adressent plus précisément vos solutions ?

Nos verticaux sont, pour les ¾ d’entre eux, des pure players du web, notamment des e-commerçants, des éditeurs de contenus, des publishers, des régies publicitaires.Aujourd’hui, nombre d’entreprises sont conscientes de disposer d’un actif précieux avecleurs données. Elles s’interrogent sur la transformation de leur business model via ladata, afin d’offrir des services online, de la mobilité, de nouvelles initiatives commer-ciales et marketing corrélées à la performance induite par la donnée. Ces entreprisesobservent assidument les acteurs, souvent américains qui, les premiers, ont opéré cettemutation. L’enjeu est de comprendre quels sont les leviers de performance, afin dedévelopper toutes les applications qui en découlent pour mieux industrialiser et opti-miser leur offre de service.”

Pouvez-vous nous donner un exemple d’application sur lesquelles vous travaillez ?

Avec Arkeon, acteur historique des parcmètres (ils disposent de plus de la moitié du parcmondial), nous travaillons sur l’analyse de leurs données afin de concevoir de nouveauxservices autour du stationnement « intelligent » et du trafic au sens large. Mais on peutégalement utiliser le Big Data pour guider les automobilistes vers les rues où ils sont le plus susceptibles de trouver une place de parking : l’application tient compte de laprobabilité qu’une place de parking se libère et de l’attractivité des commerces.”

C’est une application que nous sommes en train de développer pour la ville de New-York. La démarche est très intéressante car il ne s’agit pas uniquement d’optimiser unbusiness model existant, mais bien de créer de nouveaux business model via la data.L’enjeu est fort pour la « ville intelligente » : comprendre, via ces technologies, quellescorrélations permettent d’améliorer les problématiques du stationnement ou de la ges-tion du trafic. Avant le Big Data, ce type d’analyse correspondait à des questionsscientifiques de modélisation urbaine. Avec les nouvelles technologies, nous nous orien-tons de plus en plus vers des applications concrètes, mobiles, qui font naître denouveaux usages.”

En quoi la Data Science apporte-t-elle une nouvelle réponse au secteur du e-commerce ?

Le succès de la vente en ligne induit des volumes de données importants (les visites,les clics, les parcours clients, les abandons de panier, etc.), qui laissent bien souvent lese-commerçants démunis quant à l’exploitation à en faire : comment traiter, comprendre,analyser et utiliser toutes ces informations pour améliorer leur offre ? Quels produitsmettre en avant ? Quelles promotions mettre en place et à quel moment ? Le machinelearning peut apporter des réponses à ces questions : un ordinateur apprend, grâce àl'analyse de gros volumes d'informations, pour en déduire des tendances ou des règlessur les comportements d’achat par exemple. C’est une technologie prédictive dans lamesure où les règles déduites permettent de prévoir un comportement en fonction desprofils utilisateurs qui auront été établis.

Page 61: Livre blanc big data écosystème français

59La vraie rupture vient du fait que l’on passe de la Business Intelligence à une logique prédictive

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

Il faut avant tout se poser les bonnes questions : qu’est-ce qu’un produit qui se vend lemieux ? Est-ce le produit qui, dans l’absolu, génère le plus de chiffre d'affaires ? Le pro-duit qui a le meilleur taux de transformation ? Faut-il seulement vendre le produit quigénère le plus de chiffre d’affaires ? Les produits ne sont jamais indépendants les unsdes autres, les taux de marge pendant la durée de vie d’un produit fluctuent, le com-portement d’achat évolue en saisonnalité, des éléments externes rendent hétérogène lecomportement des acheteurs entre eux, etc. Il s’agit donc de détecter les facteurs quipermettent de mieux cibler l’envie d’un client pour ne lui proposer que les produits qu’ilest vraiment susceptible d’apprécier.

L’aspect « apprentissage automatique » du machine learning consiste ainsi à laisser lamachine apprendre qu’un visiteur du site, qui a acheté précédemment un futon parexemple, préférerait qu’on lui suggère, dans le rayon livres de voyages, des ouvrages surle Japon. Voilà donc l’atout de l’analyse prédictive : l'automatisation de l'analyse de grosvolumes de données appliquée à de nombreuses hypothèses.”

Quel regard portez-vous sur les États-Unis ? Y observez-vous des initiatives intéressantes ?

Nous avons eu l’occasion d’aller aux États-Unis à plusieurs reprises pour y prendre lepouls de l’écosystème de la data, challenger notre proposition de valeur ou présenternotre solution, comme lors de la O’Reilly Strata Conference à New-York. C’est de toute évidence un marché que l’on regarde de très près car les puits de données sont là-bas !

Les initiatives y sont nombreuses également ! Je suis notamment attentif à celle de PlanetLabs. Cette société, fondée par des anciens de la Nasa, met à disposition de tous desimages satellites de la Terre fréquemment actualisées. Concrètement, ils mettent enorbite des mini-satellites (10 cm3) qui envoient régulièrement des images des quatrecoins de la Terre et comptent ainsi observer des phénomènes comme la déforestation, lapollution, les problèmes agricoles, etc., avec une certaine granularité : l’image satellitaireoffre en effet une définition telle que l’on doit distinguer chaque arbre !

Via des interfaces de programmation, l’accès aux datas est très ouvert aux États-Unis, cequi permet à une communauté de développeurs de plugger leurs applications d’analy-tique. Ces développeurs seront en mesure d'innover par la data et de créer de nouveauxoutils que nous aurions difficilement pu concevoir sans récolter ce type de data.”

Quelle perception avez-vous de l’écosystème français du Big Data ? Et de l’enseignement ?

Je perçois cet écosystème comme assez foisonnant, croissant et dynamique. Il y aquelques acteurs très intéressants, des startups très innovantes qui tirent parti de notreculture d’ingénieur. Ces startups ont une vraie capacité à innover grâce à cette culturemixte mathématique/ingénierie et de vraies compétences en local ; il est très intéressantde tirer parti de l’écosystème français pour concevoir son produit.

En ce qui concerne l’enseignement en France, je trouve que le cloisonnement est tropgrand entre les différents enseignements, et que la statistique intervient trop tard dansle cursus universitaire… Nous excellons dans les domaines théoriques comme l’algèbreou l’analyse, mais alors qu’aux États-Unis la statistique est enseignée de manière trèspratique, dès le début des cursus, en France elle intervient trop tard dans les cycles uni-versitaires. Heureusement cela commence à changer !

Le Big Data exige, en effet, des profils d’analystes aux multiples compétences. Celatouche à la statistique, à l’informatique, à la programmation algorithmique, au design, àla sémantique, à la linguistique, au machine learning ou encore à la visualisation de données. Le Data Scientist doit donc être avant tout un Data Cleaner ! Mais il doit aussitrouver des solutions aux problèmes générés par une plateforme Hadoop : on ne compte

Page 62: Livre blanc big data écosystème français

60 Accomex n° 112 - Big Data

plus le temps perdu à attendre qu’une tâche confiée à Hadoop soit terminée… On necompte plus non plus le temps perdu à essayer de récupérer les données éparpilléeschez les différents partenaires de l’entreprise, comme ses prestataires en communi-cation par exemple. Dataiku peut répondre à ces difficultés.”

Quels sont les projets en cours de Dataiku ?

Nous avons travaillé notre produit en version bêta pendant neuf mois, en collaborant avecde grands groupes clients pour affiner notre solution et répondre à leurs problématiquesmétier : associer le client et notre écosystème dans la conception de notre plate-formeest un élément clé pour disposer d’un retour de notre communauté. Ces « bêta utilisa-teurs » sont aujourd’hui nos meilleurs avocats pourimposer notre plate-forme comme le prochain stan-dard de marché.

Nous allons désormais axer nos efforts sur le dévelop-pement commercial et l’évolution du produit.Dataiku a, en effet, offi- ciellement annoncé ladisponibilité de la plate- forme data ScienceStudio fin février 2014, à l’occasion d’une manifes-tation de notre incubateur Agoranov, en présence de la Ministre Fleur Pellerin. Notreproduit suscite reconnaissance et enthousiasme de la part de nos pairs (prix remisrécemment par Bertrand Diard, co-fondateur de Talend, lors de Big Data Expo), ce quirécompense le positionnement et l’excellence de notre solution après une grosse première année d’existence : c’est de très bon augure ! Notre objectif est, en effet, dedevenir le standard du marché car notre marché est global et la prime au leaderextrêmement élevée”.

Interview réalisée par Mathias Fille

Pour en savoir plus : http://www.dataiku.com ; @dataiku ; @fdouetteau

Page 63: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

61Les Entreprises face aux risques du Big Data - Les enjeux sécuritaires

Dans quelle mesure le Big Data transforme-t-il la problématique de la sécurité en

entreprise ?

Il convient en premier lieu de définir ce que l’onnomme Big Data, car cela peut être sujet à débat.

Ainsi, entend-on par Big Data « l’ensemble des don-nées à la disposition de l’entreprise et situées àl’intérieure de celle-ci » ? Ou parle-t-on d’unphénomène plus global, comprenant les donnéeségalement présentes à l’extérieur de l’entreprise ?Certains professionnels vont même jusqu’à définir leBig Data comme « l’ensemble des données mises à ladisposition de l’entreprise en propre mais aussi à travers ses consultants ».

Personnellement, je pars du principe qu’il faut limiterla définition à « l’ensemble des données qui appar-tiennent à l’entreprise, qu’elles soient détenues enpropre ou par le biais d’un contrat quelconque et dontla masse atteint un seuil critique les rendant difficilesà traiter de manière conventionnelle ». De cette façon,même si ces données appartiennent à un sous-traitant, elles sont à la disposition de l’entreprise prin-cipale.

À titre d’exemple, des architectes qui travaillent pourvotre entreprise, qui en dessinent les plans, disposentde données sensibles, stockées sur les bases de don-

nées de leur propre société. Ces données ne vousappartiennent donc pas encore… Or, qu’elles soientdéjà en votre possession ou qu’elles le deviennentplus tard ne modifie en rien la problématique de sécu-rité de l’entreprise principale. En effet, ces donnéesprocèdent de la sécurité de votre entreprise, puisquesi ces plans sont amenés à disparaître ou à être volés,vous en subirez les nuisances tout autant que l’entre-prise sous-traitante.

En conséquence, votre entreprise va se retrouver,dans la pratique, confrontée à deux types de situa-tions : il s’agira soit de gérer les masses de donnéesen interne, soit de les faire gérer à l’extérieur, en ayantrecours à une entreprise de cloud-computing. Voilàdonc l’une des toutes premières questions qu’uneentreprise doit se poser.

Mais lorsque les services de cloud-computing sont externalisés, les enjeux sécuritaires ne sont-ils pas plusdifficiles à gérer ?

En effet, les enjeux deviennent plus difficile car, pouravoir la maîtrise de ces données, il faut savoir où ellesse trouvent ! Et si elles sont détenues dans un lieuextérieur, l’entreprise s’expose à davantage derisques. Ces risques peuvent être classés en quatretypes :

Les Entreprises face aux risques duBig Data - Les enjeux sécuritaires

Questions à… Christian Aghroum, Administrateur et Président de lacommission « Sécurité Numérique » du Club des Directeurs de Sécuritédes Entreprises 1

(1) Propos recueillis par Victor Mourer, Assistant de Rédaction auprès de la revue Accomex.

Page 64: Livre blanc big data écosystème français

62

è Le premier porte sur l’intégrité des données, celles-ci ne devant être modifiées d’une quelconquemanière, volontaire ou fortuite. Cet enjeu sécuritaireconcerne donc la transmission des données, qui doitpasser par le biais de liens sécurisés. Ainsi, enmatière de cloud-computing, l’entreprise travaillantavec un acteur extérieur, elle se doit d’assurer et devérifier en permanence l’intégrité et la viabilité de sesdonnées. Dans le cas contraire, les risques qui pèse-raient sur l’entreprise seraient beaucoup trop grands.

è Ensuite, il faut que les données soient immédiate-ment disponibles. Cela signifie que le système doitfonctionner sans problèmes durant les périodes d’utilisation prévues, afin que l’accès aux ressourceset services nécessaires soit toujours assuré : uneentreprise ne peut se permettre de se retrouver face àune panne des serveurs qu’elle loue.

è L’entreprise doit également être certaine de l’impu-tation des opérations et des actions réalisées.Autrement dit, elle doit être certaine que ses donnéessont conservées en toute sécurité, et qu’aucun tiersne peut s’attribuer les actions d’un autre utilisateur enusurpant notamment ses identifiants afin d’entrerdans la société. À titre d’exemple, si un tiers peutpénétrer à l’intérieur des serveurs, sans que l’entre-prise ne soit mise au courant par le sous-traitant, onpeut largement douter de la sécurité des données…

è Enfin, et c’est sans doute la chose la plus délicateen matière de sécurité des données, il s’agit de savoiroù ces données sont physiquement. En effet, mêmes’il n’y pas de frontières dans le domaine de l’informa-tique ou d’Internet, lorsque l’on se retrouve confrontéà une situation juridique, les frontières physiquesentrent en ligne de compte : c’est la souverainetéinternationale qui s’appliquera et c’est donc le corpusjuridique du pays où les données sont stockées quis’appliquera. Si mes données sont stockées dans unpays étranger, cela conduit à diverses difficultés, àcommencer par la barrière de la langue et la diver-gence des expressions de droit.

Ce n’est pas parce que l’on est confronté à des dispo-sitifs qui paraissent complexes et qui font appel auxnotions de cyber-sécurité que l’on doit perdre le senscommun. Or, le sens commun dispose qu’une entre-prise est plus apte à contrôler, vérifier, auditer desdonnées proches de chez elle que celles qui se trou-vent de l’autre côté de la planète.

À vous entendre, on en vient à se dire que l’a prioriselon lequel le Big Data simplifierait le travail de lapolitique de sécurité d’une société est erroné…

Le Big Data complexifie la politique de sécurité si l’onne se prémunit pas en amont, en suivant un ensem-ble de principes tels que : l’intégrité, la confidentialité,la disponibilité, la non répudiation et l’authentifica-tion, principes fondateurs de la SSI (Sécurité desSystèmes d’Information). Une fois que l’on a une poli-tique de Sécurité des Systèmes d’Information quirespecte ces principes, qui est claire, précise et cen-sée, il devient beaucoup plus aisé de définir ensuitevers quel prestataire se tourner.

Finalement, la question du stockage des données parun sous-traitant est une question de dialogue, de col-laboration, dans l’objectif d’établir une relation deconfiance pour que les entreprises puissent travaillerefficacement main dans la main.

Il convient, en outre, de noter que le niveau de sécuritéest fonction de la nature de l’entreprise avec laquellevous travaillez. À ce titre, les PME et PMI n’ont pas lesmêmes exigences que des entreprises internationalespuisqu’elles n’ont pas les mêmes capacités d’action.

Le Big Data a-t-il rendu les attaques extérieures contre les entreprises plus faciles ?

Non, cela ne les a pas rendues nécessairement plusfaciles. En réalité, il s’agit d’une dynamique exponen-tielle : sachant qu’il y a un accroissement du nombrede données disponibles, il y a, parallèlement, une augmentation de la capacité à mener des attaquesinformatiques. Ainsi, c’est l’accroissement du nombrede données qui a suscité un attrait beaucoup plusimportant pour celles-ci.

On constate donc, effectivement, une augmentationdes attaques. Mais les entreprises sont de plus en plus conscientes de ces enjeux ; elles y sont d’ailleurs de plus en plus sensibilisées. Les attaquesnumériques aux fins d’intelligence économique repré-sentent, en fait, l’un des problèmes majeurs de notretemps. Or, plus Internet s’étend, plus le Big Datas’accroît, plus le potentiel de victimisation des inter-nautes grandit.

Certains ne comprennent pas pourquoi les spam fonc-tionnent aussi bien. Mais c’est parce qu’il y a toujoursun faible nombre de personnes qui, en raison dedivers facteurs (comme la fatigue, etc.), vont lesouvrir. On ne peut donc pas dire que le Big Data faci-lite les attaques extérieures : il en a seulement accrule nombre.

(2) Curry S., Kirda E., Shwartz E. (2013), le Big Data, des ressources pour la sécurité intelligente, RSA Security, janvier.

Accomex n° 112 - Big Data

Page 65: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

63

RSA Security a récemment suggéré 2 que toute entreprise de sécurité qui ne trouvera pas de solutionsdans les deux ans pour gérer la problématique sécuritaire du Big Data est appelée à disparaître.Pensez-vous que ce soit vrai ou s’agit-il avant toutd’un effet d’annonce ?

Je ne souhaite pas faire de commentaires sur cegenre d’annonces, car il y a souvent des stratégiespublicitaires derrière. Toutefois, cela me semble unpeu alarmiste. Beaucoup d’entreprises peuventencore vivre sans Big Data : tout dépend à quelleentreprise on fait référence. On arrive toujours à travailler sur des données avec un nombre limité d’accès, ainsi qu’un nombre limité de donnéesstockées. Cela ne pose pas de réels problèmes.

Mais il est évident que si certaines entreprises,comme de grands revendeurs sur Internet, ne sontpas armées pour faire face aux attaques présentessur le web, elles sont vouées au déclin, et pas dans lesdeux ans !

En fait, une entreprise qui gère mal les questions desécurité informatique a plus de chances de se fairevoler ses données, relatives à son savoir-faire, sescompétences, sa liste de client, etc., tout simplementparce qu’elle peut être l’objet de cybercriminels oud’attaques à vocation d’espionnage économique.Aucune entreprise n’est immunisée. Ce n’est pasparce que l’on est une PME/PMI que l’on n’est pasconfronté à ce type de risque, surtout avec les moyensde communication modernes.

Le Big Data ne serait finalement qu’une question devolume ?

Dans ma conception oui. Le Big Data étant la con-frontation d’une entreprise à une multiplicité d’infor-mations, cela génère davantage de risques parce qu’ily a des volumes plus importants, donc plus de portesd’entrée et, finalement, plus de possibilités de récu-pérer des données pleines ou fragmentaires afin deles revendre.

Le risque est donc plus élevé, en ce sens qu’il est désormais beaucoup plus aisé de laisser des tracesutilisables par des individus mal intentionnés.

Donc, si l’on a une politique de sécurité informatiqueconstante, basée sur les quatre principes que vousavez énumérés, il est possible de faire face auxmenaces du Big Data ?

En effet. Une entreprise doit toujours se remettre enquestion, ne pas considérer comme acquises lescapacités de sécurité qu’elle avait précédemment, etse demander si une évolution technologique précise

ne pose pas de nouveaux risques. Il faut donc fairedes analyses de risque régulières (au moins une foispar an), celles-ci n’étant valables qu’à partir dumoment où les données extérieures ne se modifientpas. De plus, une entreprise ne doit pas se priver dese tourner vers des sociétés amies afin de collaborer,de former des partenariats et d’échanger des savoirs.

Mais le grand écueil sécuritaire des sociétés, c’est laformation en interne. Les entreprises ont tendance àtout miser sur les dispositifs techniques et en finis-sent par oublier de former leurs collaborateurs !Pourtant, tout commence de là : c’est même essen-tiellement une question de formation. La basetechnique ne suffit pas. Et les PME/PMI sont les plusmenacées car elles n’ont pas toujours les moyens detrouver des réponses à leurs questions ou de faireappels à des expertises extérieures.

Heureusement, certaines structures comme les éta-blissements consulaires, certaines fédérationsprofessionnelles ou corps de l’État aident les entre-prises à progresser. Mais il faut également que lespatrons s’informent et s’investissent, qu’ils ne délais-sent pas les problématiques sécuritaires. Rappelons,s’il le fallait, que le forum de Davos édition 2013 étaitconsacré à ces questions, que le colloque 2012 duCDSE l’était aussi 3. Il est vrai que cela a un prix ; maisde bonnes solutions de sécurité informatique existent,à des prix abordables, sous réserve d’être accompa-gnées d’une formation des collaborateurs.

Pensez-vous qu’il y a un monopole de la directioninformatique sur les problèmes de sécurité au seind’une entreprise ? Comment régler cette questiondans la pratique ?

Il appartient aux dirigeants de valoriser un acteur quisera chargé de cette coopération entre les différentsservices de la société ; un acteur qui n’est, à monsens, pas assez valorisé au sein des entreprises. Jeveux parler du Responsable de la Sécurité desSystèmes d’Information (RSSI).

Il devrait y en avoir un au sein de chaque entreprise.Cela peut être une personne de l’informatique, car enmatière de sécurité de l’information, il faut desconnaissances techniques. Mais il est égalementnécessaire d’avoir des connaissances juridiques,notamment sur les questions de protection des don-nées personnelles. De plus, il faut que le RSSI ait unaccès direct à la direction de l’entreprise. Cela signifiequ’il ne doit pas être soumis à des échelons hiérar-chiques intermédiaires, comme par exemple audirecteur de l’informatique. Celui-ci fera parfois des « raccourcis de sécurité » pour éviter des dépensesqu’il jugera inutiles ; un comportement catastrophiquepour l’entreprise.

Les Entreprises face aux risques du Big Data - Les enjeux sécuritaires

(3) Aghroum Christian, Hassid Olivier (2013), Les entreprises et l'État face aux cybermenaces, Éditions L’Harmattan, septembre.

Page 66: Livre blanc big data écosystème français

64

Le RSSI peut donc être rattaché au directeur de lasécurité dont les fonctions ont évolué ces dernièresannées. Elles sont dorénavant globales, allant du riskmanagement à la gestion des risques, de la sécuritébâtimentaire à la sécurité de l’information, de celledes voyageurs à la maîtrise des données person-nelles.

Quel que soit le niveau de l’entreprise, il est doncnécessaire d’avoir un responsable de la sécurité, àtemps plein ou à mi-temps, qui soit autonome et quiait une approche de sécurité globale.

En fait, ce directeur de la sécurité doit jouer le rôled’aiguillon, être celui qui n’hésite pas à remettre enquestion les acquis. On peut prendre dans ce rôle unauditeur ou un consultant extérieur si la taille de l’en-treprise ne permet pas de spécialiser le poste ; làn’est pas le problème. L’élément essentiel est de nepas avoir peur de se remettre en question.

Quelles propositions souhaiteriez-vous faire auxentreprises ?

Je leur conseille d’aborder la problématique selontrois aspects : humain, technique et juridique. Il estnécessaire de confronter ces trois aspects et de seposer les bonnes questions. L’aspect humain passepar la formation, par la sensibilisation. L’aspect technique exige des questionnements sur « Commentj’outille ? », « Comment je développe les besoins quej’ai à ma disposition ? ». Enfin, l’aspect légal invite à se poser la question suivante : « Que puis-je faire,jusqu’où puis-je aller et pas plus ? ».

Par la combinaison de ces trois aspects, toute entre-prise sera mieux à même de trouver les réponsesadaptées à ses besoins, face aux enjeux de sécuritéinformatique qui ont été accentués par le Big Data.

Enfin, tout directeur de la sécurité mais aussi tout diri-geant de société doit garder ceci à l’esprit : la sécuritédoit demeurer continuellement orientéebusiness.

Le Club Des Directeurs de Sécurité des Entreprises

Créé il y a plus de 30 ans, le Club des Directeurs deSécurité des Entreprises (CDSE) dispose d’une solide expérience dans le domaine de la sécurité/sûreté d’entreprise. Il collabore avecplus de 90 entreprises présentes dans 187 pays, représentant 800 milliards d’euros de chiffre d’affaires et 3 millions d’emplois.

è Un espace d’échanges entre acteurs de la sécurité/sûretéPour créer des synergies entre les entreprises, le CDSE organise des séminaires (une vingtaine en 2013) ; il dispose de 11 commis-sions thématiques : la sécurité des salariés à l’étranger, la protection des installations, la protection de l’information, la fraude,l’intelligence économique, la gestion de crise, ou encore le CDSE junior (à destination des collaborateurs de 25 à 35 ans).

è Un espace de réflexion au service des entreprisesLe CDSE est à l’avant-garde des réflexions sur la sécurité et la sûreté. Cela se traduit par une vingtaine de publications par an etune trentaine d’événements annuels ; le CDSE a également établi des conventions avec des organismes de recherche et de forma-tion (IRIS, CNPP, INHESJ).

è Une diffusion de la connaissance en matière de sécuritéLe CDSE s’efforce de faire évoluer le regard des décideurs sur la fonction sécurité, tant auprès des autorités publiques que des res-ponsables d’entreprise. Il publie la revue trimestrielle Sécurité & Stratégie et le journal des Directeurs Sécurité d’Entreprise (DES).

è Une force de proposition auprès des pouvoirs publicsLe CDSE a établi des partenariats avec les services du Premier Ministre (SGDSN et ANSSI), les Ministères de l’Intérieur, de l’Écono-mie, de la Défense, et le Centre de crise du Ministère des Affaires Étrangères avec lequel il a défini une convention de coopérationdestinée à mieux coordonner la sécurité des 50 000 expatriés français.

Pour en savoir plus : https://www.cdse.fr/

Accomex n° 112 - Big Data

Page 67: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

65

Quels sont les besoins des entreprises à l’origine du partenariat IBM - HEC Paris 1 ?

Les compétences analytiques destinées à faireémerger de nouvelles exploitations et applications desmasses de données sont aujourd’hui de plus en plusrecherchées.

Les data, notamment chez les grands comptes his-toriques, restent très largement sous-exploitées. Ellessont pourtant au centre des préoccupations de cesacteurs, qui cherchent désormais à prendre des déci-sions marketing plus granulaires, trouver de nouveauxleviers d’arbitrage, enrichir leur offre clients avec desservices associés et trouver de nouvelles applications.

Paradoxalement, trop peu d’entre eux disposent descompétences requises pour utiliser ces technologieset faire émerger de nouvelles applications. Le manquede diplômés et de professionnels disposant de tellescompétences est une barrière à l’adoption de nou-velles technologies de traitement de données et deprise de décision, pourtant créatrices de valeur significative.

Pour répondre en partie à cette problématique et for-mer des profils d’un nouveau genre dans le paysage del’académique appliqué à l’analytique, HEC Paris (écolede la CCI Paris Ile-de-France) et IBM ont lancé un cursus Big Data destiné aux étu-diants du MBA HEC.

Quels sont les objectifs de ce partenariat ?

Ce cursus a pour but de sensibiliser les étudiants àl’analytique et de répondre à la demande croissantede postes nécessitant des compétences managé-riales en Big Data et Analytics.

Pour se démarquer des formations de Data Scientistset de statisticiens dispensées en école d’ingénieur,IBM et HEC Paris ont eu l’ambition de former de nou-veaux profils, complémentaires avec ces ingénieurssur la chaîne de valeurs du traitement de données.Cette initiative conjointe représente, à ce jour, le 1er cursus européen d’analytique dispensé dans uneécole de commerce. Elle s’inscrit dans le cadre del’IBM Academic Initiative, un programme qui fournitaux enseignants du matériel de formation, des logi-ciels et des matériels essentiels pour former auxcompétences technologiques et managériales.

La formation apporte une expertise plus centrée « métiers » que « traitement des données », en formantdes managers techno-compatibles. HEC Paris entendainsi former des étudiants ayant à la fois une bonnevision du business et la capacité de traiter des don-nées en masse, pour améliorer à la fois la prise dedécision et la capacité d’innovation.

« Big Data et Business Analytics » : former les nouveaux entrepreneursde la data

Questions à… Josiane Gain, Responsable des relations universitairesd’IBM France

(1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France.

Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data

Page 68: Livre blanc big data écosystème français

66

Selon nous, les talents que les entreprises recher-chent doivent maîtriser trois compétences : gérer lesinformations, les analyser, puis prendre des décisionsstratégiques pour l’entreprise. L’objectif vise à combi-ner la formation généraliste de dirigeant d’entreprisetypique des MBA, avec des compétences pointues enmatière d’analyse et d’interprétation des données.

Quelle sont les spécificités et l’originalité des profilsainsi formés ?

Comme cela vient d’être précisé, ce cursus sedémarque des profils d’ingénieurs, statisticiens etData Scientists formés par Télécom ParisTech oul’ENSAE ParisTech. Jusque récemment encore, le BigData était une affaire de statisticiens, de program-mateurs algorithmiques, de designers ou demathématiciens. Il s’agit désormais de former d’au-tres types de profils.

Le Big Data réclame en effet des compétences plus complexes et multiples : il s’agit d'abord de collecter les données, puis de les analyser, puis enfinde décider ! Car les experts du Big Data ont eux aussi

besoin d'une hiérarchie qui parle leur langage et quisoit capable d’identifier les nouvelles opportunités decroissance liées à l’exploitation des data. Le champdes compétences à cumuler est tellement grand, qu'ilfaudrait savoir piloter et manager les équipes de DataScientist. HEC Paris entend ainsi créer de nouveauxentrepreneurs de la data, des managers dotés desoutils nécessaires pour créer de nouveaux businessmodels à partir de la data.

L’essor de l’analytique et des applications verticalesissues de l’exploitation de la data contribue à la redéfinition des rôles au sein des entreprises, notam-ment par la création du poste de CDO (Chief DataOfficer). Ce dernier cumule une double fonction, àsavoir mettre la data au service de l’entreprise, touten s’interrogeant sur les perspectives business quecette prise en compte des données peut engendrer.C'est sur ces fonctions stratégiques que se positionnel’association IBM - HEC Paris.

Comment cela se passe d’un point de vue opérationnel ?

Du côté d’IBM, je suis à l’initiative de ce projet, pilotépar le Docteur Hammou Messatfa, Expert européendu Big Data. Du côté d’HEC Paris, Gonçalo Pacheco deAlmeida, Professeur associé au départementStratégie et Politique d’Entreprise, et BernardGarrette, Directeur délégué du MBA d’HEC Paris,assurent la gestion du cursus.

À la rentrée 2013, 55 étudiants du MBA d’HEC Parisont été retenus pour suivre ce module. Le cursus,dans sa première mouture, comprend une quaran-taine d’heures de cours ; il a nécessité le travail d’uneéquipe de 14 personnes pendant 110 jours.

Dans le cadre de ce partenariat, IBM met à la disposi-tion d’HEC Paris ses ingénieurs, ses Data Scientists,ses logiciels et son savoir-faire en matière de BigData. Les intervenants sont pour moitié des ensei-gnants et pour l’autre des professionnels del'entreprise, dont des ingénieurs d'IBM : un pro-gramme hybride donc, avec des intervenantsd’horizons divers (IBM, MIT, Kellog, etc.).

Quant au contenu, la formation s’articule en quatretemps forts :

è Une phase d’introduction, destinée à former les étudiants aux problématiques générales induites parle sujet : Où va la recherche ? Par quelles technologiestransite-t-elle et dans quelle direction ? Comment lesData Natives sont-ils en train de changer les modèlesd’entreprises ? Comment mettre en œuvre un projetdata ?è Une phase d’illustration de propos, par le biais d’unlisting de la perception Big Data au sein de chaqueindustrie.è Une phase de mise en situation, avec réflexion per-sonnelle de chaque étudiant sur des cas d’entreprisesconcrets.è Une dernière phase d’incubation sur plusieurs mois- destinée à certains étudiants - qui clôt le processusde formation.

Accomex n° 112 - Big Data

Page 69: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

67Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data

Une Chaire d’enseignement consacrée au Big Data

HEC Paris et AXA ont annoncé, le 18 mars 2014, la création d’une Chaire d’enseignement sur le thème « Stratégie Digitale et BigData » confiée à Julien Lévy, Professeur Affilié à HEC Paris et Directeur de la Majeure et du Mastère Spécialisé « Management etNouvelles Technologies ».

Cette Chaire sensibilisera sur les enjeux et impacts du Big Data sur la stratégie et la transformation du modèle économique des entre-prises. Elle a pour vocation d’exposer les étudiants aux problématiques digitales opérationnelles des grandes entreprises, de lessensibiliser à l’intérêt des métiers liés à ces enjeux stratégiques et de confronter en retour les offres et produits d’AXA aux réactionsde la génération des digital natives.

La Chaire organisera par ailleurs un forum annuel portant sur la collaboration entre grandes entreprises et startups.

http://www.hec.fr/Espace-entreprises/Chaires-et-Centres/AXA2

Au terme de ce cursus, les étudiants seront ainsicapables d’appréhender différentes problématiquescomme la compréhension et la prévision des ten-dances d'achat des consommateurs, ou la collecte etl'analyse des données sur la concurrence. On leurapprendra également à aider les responsables demarques à mesurer l'impact de leurs campagnes marketing, à analyser les perceptions des consomma-teurs vis-à-vis des marques et des produits, tout en lesfamiliarisant avec les technologies d’infrastructuresdésormais incontournables sur le marché.

Quelles sont les perspectives de ce nouveau cursusinnovant ?

HEC envisage de renforcer cette formation au coursdes prochaines éditions, en y intégrant de nouveauxmodules tels que « Modèles de Simulation deStratégie », « Extraction de Données », « Prédiction »,« Analyse Stratégique », « outils d'analyse des médiassociaux » ou encore « Visualisation des Données ».Gonçalo Pacheco de Almeida a également décidé decréer un incubateur pour promouvoir l’entre-prenariat dans le secteur du Big Data.

Page 70: Livre blanc big data écosystème français

68

Quels ont été les ressorts et motivations pourouvrir une filière Data Science à l’ENSAE

ParisTech 2 ?

Les méthodes quantitatives font partie de l’ADN del’ENSAE ParisTech. Nous formons, de longue date, desingénieurs, statisticiens-économistes, qui possèdenttout à la fois les compétences techniques nécessairesà l’analyse des données et la capacité à en saisir lesenjeux stratégiques, en particulier en économie et enfinance. Or, depuis un ou deux ans, nous recevons deplus en plus de propositions de stages et d’offresd’emploi pour des profils de Data Scientists.

On assiste en effet à une très forte croissance du volume de données disponibles, dans des domainestrès divers, mais aussi à une prise de conscience, dela part des entreprises, de l’intérêt qu’elles peuventtrouver à exploiter ces données. Nous nous sommesdonc efforcés de faire évoluer notre offre de formationpour répondre encore mieux à ces nouveaux besoins,générateurs d’innovation, de croissance et d’emplois.

Concrètement, comment s’inscrit cette filière dans votreoffre de formation ?

Cette filière Data Science 3 s’inscrit dans le cadre denotre cursus ingénieur, qui comporte au total troisannées. Les deux premières sont consacrées à l’ac-

quisition du socle fondamental de compétences enstatistique, mathématiques appliquées et économie.C’est en troisième année que nos élèves se spéciali-sent et peuvent donc choisir cette nouvelle filière :Data Science.

Nous diplômons environ 150 ingénieurs par an : dèscette année, plus d’un tiers d’entre eux ont choisicette nouvelle voie. Au-delà de cet engouement, noussuivrons bien sûr attentivement leur devenir profes-sionnel.

À côté de cette offre de formation initiale, nous tra-vaillons également sur la formation continue, ainsique sur un projet de mastère spécialisé, sans doutepour la rentrée de septembre 2014.

Quels sont les principaux modules et champs discipli-naires dispensés ?

En pratique, la formation contient un tronc communen statistique (en particulier machine learning, data-mining, etc.), informatique (notamment les outilslogiciels et matériels nécessaires au traitement desBig Data, ainsi que des cours d’algorithmique et opti-misation distribuées) et économétrie avancée, puistrois parcours de spécialisation : marketing quantitatifet aide à la décision ; statistique et apprentissage ;économie et sociologie quantitatives.

La formation de Data Scientist, unenjeu complexe

Questions à… Julien Pouget, Directeur de l’ENSAE ParisTech 1

(1) École Nationale de la Statistique et de l’Administration Économique ParisTech, qui fait partie du GENES (Groupe des Écoles Nationales d'Économie etStatistique).(2) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France.(3) http://www.ensae.fr/data-science.html

Accomex n° 112 - Big Data

Page 71: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

69

Cette filière devrait donc permettre, entre autres, d’acquérir les compétences attendues pour les postesde Data Scientist et Chief Data Officer qui émergentavec le développement des Big Data.

Cette formation Data Science complète-t-elle ou sedémarque-t-elle du mastère spécialisé Big Data deTelecom ParisTech ?

Les futurs Data Scientists auront des profils hybrides,maîtrisant tout à la fois les statistiques, l’informatique,ainsi que leurs domaines d’application, autrement ditl’expertise métier. Tous n’auront pas forcément desconnaissances exhaustives dans chacun de ces troisdomaines. On peut par exemple supposer quel’ENSAE ParisTech formera des Data Scientists davan-tage au fait des méthodes statistiques, tandis qued’autres formations seront plutôt tournées vers l’infor-matique. Mais il est important que tous possèdent unlangage commun.

La plus-value de l’ENSAE ParisTech, c’est l’analysestatistique, en articulation notamment avec des pro-blématiques économiques ou financières et dans uneperspective d’aide à la décision. Par ailleurs, TélécomParisTech, comme l’ENSAE ParisTech, devraientrejoindre dans les prochaines années le campus deParis-Saclay, et renforcer ainsi encore leurs interac-tions sur ces sujets.

L’enseignement sera-t-il axé sur le cluster Hadoop 4,les distributions associées d’Hadoop, le NoSQL 5 ?

Cela fait en effet partie de notre programme, quiaborde les principaux éléments logiciels pour le traite-ment des Big Data. Mais nous portons également uneattention particulière aux méthodes statistiques engrande dimension : machine learning bien sûr, maiségalement statistique computationnelle, statistiquebayésienne, estimation non paramétrique, bootstrap 6,analyse statistique des réseaux, etc.

En termes de débouchés, vers quels types de postescette formation oriente-t-elle ?

Les profils polyvalents qui seront issus de cette filièrepourront, nous l’espérons, occuper aussi bien despostes d’experts que des postes décisionnels ou d’encadrement en entreprise. Le caractère transver-sal des méthodes quantitatives permet en effet auxétudiants d’accéder à une large palette de secteursd’activité (conseil, industrie, recherche fondamentaleet appliquée, etc.).

Les données du e-commerce ne sont pas les seulesdonnées dont l’exploitation génèrera de la valeur ajou-tée ! Les secteurs de la banque et de l’assurance sontaussi très intéressés par cette révolution. C’est égale-ment le cas de la biologie, avec les données issues dela génétique, ou encore des télécommunications,avec l’explosion des données géolocalisées.

Existe-t-il des entreprises partenaires associées à cette formation ?

Nous sommes en relation tout à la fois avec degrandes entreprises, des banques et des startups, quisont particulièrement intéressées par cette nouvellefilière. Cela pourrait éventuellement prendre la forme,dans les prochaines années, d’un parrainage pourcette formation de Data Scientist, ainsi que d’unechaire développée dans le cadre du Groupe desÉcoles Nationales d’Économie et Statistique (GENES).

Nous avons par ailleurs lancé, il y a quelques semaines,dans le cadre du GENES et en partenariat avec lasociété de conseil Bluestone, spécialisée dans ledomaine de la Data Science, le site datascience.net 7,qui propose des challenges ouverts à tous.

L’ENSAE ParisTech forme une élite académique de la statistique souvent prédestinée à pourvoir des postesclés dans la recherche ou des organismes publics. Aveccette dynamique de la Data Science, vos futurs ingénieurs pourraient-ils choisir une voie plus entrepreneuriale ?

À sa création, il y a plus de 70 ans, l’école formaitessentiellement les futurs administrateurs de l’Insee.Mais elle s’est largement ouverte depuis plusieursdécennies au secteur privé puisque les élèves-fonctionnaires ne représentent aujourd’hui qu’environ15 % des promotions sortantes. À la sortie de l’école,la grande majorité des jeunes ingénieurs diplôméss’orientent donc vers l’entreprise, en particulier dansles secteurs de la banque, la finance, l’assurance, lestechnologies de l’information, le conseil, l’énergie ouencore les transports.

L’émergence de la Data Science fournit aussi, à monsens, l’occasion de les sensibiliser davantage à la création d’entreprise. C’est ainsi qu’un certain nombre d’anciens ENSAE ont d’ores et déjà participéà la création de startups dans ce domaine. Plusieursd’entre eux viennent d’ailleurs enseigner à leur tour àl’école dans cette nouvelle filière Data Science !

(4) Hadoop est un framework open source écrit en Java et géré par la fondation Apache. Il a été conçu pour réaliser des traitements de volumes dedonnées en masse.(5) NoSQL = Not Only SQL ou, littéralement, pas seulement SQL = ensemble des bases de données qui s’opposent à la notion relationnelle.(6) Méthodes d'inférence statistique et requérant des calculs informatiques intensifs.(7) http://datascience.net

La formation de Data Scientist, un enjeu complexe

Page 72: Livre blanc big data écosystème français

70

L’ENSAE ParisTech a été force de contribution pour laplate-forme d’expérimentation TeraLab 8, pouvez-vousnous en dire un peu plus ?

En effet, l’Institut Mines-Télécom et le GENES (dontfaite partie l’ENSAE) ont obtenu la validation de laCaisse des dépôts et consignations pour investir dans une plateforme de services destinée à des projets Big Data dans le cadre de l’appel à projets « Investissements d’Avenir Big Data 2012 ».

Avec cette plateforme de services, nous souhaitonsrépondre rapidement aux besoins de projets derecherche, d’enseignement, d’expérimentation d’appli-cations innovantes et lancement de pilotes industriels.La plateforme comporte des moyens matériels telsqu’une capacité de traitement considérable avec unemémoire vive de plusieurs téraoctets, des corpus de

données, des applications et outils innovants (fournispar des PME innovantes sélectionnées par concours).Les porteurs de projets disposeront ainsi d’un environ-nement optimal pour se consacrer au traitementapplicatif des données massives, faciliter la produc-tion et valider les résultats de recherche pouvant êtretransférés dans des innovations.

L’infrastructure de la plateforme TeraLab intègrerades technologies matérielles, logicielles, et des solu-tions à l’état de l’art pour permettre des traitementsbatch ou temps réel et le stockage de centaines detéraoctets de données.

Cette plateforme, TeraLab, qui va nous permettred’accélérer significativement le passage à l’échelleindustrielle de nombreux projets innovants,a été lancée mardi 4 février 2014.

(8) http://www.teralab-datascience.fr

Accomex n° 112 - Big Data

Page 73: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

71

Quels sont les apports technologiques du BigData ?

La technologie Big Data délivre deux nouveautésessentielles : s’appuyer sur du matériel à faible coûtet offrir à la fois des capacités de stockage et descapacités de traitement. Cela fait longtemps que l’onsait stocker des milliards de données et que l’on saitfaire des milliards de calculs par seconde. Le BigData, c’est la réunion de ces deux actions à un coûtraisonnable.

Pourriez-vous expliquer en quoi consiste Hadoop ?

Google a publié plusieurs articles scientifiques expliquant ses algorithmes, mais il n’a pas publié ouvendu leur implémentation : Hadoop est l’implémenta-tion de ces algorithmes, utilisés par d’autres sociétésque Google, particulièrement Yahoo !, rejoint ensuite parFacebook et bien d’autres.

Hadoop est désormais utilisé par de nombreuses startups. Suivant précisément l’architecture définiepar Google, Hadoop est modulaire, chaque moduleadressant une problématique spécifique. Cette modu-larité est parfois une faiblesse, de par la complexitéqu’elle apporte, mais également une force car ellepermet un développement et une utilisation indépen-damment de chacun des composants.

Deux écueils sont à éviter concernant la plateformeHadoop :

è En premier lieu, l’idée qu’Hadoop n’est pas si novateur que cela. Certes, les personnes ayant implé-menté Hadoop n’en étaient pas à leur premièreimplémentation d’un système distribué, mais celui-cise démarque car il a fédéré le plus d’expériences.è Ensuite, l’idée qu’Hadoop est un outil fini, sans possibilité d’évolution. C’est un peu comme dire, en1920, au sujet de la Ford T : « La question de l’auto-mobile est terminée, il n’y a plus qu’à l’utiliser, laseule industrie qui reste est celle des clubs devacances ». Hadoop évolue, progresse encore et vaêtre amené à apporter des solutions à des problèmesqu’elle ne sait pas encore résoudre. D’une part, lamasse de travail nécessaire pour implémenter et valider l’ensemble des algorithmes est importante.D’autre part, les progrès technologiques du matérielamènent des changements dans les choix des algorithmes.

Il convient également d’observer le passé récentd’Hadoop, qui consistait en l’insertion de quantitéstrès importantes de données. C’est un postulat positif,mais ce n’est pas suffisant. En effet, il faut égalementêtre certain qu’une donnée insérée est véritablementet définitivement insérée. La capacité de pouvoir réaliser cette insertion, non pas sur des gros blocs dedonnées, mais sur des millions de petits blocs, serévèle davantage positif encore.

Les perspectives technologiques duBig Data

Questions à… Nicolas Liochon, Chief Executive Officer chez Scaled Risk

Les perspectives technologiques du Big Data

Page 74: Livre blanc big data écosystème français

72

À titre d’exemple, Facebook utilise Hadoop pour samessagerie : aucune perte de messages n’est bienentendu acceptable, et les envois de messages doivent être instantanés. Avec un million d’écriturespar seconde, nous sommes ici dans le « Big Datatransactionnel », qui est relativement récent. En effet,Facebook est en production de ce « Big Data transac-tionnel » depuis 2010. En 2012 et 2013, l’effort,auquel Scaled Risk a beaucoup contribué, a porté surle temps d’indisponibilité en cas de panne. Celui-ci estpassé de l’ordre de 10 minutes à moins d’une minutedans les cas standards. Notre objectif est de leréduire encore pour les cas avancés. Ce sont ici desfonctionnalités qui viennent juste d’être livrées et quivont permettre des utilisations autrefois impossibles.À noter qu’en 2014, l’un des efforts portera sur lalatence, c’est à dire la garantie de temps d’accès enmillisecondes.

Quels nouveaux matériels et nouveaux algorithmesont été intégrés dans le système Hadoop ?

Tout le monde connait les SSD (Solide-State Drive),dont il ne faut minimiser ni les problèmes qu’ilscréent, ni la complexité qu’ils génèrent. Leur intégra-tion vient d’être réalisée dans Hadoop.

Mais au-delà de ça, les évolutions concernent avanttout de nouveaux matériels et de nouveaux usages.Un exemple concret : les horloges atomiques 1. Chèresaujourd’hui, le resteront-elles encore longtemps ?Pourrait-on imaginer de nouveaux algorithmes si l’ondisposait d’une horloge atomique dans chaque ordinateur ? Google a publié sa réponse à cette ques-tion en 2012 et a répondu par l’affirmative et par uneréalisation concrète, lui permettant de simplifierencore l’utilisation d’encore plus de données, sur unnombre de machines encore plus grand. Leur réalité avocation à devenir la nôtre.

La plateforme n’est donc pas un sujet terminé, elleévolue de façon permanente, et les cas d’usages évo-luent avec elle. Maitriser la plateforme, comprendresa roadmap, sont indispensables pour développer dessolutions pérennes et ne pas se limiter à une visionpassée de ses capacités.

Quelles utilisations faites-vous de la plateforme Hadoop ?

Scaled Risk est fondé autour de deux axes : l’impor-tance de la plateforme, et les compétences - rares -qui permettent de faire un système distribué, consis-tant et en temps réel. Tester un tel système estcomplexe et prend du temps. Rien n’est plus facileque de faire un système qui a l’air de marcher, maisqui, en fait, corrompt les données ou ne scale pas.Ainsi, plus encore que sur des technologies tradition-nelles, l’essentiel du temps est passé sur les tests etla qualité. C’est pour cette raison que le futur du Bigdata passe par les éditeurs de logiciel qui peuventmaîtriser cette complexité, plutôt que par des dévelop-pements « locaux ».

Une plateforme dépourvue de fonctionnalités n’ap-porte rien. Grâce à la plateforme, la fonctionnalitén’est pas, ou plus, limitée à « faire tourner des batchpour associer des données ». Il s’agit au contraire decapturer la donnée en temps réel, gérer le workflowassocié (changement de valeur, validation) et calculersur des données, en temps réel ou non.

Prenons un exemple concret d’un scénario couvert parScaled Risk. Une opération a lieu : elle est sauvegardéeinstantanément. La dimension Big Data se manifestelorsque des millions d’opérations sont sauvegardéessimultanément. Une fois enregistrée, l’opération estdéfinitive, même en cas de perte d’une machine. On ditque l’opération est timestampée. Il est possible de faireun rapport sur les données à une certaine date, y compris lorsque d’autres opérations sont en coursparallèlement. L’opération est également indexée entemps réel. L’intérêt de l’index est de doubler la tailledes données. Elle ne sera donc pas effacée et en casde modification, les deux versions seront conservées.Tous les accès sont audités, en écriture comme en lecture, ce qui permet de savoir quelles données ontété vues et par quelles personnes. Enfin, les calculssont effectués sur les nœuds de stockage. Ces calculspeuvent être ceux de la finance traditionnelle ou desalgorithmes dits de machine learning. Ici, les résultatssont stockés et diffusés en mode push : on sort dumonde du Big data pour entrer dans les archi-tectures push.

Scaled Risk

Nicolas Liochon est contributeur du projet Apache HBase et membre de ce PCM(Project Management Committed).

L’entreprise Scaled Risk a été créée en 2011, avec comme objectif spécifique de créer un logiciel s’appuyant sur les technologies BigData. Initialement simple utilisateur de la technologie, l’entreprise en est devenue contributeur à part entière.

Pour en savoir plus : [email protected] ; http://www.scaledrisk.com

Accomex n° 112 - Big Data

(1) Horloge dont les oscillations basées sur l’atome sont rapides et régulières, très utilisée en raison de sa précision quasi-parfaite.

Page 75: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

73

Cinq conseils pratiques pour gérerau mieux ses paiements en devises

ANTICIPEZ VOS BESOINS POUR OPTIMISER VOTRERISQUE DE CHANGE

Il est indispensable de bien connaître les détails devos flux d’échanges avec l’étranger, afin d’anticiperles sorties de trésorerie (équivalentes aux factures àrégler). En effet, avoir le montant ainsi que les datesde paiement permet de mesurer votre exposition aurisque de change des devises concernées. L’évolution,positive ou négative (i.e. la volatilité) du cours de cesdevises peut faire augmenter ou, au contraire, fondrela marge prise sur un produit ou un service.

è Si vous le pouvez, pensez à regrouper vos opéra-tions import et export afin de « netter » vos flux dansles mêmes devises (Ex. si vous avez reçu des dollars,utilisez-les pour le paiement d’une facture à venirplutôt que de faire deux opérations de change),è Achetez des devises au préalable si vous anticipezune hausse de leur valeur.

DÉVELOPPEZ LE NOMBRE DE MONNAIES AVECLESQUELLES VOUS TRAVAILLEZ

Il ne faut en aucun cas repousser les offres commer-ciales dans des monnaies qui ne sont pas identiquesà votre devise comptable. Au contraire, plus vous enajoutez à votre « répertoire », plus vous allez avoiraccès à des marchés supplémentaires. En effet, lessociétés avec lesquelles vous pourriez travailler n’ontpas forcément les mêmes opportunités que vous entermes de facilités de paiement.

è Si vous refusez de payer une facture en deviseétrangère, vous pourriez être amené à payer les réper-cussions de change de votre fournisseur (frais dechange, compte, commission, etc.),è Ajouter des devises à votre « arc » vous permettrad’avoir un avantage commercial voire concurrentiel.

INFORMEZ-VOUS SUR LES COURS DE CHANGE

Depuis une dizaine d’années, le marché des changes(FOREX) s’est largement développé au-delà du cerclebancaire. Il vous est désormais très facile de trouver

a société dans laquelle vous travaillez est, ou va être,amenée à acheter/vendre des produits/services dans un

pays hors de la Zone euro ? Si tel est le cas, vous allez devoireffectuer des paiements en devises, alors que vous n’enmaitrisez pas forcément les mécanismes. Avant de vous aven-turer à l’international et afin de limiter vos coûts, découvrez lesmeilleurs moyens de gérer le risque de change et optez pour lesbons réflexes ! Nous vous proposons cinq conseils pratiquespour simplifier vos démarches et optimiser vos transactions endevises : information, couverture, choix de l’établissement depaiement, etc. : chaque décision compte.

L Cyril Lé[email protected]

Cyril Léger est Country Manager France chez FX4Biz. Il acommencé sa carrière au CIC en 2004 sur un desk devente Forex, puis a exercé plusieurs professions au seindu Groupe Crédit Agricole. Sa dernière activité : la com-mercialisation de solutions de change et de taux à uneclientèle de moyennes et grandes entreprises, depuis lasalle des marchés du LCL. C. Léger est co-auteur duguide pratique du change pour les entreprises, avecNicolas Charbonnier, Président de FX4Biz (www.guide-change-entreprise.com).

Cinq conseils pratiques pour gérer au mieux ses paiements en devises

Page 76: Livre blanc big data écosystème français

74

des informations sur les différentes devises via desétablissements spécialisés (un peu moins avec lesbanques). Une étude rapide de ces informations vouspermettra de programmer au mieux vos paiements.Vous pourrez choisir de stocker des devises plutôt quede passer par un système de couverture à terme, touten respectant la nécessité de sécuriser votre margecommerciale.

è Rassemblez à la même date toutes vos opérationsde change. Cela permet d’obtenir de meilleurs courssur le volume,è Il est possible d’effectuer l’opération de change etle paiement dans le même temps avec certains établissements.

COUVREZ-VOUS LORSQUE VOUS RECEVEZ VOS FACTURES

Une gestion optimale du risque de change peut sefaire par le biais de produits financiers simples, com-préhensibles et transparents. Les deux mécanismesles plus fréquemment utilisés sont le change aucomptant et le change à terme. Le premier vous per-

met d’échanger une devise contre une autre avec unelivraison sous deux jours. Le second autorise les cou-vertures jusqu’à la date à laquelle il faut régler lafacture. Une fois ce mécanisme mis en place, votrerisque de change est effacé et la marge commercialesur votre opération n’est plus corrélée à la volatilité ducours des devises.

è Une couverture de change à terme vous permettrade garder la trésorerie équivalente quasiment jusqu’àla date de paiement effectif de la facture (possibilitéde placer les fonds et de gagner les intérêts sur ladurée correspondante),è Comptablement, vous pourrez prévoir, de manièreexacte, les flux de trésorerie et donc mieux pilotervotre activité.

CHOISISSEZ VOTRE ÉTABLISSEMENT DE PAIEMENT

Mettre en place vos couvertures via une salle desmarchés vous permet d’accéder à des cours dechange beaucoup plus compétitifs qu’en passant parun chargé d’affaire bancaire. Naturellement, il estnécessaire de faire une étude de vos besoins (en ter-

Accomex n° 112 - Big Data

Page 77: Livre blanc big data écosystème français

Ana

lyse

sEn

pra

tique

L’in

terv

iew

!Zo

om s

ur...

75

FX4Biz en bref

FX4Biz est un établissement de paiements dont l’offre est à disposition des entreprises,françaises ou étrangères, dont l’activité à l’international implique une gestion active des flux en devises.

FX4Biz est le spécialiste des opérations de change et de paiement à l’international pour les PME. Il met gratuitement à dispositionde ses clients :è une plateforme permettant de faire ces opérations en devisesè un accès à sa salle des marchésè des comptes en devisesè des couvertures de change à terme

En savoir plus : http://www.fx4biz.com - Email : [email protected] - Tél. : +33 (0)6 74 83 81 28

Cinq conseils pratiques pour gérer au mieux ses paiements en devises

mes de services utilisés) et des tarifs correspondants.Il existe désormais des établissements de paiementsqui mettent gratuitement à votre disposition leurplateforme permettant de faire des opérations dechange et des opérations internationales. Il est aussipréférable de ne pas être engagé en fonction, parexemple, d’un nombre minimum de transactions paran. Les comptes en devise doivent être gratuits (toutcomme l’absence de commission de change) et lesfrais de transaction doivent être réduits au maximum.Enfin, votre établissement doit être fiable aussi bien du point de vue réglementaire (agrément desautorités de régulation) que sur le plan organisa-tionnel (expertise des dirigeants, actionnariat de lasociété, technologie utilisée).

è Ne transmettez pas directement l’ordre de s’occu-per du change et du paiement à votre banquehabituelle, vous ne maitriserez ni le cours de change,ni le timing de l’opération ni les frais liés,è Optez pour un établissement « transparent », vousdevez savoir avant toute opération ce qu’elle va vouscoûter !

Il est toujours recommandé de se faire conseiller pardes professionnels. Il ne faut donc pas hésiter à serenseigner (c’est gratuit !) sur les différents intermé-diaires qui pourraient vous offrir une meilleure gestionde vos paiements en devises étrangères.

Page 78: Livre blanc big data écosystème français

Analyses

Les nouveaux défis du Trade Finance

Les crises financières récentes ont profondément affecté le financement du commerce international et, partant,pesé sur les flux commerciaux (même si la causalité inverse est également vraie). Les défis ne sont pas minces pourl’industrie du Trade Finance sur les prochaines années, avec les nouvelles règles de Bâle III, la fragmentation deschaînes de valeur mondiales ou encore l’insertion accrue des pays émergents dans les échanges internationaux.

Corinne VadcarRédactrice en chef des Cahiers de Friedland, Responsable Économie et commerce international - DGA EMC - CCI Paris Ile-de-France

Le dispositif Français de financement des exportations - Présentation et enseignements -

Les gouvernements français successifs n’ont de cesse, depuis plusieurs années, d’encourager les entreprises à s’internationaliser. Le dispositif national de soutien à l’exportation vient de faire l’objet d’une nouvelle réorgani-sation, avec comme point central la création de bpifrance. Reste que cela ne résout pas la problématique de lamultiplicité des structures de financement et de la compétitivité du dispositif : à quand une Eximbank en France ?

Hacène Benmansour, Économiste, Consultant

Entreprises exportatrices et besoin en capital : trois grands profils

Les besoins en capital des entreprises diffèrent en fonction de leur profil et de leur taille. Les « pépites exporta-trices » ont surtout besoin de capitaux longs pour financer leur essor international ; les PME recherchent des fondspropres pour leurs stratégies de croissance externe et d’acquisition. Quant aux ETI, elles ont besoin de capital- investissement pour financer leurs stratégies d’alliance et d’acquisition. L’offre est-elle réellement à la hauteur ?...

Jean-Mathieu Sahy,Président - Capital Export

Les financements bancaires à l’export : du financement du projet au financement d’une opération

De nombreux types de financements bancaires existent pour les PME, parfois complétés par des outils du dispositifpublic. Ces financements concernent toutes les étapes de l’export, de la prospection à l’investissement à l’étranger,en passant par l’exécution d’une opération ou le soutien à ses clients dans la recherche de financements. Mais le paysage bancaire est appelé à évoluer, laissant peser un risque de raréfaction de l’offre de crédits.

Henri d’Ambrières, Directeur - HDA Conseil

Accomex n° 112 - Big Data76

Analyses

Qu’est-ce que le Big Data ?

Concept incontournable de ces dernières années, le Big Data appelle dès à présent à repenser la stratégie d’entre-prise : au-delà du défi technique posé par le traitement de grandes quantités de données, c’est en effet le moded’organisation intra-entreprise et le processus décisionnel qui sont bouleversés. La data devient le nouvel actif stra-tégique des entreprises, quel que soit leur secteur d’activité (banque, santé, distribution, télécommunications, etc.).

Matthias Fille,Conseiller filière TIC - DGA-AIE - CCI Paris Ile-de-France

La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois

Bien plus qu’une filière, le Big Data est un véritable écosystème. Enjeu de business transformation, il irrigue tous lessecteurs et doit devenir l’une des priorités des entreprises : grands groupes et startups doivent collaborer. L’État aégalement un rôle crucial à jouer en tant que « locomotive d’expérimentation », via notamment la mise à dispositionde données publiques et l’adaptation du cadre réglementaire afin de faciliter l’usage des datas.

François Bourdoncle, Directeur Technique d'Exalead ; Membre de la Commission Lauvergeon « Innovation 2030 »

La structuration du secteur du Big Data français : le projet Alliance Big Data

Fédérer les acteurs (industriels, services publics, laboratoires, etc.), partager des expériences, construire une visioncommune, favoriser le développement de nouveaux services et applications : tels sont les objectifs de l’Alliance BigData. L’ambition de l’Alliance est de donner à la France « une place ambitieuse sur l’échiquier de la data et de cetterévolution numérique » ; il s’agit également de développer un réseau social au niveau européen.

Charles Huot,Président du Comité Éditorial du portail Alliance Big Data

Les initiatives gouvernementales en matière d’Open Data : la mission Etalab

La mission Etalab est chargée de « soutenir l’ouverture et le partage des données publiques », afin notamment d’enfaciliter la réutilisation par les personnes privées : entreprises, citoyens, associations peuvent disposer de ces don-nées sur le portail data.gouv.fr. Au-delà du développement et de la structuration de l’écosystème national, lamission Etalab participe à la coordination européenne, voire internationale, des stratégies d’Open Data.

Laure Lucchesi,Directrice adjointe de la mission Etalab

Résumés des articles

L’essentiel

Page 79: Livre blanc big data écosystème français

L’essentiel

De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data

Aller aux États-Unis, pour une startup française, c’est « plonger dans ce qui se fait de mieux en termes de bainconcurrentiel et technologique ». S’établir hors de France permet de se remettre en cause en continue, et donc deprogresser. En outre, contrairement aux Français, les Américains ont déjà une haute idée de la valeur de la data ;ils ont des problématiques en termes d’usages mais un manque d’expertise… auquel les entreprises françaisespeuvent remédier !

Adrien Schmidt, Président Directeur général de Squid Solutions ; Président de Silicon Sentier

Les entreprises européennes sont-elles matures pour le Big Data ?

Si les entreprises européennes semblent conscientes de l’enjeu que représente le Big Data en termes de crois-sance et de compétitivité, elles ne sont que 7 % à le considérer comme un sujet d’actualité ! Au manque d’outilspour exploiter/analyser les gisements de données à leur disposition, s’ajoutent la difficulté à se doter des compé-tences nécessaires à leur traitement (pénurie d’expert) et un niveau de qualité de ces données insuffisant.

Hichem Dhrif, Directeur du domaine Enterprise Information Management - Steria France

Le marché du Big Data aux États-Unis : trois startups, trois regards

Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley

« Créateur de valeur à partir des données publiques », la startup Enigma.io s’est implantée aux États-Unis, où la culture américaine de la transparence stimule l’Open Data comparativement à la France. Elle a choisi la Silicon Alley,à New-York, en lieu et place de la Silicon Valley : « écosystème très vivifiant », la Silicon Alley regroupe surtout des startups du B2B, sensibles au design interactif, et les Venture Capital y sont moins spéculatifs.

Raphaël Guillemot,Design Manager - Enigma.io

S’implanter à Kansas City : le choix décalé d’une startup française

Bime Analytics a fait le choix des États-Unis dès sa création, afin de « récupérer un maximum de feedbacks de lacommunauté de la Business Intelligence et de la data » sur son projet. Zone technologique à fort potentiel, KansasCity s’est révélé être la porte d’entrée parfaite pour une startup française de petite taille : infrastructures de télé-communications, incitations financières de la municipalité, disponibilité de talents locaux, etc.

Rachel Delacour,Président Directeur général - Bime Analytics

Le Techstars de New-York : un « accélérateur » de startups

New-York revêt tous les ingrédients d’un « écosystème numérique vertueux pour les startups : du talent, des inves-tisseurs et un environnement social et collaboratif » d’après le PDG de la startup Placemeter. Retenu en 2012 ausein du programme d’accélération de startups de la ville, A. Winter parle de compétition, de pression, d’un environ-nement exceptionnel particulièrement stimulant pour les activités de son entreprise.

Alexandre Winter,Président Directeur général - Placemeter

77

Page 80: Livre blanc big data écosystème français

Accomex n° 112 - Big Data78

Exemples d’applications sectorielles du Big Data

Le Big Data au service de l’analyse des visuels

Vecteur de valorisation du contenu, l’image s’impose désormais comme un élément incontournable de la commu-nication des entreprises, notamment sur les réseaux sociaux. Les entreprises doivent donc surveiller et analyserces flux de photos, comme elles le font pour les textes, afin de protéger leur e-réputation. Des technologies dereconnaissance et d’analyse d’images leur permettent aujourd’hui d’appréhender les usages que les internautesfont de leur marque.

Frédéric Jahard,Président Directeur général - LTU technologies

Le machine learning appliqué au secteur du e-commerce

Avec des possibilités techniques limitées et une approche segmentée, les CRM traditionnels n’offrent qu’uneconnaissance partielle des clients. Exploiter les millions de données sociales brutes que génère le web permetincontestablement aux e-commerçants d’affiner les souhaits et besoins de leurs clients, et donc de disposer d’unecommunication plus ciblée, personnalisée. C’est ce que permet désormais d’obtenir le machine learning.

David Bessis,Président Directeur général - Tinyclues

Les apports du Big Data à la finance

Le Big Data contribue à alimenter les analyses des investisseurs financiers : les échanges sur les réseaux sociauxpermettent, par exemple, d’appréhender la popularité d’une marque ou d’un produit, de mettre en œuvre des stratégies de trading intraday ; l’analyse à grande échelle des données météorologiques, géopolitiques, etc. permetaux investisseurs (matières premières) de réagir en temps réel ; ... : de quoi améliorer l’expertise financière.

Thanh-Long Huynh, Président Directeur général - QuantCube Technology

Optimiser la performance énergétique des processus industriels grâce à la data

Entre contrainte environnementale et rareté des ressources, le secteur de l’énergie est en pleine mutation et génèredes quantités de données. L’exploitation de ces données permettrait notamment de répondre aux nouvelles exigences des acteurs économiques (particuliers et entreprises), de plus en plus soucieux de la gestion de leurscoûts d’approvisionnement et de consommation : une contribution à l’optimisation des performances énergétiques.

Arnaud Legrand, Président Directeur général - Energiency

Big Data et santé : enjeux nationaux et illustrations empiriques de l’étranger

L’analyse des données publiques de santé représente un formidable moyen de modernisation et de rationalisationdu système d’assurance maladie français : optimisation de la prévention, meilleure prise en charge du patient,diminution des dépenses publiques, développement de la recherche, etc. De nombreux pays ont d’ores et déjà fran-chi le pas ; leurs expérimentations constituent de bons exemples à même de nourrir la réflexion nationale.

Matthias Fille, Conseiller filière TIC - DGA-AIE - CCI Paris Ile-de-France

Page 81: Livre blanc big data écosystème français

L’interview !

Questions à... Florian Douetteau, Président directeur général de Dataiku

Startup parisienne fondée en janvier 2013, Dataiku est spécialisée dans le traitement et l’analyse des datas ; ellepropose aux entreprises un logiciel permettant de « préparer, canaliser et faire des prédictions à partir de grosvolumes de données ». Florian Douetteau, PDG, nous présente les projets de sa société, sa vision du marché amé-ricain et sa perception des évolutions en cours de l’écosystème français du Big Data.

En pratique

Les entreprises face aux risques du Big Data - Les enjeux sécuritaires

« Le Big Data complexifie la politique de sécurité si l’on ne se prémunit pas en amont, en suivant un ensemble deprincipes tels que : l’intégrité, la confidentialité, la disponibilité, la non répudiation et l’authentification ». Touteentreprise doit se remettre régulièrement en question en matière de sécurité et nommer un Responsable de laSécurité des Systèmes d’Information autonome ; alors, elle sera à même de faire face aux menaces du Big Data.

Christian Aghroum, Président de la commission « Sécurité Numérique » du Club des Directeurs de Sécurité des Entreprises

« Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data

Trop peu d’entreprises disposent des compétences nécessaires à l’utilisation des technologies d’analyse des datas,technologies pourtant fortement créatrices de valeur. HEC Paris et IBM ont donc lancé un cursus Big Data afin deformer des profils d’un nouveau genre, complémentaires aux Data Scientists, ingénieurs, statisticiens, et maîtrisanttrois compétences : « gérer les informations, les analyser, prendre des décisions stratégiques pour l’entreprise ».

Josiane Gain,Responsable relations universitaires - IBM France

La formation de Data Scientist, un enjeu complexe

Face à l’intérêt croissant des entreprises pour l’exploitation des données, l’ENSAE a cherché à adapter son offre deformation ; elle propose désormais une filière Data Science, en troisième année du cursus ingénieur, et réfléchit àun projet de mastère spécialisé pour la rentrée 2014. Grâce au caractère transversal des méthodes quantitatives,les profils issus de cette filière pourront accéder à une multitude de secteurs d’activité (conseil, industrie, etc.).

Julien Pouget, Directeur de l’ENSAE ParisTech

Les perspectives technologiques du Big Data

Le Big Data est la réunion de deux actions : stocker des milliards de données ET faire des milliards de calculs parseconde ! La technologie évolue, comme le montre le système Hadoop, par exemple, qui s’enrichit en permanencede nouveaux matériels et de nouveaux usages. Ainsi, dans la finance, les technologies du Big Data ouvrent de nou-velles perspectives : disponibilité des données de transaction en historique illimité, nouveaux outils analytiques, etc.

Nicolas Liochon, Président Directeur général - Scaled Risk

79L’essentiel

Page 82: Livre blanc big data écosystème français

Zoom sur ...

Cinq conseils pratiques pour gérer au mieux ses paiements en devises

Pour aider les entreprises qui travaillent à l’international à faire face - au mieux et à moindre coût - aux probléma-tiques de règlement en devises ou de couverture de change, cinq conseils sont proposés : de l’anticipation dessorties de trésoreries au choix de l’établissement de paiement, en passant par la diversification des devises utilisées,le suivi des cours de change, et le choix de la couverture du risque de change « à terme » ou « au comptant ».

Cyril Léger, Country Manager France - FX4Biz

Accomex n° 112 - Big Data80

Page 83: Livre blanc big data écosystème français
Page 84: Livre blanc big data écosystème français