big data · 3 les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas...

9
BIG DATA RETOUR SUR 10 ANS DE CONQUÊTE

Upload: ngomien

Post on 05-Dec-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

B I G D A T ARETOUR SUR 10 ANS

DE CONQUÊTE

Page 2: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

2

C’était il y a dix ans. Le 22 décembre 2008, au sein de la prestigieuse Computing Research Association amé-ricaine, trois chercheurs des universités de Carnegie Mellon, Berkeley et Washington – respectivement : Randal E. Bryant, Randy H. Katz et Edward D. Lazowska – publient un white paper intitulé « Big-Data Computing: Creating Revolutionary Breakthroughs

in Commerce, Science and Society ». Synthétisé sur sept pages, le pa-pier offre une vision circulaire du nouveau phénomène « data deluge » et des perspectives offertes pour l’économie. Retail, santé, environne-ment, administration… « Le traitement des big data est peut-être la plus grande innovation de la dernière décennie dans le secteur informatique » écrivent les trois chercheurs. Le mot est lâché : Big Data.

Dix ans plus tard, Spark a (quasiment) pris le pouvoir dans l’écosystème Hadoop, le Cloud computing est devenu la norme et partout, le buzzword IA fait vibrer l’analyste… mais le Big Data, lui, a gardé le même vocable. Ou plutôt la même aura. « Le Big Data, écrivent les chercheuses Danah Boyd et Kate Crawford en 2012 dans la revue Information, Communications and Society, c’est la combinaison ultime entre Technologie (maximiser la puissance de calcul et la précision algorithmique), Analyse (traiter de larges sets de données pour identifier des patterns) et… Mythologie (croire que l’abondance des données générera une forme supérieure d’in-telligence et de savoir, auparavant inconcevable).

Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society

Randal E. Bryant Carnegie Mellon

University

Randy H. Katz University of

California, Berkeley

Edward D. Lazowska University of Washington

Version 8: December 22, 20081

Motivation: Our Data-Driven World Advances in digital sensors, communications, computation, and storage have created huge collections of data, capturing information of value to business, science, government, and society. For example, search engine companies such as Google, Yahoo!, and Microsoft have created an entirely new business by capturing the information freely available on the World Wide Web and providing it to people in useful ways. These companies collect trillions of bytes of data every day and continually add new services such as satellite images, driving directions, and image retrieval. The societal benefits of these services are immeasurable, having transformed how people find and make use of information on a daily basis. Just as search engines have transformed how we access information, other forms of big-data computing can and will transform the activities of companies, scientific researchers, medical practitioners, and our nation's defense and intelligence operations. Some examples include: Wal-Mart recently contracted with Hewlett Packard to construct a data warehouse

capable of storing 4 petabytes (4000 trillion bytes) of data, representing every single purchase recorded by their point-of-sale terminals (around 267 million transactions per day) at their 6000 stores worldwide. By applying machine learning to this data, they can detect patterns indicating the effectiveness of their pricing strategies and advertising campaigns, and better manage their inventory and supply chains.

Many scientific disciplines have become data-driven. For example, a modern telescope is really just a very large digital camera. The proposed Large Synoptic Survey Telescope (LSST) will scan the sky from a mountaintop in Chile, recording 30 trillion bytes of image data every day – a data volume equal to two entire Sloan Digital Sky Surveys daily! Astronomers will apply massive computing power to this data to probe the origins of our universe. The Large Hadron Collider (LHC), a particle accelerator that will revolutionize our understanding of the workings of the Universe, will generate 60 terabytes of data per day – 15 petabytes (15 million gigabytes) annually. Similar eScience projects are proposed or underway in a wide variety of other disciplines, from biology to environmental science to oceanography. These projects generate such enormous data sets that automated analysis is required. Additionally, it becomes impractical to replicate copies at the sites of individual research groups, so investigators pool their resources to construct a large data center that can run the analysis programs for all of the affiliated scientists.

1 For the most current version of this essay, as well as related essays, visit http://www.cra.org/ccc/initiatives

www.cra.org/ccc

Dix ans plus tard,

Spark a (quasiment)

pris le pouvoir dans

l’écosystème Hadoop,

le Cloud computing est

devenu la norme et

partout, le buzzword IA

fait vibrer l’analyste…

Dix ans après, la mythologie duBig Data est toujours vivace :• Un marché de 210 milliards de dollars envisagés à échelle

mondiale en 2020 (soit l’équivalent du PIB d’un pays comme la République Tchèque ou le Portugal)

• Des applications dans le marketing, la finance ou la logistique - qui feraient économiser 1 200 milliards de dollars aux entreprises utilisatrices selon Forrester…

• Des usages à portée de tous dans les transports, la santé, le e-commerce, avec des fournisseurs de services digital natives comme Uber, Airbnb ou BlablaCar…

• Une myriade d’acteurs tech, des traditionnels GAFA aux vieux routiers de la BI en passant par les start-ups aspirantes licornes qui ont triplé leurs levées de fonds entre 2010 et 2016…

… Et des doutes, encore et toujours, sur l’intrusion de la technologie dans le cercle privé, au moment où le législateur européen tente de créer des frontières…

Page 3: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

3

Les projets data

sont encore trop

souvent le fait d’initiés

qui ne répondent

pas directement à des

besoins métiers…

Dix ans après, le Big Data est toujours roi…Mais sa couronne a des reflets contrastés : « La maturité du Big Data, elle est réelle sur certains aspects technologiques, invoque Jean-David Benassouli, Associé, Responsable Data Intelligence pour la France et l’Afrique francophone chez PwC. Mais elle se heurte encore à de nombreux écueils, principalement sur l’implémentation ». « Le frein se situe au niveau du déploiement, confirme Florian Douetteau, fondateur et PDG de Dataiku. Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers. Conséquence : les équipes opérationnelles n’en comprennent pas l’intérêt et ne les intègrent pas dans leur mode de fonctionnement… »

Les entreprises l’ont compris : il faut repenser la méthodologie Big Data sous l’angle de la user experience, pour remettre au coeur de l’application l’objectif visé, la corré-lation entre les données et la capacité à manipuler facilement les modèles. « Avant, on avait tendance à parler de data visualisation, ce qui laissait entendre que l’aspect visuel n’était qu’une transposition figurée des modèles statistiques, explique Edouard Beaucourt, Directeur France et Europe du Sud de Tableau. On préfère désormais parler de Visual Analytics, car cela témoigne de la capacité d’analyse et de décision de celui qui reçoit et utilise l’information. »

Mais ce n’est pas tout… Autre démarche d’appropriation : multiplier les projets de collaboration entre experts data et experts métiers sur des problématiques opéra-tionnelles. Chez Swiss Life, le Big Data Lab réunit ainsi data scientists, actuaires et responsables opérationnels pour identifier les données nécessaires et mettre au point de nouveaux services. « Pas uniquement des personnes qui connaissent Python ou R » sourit Cynthia Traoré, Manager du Département Data Science et Responsable du Data Lab.

Avec le programme Smart Home ECare, Engie allie objets connectés et nouveaux services

B I G D A T A

Page 4: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

4

De fait, les projets

de grande ampleur

sur le marché français

restent encore le

pré carré de secteurs

historiquement et

culturellement

data-centric (télécoms,

utilities…)

Même concept chez ENGIE Digital où Aïssa Belaïd, CDO, chapeaute le programme Smart Home (création de services inno-vants pour les clients particuliers dotés d’objets connectés) en collaboration avec les business units du monde entier : « Je ne me lance dans un projet que si la BU me propose un plan concret d’utilisation, pas seulement un PoC ».

CDO, Head of Analytics, Head of AI… les sujets d’organisation et de gouvernance font aussi partie de l’équation : « Il y a parfois – encore trop souvent – des que-relles de chapelles entre équipes, qui brident à la fois l’accès aux données et le déploiement d’une stratégie da-ta-driven unifiée », témoigne Jean-David Benassouli de PwC. Pour lui, les grandes entreprises sont encore victimes de leurs « legacy systems » sur lesquels on a eu tendance à construire des couches digi-tales. « Forcément, il est plus facile de partir d’une page blanche quand on s’ap-pelle Uber ou Tesla… ».

De fait, les projets de grande ampleur sur le marché français restent encore le pré carré de secteurs historiquement et culturellement data-centric (télécoms, utilities…) et beaucoup de projets indus-triels restent encore au stade de Proof of Concept / Proof of Value. « Il y a en-core en France un manque de maturi-

té dans les entreprises intermédiaires (500-5000 personnes) sur l’opportunité d’adopter ou non une approche AI ou Big Data », confirme Florian Douetteau qui a fait de Dataiku un acteur bien implan-té sur le marché nord-américain. « Les entreprises américaines ont 1 ou 2 ans d’avance dans leur culture data et analy-tique… »

Alors, la flamme viendra-t-elle des en-treprises plus petites, plus pragma-tiques dans leurs besoins ? « Demain, un restaurateur ou un commerçant qui se trouve confronté à des problématiques data sur sa clientèle, ses finances ou sa logistique doit pouvoir mettre à profit des technologies Big Data indépendam-ment de ses volumes », espère Edouard Beaucourt de Tableau Software.

Le volume… une question qui semble dé-sormais reléguée au stade préhistorique du Big Data. Quitte à recentrer le débat sur la simple « data ». « Quand on parle

de Big Data, on a l’impression que c’est le volume qui pose problème, évoque Zyed Zalila, professeur à l’UTC et fondateur d’Intellitech. Or, à part sur le stockage et l’accès aux données, ce problème-là est dépassé : d’un point de vue analytique, c’est la complexité des processus à mo-déliser due au nombre de variables en jeu et à leurs interactions faibles ou fortes qui constitue l’horizon technologique… »

Avec ses interfaces

intuitives et réactives,

Uber a révolutionné

l’appropriation

de la data côté client

Page 5: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

5

Dix ans après l’article de la Computing Research Association, le data deluge semble un lointain souci : « A ce stade, toutes les industries ont réussi à passer l’étape ‘Où mettre mes données ? Où les récupérer ?’ », appuie Florian Douetteau.

D’autant que le virage Cloud First opéré au cœur des années 2013-2016 a complètement résolu l’équation coût/scalabilité : « Les gros fournisseurs GAFAM ont réussi à proposer des offres complètes alliant flexibilité des architectures et pertinence des services as-sociés », souligne Jean-David Benassouli. Reste la question de la privacy qui, avec l’Internet des Objets, ne manquera pas de se poser avec encore plus d’acuité dans les années à venir, post-RGPD. « Le consomma-teur ne va pas accepter que les données collectées dans son salon ou sa chambre à coucher remontent dans un cloud hébergé à des milliers de kilomètres », avertit Yann Léchelle, Directeur des Opérations chez Snips, qui a créé Snips AIR, une plateforme d’assistants vocaux capables de stocker les données directement sur l’appareil. « L’IoT a besoin de temps réel, renchérit Juvénal Chokogoué, Lead Data Engineer et auteur de ‘Maîtrisez l’utilisation des technologies Hadoop’, et le système HDFS propose un traite-ment par lot, avec une latence. Technologiquement, il faudra probablement passer sur un autre paradigme ‘au fil de l’eau’ dans les années à venir ».

Edge computing, stream data, fast data… ce sont peut-être là les nouveaux visages du Big Data, où la donnée se fait plus “small” mais directement utilisable et contextua-

Edge computing,

stream data, fast data…

ce sont peut-être

là les nouveaux visages

du Big Data

S’il résout une équation coût-volume cruciale en matière de stockage, le Cloud reste sans

réponse claire face au défi de la privacy

Page 6: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

6

lisée via des supports de stockage flash. « Au fur et à mesure qu’on est passé du stockage vers l’applicatif, on s’est plutôt tourné vers la question des flux, de la pé-rennité des données », explique Florian Douetteau.Les 3V du début (Volume, Variété, Vélocité) se sont alors étoffés de nou-veaux concepts : accessibilité, confiden-tialité, sécurité, connectivité, durabilité, mais surtout… fiabilité. Face à la profu-sion de sources et de données dispo-nibles, l’impératif de qualité est devenu plus que jamais central pour éviter de corrompre les modèles apprenants d’IA.

L’IA. Au fur et à mesure de la décennie 2010, ce vieux concept tout droit sorti des années 1950 est revenu hanter la sphère décisionnelle… quitte à faire de l’ombre à son proche parent, le Big Data. « L’IA c’est

l’objectif, le Big Data la matière première. Et la discipline qu’on utilise, c’est la da-ta science », recadre Florian Douetteau. Revue de vocabulaire utile tant les concepts semblent parfois flottants, au gré de l’ambiance marketing du mo-ment. « C’est du bullshit de dire que l’IA a remplacé le Big Data, tempère Jean-David Benassouli : les deux concepts pro-gressent ensemble. Les techniques de Machine Learning existaient depuis long-temps mais c’est la profusion de données et la mise à disposition d’énormes capaci-tés de stockage/calculs et de frameworks de Machine Learning évolués (de type Keras ou TensorFlow) qui leur a permis de s’étendre aux domaines d’applications qu’on connaît – voix, textes, images ».

Dans 2001 l’Odyssée de l’Espace, le robot HAL in-carne une IA menaçante et accomplie telle qu’on la

pressent dans les années 60

De fait, les algorithmes d’IA commencent à démontrer une maturité technologique certaine qui prolonge les perspectives déjà ouvertes en 2008 par le Big Data. Et si, en 2017, le marché de l’intelligence ar-tificielle pointait à 4,8 milliards de dollars, c’est 50% de plus qui est d’ores et déjà annoncé en 2018, soit 7,3 milliards de dollars… sans compter les 89,8 annoncés pour 2025 (chiffres Statista, ndlr). Autant dire un potentiel économique aussi pro-metteur que celui du Big Data - on corrèle d’ailleurs souvent les deux marchés sous un même vocable « Big Data et IA ». Une fièvre IA qui n’est pas près de retom-ber, donc. « Mais attention, prévient Aïssa Belaïd, l’IA ne va pas tout révolutionner comme une boule de cristal, il faudra de vrais use cases derrière ». L’usage, en-core et toujours…

Dix ans après, le Big Data est donc plus que jamais concurrencé sur le terrain de la « com’ » – par l’IA, par l’IoT et demain par la Blockchain. Mais ses enjeux et ses applications sont, eux, toujours en mou-vement, voire en construction. « Nous avons seulement commencé à voir son potentiel à collecter, organiser et traiter des données dans tous les champs de l’existence » écrivaient Bryant, Katz et Lazowska en 2008.

2018…début d’unenouvelledécennie ?

Page 7: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

7

Dix ans après des chiffres toujours vertigineux. LE BIG DATAEN CHIFFRES…ET EN KILOMÈTRES !

Si une liasse de 10 billets de 1 dollarfait 1 cm, alors combien font… :… Le chiffre d’affaires générépar les vendeurs de servicesBig Data en 20171 ?

57 Milliards $ = 5 700 kmSoit la distance à vol d’oiseauentre Paris et Oman !

… Le chiffre d’affaires annuel estimédu marché mondial Big Data en 20202 ?

210 Milliards $ = 21 000 kmSoit la longueur historique estiméede la Grande Muraille de Chine !

57Milliards $

2 1 0 0 0

1 2 0 0 0 0

Km

Km

… L’avantage comparatif généré d’ici 2020 par les entreprisesutilisatrices du Big Data sur leurs concurrentes non-utilisatrices3 ?

1 200 Milliards $ = 120 000 kmSoit 1 tiers de la distance entrela Terre et la Lune !

Page 8: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

8

LE BIG DATA DANS L’ECONOMIE…ET FACE À D’AUTRES INDICATEURS

3%

8,2%

11,8%

... c’est la part estimée du secteur « Data Economy » dans la croissance du PIB de l’Union Européenne d’ici 20204

… c’est également la part prise par les secteurs culturels et créatifs dans le PIB mondial4

… c’est le taux de croissanceannuelle moyenne du secteur Big Data et Analytique entre 2017 et 20212

… c’est également le taux de croissance du PIB le plus élevé de 2017 : celui de l’Ethiopie

… c’est la part estimée des produitset services data dans l’ensemblede la dépense informatique de l’UE28en 20205

… c’est égalementle poids de l’industriemanufacturière italienne dans l’industrie européenne

OÙ TROUVE-T-ON PRINCIPALEMENT LE BIG DATA ?(et où ne le trouve-t-on pas encore assez…)

… Les trois principaux secteurs d’applications du Big Data dans l’Union Européenne4

• Industrie : 16,4 milliards en 2020• Finance : 15,4 milliards en 2020• Retail : 8,2 milliards en 2020

Malgré le nombre important d’organisations susceptibles d’utiliser ses données, le secteur de la Construction reste encore en retrait, estimé à 339 millions d’euros dans l’UE en 2020…

Et par zone géographique2 :• Etats Unis : $78.8 milliards en 2017• Europe de l’Ouest : $34.1 milliards en 2017• Asie Pacifique (hors Japon) : $13.6 milliards en 2017

Si l’Amérique Latine n’est pas encore dans le tiercé de tête, son taux de croissance annuelle s’impose comme le plus élevé sur ces technologies : 16,6% !

1 SNS Research, Big Data Market: 2017 – 2030 – Opportunities, Challenges, Strategies, Industry Verticals & Forecasts, April 172 IDC, Worldwide Semiannual Big Data and Analytics Spending Guide, March 20173 Forrester, Insights-Driven Businesses Set The Pace For Global Growth, October 20174 http://www.worldcreative.org/wp-content/uploads/2015/12/CulturalTimes_Summary_FR.pdf5 Source: European Union, Data Landscape, DG Connect

Page 9: BIG DATA · 3 Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers… Dix ans après, le Big Data est toujours

Participez à Big Data Paris

les 11 & 12 mars 2019au Palais des Congrès

et profitez d’une opportunité

unique de vous informer et

networker avec l’ensemble

des acteurs de l’éco-système

Big Data.

Inscriptions surWWW.BIGDATAPARIS.COM/2019.COM

B I G D A T ARETOUR SUR 10 ANS

DE CONQUÊTE