big data, charles huot, aproged,février 2013

65
Big Data Charles Huot Vice-Président ADBS 12 février 2013

Upload: adbs

Post on 21-Jun-2015

2.411 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big Data, Charles Huot, Aproged,février 2013

Big Data

Charles Huot

Vice-Président

ADBS 12 février 2013

Page 2: Big Data, Charles Huot, Aproged,février 2013

Qui est l’Aproged ?

• Association professionnelle créée en 1993

• Une centaine d’adhérents représentant les professionnels de la valorisation des contenus numériques

(indexation, linguistique, moteurs de recherche, sémantique, dématérialisation, gestion de contenu et de document, archivage, capture, éditique, workflow… ).

• Au cœur de la réflexion sur la gestion et l’optimisation des contenus et des documents numériques

• Rôle déterminant en matière d’information et d’études, de formation et de normalisation.

• Fondateur du Forum des Acteurs du Numérique devenu en 2012 le Congrès national de la Valorisation des Contenus numériques

Page 3: Big Data, Charles Huot, Aproged,février 2013

Livres blancs Aproged

V1 en janv 2012 V2 en oct 2012

Page 4: Big Data, Charles Huot, Aproged,février 2013

Livres blancs Aproged

Document et Cloud Juin 2012

Page 5: Big Data, Charles Huot, Aproged,février 2013

Livres blancs Aproged

Content Analytics Janvier 2013

Page 6: Big Data, Charles Huot, Aproged,février 2013

Livres blancs Aproged

E-réputation et B2B Février 2013

Page 7: Big Data, Charles Huot, Aproged,février 2013

Références Big Data

• Big data, exploiter de grands volumes de données : quels sont les enjeux pour les acteurs du marché de l’information et de la connaissance ? (3 juillet 2012) Compte

rendu Vivien Mann bientôt en ligne,

• Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big Data »

• Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles économique pour le Big Data »

• Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de donnée »

• Mark ASCH (INSMI-CNRS) « L’exploitation des données scientifiques »

Page 8: Big Data, Charles Huot, Aproged,février 2013

IDC: « Worldwide Big Data Taxonomy, 2011 »

Page 9: Big Data, Charles Huot, Aproged,février 2013

Cap Gemini: « The Deciding Factor: Big Data & Decison Making »

Page 10: Big Data, Charles Huot, Aproged,février 2013

McKinsey Global Institute: « Big data: The next Frontier for innovation, competition, and productivity

Page 11: Big Data, Charles Huot, Aproged,février 2013

« Nation’s most pressing challenges »

Page 12: Big Data, Charles Huot, Aproged,février 2013

« Investissements d’Avenir »

Page 13: Big Data, Charles Huot, Aproged,février 2013

Agenda de la formation APROGED

• Qu’est ce que le Big Data ? Exemples avec les données des réseaux sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs etc. …), l’Open Data, les données de géolocalisation etc. …

• Technologies et métriques du Big Data – ce qu’on peut obtenir du Big Data - les technologies de stockage – les méthodes d’analyse de l’information – les techniques de visualisation – les techniques de restitution –

• Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat français en 2013 après appel à projets – la valeur ajoutée apportée par le traitement – la valeur ajoutée apportée par le service – le modèle publicitaire

• Aspects juridiques du projet – la propriété intellectuelle – le savoir-faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de l’Aproged – Les contrats et les bonnes clauses

Page 14: Big Data, Charles Huot, Aproged,février 2013

Big Data et ADBS

• l’état de l’art technologique (de quoi on parle ?)

• aux Enjeux :

– (r)évolution des traitements informatiques

– Principaux champs d’application

– Enjeux en terme de gisement d’activité et d’emplois potentiels.

Page 15: Big Data, Charles Huot, Aproged,février 2013
Page 16: Big Data, Charles Huot, Aproged,février 2013

Désigne les masses de données auxquelles sont confrontés les acteurs du secteur privé comme du secteur public et qu’ils veulent/peuvent exploiter pour générer des nouveaux business et/ou être plus efficaces.

Le Big Data : lieu d’innovation

16

Page 17: Big Data, Charles Huot, Aproged,février 2013

Beaucoup plus de données

Vraiment beaucoup plus

Page 18: Big Data, Charles Huot, Aproged,février 2013
Page 19: Big Data, Charles Huot, Aproged,février 2013

Des puces RFID pour tracer les vaches

Page 20: Big Data, Charles Huot, Aproged,février 2013

Des capteurs sur les réacteurs

d’avion

Page 21: Big Data, Charles Huot, Aproged,février 2013

Des capteurs pour suivre la circulation

Page 22: Big Data, Charles Huot, Aproged,février 2013

Accumuler des données sur l’univers

Page 23: Big Data, Charles Huot, Aproged,février 2013

Génome

Décrire les génomes

Page 24: Big Data, Charles Huot, Aproged,février 2013

Concevoir ensemble

Page 25: Big Data, Charles Huot, Aproged,février 2013

Jouer, acheter, communiquer et

laisser des traces numériques

Page 26: Big Data, Charles Huot, Aproged,février 2013

Parler de soi et des autres

Page 27: Big Data, Charles Huot, Aproged,février 2013

Les ordres de grandeur

• Le volume de Big Data croît de 60% chaque année

• La valeur des données a dépassé celle du hardware

2015 20 Zetta (1021)

2030

1 Yotta (1024)

Page 28: Big Data, Charles Huot, Aproged,février 2013

Big Data Projet technique

Page 30: Big Data, Charles Huot, Aproged,février 2013

Traitement de logs Applications verticales Business intelligence Analyse et visualisation

Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration

Fournisseurs de données

Technologies

Petit aperçu du paysage

Page 31: Big Data, Charles Huot, Aproged,février 2013

Data data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

Compute Cluster

DFS Block 1 DFS Block 1

DFS Block 1

DFS Block 2

DFS Block 2

DFS Block 2

DFS Block 3

DFS Block 3

Map

Map

Map

Results data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

Reduce

Overview

Image courtesy of the Apache Software Foundation

Page 32: Big Data, Charles Huot, Aproged,février 2013

Stockage

Traitement

La librairie Apache Hadoop permet de traiter de larges ensembles de données

de manière distribuée au travers de grappes d’ordinateurs en utilisant un

modèle de programmation simple

Hadoop Distributed File System

Page 33: Big Data, Charles Huot, Aproged,février 2013

Gestion de fichiers

Hadoop Distributed File System HDFS

Map Reduce

Hadoop MapReduce

Traitement

graphes…

Giraph

Langages

Pig, Hive, Crunch, Sqoop

Composants C

oo

rdin

ati

on

...Z

oo

ke

ep

er

SG

BD

No

Sq

l

Hb

as

e

Page 34: Big Data, Charles Huot, Aproged,février 2013

DataViz et BigData

des résultats visualisables, compréhensibles, interprétables

Page 35: Big Data, Charles Huot, Aproged,février 2013
Page 37: Big Data, Charles Huot, Aproged,février 2013
Page 38: Big Data, Charles Huot, Aproged,février 2013

http://youtu.be/Ncon_z67VQs

Twitter Adoption

Page 39: Big Data, Charles Huot, Aproged,février 2013
Page 40: Big Data, Charles Huot, Aproged,février 2013

BigData & Applications

Page 41: Big Data, Charles Huot, Aproged,février 2013

Une surabondance d’application à gérer! N

um

be

r &

co

mp

lex

ity

of

te

ch

no

log

ies

/da

ta s

ou

rc

es

Time Frame

eCommerce Smarter

Planet

eDiscovery

Decision support

Alerting

Watson

Predictions

Historic

Relationship Detection

Pattern Detection

Find influencers

Brand management

Climate Modeling And Prediction

Investment Trend Detection

Reputation management

Voice of Customer

Gov’t Intelligence Apps

Log Analysis

Future(Predict)

Ad targeting

Churn detection

Find drug interactions

Fraud Detection

Source: IDC, Big Data and the information advantage Sue Feldman

Sentiment extraction

Page 42: Big Data, Charles Huot, Aproged,février 2013

L’offre, la proposition de valeur

• Les applications de traitement des logs

– IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, …

• Les applications verticales

– BloomReach (big data marketing), …

• Business intelligence

– Oracle, SAP, BO, Cognos, SAS, GoodData, …

• Analyse et visualisation

– Pikko, GreenPlum, Palantir, Visual.ly, …

• Fournisseurs de données

– GNIP, INRIX, DataSift

• Analyse d’infrastructure

– Hortonworks, Cloudera, MapR,…

• Infrastructure opérationnelle

– CouchBase, Teradata, 10gen, …

• Infrastructure as a Service

– Amazon web services, Infochimps, WindowsAzure, …

• Bases de données structurées

– Oracle, MySQL, SQLServer, …

• Technologies

– Hadoop, HiBase, Cassandra, …

Page 43: Big Data, Charles Huot, Aproged,février 2013

Les segments de clientèle visés

Page 44: Big Data, Charles Huot, Aproged,février 2013

Les segments de clientèle visés

• Santé

– Chaque hôpital : 150 TB 650 TB en 2015 (imagerie médicale, données)

• Service client

– Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation, aujourd’hui on est passé à 86%

• Assurances, administrations

– Elles font face à des fraudes en quantité croissante

• Services financiers

– L’information financière : par ex. le Dow Jones = 19.000 news par jour

• Grandes distributions

– Les ventes ratées pour défaut en stock représentent 170 M$ aux USA

– L’analyse des tickets de caisse

• Télécommunication

– 5 milliards d’abonnés au portable qui attendent des services personnalisés

• Ministères

– La population de chaque pays, …

• Bibliothèques

– La pérennisation des fonds, des archives, …

• Etc.

Page 45: Big Data, Charles Huot, Aproged,février 2013

Time Line

client

Contrats

CRM

Collecter

Stocker

Extraire

Formaliser

Codifier

Réconcilier

Enrichir

Agréger

Organiser

Indexer

Donner

accès

Filtrer

Représenter

Action

Affiner profil

client

Tableau de

bord produits

& processus

CRM

Marketing

Comprendre, prévoir, agir

Page 46: Big Data, Charles Huot, Aproged,février 2013

La télévision et Twitter

Page 47: Big Data, Charles Huot, Aproged,février 2013

R O I

Du ROI au ROD

47

Machines / Réseaux / Software BIG DATA

Volumes Efficacité

Return On Investment

R Return On Data

O D

Page 48: Big Data, Charles Huot, Aproged,février 2013

DÉFINITION : BUSINESS MODEL

Selon une définition actuelle qui fait consensus, il s’agit d’un « outil » qui décrit la façon de créer, délivrer et capturer de la valeur pour un acteur économique ou un

écosystème économique.

Page 49: Big Data, Charles Huot, Aproged,février 2013

Les segments

de clientèle Les parte-

naires clefs

La structure

de coûts

Les flux de

revenus Les canaux

de distribution

Les relations

avec le client

Les activités

clefs

Les ressources

clefs

Les propositions

de valeur

Page 50: Big Data, Charles Huot, Aproged,février 2013

L’offre

Les canaux de

distribution

Les relations avec

le client

Les segments de

clientèle

Les flux de revenus La structure de coûts

Les activités

clefs

Le réseau de

partenaires

Les ressources

clefs

La matrice du Business Model

Collecter Traiter des log Appli verticales

Analyser Visualiser

Interpréter Structurer

Stocker

Administration Média

Industrie Banque Santé

Distribution …

Self-service Formation

Support

Débit Performance

Espace

Conseil Calcul

Stockage

B2B A2B

Hébergeur Datacenter

HPC Constructeur

Opérateur Cloud

Maintenance de la plateforme Abonnement

Développement Exploitation

Valorisation des données Ventes / reventes Lot / transaction

PI, Licences, loyers

Page 51: Big Data, Charles Huot, Aproged,février 2013

• Gratuité et applications et services spécialisés

• Gratuité et publicités

• Abonnement à des API

• Abonnement à d’autres fonctions

• Vente de data de qualité (premium)

Des business model classiques web

51

Source : datamarket.com

Page 52: Big Data, Charles Huot, Aproged,février 2013

BigData & Emploi

Page 53: Big Data, Charles Huot, Aproged,février 2013

Une variété de talents

Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)

Page 54: Big Data, Charles Huot, Aproged,février 2013

Une variété de talents

• Spécialistes en source de données

– Sources ouvertes

– Sources payantes

– Sources internes

• Terminologues

– Gestionnaire de terminologie, lexiques métiers, des ontologies

– Expertise métier

– Web Semantique

• Documentalistes et experts en Système d’information documentaire

– Gestion électronique des documents

– Moteurs de recherche

– Text Mining

– Visualisation de données

– Reporting

Page 55: Big Data, Charles Huot, Aproged,février 2013

BigData & Science

Masses de Données Scientifiques: Enjeux et Perspectives

Page 56: Big Data, Charles Huot, Aproged,février 2013

Les données : une matière première et des produits à forte valeur ajoutée

• Commerce et les affaires

– SI d’entreprise, transactions commerciales,

systèmes de réservation, …

• Loisirs

– Musique, vidéo, jeux, réseaux sociaux…

• Sciences

– Astronomie, physique et énergie, génome, …

• Médecine

– Dossier médical, sécurité sociale, imagérie

• Environnement

– Climat, dév durable, pollution, alimentation,…

• Humanités et Sciences Sociales

– Numérisation du savoir (littérature, histoire,…),

interactions dans les réseaux sociaux, données

archéologiques…

BD et fichiers d’entreprises

Données WEB et

Réseaux Sociaux

Données de Capteurs

Données d’expériences

scientifiques

Page 57: Big Data, Charles Huot, Aproged,février 2013

Une petite idée des volumes de données

!"#$%&' ($) ' ("*

Volume Exemple

1 gigabyte: 109 Information known in the human genome

1 terabyte:1012 Annual world literature production

1 petabyte: 1015 All US academic research libraries

1 exabyte: 1018 Two thirds of annual world production of

information

Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx

Page 58: Big Data, Charles Huot, Aproged,février 2013

Caractéristiques

• Des recherches principalement tirées par – Des applications industrielles

– L’émergence de nouvelles technologies

– L’émergence de nouveaux usages

• Une recherche dominée (ou presque) par des labos

industriels

– Nombreuses « success stories »

– Des laboratoires industriels de pointe

• IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!

– Une grande perméabilité entre monde académique et monde

industriel (en particulier aux US, moins en Europe)

Page 59: Big Data, Charles Huot, Aproged,février 2013

Les grands verrous dans la gestion des masses de données

1. La virtualisation du stockage et de l’accès (Cloud).

2. L’intégration de données.

3. La gestion d’événements et de flots de données.

4. L’analyse complexe à grande échelle.

5. La qualité et protection des données.

6. La visualisation/navigation des masses de données.

7. La préservation des données.

Page 60: Big Data, Charles Huot, Aproged,février 2013

Défi 1 : Stockage à grande échelle (Cloud)

• Bénéfices du Cloud

– Pas d’infrastructure à acquérir ni à gérer • « Pay as you go »

– Stockage massif de données (à moindre coût) • Coûts de stockage et d’utilisation réduits

– Accès anytime – anywhere via Internet • Ex: iCloud (Apple)

– Qualité de service • Disponibilité, sécurité

– Elasticité

• absorbe facilement les charges lourdes ou soudaines

• Challenges du Cloud

– Indexation intelligente (sémantique)

– Sécurité et Confidentialité (privacy)

– Calcul haute performance (//)

– Cohérence et qualité des données

D

C

Time

R

D

C

R

Page 61: Big Data, Charles Huot, Aproged,février 2013

Défi 2 : Analyse complexe à grande échelle

• Analyse en temps réel de flots continus de données émanant de différentes sources

– Ex: Découvrir et comprendre les patterns caractéristiques du comportement des clients/utilisateurs

• Réaction en temps réel à des événements d’alerte

– Ex: attaques sur le réseau

• Requêtes multidimensionnelles sur des grands ensembles de données

– Découvrir et comprendre des patterns en analysant le comportement d’une population

– Découvrir des corrélations entre phénomènes

Divy Agrawal et al , VLDB Tutorial’2010

Page 62: Big Data, Charles Huot, Aproged,février 2013

Défi 3 : la gestion de flots d’événements

• Capture d’événements

– Politique de détection et de composition (requêtes sur les évnts)

– Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages

– Détection / simulation d’événements rares

• Réaction aux événements

– Politique de déclenchement, consommation, exécution (optimisation)

– Couplage transactionnel

– Analyse : confluence, terminaison

• Bufferisation

– Taille des fenêtres temporelles

– Stratégies de glissement

• Historisation

– Stockage massif

– Indexation

– Analyse complexe (analyse de séquences, motifs fréquents,…)

Cible : intelligence ambiante,

réseaux sociaux, surveillance temps réel, robotique,

bioinformatique.

Page 63: Big Data, Charles Huot, Aproged,février 2013

Défi 4 : La visualisation des masses de données

• Besoins

– Navigation intuitive/contextuelle

• desktop intelligent, réseaux sociaux, contenus MM

– Visualisation de phénomènes non perceptibles

• Génome, trou noir

– Analyse visuelle

• Découverte de connaissances

• Challenges

– Invention de nouvelles métaphores graphiques

– Algorithmes de graphes performants (//)

• Optimisation de la visulaisation de grands graphes

– Clusterisation et stats de graphes

– Adaptation aux terminaux /équipements

Page 64: Big Data, Charles Huot, Aproged,février 2013

Défi 5 : La préservation des données

• Comment préserver les données à durée de vie illimité?

– connaissances scientifiques

– produits culturelles

– connaissances archéologiques et environnementales

– connaissances sociales (recensements)

• Comment préserver les données à durée de vie longue mais limitée

– patrimoine informationnel des entreprises

– Données personnelles (stockées dans les disques privés ou publiés sur le Web)

– Données publiques (fichiers sécu, police, …)

• Quel coût pour la préservation des données – Coût de conversion des données (formats)

– Coût pour la migration des technologies

– Coût de maintien des technologies de niche

• Quelle stratégie pour les données gérées dans le Cloud ?

Accroissement de l’hétérogénéité des

MDD

Plus grandes difficultés pour leur intégration et leur

exploitation

Page 65: Big Data, Charles Huot, Aproged,février 2013

www.aproged.org

Merci de votre

attention