big data, charles huot, aproged,février 2013

Post on 21-Jun-2015

2.411 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big Data

Charles Huot

Vice-Président

ADBS 12 février 2013

Qui est l’Aproged ?

• Association professionnelle créée en 1993

• Une centaine d’adhérents représentant les professionnels de la valorisation des contenus numériques

(indexation, linguistique, moteurs de recherche, sémantique, dématérialisation, gestion de contenu et de document, archivage, capture, éditique, workflow… ).

• Au cœur de la réflexion sur la gestion et l’optimisation des contenus et des documents numériques

• Rôle déterminant en matière d’information et d’études, de formation et de normalisation.

• Fondateur du Forum des Acteurs du Numérique devenu en 2012 le Congrès national de la Valorisation des Contenus numériques

Livres blancs Aproged

V1 en janv 2012 V2 en oct 2012

Livres blancs Aproged

Document et Cloud Juin 2012

Livres blancs Aproged

Content Analytics Janvier 2013

Livres blancs Aproged

E-réputation et B2B Février 2013

Références Big Data

• Big data, exploiter de grands volumes de données : quels sont les enjeux pour les acteurs du marché de l’information et de la connaissance ? (3 juillet 2012) Compte

rendu Vivien Mann bientôt en ligne,

• Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big Data »

• Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles économique pour le Big Data »

• Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de donnée »

• Mark ASCH (INSMI-CNRS) « L’exploitation des données scientifiques »

IDC: « Worldwide Big Data Taxonomy, 2011 »

Cap Gemini: « The Deciding Factor: Big Data & Decison Making »

McKinsey Global Institute: « Big data: The next Frontier for innovation, competition, and productivity

« Nation’s most pressing challenges »

« Investissements d’Avenir »

Agenda de la formation APROGED

• Qu’est ce que le Big Data ? Exemples avec les données des réseaux sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs etc. …), l’Open Data, les données de géolocalisation etc. …

• Technologies et métriques du Big Data – ce qu’on peut obtenir du Big Data - les technologies de stockage – les méthodes d’analyse de l’information – les techniques de visualisation – les techniques de restitution –

• Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat français en 2013 après appel à projets – la valeur ajoutée apportée par le traitement – la valeur ajoutée apportée par le service – le modèle publicitaire

• Aspects juridiques du projet – la propriété intellectuelle – le savoir-faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de l’Aproged – Les contrats et les bonnes clauses

Big Data et ADBS

• l’état de l’art technologique (de quoi on parle ?)

• aux Enjeux :

– (r)évolution des traitements informatiques

– Principaux champs d’application

– Enjeux en terme de gisement d’activité et d’emplois potentiels.

Désigne les masses de données auxquelles sont confrontés les acteurs du secteur privé comme du secteur public et qu’ils veulent/peuvent exploiter pour générer des nouveaux business et/ou être plus efficaces.

Le Big Data : lieu d’innovation

16

Beaucoup plus de données

Vraiment beaucoup plus

Des puces RFID pour tracer les vaches

Des capteurs sur les réacteurs

d’avion

Des capteurs pour suivre la circulation

Accumuler des données sur l’univers

Génome

Décrire les génomes

Concevoir ensemble

Jouer, acheter, communiquer et

laisser des traces numériques

Parler de soi et des autres

Les ordres de grandeur

• Le volume de Big Data croît de 60% chaque année

• La valeur des données a dépassé celle du hardware

2015 20 Zetta (1021)

2030

1 Yotta (1024)

Big Data Projet technique

Traitement de logs Applications verticales Business intelligence Analyse et visualisation

Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration

Fournisseurs de données

Technologies

Petit aperçu du paysage

Data data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

Compute Cluster

DFS Block 1 DFS Block 1

DFS Block 1

DFS Block 2

DFS Block 2

DFS Block 2

DFS Block 3

DFS Block 3

Map

Map

Map

Results data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

data data data data data

Reduce

Overview

Image courtesy of the Apache Software Foundation

Stockage

Traitement

La librairie Apache Hadoop permet de traiter de larges ensembles de données

de manière distribuée au travers de grappes d’ordinateurs en utilisant un

modèle de programmation simple

Hadoop Distributed File System

Gestion de fichiers

Hadoop Distributed File System HDFS

Map Reduce

Hadoop MapReduce

Traitement

graphes…

Giraph

Langages

Pig, Hive, Crunch, Sqoop

Composants C

oo

rdin

ati

on

...Z

oo

ke

ep

er

SG

BD

No

Sq

l

Hb

as

e

DataViz et BigData

des résultats visualisables, compréhensibles, interprétables

http://youtu.be/Ncon_z67VQs

Twitter Adoption

BigData & Applications

Une surabondance d’application à gérer! N

um

be

r &

co

mp

lex

ity

of

te

ch

no

log

ies

/da

ta s

ou

rc

es

Time Frame

eCommerce Smarter

Planet

eDiscovery

Decision support

Alerting

Watson

Predictions

Historic

Relationship Detection

Pattern Detection

Find influencers

Brand management

Climate Modeling And Prediction

Investment Trend Detection

Reputation management

Voice of Customer

Gov’t Intelligence Apps

Log Analysis

Future(Predict)

Ad targeting

Churn detection

Find drug interactions

Fraud Detection

Source: IDC, Big Data and the information advantage Sue Feldman

Sentiment extraction

L’offre, la proposition de valeur

• Les applications de traitement des logs

– IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, …

• Les applications verticales

– BloomReach (big data marketing), …

• Business intelligence

– Oracle, SAP, BO, Cognos, SAS, GoodData, …

• Analyse et visualisation

– Pikko, GreenPlum, Palantir, Visual.ly, …

• Fournisseurs de données

– GNIP, INRIX, DataSift

• Analyse d’infrastructure

– Hortonworks, Cloudera, MapR,…

• Infrastructure opérationnelle

– CouchBase, Teradata, 10gen, …

• Infrastructure as a Service

– Amazon web services, Infochimps, WindowsAzure, …

• Bases de données structurées

– Oracle, MySQL, SQLServer, …

• Technologies

– Hadoop, HiBase, Cassandra, …

Les segments de clientèle visés

Les segments de clientèle visés

• Santé

– Chaque hôpital : 150 TB 650 TB en 2015 (imagerie médicale, données)

• Service client

– Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation, aujourd’hui on est passé à 86%

• Assurances, administrations

– Elles font face à des fraudes en quantité croissante

• Services financiers

– L’information financière : par ex. le Dow Jones = 19.000 news par jour

• Grandes distributions

– Les ventes ratées pour défaut en stock représentent 170 M$ aux USA

– L’analyse des tickets de caisse

• Télécommunication

– 5 milliards d’abonnés au portable qui attendent des services personnalisés

• Ministères

– La population de chaque pays, …

• Bibliothèques

– La pérennisation des fonds, des archives, …

• Etc.

Time Line

client

Contrats

CRM

Collecter

Stocker

Extraire

Formaliser

Codifier

Réconcilier

Enrichir

Agréger

Organiser

Indexer

Donner

accès

Filtrer

Représenter

Action

Affiner profil

client

Tableau de

bord produits

& processus

CRM

Marketing

Comprendre, prévoir, agir

La télévision et Twitter

R O I

Du ROI au ROD

47

Machines / Réseaux / Software BIG DATA

Volumes Efficacité

Return On Investment

R Return On Data

O D

DÉFINITION : BUSINESS MODEL

Selon une définition actuelle qui fait consensus, il s’agit d’un « outil » qui décrit la façon de créer, délivrer et capturer de la valeur pour un acteur économique ou un

écosystème économique.

Les segments

de clientèle Les parte-

naires clefs

La structure

de coûts

Les flux de

revenus Les canaux

de distribution

Les relations

avec le client

Les activités

clefs

Les ressources

clefs

Les propositions

de valeur

L’offre

Les canaux de

distribution

Les relations avec

le client

Les segments de

clientèle

Les flux de revenus La structure de coûts

Les activités

clefs

Le réseau de

partenaires

Les ressources

clefs

La matrice du Business Model

Collecter Traiter des log Appli verticales

Analyser Visualiser

Interpréter Structurer

Stocker

Administration Média

Industrie Banque Santé

Distribution …

Self-service Formation

Support

Débit Performance

Espace

Conseil Calcul

Stockage

B2B A2B

Hébergeur Datacenter

HPC Constructeur

Opérateur Cloud

Maintenance de la plateforme Abonnement

Développement Exploitation

Valorisation des données Ventes / reventes Lot / transaction

PI, Licences, loyers

• Gratuité et applications et services spécialisés

• Gratuité et publicités

• Abonnement à des API

• Abonnement à d’autres fonctions

• Vente de data de qualité (premium)

Des business model classiques web

51

Source : datamarket.com

BigData & Emploi

Une variété de talents

Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)

Une variété de talents

• Spécialistes en source de données

– Sources ouvertes

– Sources payantes

– Sources internes

• Terminologues

– Gestionnaire de terminologie, lexiques métiers, des ontologies

– Expertise métier

– Web Semantique

• Documentalistes et experts en Système d’information documentaire

– Gestion électronique des documents

– Moteurs de recherche

– Text Mining

– Visualisation de données

– Reporting

BigData & Science

Masses de Données Scientifiques: Enjeux et Perspectives

Les données : une matière première et des produits à forte valeur ajoutée

• Commerce et les affaires

– SI d’entreprise, transactions commerciales,

systèmes de réservation, …

• Loisirs

– Musique, vidéo, jeux, réseaux sociaux…

• Sciences

– Astronomie, physique et énergie, génome, …

• Médecine

– Dossier médical, sécurité sociale, imagérie

• Environnement

– Climat, dév durable, pollution, alimentation,…

• Humanités et Sciences Sociales

– Numérisation du savoir (littérature, histoire,…),

interactions dans les réseaux sociaux, données

archéologiques…

BD et fichiers d’entreprises

Données WEB et

Réseaux Sociaux

Données de Capteurs

Données d’expériences

scientifiques

Une petite idée des volumes de données

!"#$%&' ($) ' ("*

Volume Exemple

1 gigabyte: 109 Information known in the human genome

1 terabyte:1012 Annual world literature production

1 petabyte: 1015 All US academic research libraries

1 exabyte: 1018 Two thirds of annual world production of

information

Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx

Caractéristiques

• Des recherches principalement tirées par – Des applications industrielles

– L’émergence de nouvelles technologies

– L’émergence de nouveaux usages

• Une recherche dominée (ou presque) par des labos

industriels

– Nombreuses « success stories »

– Des laboratoires industriels de pointe

• IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!

– Une grande perméabilité entre monde académique et monde

industriel (en particulier aux US, moins en Europe)

Les grands verrous dans la gestion des masses de données

1. La virtualisation du stockage et de l’accès (Cloud).

2. L’intégration de données.

3. La gestion d’événements et de flots de données.

4. L’analyse complexe à grande échelle.

5. La qualité et protection des données.

6. La visualisation/navigation des masses de données.

7. La préservation des données.

Défi 1 : Stockage à grande échelle (Cloud)

• Bénéfices du Cloud

– Pas d’infrastructure à acquérir ni à gérer • « Pay as you go »

– Stockage massif de données (à moindre coût) • Coûts de stockage et d’utilisation réduits

– Accès anytime – anywhere via Internet • Ex: iCloud (Apple)

– Qualité de service • Disponibilité, sécurité

– Elasticité

• absorbe facilement les charges lourdes ou soudaines

• Challenges du Cloud

– Indexation intelligente (sémantique)

– Sécurité et Confidentialité (privacy)

– Calcul haute performance (//)

– Cohérence et qualité des données

D

C

Time

R

D

C

R

Défi 2 : Analyse complexe à grande échelle

• Analyse en temps réel de flots continus de données émanant de différentes sources

– Ex: Découvrir et comprendre les patterns caractéristiques du comportement des clients/utilisateurs

• Réaction en temps réel à des événements d’alerte

– Ex: attaques sur le réseau

• Requêtes multidimensionnelles sur des grands ensembles de données

– Découvrir et comprendre des patterns en analysant le comportement d’une population

– Découvrir des corrélations entre phénomènes

Divy Agrawal et al , VLDB Tutorial’2010

Défi 3 : la gestion de flots d’événements

• Capture d’événements

– Politique de détection et de composition (requêtes sur les évnts)

– Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages

– Détection / simulation d’événements rares

• Réaction aux événements

– Politique de déclenchement, consommation, exécution (optimisation)

– Couplage transactionnel

– Analyse : confluence, terminaison

• Bufferisation

– Taille des fenêtres temporelles

– Stratégies de glissement

• Historisation

– Stockage massif

– Indexation

– Analyse complexe (analyse de séquences, motifs fréquents,…)

Cible : intelligence ambiante,

réseaux sociaux, surveillance temps réel, robotique,

bioinformatique.

Défi 4 : La visualisation des masses de données

• Besoins

– Navigation intuitive/contextuelle

• desktop intelligent, réseaux sociaux, contenus MM

– Visualisation de phénomènes non perceptibles

• Génome, trou noir

– Analyse visuelle

• Découverte de connaissances

• Challenges

– Invention de nouvelles métaphores graphiques

– Algorithmes de graphes performants (//)

• Optimisation de la visulaisation de grands graphes

– Clusterisation et stats de graphes

– Adaptation aux terminaux /équipements

Défi 5 : La préservation des données

• Comment préserver les données à durée de vie illimité?

– connaissances scientifiques

– produits culturelles

– connaissances archéologiques et environnementales

– connaissances sociales (recensements)

• Comment préserver les données à durée de vie longue mais limitée

– patrimoine informationnel des entreprises

– Données personnelles (stockées dans les disques privés ou publiés sur le Web)

– Données publiques (fichiers sécu, police, …)

• Quel coût pour la préservation des données – Coût de conversion des données (formats)

– Coût pour la migration des technologies

– Coût de maintien des technologies de niche

• Quelle stratégie pour les données gérées dans le Cloud ?

Accroissement de l’hétérogénéité des

MDD

Plus grandes difficultés pour leur intégration et leur

exploitation

www.aproged.org

Merci de votre

attention

top related