2014 présentation pour la soutenance du probatoire "big data"de galsungen

32
CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL DE RHONE-ALPES --- Mémoire présenté en vue d’obtenir UE « Information et communication pour ingénieur » Spécialité : INFORMATIQUE --- Par Galsungen --- Big Data en médecine, en smart cities… Principes, utilités, exemples et solutions Soutenu le 10 juin 2014 --- JURY PRESIDENT [Civilité Prénom NOM Fonction] MEMBRES [Civilité Prénom NOM Fonction] [Civilité Prénom NOM Fonction]

Upload: galsungen

Post on 05-Jul-2015

1.437 views

Category:

Technology


1 download

DESCRIPTION

Document support/illustration pour la soutenance du probatoire de Galsungen sur les Big Data en médecin et smartcities.

TRANSCRIPT

Page 1: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

CONSERVATOIRE NATIONAL DES ARTS ET METIERSCENTRE REGIONAL DE RHONE-ALPES

---Mémoire présenté en vue d’obtenir

UE « Information et communication pour ingénieur »Spécialité : INFORMATIQUE

---Par

Galsungen---

Big Data en médecine, en smart cities… Principes, utilités, exemples et solutions

Soutenu le 10 juin 2014---

JURY

PRESIDENT [Civilité Prénom NOM Fonction]MEMBRES [Civilité Prénom NOM Fonction]

[Civilité Prénom NOM Fonction]

Page 2: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Plan

• Définition : qu’est ce que le Big Data• Solutions techniques : Hadoop…• Open Data / Données ouvertes• Risques du Big Data• Usages

– En général et en médecine– Smartcities / Villes intelligentes

• Législation et vie privée• Bilan et perspectives

2 / 20

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 3: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

3 / 20

Qu’est ce que le Big Data ?

• Grosses données / Données de masse

• Multiplication et démocratisation technologies

• Evolution moyens de stockage

• Nouvelle richesse

• Souvent faible densité information– Données massives mais simples

– Objectif : analyse, statistique, synthèse.

• Expansion des données (3V : volume, variété, vélocité)

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 4: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

4 / 20

Les 3 V (Gartner)

• VolumeQuantité de données produites. En forte expansion.

Exprimé en octets (tera, zetta…)

• VariétéNombreux formats (texte, image, audio, vidéo…).

Données structurées et non structurées.

• VélocitéFréquence de génération, capture et partage des

données

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 5: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

5 / 20

Vers 5 V ?

• ValeurValeur qu’on va donner aux données qu’elle soit

monétaire ou intrinsèque.

• Véracité / ValiditéLes données sont-elles valides ? Sont-elles pertinentes ?

Précises ?

- - ou - -

• Visibilité (à la place de la validité)Vision qu’on a des données. Compréhension de ces

dernières.

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 6: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

6 / 20

Technologies

• Pas une solution précise mais une réflexion

– Que souhaite t’on obtenir ?

– Que souhaite t’on réaliser ?

– Comment y parvenir ?

• Des boites à outils communes

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 7: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

7 / 20

Paysage du Big DataPlan Définition

Open Data

Risques Usages BilanSolutions

techniquesLégislation

Page 8: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

8 / 20

Hadoop

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Source : JDN – journaldunet.com

Page 9: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

9 / 20

3 catégories de logiciels

• StockageBaies SAN (Storage Area Network), SSD (Solid-State Drive), Clusters

(grappes de serveurs)…

Bases de données NoSQL

• Traitement & calcul– Clusters, Cloud, cartes graphiques (General-purpose

Processing Graphics Processing Units)…

• Analyse– Mahout, MLPACK…

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 10: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

10 / 20

Open Data / Données ouvertes• Donnée numérique

– Diffusion structurée – Méthodologie, licence– Libre accès et réutilisation.

• Des lois pour appuyer cette ouverture– Transparence gouvernements, politiques– Evolution de l’article XV de la déclaration universelle

des droits de l’homme

• Echelles de qualité– Fondation Sunlight– Tim Berners-Lee

• « Open Science data »

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 11: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

11 / 20

Risques

• Identification indirecte– Granularité des données, anonymisation

– MIT : Unique in the crowd

• Sécurité des données– pérennité : durée de vie des stockages ?

Datacenters ?

– Ethique : respect des règles par les administrateurs

• Fraicheur des données

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 12: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

12 / 20

Usages généraux

• SIG (Cartographie)

• Prévisions politiques, sportives, météorologique

• Marketing & publicité

• Segmentation, ciblage de populations, clientèles

• Sciences (astronomie, cosmologie, climatologie…)

• Autres…

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 13: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

13 / 20

Usages en médecine• Epidémiologie & Ecoépidémiologie

• Séquençage génétique

• Analyse imagerie médicale

• Recherche

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Source : OpenHealth.fr

Evolution des allergies en France

Page 14: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

14 / 20

Usages en Smart Cities (Villes intelligentes)

• Extension Domotique, Ubiquitous computing– Multiplication capteurs, caméras…

• Exploitation données recueillies– Analyser l’existant– Suggestions d’évolutions

• Usages très variés– Optimisation des transports– Optimisation, gestion des réseaux (eau, gaz, communication…)– Gestion des énergies (smartgrid…)– Optimisation de la sécurité (aide aux forces de l’ordre…)– Transparence des données– …

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 15: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

15 / 20

Usages en Smart Cities : Lyon• Portail Smart Data

• Onlymoov : diffusion conditions de circulation en temps réel.

• Onlymod : optimisation des transports avec prévision à une heure.

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Source : onlymoov.com

Page 16: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

16 / 20

Usages en Smart Cities : Abidjan 1/2

– But : optimisation transports publics

– Données :

• Orange

• 2,5 milliards d’échanges enregistrés entre 5 millions d’utilisateurs (appels – sms) sur 2012

• Etude sur 500 000 téléphones sur 5 mois

• 50 000 utilisateurs changés toutes les 2 semaines

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 17: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

17 / 20

Usages en Smart Cities : Abidjan 2/2

Comment :

• Utilisation base de données appels téléphoniques. Matrice des flux de déplacements.

• Comparaison avec réseau en place.

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Source : La Recherche n°482

Cartes pour l’année 2012

Page 18: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

18 / 20

Législation et vie privée• En France

– Loi informatique et liberté

– CNIL

• Données étrangers– Exemple : « Patriot Act » américain

• Jugement cours européenne : jurisprudence– ressortissant espagnol contre Google (Avril)

– Proposition d’un un outil (formulaire) de suppression des liens par Google (30.05.14)

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 19: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Bilan et perspectives• Débouchés très variés

• Explosion des données (informatique ubiquitaire, domotique, internet des objets)

• Nouveaux métiers : analyste des données « data scientist » (mathématiques, statistiques, une culture informatique & « métier »)

• Evolution continue pour une offre plus mature, plus vaste :– interface graphique Hadoop– PostgreSQL : volet NoSQL– MySQL Fabric par Oracle (scalabilité)

• Attention :– qualité des données (stockage, persistance, sécurité, fraîcheur)– vie privée

19 / 20

Plan DéfinitionOpen Data

Risques Usages BilanSolutions

techniquesLégislation

Page 20: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Merci de votre attention.

20 / 20

Plan Histoire Procédés Matières Economie Législation BilanImprimante

Page 21: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Annexes

Page 22: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Différence Big Data / Business Intelligence (BI)

• Différence par rapport aux données et à leur utilisation

– BI : analyse de données à forte densité d’information pour mesurer, détecter des tendances. Pilotage d’activité à l’aide d’indicateurs. Aide à la décision.

– Big Data : analyse données à faible densité d’information mais avec un très grand volume. Capacités prédictives.

Page 23: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

OctetNom Symbole Valeur Mésusage

Kilooctet ko 103 210

Mégaoctet Mo 106 220

Gigaoctet Go 109 230

Téraoctet To 1012 240

Pétaoctet Po 1015

Exaoctet Eo 1018

Zettaoctet Zo 1021

yottaoctet Yo 1024

Page 24: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Bases de données NoSQL

• Paradigme clé/valeur– Redis, Riak, Voldemort…

• Bases documentaires– MongoDB, CouchDB, Terrastore…

• Bases orientées colonnes– Cassandra, Amazon SimpleDB, Google BigTable,

Hbase…

• Paradigme graphe– Neo4j, OrientDB…

Page 25: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

NoSQL : Paradigme clé/valeur

• Hashmap distribuée

• Simple couple Clé / valeur

• Valeur :– chaîne caractères,

– objet sérialisé…

• Applicatif remplace SQL

• Requêtes PUT, GET, DELETE

• Exemples : Redis, Riak, Voldemort (LinkedIn)

Page 26: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

NoSQL : Bases documentaires

• Basé sur clé/valeur

• Document type JSON, XML

• Une clé retourne informations structurées hiérarchiquement

• Evite de faire plusieurs jointures

• Exemples : CouchDB (Hadoop), RavenDB(.NET/Windows), MongoDB

Page 27: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

NoSQL : Bases orientées colonnes

• Similaire table d’un SGBDR

• Différence : nombre de colonnes dynamique

• Nombre de colonnes varie donc entre deux enregistrements (pas de valeur NULL)

• Exemples : Hbase (BigTable de Google), Cassandra (Hadoop, Amazon)

Page 28: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

NoSQL : Paradigme graphe

• Modèle sur théorie des graphes

• Notion de nœuds, relations, propriétés rattachées

• Facilite représentation monde réel

• Adapté réseaux sociaux

• Exemple : Neo4J

Page 29: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Hadoop (Fondation Apache)• Principaux

– Hadoop Common (utilitaires communs)

– Hadoop Distributed File System (HDFS) (système de fichiers distribués)

– Hadoop YARN (framework d’ordonnancement et de gestion de cluster)

– Hadoop MapReduce (« YARN-based » système de traitements parallèles de larges jeux de données)

• Autres– Ambari (outil web de gestion et management de clusters Apache Hadoop)

– Avro (système de sérialisation des données)

– Cassandra (Base de données scalable multi-maitres)– Chukwa (Système de collections de données pour gérer de larges systèmes

distribués)– HBase (Base de données distribuée, scalable acceptant structuration de large jeux

de données)– Hive (entrepôt de données)– Mahout (librairie de « data mining » et de « machine learning »)– Pig (langage pour flot de données et framework pour calcul parallèle)– Spark (moteur de calcul)– Tez (framework de programmation de flux de données basé sur YARN)– ZooKeeper (service de coordination pour applications distribuées)– …

Page 30: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Qualité Open Data 1/2

• Complète

• Primaire

• Opportune

• Accessible

• Exploitable

• Non discriminative

• Non-propriétaire

• Libre de droits

• Permanente

• Gratuite

Les 10 critères de la Sunlight Foundation :

Page 31: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Qualité Open Data 2/2

Données non filtrées

Données disponibles de manière structurées

Données librement exploitables

Données identifiées par des URL

Données liées à d’autres données pour les contextualiser et les enrichir

Echelle de Time Berners-Lee :

Page 32: 2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen

Déclaration Universelle des droits de l’homme

• Article XIVTous les Citoyens ont le droit de constater, par eux-mêmes ou par leurs Représentants, la nécessité de la contribution publique, de la consentir librement, d’en suivre l’emploi et d’en déterminer la quotité, l’assiette, le recouvrement et la durée.

• Article XVLa Société a le droit de demander compte à tout Agent public de son administration.

• Article XVIToute Société dans laquelle la garantie des Droits n’est pas assurée, ni la séparation des Pouvoirs déterminée, n’a point de Constitution.

• Article XVIILa propriété étant un droit inviolable et sacré, nul ne peut en être privé, si ce n’est lorsque la nécessité publique, légalement constatée, l’exige évidemment, et sous la condition d’une juste et préalable indemnité.