big data et prévisions - groupe emergencemountvernon.fr/big_data/big_data_prevision_1.pdf ·...
TRANSCRIPT
Philippe Picard, le 24 juin 2015. Page 1
Big Data etPrévisions
Philippe Picard, le 24 juin 2015. Page 2
Vous dites prévisions et prédictions?
Loto
Nostradamus
NeptuneBoson de
HiggsMarées
Economie
PMU
Météo
Sismique
_
+
Philippe Picard, le 24 juin 2015. Page 3
Contribution des BgD
THEO
RIE
,M
OD
ELIS
ATI
ON
FOU
ILLE
,A
LGO
RIT
HM
IQU
E
VISI
ON
, IN
TUIT
ION
CR
EDO
,SO
RC
ELLE
RIE
PREDICTIONSPREVISIONSPROJECTIONSESTIMATIONCAUSALITEDEDUCTIONEXPLICATIONCORRELATIONEXTRACTIONINDUCTIONANTICIPATIONDIVINATIONSPROPHETIE
Les BgD pourrontenrichir desprocessus existantsou permettre desnouveaux domainesde prévisions.
Philippe Picard, le 24 juin 2015. Page 4
BgD: les fondamentaux. Du tera au zetta
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
FADETTES RELEVES EDF FEUILLES DESOIN
eche
lle lo
g10
NOMBREVOLUME
L’explosion desvolumes accessiblesau BgD sera due audéveloppement de l’IoT
21 zetta18 exa15 peta12 tera09 giga06 mega
Philippe Picard, le 24 juin 2015. Page 5
BgD: variété des gisements de donnéesLes précurseurs BgD, par exemple:
C.D.R (« fadettes »), comptes bancairesIT (MIB SNMP)SI d’entreprise (CRM, ERP)LHC
Open Data, « Etalab »Santé (FSE), Transports, etc.
Internet (fixe et mobile)Google, Facebook, etc.Toutes sources de géolocalisation (cellulaire, GPS)Les e-transactions
Objets (M2M, IoT)Véhicules connectés, RFID, Smart Grid, domotique, etc.,etc.
Philippe Picard, le 24 juin 2015. Page 6
Prévisions: approche classiquedéductive
Théorieet/ou
Modèle
ProgrammeSimulationnumérique
Données
Prévisions
Exemples:• Météo• Economie• Sondages électoraux• ?Sismique, Volcanologie?
Philippe Picard, le 24 juin 2015. Page 7
Les limites de ces prévisions:Données insuffisantes (effet GiGo)Modèles trop simplistes par rapport à la réalité(en particulier, hors zone de stabilité desmodèles)« Plafond de Verre » dû à la nature complexedes phénomènes:
Chaos et effet papillon: météoP. de Facteur Humain (PFH): économétrie,conjoncture, prévisions électorales« Hasard sauvage »: volcanologie, sismique, bourse
Amélioration grâce des prévisions avec les BGD?
Prévisions: approche classiquedéductive
Philippe Picard, le 24 juin 2015. Page 8
Météo et BgD
Croissance des volumes de donnéesdues à l’augmentation des sources dedonnées, mais plafonnement potentieldes performances des prévisions
Philippe Picard, le 24 juin 2015. Page 9
Modèles économiques
Retraites (COR) Prévisions Banque deFrance (modèle Mascotte)
Philippe Picard, le 24 juin 2015. Page 10
Prévisions BgD: approche inductiveAcquisitionExtractionadaptativeapprenante
DonnéesBig Data
CorrélationsPrévisionsPrédictions
Modélisationinductive
Philippe Picard, le 24 juin 2015. Page 11
La panoplie du « data scientist »Exemple de programme d’enseignement
Techno distribuée: stockage, calcul,Structures des données: structurées et numériques,textuelles/WEB, multimédiasApprentissage
Introduction à l’apprentissage statistiqueApprentissage supervisé (classification/régression),algorithmes (arbres, SVM, boosting, forêts aléatoires,optimisation distribuée)Techniques avancées pour l’apprentissage (ranking, on-line,renforcement, optimisation distribuée)Apprentissage non supervisé (clustering, modèles à variableslatentes, détection de nouveautés/anomalies,
HMM (Modèle de Markov Caché), modèles graphiques, réseauxbayésiens/markoviensGraph miningVisualisation de données massives
Philippe Picard, le 24 juin 2015. Page 12
Echantillon d’applications BgD identifiéesPREVISION,PREDICTION
FOUILLE,DETECTION
PILOTAGETEMPS REEL
CRIMINALITE X X XCHURN X X XFRAUDE BANCAIRE X XPREVISION TRAFIC ROUTIER X XPARCOURS CLIENT X XGRID NETWORK X XDETECTION CAUSES DE PANNES X XSCORING XMOUVEMENTS DE FOULES XRISQUES ASSURANCES XGOOGLE FLU XMAINTENANCE ET QUALITE XFLUX DE POPULATION XSINISTRES AGRICOLES XAFFAIRE « BISMUTH » X XLHC BOSON DE HIGGS X
Philippe Picard, le 24 juin 2015. Page 13
De « l’espionnage pour votre bien » auBig Brother?
Orange mise surl’analyse prédictivepour son scoring
Gendarmes etindustriels imaginentun nouveau logicielpour prédire le crime
Quand Google FluTrends éternue, leBig Data s’enrhume
L’identification du Bosonde HIGGS fut un triomphedu big data au CERN
Uberisation
Philippe Picard, le 24 juin 2015. Page 14
Philippe Picard, le 24 juin 2015. Page 15
Réserve etcompléments
Philippe Picard, le 24 juin 2015. Page 16
Vocabulaire du BgDTECHNO
SGBDCLOUDDATA WAREHOUSEHADOOP
USAGESANALYSE PREDICTIVECHURN (attrition)SCORINGCORRELATIONSMODELISATION EXPLICATIVEMODELISATION INDUCTIVESMODELISATION PREDICTIVEPREDICTIONS, PREVISIONSPRONOSTICS ELECTORAUXOUTILS DE PREDICTION
ANALYSE FACTORIELLETEST STATISTIQUES(Student, Fisher, ², , etc…)DATA MINING (exploration,fouille, forage de données)EXTRACTION DE DONNEESINDUCTION STATISTIQUEMACHINE LEARNINGNoSQL
SOURCES ET COLLECTEECHANTILLONNAGECDR (fadettes)FSE (Feuilles de soins)OPEN DATASTI (systèmes de transport)IoT, M2M, RFIDGEOLOCALISATION
Philippe Picard, le 24 juin 2015. Page 17
Météo: état de l’art
Philippe Picard, le 24 juin 2015. Page 18
Progrès de la prévision Météo
Philippe Picard, le 24 juin 2015. Page 19
Nouveau paradigme?
Philippe Picard, le 24 juin 2015. Page 20
Météos: que sait-on prévoir?Quelques heures à l'avance
Des orages, des lignes de grains, des rafales, des averses, des brouillards … (taillecaractéristique des phénomènes : environ 50 km) à l'échelle d'une commune.
1 à 5 jours à l'avanceL'arrivée d'une tempête (taille caractéristique du phénomène : environ 2000 km) à l'échelled'un département (1 jour à l'avance) ou d'une région (5 jours à l'avance).
5 à 10 jours à l'avanceUn type de circulation atmosphérique, des indications sur le type de temps, une tendancepour la température (taille caractéristique des phénomènes : environ 7000 km) à l'échellede la France.
Trois semaines à l'avanceUne indication sur les conditions moyennes (température, précipitations) à l'échelle de laFrance.Par exemple : température moyenne probablement supérieure de 2 °C à la normale àl'échelle de la France.
Trois mois à l'avanceÉventuellement un signal qualitatif sur les conditions moyennes (température,précipitations), à l'échelle d'une zone comme l'Europe de l'Ouest.
Philippe Picard, le 24 juin 2015. Page 21
Les applications BgD dont on parle YTD
Philippe Picard, le 24 juin 2015. Page 22
Valeur apportée par le Big Data
Selon Enjeux et Usages du Big Data, Lavoisier
Philippe Picard, le 24 juin 2015. Page 23
BgD dans l’histoire
A partir des BgD représentées parles observations de Tycho Brahe, J.Kepler a essayé et progressivement« intuité » ses lois avec uneméthode inductive doublée d’unepuissance phénoménale de calculaccélérée par la techno deslogarithmes.
A l’inverse, LeVerrier a déduitd’observations et des lois de lamécanique astronomique l’existencede Neptune.
Philippe Picard, le 24 juin 2015. Page 24
Big Data et Open DataLes technologies du Big Data permettent lavalorisation des énormes gisements dedonnées publiques (Open Data)Questions:
Données gratuites ou payantes ?Qui les vend ?
le propriétaire public (mais a-t-il les moyens de lesexploiter?)l’extracteur industriel
Confidentialité et protection des donnéesindividuelles
Philippe Picard, le 24 juin 2015. Page 25
Philippe Picard, le 24 juin 2015. Page 26
ESCR
OQ
UER
IE
HASA
RD SA
UVA
GE
CHAO
S
PFH
MO
DELE
FAI
BLE
MO
DELE
DET
ERM
INIS
TE
VISI
ON
INTU
ITIV
E
MO
DELE
PRE
DICT
IF
X ASTROLOGIE XX LOTO X
X CAUSES DU CANCER X XX BOURSE X X XX SISMIQUE XX VULCANOLOGIE XX CONJONCTURE ECONOMIQUE X X XX X COSMOLOGIE X XX PREVISIONS METEO COURT TERME X X
X PREVISIONS METEO LONG TERME XX FIABILITE SW X
X X DEMOGRAPHIE X X XX OBSERVATOIRE DES RETRAITES X XX SONDAGES ELECTORAUX X XX PREVISIONS FMI OCDE XX X RECHAUFFEMENT CLIMATIQUE/GIEC XX TIERCE HIPPIQUE XX FIABILITE HW X
X X L'EMPIRE ECLATE (HELENE CARRERE° XX IMPACT DE LA "LOI DE MOORE" XX VOYAGE DANS LA LUNE X
X DECOUVERTE NEPTUNE (LE VERRIER) XX TEMPLE DU SOLEIL (ECLIPSE) XX EQUATION DE DIRAC: POSITRON XX MODELE STANDARD: BOSON DE HIGGS X
RESULTAT ESPERE FACTEURS D'EFFICACITE
COMPLEXITEINTRINSEQUE
EFFICACITE DESOUTILS
PREV
ISIO
N
PRED
ICTI
ON
PRO
SPEC
TIVE
Philippe Picard, le 24 juin 2015. Page 27
BgD et sondages électoraux
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5 6 7
Taille d'échantillon
MARGE 10%
MARGE 5%
MARGE 1%
Population
Marge d’erreur Niveau de confiance10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88500 81 218 476 176 218 286
1 000 88 278 906 215 278 400
10 000 96 370 4 900 264 370 623
100 000 96 383 8 763 270 383 660
1 000 000+ 97 384 9 513 271 384 664
Marge d’erreur etniveau de confiancedes sondages nesont pas affaire deBgD, quelle que soitla taille de lapopulation!