simuler les données manquantes issues de …tru ct, 1 v numdata,1 v s tru ct2 v numdata2 v str uct...
TRANSCRIPT
Simuler les données manquantes
dans les Open Data ?
Présenté par : Imen Megdiche
Directeur de Thèse : Olivier Teste
Co-directeur de thèse : Alain Berro
Atelier : Impact des *‐data sur les systèmes d’information
24/03/2015
Plan
1. Impact des Open Data sur les SI
2. Processus d’entreposage d’Open Data
3. Données manquantes dans les Open Data
4. Simuler les données .. une bonne alternative ?
24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
2
Accroissement Diversité & Richesse
24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
3 Impact des Open Data sur les SI
http://wwwdb.inf.tu-dresden.de/opendatasurvey/
24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
Impact des Open Data sur les SI4
Quelques témoignages sur les principaux bénéfices attendus de la réutilisation des
Open Data
24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
5 Impact des Open Data sur les SI
Intégrer les Open Data dans les entrepôts de données ?
* Il faut les chercher dispersés sur plusieurs fournisseurs
* Il faut les nettoyer et aligner hétérogénéité sémantique et structurelle
* Il faut les compléter et corriger données manquantes
et erronées
MAIS ….
Processus d’entreposage des Open Data 6
OD1
OD2
ODN
.
.
.
(1) Processus ETL
dirigé par le contenu (2) Intégration
holistique
VNumData,3
Vs
truct,1
VNumData,1
Vs
truct2
VNumData2
VStruct3
VNumData,2
Vs
truct6
VNumData,4
Vst
ruct5
VNumData,5
VStruct3
Vs
truct4
Vstruct1
Vstruct7
Vstruct2
VNumData,1
VNumData,3
VNumData,n
VNumData,1
Vs
truct1
VNumData,4
Vst
ruct2
VNumData,5
VStruct3
VNumData,3VNumData,2
.
.
.
VNumData,1
Vstr
uct,12
VNumData,3
Vst
ruct10
VNumData5
VSt
ruct11
VNumData,4
Vs
truct9
VNumData,6
Vst
ruct8
VNumData,7
VS
truct5
Vst
ruct7
Vs
truct1
Vst
ruct13
Vs
truct6
VNumData,2
VNumData,3
VNumData,n
VNumData,11
Vs
truct2
VNumData,12
Vst
ruct3
VNumData,9
VS
truct4
VNumData,8
VNumData,10
F1m1
Dim1
Dim3
Dim2
S = (F, D, Star)
(3) Définition incrémentale et
semi-automatique du schéma
multidimensionnel
Dim1
Dim2
Dim1
F1m1
F1m1
F1m1
Dim1
Dim3Dim2
:
Mp = {male1901, 2 =
male1,3 = male84,4 =
male72,5 ; 1>
Mq =
{provisionalLicence1903, 2
= provisionalLicence1, 3
= prov2, 5 ; 1>
Mr = {fullLicence1904, 2 =
fullLicence2, 3 = full1, 5 ;
1>
:
Ms = {age5,3 =
agetAtRefresh34,4 ; 1}
Mt = {gender45,4 = sex72,5
; 1}(4) Génération
de l’entrepôt de
données
Script.sql
Entrepôt
de
données
Matchings
Données
manquantes
Données manquantes dans les Open Data
…issues de la qualité ….issues de l’intégration/alignement
24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
7
17,5 %
21,1 %
Département
Mensuel
Annuel
Donner une vision complète des données
Construire et croiser le plus de sources possibles pour avoir des scénarios d’analyses
riches
Gagner le temps
Biaiser les données
Informer les utilisateurs que les données sont simulées 24/03/2015Atelier : Impact des *‐data sur les systèmes d’information
8 Simuler les données … une bonne alternative ?