analyse donnees

136
Université de Toulouse – Pôle de Recherche et d’Enseignement Supérieur Institut National des Sciences Appliquées de Toulouse Université Paul Sabatier – Toulouse III Laboratoire Matériaux et Durabilité des Constructions Stéphane LAURENS – 2008/2009 ANALYSE ET EXPLOITATION DE DONNEES EXPERIMENTALES Notions sur la MODELISATION … Master 2 Recherche « Génie Civil – Matériaux – Structures »

Upload: hung-nguyen

Post on 27-Oct-2015

70 views

Category:

Documents


0 download

DESCRIPTION

INSA Toulouse

TRANSCRIPT

Page 1: Analyse Donnees

Université de Toulouse – Pôle de Recherche et d’Enseignement Supérieur

Institut National des Sciences Appliquées de Toulouse

Université Paul Sabatier – Toulouse III

Laboratoire Matériaux et Durabilité des Construction s

Stéphane LAURENS – 2008/2009

ANALYSE ET EXPLOITATION DE DONNEES EXPERIMENTALES –

Notions sur la MODELISATION …

Master 2 Recherche « Génie Civil – Matériaux – Structu res »

Page 2: Analyse Donnees

Préambule

Ce cours présente certains concepts dédiés à l’analyse et à l’exploitation de données expérimentales. Il aborde aussi dans ce cadre la problématique générale de la modélisation qui constitue souvent une finalité scientifique pour le chercheur.

Il est volontairement dépouillé des « détails mathématiques » qui sont accessibles très facilement dans un grand nombre d’ouvrages ou sur l’Internet. Il vise, en un temps limité, à donner aux futurs chercheurs en génie civil un aperçu de certains outils conceptuels ayant vocation àrépondre à certaines leurs futures préoccupations.

Il appartiendra ensuite à ces chercheurs d’approfondir les concepts qu’ils jugent pertinents vis-à-vis de leurs projets de recherche.

Remarques préliminaires

Page 3: Analyse Donnees

Préambule

Dans ce séminaire, les parties « Rappels théoriques » et « Grands concepts d’analyse statistique » s’appuient en grande partie s ur les références suivantes :

Data Mining 1. Exploration statistique , Alain Baccini & Philipe Besse, Publications du LSP, Université Paul Sabatier, 2003

Décision et prévision statistiques , Thierry Verdel, Ecole des Mines de Nancy, 2001

Cours de Probabilités et Statistiques , Hélène Milhem et Benoit Truong-Van, INSA Toulouse, 2006-2007

Statistique avec de petits échantillons , Gilles Celeux, Conférence présentée aux Journées Fiabilité des Matériaux et des Structures, Nantes, 2008

Internet et Wikipedia

Références bibliographiques

Page 4: Analyse Donnees

1 – Introduction : modélisation

2 – Modélisation statistique

3 – Rappels : théorie des probabilités

4 – Analyses de données : grands concepts

Analyse en composantes principales

Classification

Inférence statistique

Inférence bayésienne

Test d’hypothèse

PLAN

DU

COURS

Au sommaire…

Page 5: Analyse Donnees

Introduction :

Généralités

Discussion sur la modélisation en GC

Introduction

Page 6: Analyse Donnees

Introduction

Expérimentation, acquisition de données …

Analyse de données …

Modélisation…

Remarques préliminaires…

Variabilité de la mesure… Variabilité du matériau…Incertitudes / aléas

Recherche de corrélations simples ou complexes, de liens de causalité…Caractériser l’aléa observable sur des données mesurées et l’intégrer dans la démarche de modélisation…

Décrire, expliquer…Prédire … Recherche de liens mathématiques entre des données…

Page 7: Analyse Donnees

Introduction

Qu’est-ce que la modélisation ?

Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées

Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées

Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées

Propriétés(paramètres du modèle)

Modélisation directe

Page 8: Analyse Donnees

Introduction

Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées

Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées

Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées

Propriétés(paramètres du modèle)

Qu’est-ce que la modélisation ?

Modélisation inverse

Page 9: Analyse Donnees

Introduction

Actions, sollicitations, excitations… variables… physiques, mécaniques, chimiques, couplées

Réactions, réponses, conséquences…… physiques, mécaniques, chimiques, couplées

Modèle ou loi de comportement… physiques, mécaniques, chimiques, couplées

Propriétés(paramètres du modèle)

Problème d’identification !

Qu’est-ce que la modélisation ?

Modélisation inverse

Page 10: Analyse Donnees

Introduction

Modélisation statique

Modélisation dynamique

Invariance par rapport au temps

Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations statiques

Dépendance à la variable temps

Ex. Modèle de calcul des sollicitations internes dans une structure sous sollicitations dynamiquesEx. Prédiction de la concentration en chlorures dans le béton à une échéance donnée

Qu’est-ce que la modélisation ?

Page 11: Analyse Donnees

Introduction

Difficultés liées à la modélisation en génie civil

Variabilité / Stochasticité spatiale à l’échelle du matériau

Degré d’hétérogénéité variable avec l’échelle d’observation

Milieux poreux – phénomènes de transport souvent réactifs

Interactions chemo-physico-mécaniques « complexes / compliquées »

Interactions spatio-temporelles

Non-linéarités omniprésentes

Phénomènes irréversibles : « vieillissement »

Endommagements mécaniques : isotrope et anisotrope …

La modélisation physique statique et dynamique des matériaux de construction et des structures confronte le chercheur à des problème s d’une complexité rare…

Page 12: Analyse Donnees

Introduction

Problématiques de recherche à différentes échelles :

Matériaux (nano, micro, méso, macro)

Structures

Villes

Etats

Planète

Difficultés liées à la modélisation en génie civil

Page 13: Analyse Donnees

Introduction

Approches de modélisation classiques en GC:

- approche déterministe classique… modèle physique

- approche probabiliste, semi-probabiliste

- approche statistique… modèle empirique

Unicité du lien entre les variables d’entrée du modèle et la sortie…

Comment tenir compte de la variabilité éventuelle des sollicitations, des propriétés des matériaux… ?

Les entrées et/ou les propriétés d’un modèle déterministe sont définies comme des variables aléatoires… La réponse du modèle est donc une variable aléatoire.

Relations trop complexes pour être approchées de façon classique …Apprentissage par des méthodes appropriées des relations observées expérimentalement entre des données (exemple : réseaux de neurones artificiels)

Page 14: Analyse Donnees

Introduction

- approche systémique

- approche probabiliste

- physique de non-équilibre

- Systèmes dynamiques… chaos

- Systèmes complexes

-Processus stochastiques(Paradigme purement probabiliste)

Paradigmes en voie de développement dans le champ d u génie civil :

Page 15: Analyse Donnees

Comportement DETERMINISTE…

Comportement STOCHASTIQUE…

CHAOS…

… comportement d’apparence stochastique généré par un syst. déterministe… hypersensibilité aux conditions initiales du système

Introduction

Modélisation dynamique… ou comment prévoir l’avenir…

Paradigmes classiquesEx. Dynamique newtonienne

Paradigmes probabilistesEx. Processus stochastiques

Paradigmes mixtes (recours nécessaire aux probabilités)

… parfaitement prévisible

… totalement imprévisible

Page 16: Analyse Donnees

Introduction

Approche systémique

Entité physique dont l’état est défini par n variables indépendantes : v i avec i = 1…n

Les variables d’état sont les degrés de liberté du système.

Système dynamique

Les variables d’état sont des fonctions du temps : v i(t)

Dans certains cas, la loi d’évolution est connue ou supposée connue. Le système dynamique est alors décrit par le système différentiel :

où p j sont les paramètres de la loi d’évolution.)p,,p;t,v,,v(Ft

vmni

i KK 11=∂

Système …

Page 17: Analyse Donnees

Introduction

Approche systémique

Système dynamique non linéaire …

Nombre de variables ≥ 3

+ non-linéarité (la fonction Fi est non linéaire)

= possibilité de chaos

Chaos : hypersensibilité aux conditions initiales

… imprévisibilité du comportement du système au-delà d’un temps caractéristique (temps de Lyapunov)

Espace des phases

Le comportement du système est étudié dans l’espace des phases, espace abstrait de dimension n dont les axes traduisent les variables d’état. Un point dans l’espace des phases décrit l’état du système à un instant donné. Une trajectoire (ensemble de points) décrit l’évolution de l’état du système.

Page 18: Analyse Donnees

Introduction

Approche systémique

Exemple du système de Lorenz

Système dynamique non linéaire… théorie du chaos

zxyz

)z(xy

)xy(x

.

.

.

ββββ−−−−====

−−−−ρρρρ====

−−−−σσσσ====

Modélisation de la convection atmosphérique

Série temporelle x(t)… apparence stochastiqueTrajectoire dans l’espace des phases…

Attracteur de Lorenz

Page 19: Analyse Donnees

Introduction

Approche systémique

Système constitué d’un grand nombre d’entités en interaction.

Nombre très important de degrés de liberté.

Le comportement des systèmes complexes ne peut être appréhendé selon une approche réductionniste.

La connaissance de lois de comportement définies à l’échelle des « composants élémentaires »du système ne permet pas d’inférer le comportement global du système.

Concept d’émergence : le comportement du système complexe émerge des interactions locale àgrande échelle entre les composants élémentaires.

Les propriétés émergentes ne peuvent être décrites au moyen d’un formalisme mathématique défini à l’échelle globale du système. Elles ne sont observables qu’au travers de l’expérience ou de la simulation basée sur l’itération suffisamment poussée de lois locales (automates cellulaires, dynamique sur réseaux, essaim particulaires…).

Système complexe

Page 20: Analyse Donnees

Introduction

Un système en interaction avec son environnement est par définition en état « hors-équilibre ».

L’état « hors-équilibre » est instable.

Béton, béton armé ???

Quel point de vue adopter pour décrire l’évolution de ces systèmes ?

Equilibre ?Non-équilibre ?

Physique/thermodynamique de non-équilibre

Page 21: Analyse Donnees

Introduction

Théorie des probabilités / Statistique

Statistique = Application utilitaire de la théorie des probabilités… Autre exemple d’application : les assurances

Statistique descriptive … méthode de résumé (forme la plus ancienne)…condenser, analyser et présenter des informations numériques trop nombreuses pour être utilisables exhaustivement… produire un nombre réduit d’infos utilisables qualifiées de statistiques

Objet de la statistique = définitions diverses…

Statistique mathématique … introduction du concept de probabilité… connaissance plus économe d’une population, influence des divers facteurs de variations, recherche d’ordre dans le désordre

Statistique prédictive …… tirer des hypothèses sur le futur à partir de la connaissance des statistiques du passé (notion de conjoncture en économie)

Intérêt de l’analyse statistique pour la recherche en génie civil

Page 22: Analyse Donnees

Introduction

Définition de la statistique

Ensemble des méthodes permettant de prendre des décisions raisonnables en présence d’incertitude !

Liens multiples avec la recherche en génie civil…

Variabilité des matériaux (résistance caractéristique…)…

Sollicitations stochastiques (vent, trafic routier, séismes...)…

Diffusion… physique statistique ???

Systèmes complexes…

Intérêt de l’analyse statistique pour la recherche en génie civil

Page 23: Analyse Donnees

Modélisation

statistique

Modélisation statistique

Page 24: Analyse Donnees

Régression linéaire ou non linéaire

Problème typique

Modélisation statistique

f(x)

xx0x1

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Soit un jeu de données « expérimentales » (x i, f(x i)) représenté sur la figure ci-dessous.

La régression linéaire ou non linéaire consiste à définir les paramètres d’un modèle connu ou inconnu de façon à ce que celui-ci s’ajuste « au mieux » sur des données expérimentales.

Exemple : le comportement expérimental peut être modélisé par une fonction affine y = a.x + b

Comment trouver un couple (a,b) permettant de minimiser l’erreur

entre le modèle et l’expérience ?

Page 25: Analyse Donnees

Régression linéaire ou non linéaire

Problème typique

Modélisation statistique

f(x)

xx0x1

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Comment juger de leurs pertinences respectives ?

Modèle 1

Modèle 2

Modèle 3

- sens physique- erreur modèle / expérience « au sens des moindres carrés »...

Le modèle 3 produit l’erreur modèle/expérience la plus faible, mais cela ne signifie pas qu’il est physiquement pertinent.

Attention : sur un même jeu de données, on peut ajuster différents modèles.

Page 26: Analyse Donnees

Régression linéaire ou non linéaire

Problème typique

Modélisation statistique

f(x)

x

Droite ajustée

Polynôme d’interpolation

Attention : Ajustement (approximation) ≠≠≠≠ Interpolation !!!

Page 27: Analyse Donnees

Régression linéaire ou non linéaire

Modélisation statistique

y

xx0x1

y0

y1

y2

y3

y4

x2 x3 x4

Exemple : ajustement d’une droite d’équation ym = a.x+b sur les données ( x i,y i )

ym0

ym1

ym2

ym3

ym4

y i = valeur expérimentale associée à x i

ymi = a.x i+b = valeur théorique associée à x i

Problème de moindres carrés

Page 28: Analyse Donnees

Régression linéaire ou non linéaire

Modélisation statistique

Approche algébrique : soit un couple (a,b) quelconque...

4

3

2

1

0

x

x

x

x

x

xr

4

3

2

1

0

y

y

y

y

y

yr

bx.ay

bx.ay

bx.ay

bx.ay

bx.ay

y

44m

33m

22m

11m

00m

m

+=+=+=+=+=

r

4m4

3m3

2m2

1m1

0m0

m

yy

yy

yy

yy

yy

yy

−−−−−

−rr

Expérience Modèle Différence Expérience/Modèle

L’erreur produite par le modèle y = a.x + b peut êt re évaluée au moyen de la norme du vecteur « Différence ».

Problème de moindres carrés

Page 29: Analyse Donnees

Régression linéaire ou non linéaire

Modélisation statistique

( ) ( ) ( ) ( ) ( )24m4

23m3

22m2

21m1

20m0m yyyyyyyyyyyy −+−+−+−+−=−

rr

La norme du vecteur est donc une mesure de l’écart entre l’expérience et le modèle.

myyrr

L’approximation au sens des moindres carrés consiste à trouver un couple (a,b) tel que la norme de soit minimale.

Plus généralement, l’approximation consiste à ajuster les paramètres d’un modèle de sorte que la norme de élevée au carré soit minimale.

myyrr

myyrr

( ) ( ) ( ) ( )2mnn

22m2

21m1

20m0

2

m yy......yyyyyyyy −++−+−+−=−rr

Généralisation au cas d’un jeu de n données

Problème des moindres carrés

Problème de moindres carrés

Page 30: Analyse Donnees

Modélisation statistique

bx.ay

bx.ay

bx.ay

bx.ay

bx.ay

44

33

22

11

00

+=+=+=+=+=

Formulation matricielle

=

b

a

1x

1x

1x

1x

1x

y

y

y

y

y

4

3

2

1

0

4

3

2

1

0

s.Ayrr

=

Formulation générale

Théorème

La solution du problème de moindres carrés linéaire vérifie le système des équations normales :

mcsr

5 équations et 2 inconnues : Système sur-déterminé > n’existe passr

( ) y.A.A.AsyAs.A.A T1Tmc

Tmc

T rrrr −=⇒=

Problème de moindres carrés linéaire

Régression linéaire ou non linéaire

Page 31: Analyse Donnees

Modélisation statistique

cx.bx.ay

cx.bx.ay

cx.bx.ay

cx.bx.ay

cx.bx.ay

4244

3233

2222

1211

0200

++=

++=

++=

++=

++=Ajustement des paramètres d’un polynôme de degré 2 ? Pb de moindres carrés linéaire !

=

c

b

a

1xx

1xx

1xx

1xx

1xx

y

y

y

y

y

424

323

222

121

020

4

3

2

1

0

s.Ayrr

=

Formulation générale

Théorème

La solution du problème des moindres carrés linéaire vérifie le système des équations normales :

mcsr

5 équations et 2 inconnues : Système sur-déterminé > n’existe passr

( ) y.A.A.AsyAs.A.A T1Tmc

Tmc

T rrrr −=⇒=

Problème de moindres carrés linéaire

Régression linéaire ou non linéaire

Page 32: Analyse Donnees

Modélisation statistique

Pas de formulation matricielle possible…

… ajustement des paramètres du modèle non linéaire à l’aide d’outils d’optimisation

… Optimisation : minimisation ou maximisation d’une fonction de performance (fonction coût ou fonction objectif) à l’aide d’algorithmes itératifs :

- Méthodes de type Gauss-Newton (Matlab, Excel…)- Algorithme génétique (intéressant si grand nombre de paramètres à ajuster)

… Exemple de fonction de performance : Erreur quadratique moyenne

Problème de moindres carrés non linéaire

Régression linéaire ou non linéaire

( ) ( ) ( ) ( )n

yy......yyyyyyn

yyEQM

2mnn

22m2

21m1

20m0

2

m −++−+−+−=−

=rr

Page 33: Analyse Donnees

Modélisation statistique

Méthodes de type Gauss-Newton : principe simplifié 1D

F(x) : fonction de performancef(x) : dérivée de F(x)

Problème de moindres carrés non linéaire

Régression linéaire ou non linéaire

f(x)

x

ααααx4x0

(x0, f(x 0))

x1

(x1, f(x 1))

x2

(x2, f(x 2))

x3

(x3, f(x 4))

Algorithmes d’optimisation

Minimisation de F(x) :recherche des racines de sa

dérivée

-Applicable aux problèmes en dimensions n

- Sensible à l’existence d’extrema locaux, et donc au choix du x0

Page 34: Analyse Donnees

Modélisation statistique

Problème de moindres carrés non linéaire

Régression linéaire ou non linéaire

Algorithmes d’optimisation

Algorithmes génétiques

Optimisation basée sur le concept de la sélection naturelle

Définition aléatoire d’une population initiale de solutions potentielles du problème d’optimisation.

Sélection des solutions les plus adaptées au problème.

Croisements et mutations opérés sur les solutions sélectionnées afin de constituer la génération suivante.

Itération jusqu’à obtenir une génération de solutions homogènes correspondant à la solution du problème.

Page 35: Analyse Donnees

Modélisation statistique

Problème de moindres carrés non linéaire

Régression linéaire ou non linéaire

Exemple : ajustement des paramètres d’un modèle de diffusion

−−=

t.D.4xerf).CC(C)t,x(C

eiss

Solution analytique de la seconde loi de Fick

Données : Ci et t

Paramètres à ajuster : De et Cs

du)uexp(π

2)z(erf

z

0

2∫ −=

0 , 0 0 0 99 ,3 6 5

0 , 0 0 1 37 ,4 2

0 , 0 0 6 96 ,1 7

0 , 0 1 0 45 ,1 8 5

0 , 0 2 0 44 ,3 9 5

0 , 0 3 43 ,3 8 5

0 , 0 7 2 12 ,3 3 5

0 , 0 8 5 71 ,7 4

0 , 0 9 6 91 ,2 4

0 , 1 3 1 10 ,8 6 5

0 , 1 5 2 10 ,3 2 5

C C l(% m a s s iq u e )

x i( m m )

0 , 0 0 0 99 ,3 6 5

0 , 0 0 1 37 ,4 2

0 , 0 0 6 96 ,1 7

0 , 0 1 0 45 ,1 8 5

0 , 0 2 0 44 ,3 9 5

0 , 0 3 43 ,3 8 5

0 , 0 7 2 12 ,3 3 5

0 , 0 8 5 71 ,7 4

0 , 0 9 6 91 ,2 4

0 , 1 3 1 10 ,8 6 5

0 , 1 5 2 10 ,3 2 5

C C l(% m a s s iq u e )

x i( m m )

Données expérimentales

Page 36: Analyse Donnees

Modélisation statistique

Problème de moindres carrés non linéaire

Régression linéaire ou non linéaire

Exemple : ajustement des paramètres d’un modèle de diffusion

Solveur Excel

Profil de concentration en ions chlorures

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 2 4 6 8 10

Pro fonde ur (mm)

Con

cent

ratio

n m

assi

que

(%)

Page 37: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Méthode de modélisation statistique non paramétrique

… les paramètres du modèle n’ont aucun sens physique (boîte noire).

Apprentissage des relations complexes existant entre différentes parties d’une banque de données expérimentales

Principe : reproduire les capacités d’apprentissage et de reconnaissance du cerveau

Applications : modélisation non paramétrique, aide à la décision, reconnaissance de formes, reconnaissance de la parole, diagnostic, prévision économétrique…

Qualités : parcimonie, boîte noire - Défauts : boîte noire

Régression non linéaire

Page 38: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Historique – Travaux de 2 neurobiologistes (1940)

Régression non linéaire

Neurone biologique

Dendrites

Axone

Sortie(axone)

Neurone artificiel (fonction mathématique)

w1

w2

w3

e1

e2

e3

Entrées(dendrites)

Unité de traitement des informations

d’entrée

Poids synaptiques

Synapses

Page 39: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Neurone formel (ou artificiel) : fonction non linéaire paramétrée à valeurs bornées

Régression non linéaire

Biais

Poids

Entrées

Sortie

Page 40: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Réseau de neurones artificiels

Régression non linéaire

Page 41: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Fonction d’activation

(ou de transfert) :

a=f(n)

Régression non linéaire

Page 42: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Fonction d’activation

(ou de transfert) :

a=f(n)

Régression non linéaire

Page 43: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Structuration des données expérimentales

La base de données expérimentales est décomposée en 3 parties :

- base d’apprentissage (au moins 2/3 des exemples)

- base de test

- base de validation

La base d’apprentissage doit contenir les exemples contenant les valeurs extrêmes des variables d’entrée.

Régression non linéaire

Page 44: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Structuration des données expérimentales

Régression non linéaire

f(x)

x

Données d’apprentissageDonnées de test

Données de validation

Plage de variation de x

Plage de variation de x décrite par les données d’apprentissage

Page 45: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Apprentissage

Optimisation des poids et des biais visant à minimiser l’erreur quadratique moyenne En calculée entre les prédictions et les valeurs cibles

Algorithme d’apprentissage usuel (Newton) : rétropropagation du gradient de l’erreur En

Critère d’arrêt : validation croisée

L’apprentissage optimal est conditionné par l’erreur commise sur la base de test.

Régression non linéaire

n

nn1n W

EηWW

∂∂−=+

Page 46: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Apprentissage : critère d’arrêt

Régression non linéaire

Page 47: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Apprentissage : notion de sur-apprentissage

Régression non linéaire

f(x)

xx0x1

f(x 0)

f(x 1)

f(x 2)

f(x 3)

f(x 4)

x2 x3 x4

Modèle optimal

Modèle surentrainé(sur-apprentissage)

Le modèle surentrainé est très bon sur les données de la base d’apprentissage, mais perd sa capacité de généralisation (il s’éloigne des données de test).

Données d’apprentissageDonnées de test

Page 48: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Définition de l’architecture du RNA : approche ‘test-et-erreur’

1 – Architectures à 1 couche cachée (nb neurones variables ) : tests

2 – Architectures à 2 couches cachées et nb neurones variables

3 – Choix raisonné… apport des couches cachées / performance ???

Régression non linéaire

Page 49: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Définition de l’architecture du RNA : approche ‘test-et-erreur’

Régression non linéaire

Choix : Nombre de Neurones Choix : 1couche / 2 couches

Page 50: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Evaluation de la performance du RNA

Régression non linéaire

Valeur cible

Valeur cible

Valeur cible

Val

eur

préd

ite

Val

eur

préd

iteV

aleu

r pr

édite

Page 51: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels

Applications dans le champ du génie civil

- Outil de prédiction des propriétés d’un béton sur la base des proportions de ses constituants

- Contrôles non destructifs : reconnaissance automatique de signatures physique et/ou géométriques

… techniques encore au stade de la recherche

Régression non linéaire

Page 52: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

72 concrete slabs (25 x 25 x 8 cm3)

B4

B3

B2

B1

Physical condition variability:

Porosity (14.3 % …… 16.7 %) - 4 levels

Water content (partially dry…..saturated)

Total chloride content (0 …. 6 kg/m3 of concrete)

Systematic resistivity measurement

V

I

a

Concrete

Equipotential lines Current lines

Wenner probe

Concrete surface Database of 113 patterns:

Electrical resistivity values

vs

Physical condition of concrete

Page 53: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

Page 54: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de

la porosité et des chlorures sur la

résistivité électrique d’un béton

Banque de données

Régression non linéaire

16,002 ,1014,8615,00

18,002 ,0214,8615,00

72,260 ,0014,7315,00

72,260 ,0014,6615,00

37,001 ,1314,6015,00

75,360 ,0011,6215,00

125,660 ,0010,5015,00

48,042 ,108 ,0215,00

753,980 ,005 ,8615,00

7 ,855 ,1714,1414,30

21,002 ,1214,0414,30

94,000 ,0013,9214,30

39,001 ,0413,8414,30

94,000 ,0013,7614,30

77,000 ,0013,7414,30

13,503 ,5013,6214,30

75,360 ,0011,6214,30

120,000 ,009 ,7014,30

26,695 ,179 ,6414,30

38,313 ,509 ,1814,30

920,000 ,004 ,6014,30

970,000 ,004 ,0414,30

Résistivitéé lec tr ique m esurée

(kohm .cm )

T eneur en clo ru res to taux (kg /m 3)

T eneur en eau (%)

Porosité(% )

16 ,002 ,1014,8615,00

18,002 ,0214,8615,00

72,260 ,0014,7315,00

72,260 ,0014,6615,00

37,001 ,1314,6015,00

75,360 ,0011,6215,00

125,660 ,0010,5015,00

48,042 ,108 ,0215,00

753,980 ,005 ,8615,00

7 ,855 ,1714,1414,30

21,002 ,1214,0414,30

94,000 ,0013,9214,30

39,001 ,0413,8414,30

94,000 ,0013,7614,30

77,000 ,0013,7414,30

13,503 ,5013,6214,30

75,360 ,0011,6214,30

120,000 ,009 ,7014,30

26,695 ,179 ,6414,30

38,313 ,509 ,1814,30

920,000 ,004 ,6014,30

970,000 ,004 ,0414,30

Résistivitéé lec tr ique m esurée

(kohm .cm )

T eneur en clo ru res to taux (kg /m 3)

T eneur en eau (%)

Porosité(% )

Page 55: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application – Résistivité électrique Lien

Régression non linéaire

Concreteporosity

Water content

Chloridecontent

Nh1

No1Electrical resistivityof concrete

Nh2

Nh3

Nh4

Nh5

Nh6

Nh7

Nh8

Nh9

Nh10

1 hidden layer with 10 nodes

1 output node

Total: 11 nodes

Weight matrix(dim. 3x10)

Weight vector(dim. 10)

Bias vector(dim. 10)

Bias Statistical model:

51 parameters

xexy

31

1)( −+

=

0

1

Page 56: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

0

100

200

300

400

500

600

700

800

900

1000

0 100 200 300 400 500 600 700 800 900 1000

ANN-Predicted resistivity (ohm.m)

Act

ual r

esis

tivity

(oh

m.m

)

Training dataTesting data

Absolute error: + 50 ohm.m

Absolute error: - 50 ohm.m

Page 57: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

0

20

40

60

80

100

120

140

160

180

200

0 20 40 60 80 100 120 140 160 180 200

ANN-Predicted resistivity (ohm.m)

Act

ual r

esis

tivity

(oh

m.m

)

Training dataTesting data

Absolute error: + 40 ohm.m

Absolute error: - 40 ohm.m

Page 58: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

0

100

200

300

400

500

600

700

800

900

1000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Testing pattern

Ele

ctric

al res

istiv

ity (

ohm

.m)

Actual testing values

ANN-predicted values

Page 59: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

0

100

200

300

400

500

600

700

800

4 5 6 7 8 9 10 11 12 13 14 15 16 17

Volumetric water content (%)

AN

N-p

redi

cted

res

istiv

ity (

ohm

.m)

Chloride content = 0 kg/m3

Chloride content = 1 kg/m3

Chloride content = 2 kg/m3

Chloride content = 3 kg/m3

Chloride content = 4 kg/m3

Chloride content = 5 kg/m3

Chloride content = 6 kg/m3

Simulation neuronale

Page 60: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

Simulation neuronale

0

100

200

300

400

500

600

700

800

900

1000

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Degree of water saturation

AN

N-p

redi

cted

res

istiv

ity (

ohm

.m)

Porosity = 14.5 %

Porosity = 15.5 %

Porosity = 16.5 %

Page 61: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

Simulation neuronale

Lissage

0

100

200

300

400

500

600

700

800

4 5 6 7 8 9 10 11 12 13 14 15 16 17

Volumetric water content (%)

AN

N-p

redi

cted

res

istiv

ity (

ohm

.m) Neural simulation

Experimental Values

Page 62: Analyse Donnees

Modélisation statistique

Réseaux de neurones artificiels – Application

Modélisation de l’effet de l’eau, de la porosité et des chlorures sur la résistivitéélectrique d’un béton

Régression non linéaire

Simulation neuronale

Extrapolationhasardeuse…

0

100

200

300

400

500

600

700

800

900

1000

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Volumetric water content (%)

AN

N-p

redi

cted

res

istiv

ity (

ohm

.m) Neural simulation

Experimental Values

Extrapolation

Page 63: Analyse Donnees

Rappels :

théorie des probabilités

Rappels théoriques

Page 64: Analyse Donnees

Introduction

Rappels théoriques

Espace probabilisé : définitions

Expérience aléatoire E : impossible de prévoir son résultat

Univers associé à E : ensemble ΩΩΩΩ des résultats possibles de E

L’ensemble ΩΩΩΩ peut être fini ou dénombrable : univers discret.

L’ensemble ΩΩΩΩ peut être non dénombrable : univers continu.

Événement aléatoire : - partie de l’ensemble des résultats possibles de E

- sous-ensemble A de ΩΩΩΩOn dit que A est réalisé si le résultat ω de l’expérience appartient à A

Événement impossible : Ø - Événement certain : ΩΩΩΩ

Page 65: Analyse Donnees

Introduction

Rappels théoriques

Espace probabilisé : définitions

Événement contraire de A noté Ac : complémentaire de A dans ΩΩΩΩ

Événement « A et B » : ensemble A ∩ B dans ΩΩΩΩ

Événement « A ou B » : ensemble A U B dans ΩΩΩΩ

Événements incompatibles A et B → A ∩ B = Ø (Exemple : A et Ac)

Si , la réalisation de A implique la réalisation de B.BA ⊂

Page 66: Analyse Donnees

Introduction

Rappels théoriques

Espace probabilisé : concept de probabilité

Probabilité : application p de l’ensemble P(ΩΩΩΩ) des parties de ΩΩΩΩ dans Rsatisfaisant les axiomes de Kolmogorov :

- La probabilité d’un événement est un nombre positif ou nul :

- La probabilité de l’événement impossible est nulle, celle de l’événement certain est égale à 1.

- La probabilité de l’union de 2 événements incompatibles est égale à la somme des probabilités de chaque événement.

,A Ω∈∀ 0)A(p ≥

)B(p)A(p)BA(pBA +=∪⇒∅=∩

Page 67: Analyse Donnees

Introduction

Rappels théoriques

Conséquences

La probabilité d’un événement A est égale à la somme des probabilités des événements élémentaires ωi de A.

Cas particulier : événements élémentaires équiprobables

Définition

Le triplet (ΩΩΩΩ, P(ΩΩΩΩ), p) constitue un espace probabilisé.

∑∈ω

ω=A

i

i

)(p)A(p

)(card)A(card

)A(p)(p...)(p)(p n21 Ω=⇒ω==ω=ω

Espace probabilisé : concept de probabilité

Page 68: Analyse Donnees

Probabilités conditionnelles & Indépendance

Rappels théoriques

Parfois, la réalisation d’un événement entraîne la modification de l’univers des possibilités…

La réalisation d’un événement A modifie les possibilités de réalisation d’un autre événement B qui se réduit à B ∩ A. Les probabilités sont également modifiées…

Probabilité conditionnelle de B sachant que A est réalisé :

Théorème des probabilités composés :

)A(p)AB(p

)A/B(p∩=

)B/A(p)B(p)A/B(p)A(p)BA(p ×=×=∩

Événements indépendants

Deux événements A et B sont indépendants si la réalisation de B ne modifie pas la probabilité A, et réciproquement, d’où :

Il en résulte que :

)A(p)B/A(p =

)B(p)A(p)BA(p ×=∩

Page 69: Analyse Donnees

Probabilités conditionnelles & Indépendance

Rappels théoriques

Théorème de Bayes (théorème de la probabilité des causes)

Soit un événement B dont la réalisation dépend de l’intervention de l’une des causes : A1 , A2 , … Ai , …, An .

Soit p(B/Ai) , la probabilité conditionnelle de B sachant que c’est la cause Ai qui intervient.

Soit p(Ai) , la probabilité d’intervention de Ai, appelée probabilité a priori de Ai.

et

)B/A(p)B(p)A/B(p)A(p)BA(p iiii ×=×=∩

∑=

×=n

1iii )A/B(p)A(p)B(p

∑=

×

×=n

1jjj

iii

)A/B(p)A(p

)A/B(p)A(p)B/A(p

Page 70: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Définition

Soit E une expérience aléatoire associée à l’univers ΩΩΩΩ. Une variable aléatoire (VA) réelle X est une application de ΩΩΩΩ dans R :

A un ensemble ΩΩΩΩ d’événements élémentaires ω1, ω2 ,..., ωi ,…, ωn, on fait correspondre un nombre X (variable aléatoire) prenant l’une des valeurs x1, x2 ,..., x i ,…, xn lorsque l’événement correspondant se réalise.

Une variable aléatoire est définie lorsqu’on connait les probabilités associées aux différentes valeurs possibles de X : p(x 1), p(x2), …, p(xn).

La relation x i, p(x i) est définie comme la loi de probabilité de la variable aléatoire X.

Si les valeurs possibles de X sont discrètes, en nombre fini ou infini : VA discrète.

Si les valeurs possibles de X sont continues : VA continue.

R)(X:X ∈ω→Ω∈ω

Page 71: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Fonction de répartition

La fonction de répartition FX de la variable aléatoire X est définie pour tout nombre réel x par :

Remarques

1. 0 ≤ FX ≤ 1

2. FX tend vers 0 en -∞ et FX tend vers 1 en +∞.

3.

)xX(p)x(F ≤=XXXX

,ba <∀ )a(F)b(F)bXa(p XX −=<<

Page 72: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Variables aléatoires discrètes

Une variable aléatoire qui prend un nombre fini ou dénombrable de valeurs est une VA discrète.

Soit X une VA discrète à valeurs dans un ensemble ξ fini ou dénombrable. La fonction de probabilité pX de X est déterminée par l’ensemble des probabilités de ses valeurs x :

Pour toute partie A de ξ, on a :

Pour une VA discrète, FX est une fonction en escalier.

)xX(p)x(p ==XXXX

∑∈

==Ax

)xX(p)A(p XXXX

Page 73: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

VA discrètes : exemple

Urne contenant des boules noires en proportion η et des boules blanches en proportion (1- η) .

Expérience aléatoire : tirage d’une boule au hasard

Résultat : 2 événements possibles…

… ω1 : la boule est noire et ω2 : la boule est blanche

On peut associer un nombre X au résultat du tirage au hasard. X = 0 si ω1 est réalisé et X = 1 si ω2 est réalisé.

X est une variable aléatoire discrète (en l’occurrence Variable de Bernouilli) dont la loi de probabilité est donnée par : etη== )0X(p η−== 1)1X(p

Page 74: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Variables aléatoires continues

Une variable aléatoire qui prend un nombre infini non dénombrable de valeurs est une VA continue si FX est une fonction continue..

Généralement, la fonction de répartition d’une VA continue s’écrit sous la forme :

où pX est une fonction de R dans R, alors on dit que pX est la densité de probabilité de la variable X.

Remarques

Soit A un sous-ensemble de R : Pour tout a < b :

∫∞−

=t

XX dx)x(p)t(F

∫=∈A

X dx)x(p)AX(p ∫=−=<<b

aXXX dx)x(p)a(F)b(F)bXa(p

1dx)x(pX =∫+∞

∞−

Page 75: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Exemples fondamentaux : VA discrètes

Loi de Bernoulli

On dit que X suit une loi de Bernoulli de paramètre , notée B(ω) si :

et

Loi binomialeOn dit que X suit une loi binomiale de paramètres , notée B(n,ω) si :

(Tirage au hasard non exhaustif de n boules dans une urne contenant des boules noires en proportion ω et des boules blanches en proportion (1- ω) . X est une VA égale au nombre de boules noires parmi les n boules tirées – Quelle est la probabilité pour que X = k avec 0 ≤ k ≤ n)

Remarque Tirage non exhaustif : chaque boule tirée est remise dans l’urne avant le tirage de la suivante

Cas du tirage exhaustif : loi hypergéométrique

[1,0]ω ∈

ω)1X(p == ω1)0X(p −==

),n( ωnk0 ≤≤∀ knkk

n )ω1.(ω.C)kX(p −−==

Page 76: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Exemples fondamentaux : VA discrètes

Loi géométriqueOn dit que X suit une loi géométrique de paramètre , notée G(ω) si :

(Modéliser le nombre de réalisation indépendantes d’une expérience à 2 issues (succès/échec) jusqu’à l’obtention du premier succès, si à chaque réalisation la probabilité de succès est ω )

Loi de PoissonOn dit que X suit une loi de Poisson de paramètre , notée P(λ) si :

Comportement limite de la loi binomiale lorsque : , ω faible et

Approximation de la loi binomiale à 2 paramètres par une loi à 1 paramètre : simplification…

nk0 ≤≤∀

[1,0]ω ∈1k)ω1.(ω)kX(p −−==

+∈ Rλ

!kλ

e)kX(pk

λ−==

∞→n λω.n →

Page 77: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Exemples fondamentaux : VA continues

Loi exponentielleOn dit que X suit une loi exponentielle de paramètre , notée ε(λ) si la

loi de X a pour densité :

si et siLoi utilisée en Fiabilité où λ est défini comme le taux ‘moyen de défaillance’ et 1/λ est le ‘temps

moyen de bon fonctionnement’

Loi GammaOn dit que X suit une loi Gamma de paramètres , notée γ(a,λ) si

la loi de X a pour densité :

si et si

Où :

0λ >

)xλ(X eλ)x(p −= 0x ≥ 0)x(p X = 0x <

)0λ,0a( >>

)xλ(1aa

X ex)a(Γ

λ)x(p −−= 0x ≥ 0)x(p X = 0x <

dxex)a(Γ x

0

1a −+∞

−∫= Loi exponentielle = cas particulier de la loi Gamma

Loi Gamma également utilisée en Fiabilité

Page 78: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Exemples fondamentaux : VA continues

Loi exponentielle

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

0 2 4 6 8 10

x

px(x

)

Lambda = 1

Lambda = 2

Page 79: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Exemples fondamentaux : VA continues

Loi normale, Loi de Gauss, Loi de Laplace-GaussOn dit que X suit une loi normale de paramètres , notée N(m,σ2) si la loi

de X a pour densité :)σ,m( 2

−−

=2

2

σ2

)mx(

X eπ2σ

1)x(p

‘Courbe en cloche’

m = valeur moyenne de Xσ² = précision

,Rx ∈∀

%68)σmX(p =<− 0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

-10 -8 -6 -4 -2 0 2 4 6 8 10

x

px(x

)

m=0,Sigma=1

m=0,Sigma=5

m=6,Sigma=0,5

Page 80: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Caractéristiques des variables aléatoires

Espérance

Soit X une VA réelle et h une application de R dans R : h(X) est donc une VA.

Si X est une VA discrète à valeurs dans ξ, on appelle espérance de h(X) la quantité :

Si X est une VA continue de densité pX, on appelle espérance de h(X) la quantité :

Si h(x)=x (application identité), on obtient E(X) appelée espérance ou moyenne de X

∑∈

==ξx

)xX(p)x(h))X(h(Ε

∫=R

X dx)x(p)x(h))X(h(Ε

Page 81: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Caractéristiques des variables aléatoires

Propriétés de l’espérance

Linéarité :

Si X est une VA constante égale à : , alors : et

Si X ≥ Y, alors E(X-Y) ≥ 0, et donc E(X) ≥ E(Y)

L’espérance est un indicateur de la localisation de la distribution de X.

L’espérance est aussi appelée ‘moment d’ordre 1 ’ de la distribution de X.

L’espérance ne donne pas d’infos sur l’étalement de la distribution.

)Y(Eβ)X(Eα)YβXα(Ε +=+

Ra ∈ 1)aX(p == a)X(E =

Page 82: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Caractéristiques des variables aléatoires

Variance

Soit p >0, on appelle moment d’ordre p de la variable aléatoire X la quantité :

On utilise essentiellement : - les moments autour de E(x), dits moments centrés

- le moment centré d’ordre 2 ou variance

On appelle variance de la variable aléatoire X la quantité :

)X(Ep

]))X(EX[(E)X(Var 2−=

Page 83: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Caractéristiques des variables aléatoires

Propriétés de la variance

Pout tout :

La racine carrée de Var(X), notée σX, est appelée ‘écart-type’ de X.

Si X est une VA telle que E(X) = m et Var(X)=σ2 …

…Alors Y = (X – m) / σ est une VA telle que : E(Y) = 0 et Var(Y) = 1.

On dit que Y est une variable centrée et réduite.

22 )X(E)X(E)X(Var −=

)X(Vara)baX(Var 2=+2R)b,a( ∈

Page 84: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Notion de fractile (ou quantile)

Soit X une VA réelle de fonction de répartition FX à valeurs dans ]0,1[.

Soit 0 < α < 1, on appelle quantile d’ordre α de X le nombre xα tel que :

ou encore

Remarque : x1/2 est appelé médiane de X

α)x(F αX = α)xX(p α =≤

Page 85: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Couple de variables aléatoires

Etude des relations entre deux ou plusieurs VA

Exemples : X : consommation d’électricité

Y : Température extérieure

Fonction de répartition du couple (X,Y) :

2R)y,x( ∈∀ )yY,xX(p)y,x(F )Y,X( ≤≤=

Page 86: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Couple de variables aléatoires

Etude des relations entre deux ou plusieurs VA

Indépendance de VA

Deux VA sont indépendantes si et seulement si :

Si deux VA sont indépendantes, l’espérance de leur produit est égale au produit de leurs espérances : E(XY) = E(X)E(Y)

Covariance de X et Y :

La covariance de 2 VA indépendantes est nulle.

,R)b,a( 2∈∀ )bY(p)aX(p)bY,aX(p ≤×≤=≤≤

)Y(E)X(E)XY(E)Y,X(σ −=

Page 87: Analyse Donnees

Variables aléatoires réelles

Rappels théoriques

Couple de variables aléatoires

Variance d’une somme de VA :

or

et

d’où

d’où

222 )YX(E])YX[(E)YX(σ ±−±=±

222 )Y(E)XY(E2)X(E])YX[(E +±=±

222 )Y(E)Y(E)X(E2)X(E)YX(E +±=±

])Y(E)Y(E[)]Y(E)X(E)XY(E[2])X(E)X(E[

)YX(σ2222

2

−+−±−=±

)Y(σ)Y,X(σ2)X(σ)YX(σ 222 +±=±

)Y(σ)X(σ 22 += si les VA sont indépendantes

Page 88: Analyse Donnees

Théorèmes limites

Rappels théoriques

Théorème de Bienaymé-Tchebitchev

Soit ε >0 et soit X une VA d’espérance E(X) et de variance Var(X) :

Ou encore :

Signification de l’écart-type (ou de la variance ) :

L’écart-type caractérise la dispersion de la distribution autour de l’espérance mathématique.

222

ε

)X(Var]ε))X(EX[(p ≤≥−

)X(Var]ε)X(EX[p ≤≥−

Page 89: Analyse Donnees

Théorèmes limites

Rappels théoriques

Loi faible des grands nombres

Soient X1, X2, …, Xn, une suite de n VA indépendantes, de même loi qu’une variable X d’espérance E(X) et variance σ2. Alors, pour tout ε >0 :

Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.

On dit que (X1+ X2+ …+Xn)/n converge en probabilité vers E(X) lorsque n tend vers l’infini.

0ε)X(En

X...XXp n21 →

>−+++ quand ∞→n

Page 90: Analyse Donnees

Analyses de données :

quelques grands concepts

Analyses de données

Page 91: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Objet : - méthode d’analyse factorielle

- rechercher les directions de l’espace qui représentent le mieux les corrélations entre N variables aléatoires...

- compresser des données, réduire leur dimension…

- classifier des données (clustering)…

Les données…

Soit un vecteur de N variables aléatoires :

On observe K réalisations conjointes

de ce vecteur de n VA et on range les

données dans une matrice M :

Analyses de données

=KN

K1

1N

11

XX

XX

M

L

MOM

L

( )N21 X,,X,X L

Page 92: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Les données… transformations

Chaque variable aléatoire possède une moyenne et un écart-type :

M peut être centrée :

M peut être réduite :

Analyses de données

−−

−−=

NKN1

K1

N1N1

11

XXXX

XXXX

M

L

MOM

L

( )Kn

2n

1nn X,,X,XX L= nX

−−

−−

=

N

NKN

1

1K1

N

N1N

1

111

~

σ

XXσ

XX

σ

XXσ

XX

M

L

MOM

L

Page 93: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Les données… transformations

Notons que chaque vecteur définit 1 point dans un espace à N dimensions.

L’ensemble des vecteurs avec 1 ≤ k ≤ K définit un nuage de points.

Le vecteur est le centre de gravité du nuage de points.

Le choix de centrer et/ou de réduire M n’est pas systématique.

Si on ne réduit pas M, une variable avec une forte variance va masquer l’effet des autres variables…

Si on réduit M, un bruit se retrouve avec la même variance qu’une variable informative…

Analyses de données

= N21 X,,X,XX L

( )kN

k2

k1

k X,,X,XX L=

kX

Page 94: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Les données… transformations

Matrice de variance-covariance :

Matrice de corrélations :

Analyses de données

MMK1

]Cov[t⋅⋅=

~t~

MMK1

]Cor[ ⋅⋅=

Ces 2 matrices sont diagonalisables.

Page 95: Analyse Donnees

1 - Analyse en composantes principales (ACP)

A la recherche des composantes principales…

On recherche les directions orthogonales autour desquelles la variance du nuage de points projeté est maximale. Les valeurs propres correspondent aux variances associées aux directions propres.

Recherche des valeurs propres et vecteurs propres de la matrice de corrélation (ou de variance-covariance si les données ne sont pas réduites).

Les directions sont classées par ordre de variance décroissante. Le premier axe factoriel est celui pour lequel la variance (valeur propre) est la plus forte. Le deuxième axe factoriel correspond à la variance immédiatement inférieure, etc, etc …

Analyses de données

Page 96: Analyse Donnees

1 - Analyse en composantes principales (ACP)

A la recherche des composantes principales…

On considère habituellement que les axes traduisant au moins 80 % de la variance totale sont suffisants pour décrire les données.

Considérons par exemple des vecteurs aléatoires à 10 composantes. Si les 3 premiers axes traduisent plus de 80 % de la variance totale, chaque veteurpeut-être résumé par sa projection sur les 3 premiers axes principaux du nuages de points…

Applications : Compression de données…

Réduction de la dimension des données (intéressant pour réseaux de neurones car nombre d’entrées réduits tout en conservant la même qualité d’information)

Classification des vecteurs aléatoires

Analyses de données

Page 97: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : typologie de véhicules

Analyses de données

Modèle

Cylindrée

(cm3)

Puissance

(ch)

Vitesse (km/h)

Poids (kg)

Longueur

(cm)

Largeur

(cm)

Honda Civic 1396 90 174 850 369 166 Renault 19 1721 92 180 965 415 169 Fiat Tipo 1580 83 170 970 395 170 Peugeot 405 1769 90 180 1080 440 169 Renault 21 2068 88 180 1135 446 170 Citroën BX 1769 90 182 1060 424 168 Bmw 530i 2986 188 226 1510 472 175 Rover 827i 2675 177 222 1365 469 175 Renault 25 2548 182 226 1350 471 180 Opel Omega 1998 122 190 1255 473 177 Peugeot 405 Break 1905 125 194 1120 439 171 Ford Sierra 1993 115 185 1190 451 172 Bmw 325iX 2494 171 208 1300 432 164 Audi 90 Quattro 1994 160 214 1220 439 169 Ford Scorpio 2933 150 200 1345 466 176 Renault espace 1995 120 177 1265 436 177 Nissan Vanette 1952 87 144 1430 436 169 VW Caravelle 2109 112 149 1320 457 184 Ford Fiesta 1117 50 135 810 371 162 Fiat Uno 1116 58 145 780 364 155 Peugeot 205 1580 80 159 880 370 156 Peugeot 205 Rallye 1294 103 189 805 370 157 Seat Ibiza SX I 1461 100 181 925 363 161 Citroën AX Sport 1294 95 184 730 350 160

Page 98: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : typologie de véhicules

Analyses de données

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5 6

Axes principaux

Var

ianc

e (%

de

la v

aria

nce

tota

le) Le premier plan factoriel suffit à décrire la structure

de corrélation des données.

Page 99: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : typologie de véhicules

Analyses de données

honda civic

fiat tipo P405R21

CBX

Bmw530Rover827R25

Opel omega

P405B

Ford sierra

Bmw325

Audi90

Ford scorpio

R espace

Nissan vanette

fiat uno

P205RCAX

ford fiesta

R19

VW

P205

Seat ibiza

-3,000

-2,500

-2,000

-1,500

-1,000

-0,500

0,000

0,500

1,000

1,500

2,000

-5,000 -4,000 -3,000 -2,000 -1,000 0,000 1,000 2,000 3,000 4,000 5,000

Facteur 1 (78%)

Fac

teur

2 (1

5%)

Page 100: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : typologie de véhicules

Analyses de données

Vitesse

Cylindrée

Puissance

PoidsLongueur

Largeur

-1,00

-0,80

-0,60

-0,40

-0,20

0,00

0,20

0,40

0,60

0,80

1,00

-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00

Axe 1

Axe

2Cercle de corrélation

Page 101: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : typologie de véhicules

Analyses de données

Vitesse

Cylindrée

Puissance

PoidsLongueur

Largeur

-1,00

-0,80

-0,60

-0,40

-0,20

0,00

0,20

0,40

0,60

0,80

1,00

-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00

Axe 1

Axe

2

Cercle de corrélation

L’axe 1 est très corrélé avec tous les paramètres (positivement), il est max pour les voitures rapides, puissantes, grosses, grandes…[et min pour l’inverse].

L’axe 2 est max pour les voitures rapides et puissantes (corrélation positive avec la vitesse et la puissance) mais de petit gabarit (corrélation négative avec la taille et le poids) [et min pour l’inverse].

Page 102: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : Reconnaissance de formes

Sources acoustiques :

5 paramètres caractéristiques

(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)

Analyses de données

Page 103: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : Reconnaissance de formes

Sources acoustiques :

5 paramètres caractéristiques

(Amplitude, fréquence, durée, temps de montée, dimension de corrélation)

Analyses de données

DC7RT7D7F7A7

DC6RT6D6F6A6

DC5RT5D5F5A5

DC4RT4D4F4A4

DC3RT3D3F3A3

DC2RT2D2F2A2

DC1RT1D1F1A1

Dimension de corrélation (DC)

Temps de montée (RT)

Durée (D)

Fréquence (F)

Amplitude (A)

DC7RT7D7F7A7

DC6RT6D6F6A6

DC5RT5D5F5A5

DC4RT4D4F4A4

DC3RT3D3F3A3

DC2RT2D2F2A2

DC1RT1D1F1A1

Dimension de corrélation (DC)

Temps de montée (RT)

Durée (D)

Fréquence (F)

Amplitude (A)

5 variables aléatoires

K réalisations conjointes des 5 VA

Question : DC est-il un paramètre discriminant des signaux ?

Page 104: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : Reconnaissance de formes

Sources acoustiques : 4 sources

Analyses de données

50 60 70 80 90 10020

30

40

50

60

70

80

90Concrete slab

Amplitude (dB)

Fre

quen

cy (kH

z)

S1 S2 S3 S4Acoustic sources:

Représentation des données dans le plan Amplitude-Fréquence

Page 105: Analyse Donnees

1 - Analyse en composantes principales (ACP)

Exemple : Reconnaissance de formes Sources acoustiques

Analyses de données

S1 S2 S3 S4Acoustic sources:

-4 -3 -2 -1 0 1 2 3 4-3

-2

-1

0

1

2

3Concrete slab

PC

A 2

(18.

98%

)

PCA 1(58.60%)-3 -2 -1 0 1 2 3

-3

-2

-1

0

1

2

3Concrete slab

PC

A 2

(23

.70%

)

PCA 1(53.77%)

Représentation des données dans le premier plan factoriel ACP

Avec DCSans DC

Page 106: Analyse Donnees

2 – Classification (ou clustering)

Principe général de la classification

Chercher à regrouper des ensembles de données en classes de caractéristiques homogènes… Identifier différentes familles de données au sein d’une population

Méthodes supervisées ou non supervisées

Principe de la Classification Ascendante Hiérarchiq ue (CAH)

Construire des partitions emboîtées à N, N-1, N-2, … , 1 classes par regroupements successifs.

La partition en n-1 classes est obtenue en agrégeant, parmi les n classes, les deux classes les plus proches au sens d’une distance qualifiée d’indice d’agrégation D .

Analyses de données

Page 107: Analyse Donnees

Principe de la CAH

Il peut être judicieux de classifier après projection des données sur les premiers axes ACP

Analyses de données

2 – Classification (ou clustering)

Axe 1 (ACP)

Axe 2 (ACP)

12 points =

12 classes initiales

11 classes

10 classes

1 classe

Page 108: Analyse Donnees

Principe de la CAH

Il peut être judicieux de classifier après projection des données sur les premiers axes ACP

Analyses de données

2 – Classification (ou clustering)

Axe 1 (ACP)

Axe 2 (ACP)

12 points =

12 classes initiales

11 classes

10 classes

1 classe

Page 109: Analyse Donnees

Principe de la CAH : Dendogramme

Analyses de données

2 – Classification (ou clustering)

Recherche du saut d’indice d’agrégation le plus important – Définition du nombre de classes et affectation de chaque vecteur à une classe.

Saut le plus important

3 classes

Page 110: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

Page 111: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

Salve d’émission acoustique(onde élastique transitoire)

Information d’apparence stochastique : comment caractériser ce type de signal ?

Page 112: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

Salve d’émission acoustique(onde élastique transitoire)

Plusieurs sources possibles : combien ?

Page 113: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

ACP sur les paramètres d’acquisition

Plusieurs centaines de salves collectées

Informations corréléesInformations redondantes

42.66%42.66%

22.60%22.60%

13.90%13.90%

8.63%8.63%

8.04%8.04%

3.50%3.50%

0.68%0.68%

42.66%42.66%

22.60%22.60%

13.90%13.90%

8.63%8.63%

8.04%8.04%

3.50%3.50%

0.68%0.68%

Variance

Page 114: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

CAH

Saut important de l’indice d’agrégation

Classe 3 Classe 2 Classe 1

Indice d’agrégation-Classes de signaux (Câble 3)

Page 115: Analyse Donnees

Exemple : classification des sources d’émission acoustique dans un câble lors d’un essai de corrosion accélérée sous contrainte

Analyses de données

2 – Classification (ou clustering)

Page 116: Analyse Donnees

3 – Inférence : estimation statistique

Introduction

En statistique classique, inférer consiste à induire les caractéristiques d’une population à partir d’un échantillon issu de cette population.

Interprétation de données statistiques

L’inférence statistique est souvent basée sur des caractéristiques statistiques connues à priori : nature de la loi de probabilité…

Analyses de données

L’induction consiste à chercher des lois générales à partir de l’observation de faits particuliers.

Par la suite…

Forme analytique de la loi de probabilité supposée connue

Estimation des paramètres θ1, θ2 … de la loi p(X; θ1, θ2 …) à partir de l’échantillon observé x1, x2…xn

Evaluation de la qualité de l’estimation

Page 117: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Rappel : Loi faible des grands nombres

Si on mesure une même quantité aléatoire au cours d'une suite d'expériences indépendantes, alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance.

On dit que Mn = (X1+ X2+ …+Xn) / n converge en probabilité vers E(X) lorsque n tend vers l’infini.

Etant donné ε arbitrairement faible, on peut toujours déterminer n tel que :

|Mn – E(X)| < ε

Page 118: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Estimation

Supposons une loi à 1 paramètre : θ. On recherche une fonction θ*(x1, x2…xn) qui s’approche au maximum de θ.

Estimateur

La variable aléatoire Tn(X1, X2,…Xn ) est un estimateur de θ si :

- E(Tn )→ θ quand n →∞

- E[Tn-E(Tn )]² → 0 quand n →∞

Si E(Tn)= θ quelque soit n, alors Tn est un estimateur sans biais.

Tn converge en probabilité vers θ.

Un estimateur est d’autant plus efficace que sa variance est faible.

Page 119: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Intervalle de confiance d’une estimation

Précision d’une estimation ?

Soit la distribution de Tn.

Soit un seuil de probabilité α,

considéré comme négligeable.

On peut définir un intervalle [θ-ε1, θ+ε2 ] de probabilité (1-α).

La probabilité d’observer l’événement θ-ε1 ≤ Tn ≤ θ+ε2 est (1-α).

Par conséquent, la probabilité de l’événement Tn-ε2 ≤ θ ≤ Tn+ε1 est (1-α).

t

p(t)

θ+ε2θθ-ε1

Page 120: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Intervalle de confiance d’une estimation

L’intervalle [Tn-ε2,Tn+ε1] est un intervalle aléatoire dont la probabilité de contenir θ est (1-α).

Concernant l’échantillon observé x1, x2…xn et la valeur θ* de Tncorrespondante…

… l’intervalle [θ*-ε2, θ*+ε1] est l’intervalle de confiance de l’estimation de θau seuil de probabilité (1-α).

Remarque : infinité de possibilités de répartir

la probabilité α, dont une correspond à un

intervalle minimal. En pratique :

t

p(t)

θ+ε2θθ-ε1

α/2 α/21-α

Page 121: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Application : Estimation d’une moyenne

Soit une population de moyenne µ inconnue et de variance σ² connue.

Soit Mn, la VA « moyenne d’un échantillon de taille n », on montre :

E(Mn) = µ

σ²(Mn) = σ² / n → 0 quand n →∞

Mn est donc un estimateur sans biais et convergent de µ.

Résultat général indépendant de la loi de probabilité.

Cependant, la détermination de l’intervalle de confiance nécessite la connaissance de la loi.

Page 122: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Application : Estimation d’une moyenne et Intervalle de confiance

Cas d’une loi normale de variance σ² connue

Mn suit également une loi normale de moyenne µ et d’écart-type .

Soit un seuil de probabilité α, on peut écrire :

Où uα/2 est lu dans la table de la loi normale réduite de façon que :

L’intervalle de confiance de µ est donc :

αnσ

uµMnσ

uµobPr αnα −=

+<<− 122

αuUobPr α => 2

umµnσ

um α*

α*

22 +<<−

Page 123: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Remarque :

La construction d’un intervalle de confiance repose sur 3 éléments :

- Taille de l’échantillon

- Fiabilité du résultat (donnée par le coefficient de confiance)

- Précision (amplitude de l’intervalle)

Pour n fixé :

- Plus la fiabilité est bonne, plus la précision est faible ;

- Plus la fiabilité est faible, plus la précision est forte

Page 124: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Exemples de démarches d’estimation

Remarques préliminaires

Population de taille N, de moyenne µ et de variance σ²

Echantillon de taille n :

- moyenne d’échantillon :

- variance d’échantillon (quasi-variance ou variance corrigée ):

Lois type : Student, Fisher,

n

X...XXX n21 +++=

( )∑

−−=

n

1

i2

1n

XXS

Page 125: Analyse Donnees

3 – Inférence : estimation statistique

Analyses de données

Exemples de démarches d’estimation

à (n-1) ddlµ inconnu

à n ddlµ connu

NormaleVariance σ²

~ N (0;1)σ² inconnu

~ N (0;1)σ² connuQuelconque

n>30

Student (n-1)σ² inconnu

N (0;1)σ² connu

Normale

Moyenne µ

LoiStatistique

(estimateur)Loi de la population

Paramètre àestimer

µX(n

)S

µX(n

µX(n

)S

µX(n

( )∑

−2

2i

σ

µX 2χ

2

2

σ

S)1n( − 2χ

Page 126: Analyse Donnees

3 – Inférence ou estimation statistique

Analyses de données

Concept du maximum de vraisemblance

La vraisemblance du paramètre θ associé aux données s’écrit :

La vraisemblance contient toute l’information apportée par (x1, . . . , xn)sur le paramètre θ.

La méthode du maximum de vraisemblance consiste à estimer θ par

Cet estimateur jouit de bonnes propriétés lorsque n est grand devantla dimension de θ.

( ) ( )θ;xfθL i

n

i 1=∏=

( )( )

= θLmaxargθθ

*

Page 127: Analyse Donnees

4 – Inférence bayésienne

Principe

Démarche logique permettant d’évaluer ou de réviser la probabilité d’une hypothèse.

Utilisation des théorèmes de combinaison des probabilités (qui conduisent au théorème de Bayes)

La statistique bayésienne est préférable lorsque les informations sont rares (statistique des petits échantillons). Elle est cependant plus coûteuse en temps de calcul.

Les approches classique et bayésienne sont asymptotiquement équivalentes.

Analyses de données

Page 128: Analyse Donnees

4 – Inférence bayésienne

Plus précisément…

Le paramètre θ associé au modèle statistique f(x;θ) est considéré aléatoire de loi a priori .

Sachant les données x, θ suit une loi a posteriori :

L’inférence statistique se conduit sur la base de cette loi a posteriori.

Analyses de données

)θ(Π

)x/θ(Π

( ) ( )( ) ( )∫

=θdθΠx/θL

θΠx/θL)x/θ(Π

Page 129: Analyse Donnees

4 – Inférence bayésienne

Plus précisément…

La loi a priori résume l’information préalable à l’obtention des données que l’on possède sur le paramètre θ.

Elle résume également l’incertitude sur la valeur de cette information.

Elle fournit un cadre cohérent et contrôlable pour quantifier les connaissances et les opinions d’expert.

Grâce au théorème de Bayes, elle donne naissance à la loi a posteriori qui tire toute l’information des données et de la loi a priori.

Analyses de données

)θ(Π

)x/θ(Π

Page 130: Analyse Donnees

4 – Inférence bayésienne

Plus précisément…

Analyses de données

Une fois la loi a posteriori établie ou approché, on en déduit un estimateur ponctuel de θ qui peut être :- la moyenne a posteriori- le mode a posteriori- la médiane a posteriori.

Potentiellement, la loi a posteriori contient les éléments pour évaluer l’incertitude de cet estimateur ponctuel.

Page 131: Analyse Donnees

6 – Inférence : test d’hypothèses

Principe

Démarche consistant à accepter ou rejeter une hypothèse statistique sur la base d’un jeu de données disponible

Le test d’hypothèse n’est pas sans risque. On note 2 types d’erreurs :

- rejeter une hypothèse vraie (risque de première espèce de probabilité α) ;

- accepter une hypothèse fausse (risque de deuxième espèce de probabilité β).

Tests classiques : on impose par exemple que le risque de deuxième espèce βtende vers 0 quand le nombre d'observations tend vers l'infini et on fixe le risque de première espèce à un niveau α

Test de Student, Test de Fisher, Test de Χ²…

Tests bayésiens : pondérations des risques de première et de deuxième espèces grâce à la connaissance de probabilités a priori…

Psi-test…

Analyses de données

Page 132: Analyse Donnees

6 – Inférence : test d’hypothèses

Test sur un paramètre

La valeur d’un paramètre θ trouvée sur un échantillon peut-être mise en relation avec une valeur à priori θ0.

Hypothèse nulle H0 : θ = θ0

Hypothèse alternative H1 : θ ≠ θ0

- Test unilatéral H1 : θ < θ0 ou θ > θ0

- Test bilatéral H1 : θ ≠ θ0

Analyses de données

Page 133: Analyse Donnees

6 – Inférence : test d’hypothèses

Test sur un paramètre

Construction du test :

- Détermination des hypothèses

- Choix d’une statistique (estimateur T du paramètre θ)

- Règle de décision : notion de seuil critique l

Si t < l , on rejette l’hypothèse H0.

Si t > l, on accepte l’hypothèse H0

Analyses de données

Page 134: Analyse Donnees

6 – Inférence : test d’hypothèses

Test sur un paramètre

Exemple : test sur la moyenne d’une population de variance connue

H0 : µ = µ0

Estimateur :

On sait que : ou

Règle de décision : on rejette H0

on accepte H0

Analyses de données

n

X...XXX n21 +++=

)n

σ,µ(ΝX → )1;0(Ν)

σ

µX(n →−

lX <

lX >

Page 135: Analyse Donnees

6 – Inférence : test d’hypothèses

Test sur un paramètre

Exemple : test sur la moyenne d’une population de variance connue

Détermination du seuil critique :

Soit α = P(rejeter H0 quand H0 est vraie)

= P( quand H0 est vraie)

=

=

Analyses de données

lX <

µln

σ

µXn(P 00 −<−

µln)1;0(N(P 0−<

Page 136: Analyse Donnees

6 – Inférence : test d’hypothèses

Test sur un paramètre

Exemple : test sur la moyenne d’une population de variance connue

Détermination du seuil critique :

α étant fixé, on en déduit la valeur de et donc de l.

Analyses de données

σ

µln 0−