Download - Probabilités et Statistique.pdf
-
7/30/2019 Probabilits et Statistique.pdf
1/129
Probabilits et Statistique
Jean-Michel JOLION
Dpartement Gnie Industriel1
Sommaire Probabilits
o Notions de probabilitso Analyse combinatoire (rappels)
Factorielle Arrangements de p objets parmi n Permutations
Combinaisons de p parmi n Rptitions
o Epreuves et Evnementso Espace probabilis
Axiomatique de Kolmogorov Proprits lmentaires
o Probabilit conditionnelle - Thorme de Bayes Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes
o Le paradoxe de Bertrand
Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartition
Dfinition Proprits Fonction de rpartition d'une v.a. discrte
o Fonction de rpartition d'une v.a. continueo Couple de variables alatoires
Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle
o Loi d'une fonction d'une ou plusieurs variables alatoires Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes
o Moyenne et esprance mathmatique d'une v.a. Notion de moyenne pour une v.a. discrte Esprance mathmatique
o Moments Dfinitions Quelques moments particuliers
-
7/30/2019 Probabilits et Statistique.pdf
2/129
Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov
o Quelques lois de probabilits Les valeurs principales Liaisons entre lois de probabilits
o Quelques relationso Loi des grands nombres
Convergence stochastique Thorme central limite
o Simulation d'une variable alatoire Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :
o Autres indicateurs Histogramme Mdiane Mode Autres moyennes
Estimationo Estimation ponctuelle
Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse
o Mthode du maximum de vraisemblanceo Estimation par intervalle de confiance
Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance
o Estimation robuste Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative
o Rgression linaire Formalisation Rsolution dans le cas d'une distribution normale des carts
-
7/30/2019 Probabilits et Statistique.pdf
3/129
Le cas de la droite Intervalle de confiance sur le coefficient de corrlation
o Filtre de Kalmano Estimation d'un modeo Estimation d'une densit
Tests d'hypothseo Introduction
Hypothses et erreurs Tests bilatral et unilatral Rgion d'acceptation et rgion critique Choix d'un test Influence de l'chantillonnage
o Test entre deux hypothses simples La mthode de Neyman et Pearson Test de la moyenne d'une loi normale d'cart-type connu Test de la moyenne d'une loi normale d'cart-type inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion
o Test entre hypothses composes Tests UMP Test d'une moyenne de loi normale, l'cart-type tant connu Test d'une moyenne de loi normale, l'cart-type tant inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion
o Test de comparaison Comparaison de deux moyennes Comparaison de deux variances Comparaison de deux proportions
o Test du rapport des vraisemblances maximaleso Test d'adquation
Test du Test de Kolmogorov Test de Cramer-Von Mises
o Test d'indpendance Test des diffrences premires Test de Spearman
o Test de comparaison d'chantillons Test des variances de Fisher-Sndcor Test de Student Test de Spearman
o Analyse de la variance Les donnes de l'analyse Le test Analyse des contrastes
-
7/30/2019 Probabilits et Statistique.pdf
4/129
Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processus
Etude de la capabilit des processus Indicateurs gnraliss Les cartes de contrle
o #1
Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit
d'tre dpasses
o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses
o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses
o Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables
alatoires indpendantes
o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov
Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux
Problme 1 Problme 2 Problme 3 Problme 4
-
7/30/2019 Probabilits et Statistique.pdf
5/129
Sommaire
Probabilitso Notions de probabilitso Analyse combinatoire (rappels)o Epreuves et Evnementso Espace probabiliso Probabilit conditionnelle - Thorme de Bayeso Le paradoxe de Bertrand
Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartitiono Fonction de rpartition d'une v.a. continueo Couple de variables alatoireso Loi d'une fonction d'une ou plusieurs variables alatoireso Moyenne et esprance mathmatique d'une v.a.o Momentso Quelques lois de probabilitso Quelques relationso Loi des grands nombreso Simulation d'une variable alatoireo Autres indicateurs
Estimationo Estimation ponctuelleo Mthode du maximum de vraisemblanceo Estimation par intervalle de confianceo Estimation robusteo Rgression linaireo Filtre de Kalmano Estimation d'un modeo
Estimation d'une densit
Tests d'hypothseo Introductiono Test entre deux hypothses simpleso Test entre hypothses composeso Test de comparaisono Test du rapport des vraisemblances maximaleso Test d'adquationo Test d'indpendanceo Test de comparaison d'chantillons
-
7/30/2019 Probabilits et Statistique.pdf
6/129
o Analyse de la variance
Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processuso #1
Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables
alatoires indpendantes
o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov
Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux
Bibliographie
Bibliography
Introduction
Ce polycopi est un support du cours de ``Probabilits-Statistique'' de 3me anne du
dpartement Gnie Industriel de l'INSA de Lyon. Il regroupe les lments fondamentaux vus
dans ce cours. Il couvre plus que ce qui est rellement abord en cours car il a galement
vocation introduire des concepts plus avancs (comme les statistiques robustes ou la
matrise des systmes) en termes de culture gnrale.
Il n'existe pas de recueil des annales des examens des annes prcdentes car les exercices et
problmes figurant dans ces examens sont introduits chaque anne dans la nouvelle liste desexercices fournies en fin de polycopi, avec le plus souvent des lements de correction.
-
7/30/2019 Probabilits et Statistique.pdf
7/129
Le contenu de ce polycopi n'engage que son auteur, dans le cadre de ce cours de l'INSA de
Lyon.
Toute reproduction partielle ou totale, pour toute utilisation est assujtie la demande
formule auprs de l'auteur.
Une version lectronique est disponible sur le site web http://rfv.insa-
lyon.fr/ jolion/STAT/poly.html
Jean-Michel Jolion 2006-05-27
-
7/30/2019 Probabilits et Statistique.pdf
8/129
Probabilits
Subsections
Notions de probabilits Analyse combinatoire (rappels)
o Factorielleo Arrangements de p objets parmi no Permutationso Combinaisons de p parmi no Rptitions
Epreuves et Evnements Espace probabilis
o Axiomatique de Kolmogorovo Proprits lmentaires
Probabilit conditionnelle - Thorme de Bayeso Thorme des probabilits composeso Consquenceso Thorme de Bayes - Probabilits des causes
Le paradoxe de Bertrand
Jean-Michel Jolion 2006-05-27
-
7/30/2019 Probabilits et Statistique.pdf
9/129
Notions de probabilits
Il existe plusieurs manires de dfinir une probabilit. Principalement, on parle deprobabilits inductives ou exprimentales et deprobabilits dductives ou thoriques. On
peut les dfinir comme suit :
Probabilit exprimentale ou inductive : la probabilit est dduite de toute la population
concerne. Par exemple, si sur une population d'un million de naissances, on constate 530000
garons et 470000 filles, on dit que P[garon] = 0.53
Probabilit thorique ou dductive : cette probabilit est connue grce l'tude du phnomne
sous-jacent sans exprimentation. Il s'agit donc d'une connaissance a priori par opposition ladfinition prcdente qui faisait plutt rfrence une notion de probabilit a posteriori. Par
exemple, dans le cas classique du d parfait, on peut dire, sans avoir jeter un d, que
P["obtenir un 4"] = .
Comme il n'est pas toujours possible de dterminer des probabilits a priori, on est souvent
amen raliser des expriences. Il faut donc pouvoir passer de la premire la deuxime
solution. Ce passage est suppos possible en terme de limite (i.e. avec une population dont la
taille tend vers la taille de la population relle).
Analyse combinatoire (rappels)
Subsections
Factorielle Arrangements de p objets parmi n Permutations Combinaisons de p parmi n Rptitions
Factorielle
Si une action peut tre obtenue de faons diffrentes, puis suivant cette action, defaons diffrentes indpendantes des prcdentes, puis ...alors, le nombre de possibilits
correspondant l'ensemble de ces actions est
-
7/30/2019 Probabilits et Statistique.pdf
10/129
On appelle factorielle n et l'on note n! le nombre :
On peut aussi dfinir la factorielle grce la fonction :
qui a les proprits suivantes : pour n entier et .
La formule de Stierling permet de construire une estimation de la factorielle trs valable pour
:
Jean-Michel Jolion 2006-05-27
Arrangements de p objets parmi n
Nombre de possibilits de ranger p objets choisis parmi n :
.
Permutations
Arrangement de objets parmi en tenant compte de l'ordre : .
Par exemple, il y a permutations possibles de symboles : , ,
, , , .
Combinaisons de p parmi n
On ne tient pas compte de l'ordre des objets dans le rangement :
.
-
7/30/2019 Probabilits et Statistique.pdf
11/129
La notation anglosaxonne pour les combinaisons est un peu diffrente : .
Proprits :
Rptitions
Soient n objets dont on dispose une infinit d'exemplaires. On en choisit p parmi ces n classes
d'objets. Il peut donc y avoir rptitions du mme objet. Dans ce cas, on obtient de nouveaux
indicateurs :
Toujours dans le mme contexte, on cherche le nombre de possibilit d'avoir a fois le 1er
objet, b fois le 2me objet, ...k fois le nme objet. Le nombre de permutations est donn par :
Epreuves et Evnements
Une exprience est dite alatoire si ses rsultats ne sont pas prvisibles avec certitude enfonction des conditions initiales.
On appelle preuve la ralisation d'une exprience alatoire.
On appelle vnement la proprit du systme qui une fois l'preuve effectue est ou n'est pasralise.
-
7/30/2019 Probabilits et Statistique.pdf
12/129
Exemple : Soient l'exprience alatoire "lancer deux ds discernables" (et non pips si l'on
veut vraiment une exprience alatoire) et l'vnement A "obtenir un total des nombres
".
A se ralise pour les preuves (6,5), (5,6), (6,6).
Correspondance entre les oprateurs logiques et les ensembles (la relation liant ces notations
est un isomorphisme, on peut donc employer n'importe laquelle).
Logique Ensemble
tat du systmelment
vnement A
partievnement certain espace entier
vnement impossiblepartie vide
vnement contraire oupartie complmentaire
l'vnement B entraine l'vnement
A
A et Bintersection
vnements incompatibles
parties disjointes
A ou B (ou non exclusif)runion
ou exclusifsomme
A partir de ces notions, on peut prciser le calcul de probabilits d'un vnement A :
probabilit thorique : .
probabilit exprimentale : . Cette approche(aussi appelle approchefrquentiste) ne permet pas de donner une valeur ni mme un sens
-
7/30/2019 Probabilits et Statistique.pdf
13/129
la probabilit d'un vnement non rptable du genre "neigera-t-il le 25 octobre 2990" ce qui
limite de fait le champ d'application du calcul des probabilits.
Pour les frquentistes, seules ont un sens les probabilits calcules a posteriori sur la base de
la rptition d'un grand nombre d'vnements identiques; pour les subjectivistes, au contraire,
la notion de probabilit a priori, valuable en fonction d'un sentiment individuel d'incertitude,peut avoir un sens.
Espace probabilis
Subsections
Axiomatique de Kolmogorov Proprits lmentaires
Axiomatique de Kolmogorov
A chaque vnement, on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin
d'viter toute discussion sur cette notion, la thorie moderne des probabilits repose sur
l'axiomatique suivante :
Dfinition 1
On appelle probabilit sur ( , ) (o est l'ensemble des vvements et une classe de
parties de ), ou loi de probabilit, une application de dans telle que :
-
- pour tout ensemble dnombrable d'vnements incompatibles on a
.
Dfinition 2
On appelle espace probabilis le tripl ( , , )
Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1. On
peut donc relier la thorie des probabilits celle de la mesure.
-
7/30/2019 Probabilits et Statistique.pdf
14/129
Proprits lmentaires
De l'axiomatique de Kolmogorov, on peut dduire les proprits suivantes :
Proprit 1 :
Proprit 2 :
Proprit 3 :
Proprit 4 :
Proprit 5 : (Il n'y a stricte galit que si les vnements sont
deux deux incompatibles.)
Proprit 6 : Continuit monotone squentielle.
Proprit 7 : Thorme des probabilits totales : Soit un systme complet
d'vnements (i.e. tel que constitue une partition de ).
Remarque : . De mme, .
Probabilit conditionnelle - Thorme de Bayes
Subsections
-
7/30/2019 Probabilits et Statistique.pdf
15/129
Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes
Thorme des probabilits composes
Soient deux vnements A et B raliss respectivement et fois au cours de preuves.
On a donc et . Si de plus A et B sont raliss simultanment fois,
on a . Que peut-on dduire sur la probabilit de l'vnement B sachant que
l'vnement A est ralis ? Cette probabilit est appelle probabilit conditionnelle de B
sachant A et se note . Dans notre cas, on a .
Par dfinition, on a et .
Consquences
Deux vnements A et B sont dits indpendants si ou encore si
(l'information sur la ralisation de A n'apporte rien l'vnement B) et
.
Attention :
1) indpendant incompatible.
2) et sont indpendants uniquement si vous pouvez
prouver que thoriquement. En pratique, i.e. sur des valeursnumriques, on ne peut pas induire l'indpendance partir de cette galit constate
numriquement. On ne peut que supposer trs probable cette indpendance.
Si deux vnements et sont indpendants, alors il en est de mme de et , et
, et .
-
7/30/2019 Probabilits et Statistique.pdf
16/129
Soit , , ..., une suite d'vnements ayant une intersection commune non nulle, i.e.
, on a alors
Thorme de Bayes - Probabilits des causes
Soit un vnement qui peut dpendre de causes diffrentes et incompatibles deux deux (on ne peut avoir deux causes ralises simultanment). Etant donne la ralisation de
l'vnement , quelle est la probabilit que ce soit qui en soit la cause ?
On peut crire que car constitue un systme complet (les causes
sont incompatibles deux deux et toutes les causes possibles sont supposes connues).
Donc d'aprs le thorme des probabilits totales, on a .
En appliquant le thorme des probabilits conditionnelles, on a
donc
Exemple : Deux machines et produisent respectivement 100 et 200 objets.
produit de pices dfectueuses et en produit . Quelle est la probabilit pour qu'un
objet dfectueux ait t fabriqu par la machine ?
L'vnement constat, , est donc la prsence d'une pice dfectueuse et les causes sont les
machines et . Compte tenu des productions de ces machines, on a et
. De plus, les probabilits conditionnelles de l'vnement selon les machines
-
7/30/2019 Probabilits et Statistique.pdf
17/129
sont et . En reportant ces valeurs dans la formule
gnrale, on obtient
Le paradoxe de BertrandCe paradoxe est un exemple classique permettant de mesurer la limite des dfinitions de
probabilits.
Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard.
Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle ?
On doit Renyi les remarques suivantes :
Premire solution. Comme la longueur de la corde est dtermine par la position de sonmilieu, le choix de la corde peut consister marquer un point au hasard l'intrieur du cercle.
La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est
alors gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit dans
ce triangle qui est de rayon moiti.
Si on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la
probabilit demande :
Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au
centre du cercle. Par raison de symtrie, nous pouvons considrer que le milieu de la corde est
pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon estuniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est
une distance du centre infrieure r/2; la probabilit recherche est alors 1/2.
Troisime solution. Par raison de symtrie, nous pouvons supposer qu'on a fix une des
extrmits de la corde en . L'autre sera choisie au hasard sur la circonfrence. Si on admet
que la probabilit que l'autre extrmit tombe sur un arc donn de la circonfrence est
proportionnelle la longueur de cet arc, la corde est plus grande que le ct du triangle
quilatral inscrit quand P se trouve sur l'arc (tel que ) dont la longueur
est le 1/3 de celle de la circonfrence; la probabilit est donc de 1/3.
-
7/30/2019 Probabilits et Statistique.pdf
18/129
Il est clair que les trois hypothses de rpartition sont galement ralisable. Il n'y a pas
cependant de rel paradoxe car il s'agit simplement d'un choix de conditions exprimentales
de tirage des cordes qui conduisent des vnements diffrents.
Pour en savoir plus : http://www-ensps.u-
strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM
Variable alatoire : dfinitions
Une variable alatoire (V.A.) est une application de l'ensemble des preuves dans le corps des
rels. Elle est caractrise par l'ensemble des probabilits associes tous ses tats possibles.
Dfinition 1 Tout ensemble de parties d'un ensemble , stable par runion, intersection etcomplmentarit s'appelle une tribu sur .
Soit une tribu de parties de . Le couple s'appelle un espace probabilisable ou
mesurable et est l'ensemble des vnements.
Si peut tre muni d'une topologie, alors la tribu engendre par la classe des ouverts de est
appelle tribu borlienne.
Dfinition 2 Une variable alatoire est une application mesurable d'un espace probabilis
( , , ) dans le corps des rels muni de sa tribu borlienne ( , ) (i.e. ensemble des
intervalles de la forme ).
Dfinition 3 Pour tout borlien B (i.e. ), on dfinit une loi de probabilit de X sur
( , ) et l'on note :
Dfinition 4 Une v.a. est discrte si Card[ ] est fini ou dnombrable.
Dans ce cas, ne peut prendre, avec une probabilit non nulle, qu'un nombre fini de valeurs
particulires . On note gnralement les probabilits par .
Dfinition 5 Une v.a. est continue si elle peut prendre toute valeur sur un segment de la
forme , , , et telle que .
-
7/30/2019 Probabilits et Statistique.pdf
19/129
Dfinition 6 Une v.a. est mixte si 1) , 2)
et 3)
Fonction de rpartition
Subsections
Dfinition Proprits Fonction de rpartition d'une v.a. discrte
Dfinition
La fonction de rpartition (FR) d'une v.a. est l'application de dans dfinie par
Proprits
est non dcroissante.
est continue gauche.
est continue droite dans le cas des v.a. continues.
et
-
7/30/2019 Probabilits et Statistique.pdf
20/129
Fonction de rpartition d'une v.a. continue
Soit une v.a. continue. Sa fonction de rpartition est continue gauche et droite. Il existe
donc une fonction telle que l'on puisse crire :
Par dfinition, est appelle densit de probabilit de , ou en abrg, ddp de . Cettefonction a les proprits suivantes :
Couple de variables alatoires
Subsections
Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle
-
7/30/2019 Probabilits et Statistique.pdf
21/129
Dfinitions
Soient et deux v.a. dfinies sur le mme espace probabilis. On appelle fonction derpartition conjointe de et , la fonction dfinie par :
On a par dfinition, et .
Cas d'un couple de v.a. continues
On note la ddp conjointe de et et l'on a par dfinition :
avec les proprits suivantes :
On peut galement dfinir une fonction de rpartition marginale de , note par
(idem pour , ).
Cas d'un couple de v.a. discrtes
On note .
-
7/30/2019 Probabilits et Statistique.pdf
22/129
Distribution conditionnelle
Soient et deux v.a. continues de FR conjointe et de ddp conjointe . Comment peut-
on valuer la probabilit conditionnelle ?
On dfinit la fonction de rpartition conditionnelle par
et la densit de probabilit conditionnelle par
Si les deux v.a. sont indpendantes, alors on a
Loi d'une fonction d'une ou plusieurs variables alatoires
Dans la pratique, on est souvent amen manipuler des variables alatoires qui sont des
transformations ou des combinaisons de variables alatoires connues. C'est pourquoi on
dispose de rgles de passage d'une loi une autre, pour des transformations simples.
-
7/30/2019 Probabilits et Statistique.pdf
23/129
Subsections
Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes
Transformation d'une variable alatoire
Transformation d'une loi discrte Soit une v.a. discrte de loi . Alors, la loi de la
v.a. est dfinie par :
o dsigne la fonction rciproque de .
Transformation d'une loi continue Soit une v.a. continue dont la loi admet la densit de
probabilit et une fonction monotone et drivable. Alors, la densit de la loi de la v.a.
est dfinie par :
o dsigne la fonction rciproque de .
On peut par ces proprits montrer en particulier que la v.a. o est la fonction
de rpartition de la loi de la v.a. , suit une loi uniforme sur l'intervalle .
Exemple : Soit . On a et donc .En application de la proprit prcdente, on obtient
-
7/30/2019 Probabilits et Statistique.pdf
24/129
Densit de probabilit d'une somme de V.A. indpendantes
Soient et deux v.a. continues de ddp et . Si et sont indpendantes, alors
la densit de probabilit de la v.a. dfinie par est donne par
Cette proprit se gnralise quel que soit le nombre de variables dans la somme. On peut
aussi additionner des variables alatoires discrtes.
Soient et deux v.a. discrtes valeurs dans et . La loi de estdfinie par :
En particulier, si et sont indpendantes, on a :
On peut aussi passer par les proprits de l'oprateur esprance mathmatique (voir section
suivante).
-
7/30/2019 Probabilits et Statistique.pdf
25/129
Moyenne et esprance mathmatique d'une v.a.
Subsections
Notion de moyenne pour une v.a. discrte Esprance mathmatique
Notion de moyenne pour une v.a. discrte
Soit une v.a. discrte prenant ses valeurs dans et dont les probabilits
associes sont .
Par dfinition, on appelle moyenne thorique ou esprance mathmatique de , et l'on
note , la valeur .
On ne connait cette v.a. que par le moyen d'un chantillon de taille (dont on supposera qu'il
est significatif par rapport au nombre de valeurs possible, , de la v.a., i.e. ). Chaque
vnement se ralise fois dans l'chantillon ( ).
La moyenne exprimentale est dfinit par .
Si on admet que la proportion tend vers la propabilit thorique pour un chantillon de
taille infinie ( ) alors on peut estimer la moyenne thorique par la limite de lamoyenne exprimentale.
Esprance mathmatique
Soit une v.a. On dfinit l'esprance mathmatique de et l'on note la valeur
-
7/30/2019 Probabilits et Statistique.pdf
26/129
o est la fonction de rpartition de .
Cette intgrale est dite au sens de Stieljes. Soit une v.a. dfinie sur . On peut
discrtiser la v.a. en introduisant une nouvelle v.a. discrte en dcoupant l'intervalle
en intervalles tels que
et donc
Grce un chantillon de taille , on peut calculer une moyenne exprimentale de (
) qui tend vers la moyenne thorique si . Si de
plus, on dcoupe en une infinit d'intervalles de la forme ( ), alors on
obtient la moyenne thorique de la v.a. par
Remarque : L'esprance mathmatique n'est pas toujours dfinie. C'est en particulier le cas de
la loi de Cauchy dont la ddp est donne par car l'intgrale
diverge.
Proprits : Les proprits de l'esprance mathmatique proviennent de celle de l'oprateur
intgral et en particulier la linarit. Soit une v.a. et une constante.
Soient et deux v.a. et et deux constantes.
-
7/30/2019 Probabilits et Statistique.pdf
27/129
Plus gnralement, pour toute fonction , positive, continue, support compact
Exemple : Soient et deux v.a. continues indpendantes de mme loi . On souhaite
trouver la loi de la variable alatoire . On a donc
Les deux variables tant indpendantes, on a . Soit le
changement de variables suivant :
dont le jacobien est
Ce qui nous donne
-
7/30/2019 Probabilits et Statistique.pdf
28/129
d'o l'on dduit la densit de probabilit
Supposons maintenant que ces deux variables alatoires suivent une loi exponentielle de
paramtre , . On a alors
La v.a. suit donc une loi uniforme. Comme on doit avoir et , cela
donne et .
Moments
La notion de moment permet d'introduire celle d'indicateur rsumant et/ou caractrisant une
variable alatoire. On y retrouvera la moyenne comme cas particulier.
Subsections
Dfinitions Quelques moments particuliers Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov
-
7/30/2019 Probabilits et Statistique.pdf
29/129
Dfinitions
Moment d'ordre n. On appelle moment d'ordre n de la v.a. et l'on note la valeur
.
Pour les v.a. discrtes, cela donne :
Moment d'ordre n rapport l'abscisse a. On appelle moment d'ordre n de la v.a.
rapport l'abscisse , et l'on note , la valeur
.
Moment centr d'ordre n. On appelle moment centr d'ordre n de la v.a. et l'on note
la valeur . Le moment centr
d'ordre d'une v.a. est donc le moment d'ordre de cette v.a. rapport l'abscisse
particulire qu'est sa moyenne ( ).
Quelques moments particuliers
est la moyenne.
est la variance (voir plus loin).
Trs souvent, pour des raisons d'efficacit, les moments souhaits, i.e. , sont calculs
partir des moments simples, i.e. . En effet, le calcul d'un moment centr ncessite le calculpralable de l'esprance mathmatique, il y a donc 2 pas de calculs au lieu d'un seul pour les
moments non centrs.
-
7/30/2019 Probabilits et Statistique.pdf
30/129
, et sont utiliss pour caractriser la forme d'une distribution. Pour cela, on construit
des indicateurs sans dimension :
Le coefficient d'asymtrie (skewness) : . Ce coefficient est nul pour une
distribution parfaitement symtrique, infrieur zro si la distribution est plus tendue vers la
gauche (les valeurs infrieures la moyenne), et suprieur zro dans le cas contraire.
Le coefficient d'aplatissement (kurtosis) : . est toujours suprieur 1. De plus,
on a toujours . Plus que l'aplatissement, le coefficient mesurel'importance des ``queues'' de distribution. Cet indicateur vaut dans le cas de la loi de Gauss
(cf chapitre sur les principales lois de probabilit). Il est infrieur pour une distribution
moins large que la loi de Gauss et suprieur pour une distribution plus large.
Remarque : Ces indicateurs ne sont utilisables, i.e. n'ont de sens, que dans le cas d'une
distribution unimodale (un seul maximum).
Variance, covariance et cart-type
La variance est dfinie par
Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un
carr, la dimension de la variance n'est pas celle de la moyenne. C'est pourquoi on utilise plus
souvent l'cart type, not , qui est la racine de la variance.
On dit aussi que la variance traduit la notion d'incertitude. Plus la variance est faible, moins le
rsultat de l'exprience alatoire est incertain. A la limite, une v.a. de variance nulle conduit
des expriences strictement identiques (i.e. le phnomne est compltement dterministe, il
n'y a donc plus aucune raison de garder la notion de variable alatoire).
La variance a galement des proprits intressantes vis vis de la combinaison linaire de
v.a. :
-
7/30/2019 Probabilits et Statistique.pdf
31/129
Soient et deux v.a.
o est la covariance des v.a. et dfinie par :
La covariance peut tre vue comme le moment centr conjoint d'ordre 1 de deux v.a. Si les
deux v.a. sont indpendantes, alors leur covariance est nulle (mais la rciproque n'est pas
vraie en gnral).
Par ailleurs, soit une v.a. et et deux constantes. On a
Variable centre rduite
On appelle variable alatoire centre rduite, une v.a. construite par : .
C'est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient
et
Coefficient de corrlation
La relation entre deux v.a. peut tre quantifie par la covariance comme vue prcdemment.
Cependant, l'image de la moyenne et de la variance, la covariance est un moment donc
possde une dimension ce qui la rend plus difficile interprter. C'est pourquoi on utilise plus
gnralement le coefficient de corrlation, indicateur sans dimension, dfini par
-
7/30/2019 Probabilits et Statistique.pdf
32/129
Le coefficient de corrlation mesure la qualit de la relation linaire entre deux variables
alatoires et (i.e. de la forme ). On a les proprits suivantes :
.
Si et sont indpendantes, alors (la rciproque n'est pas vraie en
gnral).
Si il existe une relation linaire entre et alors .
On peut rcrire la relation sur la variance d'une somme de v.a. en utilisant le coefficient de
corrlation :
Et en gnralisant, on obtient
Exemple
Soit X une v.a. continue et uniforme sur (i.e. quiprobabilit de toutes les valeurs).
L'uniformit de X conduit une densit de probabilit constante :
-
7/30/2019 Probabilits et Statistique.pdf
33/129
Le calcul des moments donne :
donc et
La moyenne ( ) de X est donc nulle et la variance ( ) est gale
.
Ingalits de Bienaym - Tchebyshev - Markov
Ingalit de Tchebyshev : o est un rel positif et unefonction positive.
En posant, , on obtient l'ingalit de Markov : .
De mme, si l'on pose et , on obtient l'ingalit de
Bienaym-Tchebyshev : .
Cette ingalit est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est
une proprit trs intressante. Malheureusement, elle n'a que peu d'applications pratiques car
la majoration qu'elle fournit est la plupart du temps excessive.
Quelques lois de probabilits
-
7/30/2019 Probabilits et Statistique.pdf
34/129
Subsections
Les valeurs principales Liaisons entre lois de probabilits
Les valeurs principales
LoiTyp
eProb. ou ddp Moyenne Variance
0-1 Det
Uniforme D
Binomiale D
pour
Gomtrique D pour
Pascal D
Poisson D pour
et
Uniforme Cavec
Gauss C pour
Cauchy C non dfini non dfini
-
7/30/2019 Probabilits et Statistique.pdf
35/129
Gamma C
Exponentiell
e C pour et
Rayleigh C
pour
Laplace C
C
Student C
Weibull C
Type : D loi discrte ; C loi continue.
Liaisons entre lois de probabilits
Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associe une telle loi estconsidre comme la fonction indicatrice d'un vnement de probabilit p. C'est un cas
particulier de la loi Binomiale.
Loi binomiale : On obtient une v.a. de loi binomiale par une somme de v.a. de loi
0-1 ( ). En d'autres termes, la loi binomiale est la loi associe rptitions, dans desconditions identiques et indpendamment, d'une exprience alatoire dont l'issue est
l'apparition ou la non apparition d'un vnement. La somme de deux lois binomiales de mme
paramtre est une loi binomiale.
Loi gomtrique : La loi gomtrique est la loi du nombre d'essais ncessaires pour faire
apparatre un vnement de probabilit .
-
7/30/2019 Probabilits et Statistique.pdf
36/129
Loi de Pascal d'ordre n : C'est la loi du nombre d'essais ncessaires pour observer
exactement fois un vnement de probabilit . Cette loi est la somme de lois
gomtriques indpendantes
Loi de Poisson (magistrat franais du XIXme sicle) : On obtient une v.a. de loi de Poisson
partir d'une v.a. de loi binomiale pour laquelle on a et et
. On peut aussi introduire la loi de Poisson par la notion de processus de
Poisson. Soit un phnomne tel qu'un seul vnement puisse se produire la fois (non
simultant des ralisations) et que le nombre d'vnements se produisant pendant une
priode T ne dpend que de la dure de cette priode. Supposons enfin l'indpendance des
vnements. Soit l'esprance mathmatique d'un nombre N d'vnementspendant la priode de dure T avec la cadence c. c dsigne donc le nombre moyen
d'vnements par unit de temps. On dmontre alors que la probabilit d'obtenir n vnements
pendant un temps T est .
Figure 1: Densit de probabilit de la loi de Poisson de paramtre .
La somme de deux lois de Poisson de paramtres et est une loi de Poisson de paramtre
.
Loi Normale ou loi de Gauss-Laplace : C'est incontestablement la loi la plus connue. On ladoit Moivre qui, en 1738, a trouv cette loi comme limite de la loi binomiale. On utilisera la
notation suivante : . On la retrouve comme modle le
plus courant pour les distributions d'erreurs de mesure autour d'une valeur ``vraie''. Elle joue
aussi un rle important en terme de comportement asymptotique des autres lois deprobabilits, comme le montre le thorme central limite. Une proprit intressante de cette
-
7/30/2019 Probabilits et Statistique.pdf
37/129
loi est sa conservation vis vis de la combinaison linaire : Soient un ensemble de
v.a. normales de paramtres deux deux indpendantes, leur somme pondre par
les coefficients est une v.a. normale de paramtres la somme pondre des paramtres
Figure 2: Densit de probabilit de la loi normale centre rduite.
Loi exponentielle : Si suit une loi de Poisson, et traduit le nombre d'apparitions d'un
certain phnomne alatoire dans un intervalle de temps , alors la variable alatoirereprsente l'intervalle de temps sparant deux apparitions d'un vnement donn. Cette
nouvelle variable suit une loi exponentielle de paramtre o est le paramtre de la loi de
Poisson. En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits
lectroniques. L'esprance est souvent appele le MTBF (Mean Time Between Failure) et
le taux de dfaillance. La loi exponentielle est un cas particulier de la loi Gamma pour
.
-
7/30/2019 Probabilits et Statistique.pdf
38/129
Figure 3: Densit de probabilit de la loi exponentielle de paramtre .
La loi exponentielle est souvent utilise pour son caractre sans mmoire. Soit une variable
alatoire suivant une loi exponentielle. Soient et deux rels strictement positifs, on a
Cela signifie que la probabilit d'tre dans un intervalle dpend uniquement de la
largeur de l'intervalle et pas de sa position absolue (d'o le vocable ``d'effet sans mmoire``).
Loi de Weibull : Cette loi est aussi trs utilise pour caractriser la fiabilit des matriels.
Elle est relie la loi exponentielle par la relation suivante : suit une loi de Weibull de
paramtre si suit une loi exponentielle. On dit que est le paramtre de forme :
correspond un matriel qui se dgrade avec le temps (usure); un matriel qui se
bonifie avec le temps; (cas o la loi est exponentielle) un matriel sans usure (pannespurement accidentelles).
-
7/30/2019 Probabilits et Statistique.pdf
39/129
Figure 4: Densit de probabilit de la loi de Weibull de paramtre .
Loi Gamma : Soit une v.a. normale X de paramtres et soit une v.a. construite par
. suit une loi Gamma de paramtres . La distribution
gamma est une gnralisation de la loi exponentielle. En effet, si la loi exponentielle
corrrespond la distribution de probabilit du temps sparant l'apparition de deux vnements
donns, la loi gamma fournit la distribution de probabilit du temps qui s'coule entre la
Kme et la (K+r)me apparition de l'vnement. La loi gamma est applique comme modle
de probabilit pour prvoir la dure de vie des appareils qui subissent une usure tels les
vhicules automobiles ou les appareils mcaniques.
Loi du : Le paramtre m est le nombre de degrs de libert de cette loi. Cette distribution
permet de dfinir la loi de la v.a. o les sont des v.a. normales centresrduites indpendantes. Pour m tendant vers l'infini, cette loi tend asymptotiquement vers une
loi normale. La somme de deux v.a. du respectivement et degrs de libert, est une
nouvelle v.a. de loi du degrs de libert. On peut aussi relier cette loi la loi
Gamma avec .
Loi de Rayleigh : C'est la loi de la norme, i.e. o et sont des v.a.normales centres. C'est aussi la loi de la drive de la loi normale. La loi de Rayleigh
apparat souvent pour dcrire le bruit en sortie de certains rcepteurs de transmissions.
-
7/30/2019 Probabilits et Statistique.pdf
40/129
Loi de Student : Si : , et si (indpendante de ) est telle que suit une
loi du degrs de libert, alors la variable suit une loi de Student degrs
de libert. Cette loi sert essentiellement pour les tests statistiques d'hypothses.
Quelques relations
En statistique, on est souvent amen construire les variables alatoires suivantes :
Dans le cas, frquent, o l'on admet ou vrifie, que les sont des lois normales de mme
paramtrage , alors
suit une loi normale .
suit une loi du degrs de libert.
suit une loi de Student degrs de libert.
Par ailleurs, on sait que seules les affinits (et en particulier les sommes) conservent les loisnormale, binomiale, uniforme et Gamma ( paramtres entiers).
-
7/30/2019 Probabilits et Statistique.pdf
41/129
Loi des grands nombres
Subsections
Convergence stochastique Thorme central limite
Convergence stochastiqueOn s'intresse la loi d'une suite de v.a. indentiques, et plus particulirement la convergence
l'infini. Pour tudier cette convergence, il existe de nombreux outils dont nous rsumons ici
les principaux.
Convergence en loi. Soit une suite de v.a. de F.R. , et soit une v.a. de FR
. On dit que la suite converge en loi vers la v.a. ssi converge vers .
-
7/30/2019 Probabilits et Statistique.pdf
42/129
Convergence en probabilit. On dit que la suite converge en probabilit vers la v.a.
ssi (donns arbitrairement petits) tel que
Cette dfinition est une gnralisation du thorme de Bernouilli (dans le cas o est uneconstante). En consquence de ce thorme, on sait que dans une srie d'preuves
indpendantes, la frquence relative de l'vnement A converge en probabilit vers P(A)
quand le nombre d'preuves croit indfiniment.
Convergence en moyenne. On dit que la suite converge en moyenne d'ordre p vers la
v.a. ssi pour tendant vers l'infini. La plus utilise de ces
convergences est la convergence en moyenne quadratique ( ).
La convergence moyenne d'ordre 2 implique la convergence en moyenne d'ordre 1 (ou
convergence en moyenne) qui implique la convergence en probabilit qui implique la
convergence en loi. Cette dernire est donc la convergence la plus stricte.
Exemple : Thorme de De Moivre-Laplace : Soit une suite de v.a. binomiales .
converge en loi vers une loi normale centre rduite . On admet
gnralement que cette convergence est bonne si et . Par exemple,
soit une v.a. . Le critre est valid. Soit approximer la valeur de
. La valeur exacte est 0.1319 d'aprs les tables. D'aprs le thorme, on obtient
une valeur approche de par
Cette formule d'approximation avec une loi donne
Soit une erreur de moins de .
-
7/30/2019 Probabilits et Statistique.pdf
43/129
Thorme central limite
Le thorme central limite est l'un des rsultats les plus importants de la thorie des
probabilits. De faon informelle, ce thorme donne une estimation trs prcise de l'erreur
que l'on commet en approchant l'esprance mathmatique par la moyenne arithmtique. Ce
phnomne a d'abord t observ par Gauss qui l'appelait loi des erreurs; mais ce dernier n'ena pas donn de dmonstration rigoureuse. La preuve du thorme a t apporte part Moivre
et Laplace; le thorme porte donc parfois leurs noms.
Ce thorme est fondamental car il justifie toutes les approximations par la loi normale.
Thorme :
Soit une suite de v.a. de mme loi d'esprance et d'cart type . Alors la v.a.
converge en loi vers une v.a. normale centre rduite .
Exemples : La moyenne exprimentale ou arithmtique ( ) converge donc
vers une loi normale de moyenne , la moyenne thorique, et d'cart-type .
Une proportion tend vers une loi normale de moyenne la proportion thorique et d'cart-
type .
Comme cas particulier de ce thorme, on retrouve galement la convergence d'une suite de
loi binomiale vers la loi normale (thorme de Bernoulli). Ce thorme justifie l'utilisation de
la loi normale lorsqu'il y a rptition d'expriences identiques. Par contre, ce thorme reste
strict sur les conditions d'applications. On considre souvent que ce thorme reste valable
mme si les distributions individuelles sont diffrentes, pour autant que la variance de chacun
des termes individuels soit ngligeable vis--vis de la variance de la somme. C'est en fait un
thorme plus gnral du Lindeberg.
Thorme :
Soient des v.a. indpendantes, pas forcment de mme loi, centres et de
variance . Soient , et la fonction de rpartition de
la v.a. . Si la condition suivante est ralise
-
7/30/2019 Probabilits et Statistique.pdf
44/129
alors
La condition de Lindeberg exprime que les v.a. sont ``uniformment petites'' avec une
grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par
obtenir une loi normale. Autrement dit, si une variable est la rsultante d'un grand nombre de
causes, petites, effet additif, cette variable suit une loi normale. C'est cause de cette
interprtation que la loi normale est trs souvent employe comme modle (malheureusement
pas toujours raison).
Enfin, notons que ces thormes supposent l'existence des moments des v.a. On ne peut donc
pas les utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la
somme produit une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre
d'lments dans la somme).
Simulation d'une variable alatoire
Trs souvent en simulation, on est amen utiliser des chantillons fictifs de ralisations
d'une v.a. de loi dtermine. Nous abordons ici un ensemble de mthodes de construction de
tels chantillons
Subsections
Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :
-
7/30/2019 Probabilits et Statistique.pdf
45/129
Mthode gnrale par transformation inverse
Soit construire un chantillon de ralisations d'une v.a. de fonction de rpartition .
Soit la v.a. dfinie par . Cette v.a. suit une densit de probabilit
uniformment distribue sur l'intervalle . Sa fonction de rpartition G est telle que
.
Soient un chantillon de taille n d'une v.a. uniformment distribue sur . Les
peuvent tre considrs comme des ralisations de la v.a. . Pour calculer les ralisations
de , il suffira alors de calculer la valeur de qui correspond une valeur de sa fonction
de rpartition :
Loi uniforme
La construction d'un chantillon fictif d'une v.a. de loi quelconque ncessite en premier lieu la
construction d'un chantillon fictif d'une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on
ne pourra donc pas se servir de la mthode gnrale. On utilisera alors soit des tables de
nombres au hasard, soit des algorithmes de gnration de nombres pseudo-alatoires (fonction
random classique sur les machines par exemple).
Loi exponentielle
pour et . On a le rsultat suivant
. La mthode gnrale par transformation inverse nous
donne . Si on remplace par (ce qui est possible sans consquence car la
distribution uniforme est symtrique), alors on obtient . On a donc
.
-
7/30/2019 Probabilits et Statistique.pdf
46/129
Loi binomiale
. et doivent tre connus. On pose alors et on gnre
nombres alatoires uniformment distribus et pour chaque , on fait le test
si alors faire
si alors faire
sera la valeur de la ralisation d'une v.a. binomiale de paramtres et . Cet algorithme
utilise la proprit qui relie la loi binomiale la loi 0-1 ( ).
Loi de Poisson
. On utilise le fait que les intervalles de temps sparant deux vnements
successifs suivant une loi de Poisson sont distribus exponentiellement. On gnre donc les
intervalles distribus suivant une loi exponentielle de moyenne 1. La ralisation de
la variable alatoire de Poisson de paramtre sera alors dtermine par l'ingalit
avec ( : v.a. uniforme [0,1] et v.a. exponentielle de moyenne 1).
Loi normale :
On utilise le thorme central limite. La distribution de la moyenne d'une v.a. tend vers
une loi normale lorsque la taille de l'chantillon est suffisamment grande, et ceci quelle que
soit la distribution de la v.a. . On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc
-
7/30/2019 Probabilits et Statistique.pdf
47/129
et . La v.a. dfinie par tend vers une loi normale
centre rduite.
Pour obtenir une chantillon de v.a. normale de moyenne et de variance , on utilisera la
relation
En pratique, on utilise .
Autres indicateursIl existe d'autres indicateurs permettant de caractriser une v.a. Ils ne sont pas issus du calcul
des moments.
Subsections
Histogramme Mdiane Mode Autres moyennes
Histogramme
L'histogramme est analogue la courbe de densit. L'ordonne associe chaque abscisse est
gal la frquence d'apparition de la valeur dans l'chantillon. Dans le cas d'une v.a. discrte,
la construction de l'histogramme ne pose pas de problme. Par contre, pour une v.a. continue,il est ncessaire de rsumer les valeurs reporter sur la courbe en classes.
La dtermination du nombre de classes d'un histogramme est dlicate et il n'existe aps de
rgle absolue. Un trop faible nombre de classes fait perdre de l'information et aboutit
gommer les diffrences pouvant exister entre des groupes de l'ensemble tudi. En revanche,
un trop grand nombre de classes aboutit des graphiques incohrents o certaines classes
deviennent vides ou presque car , la taille de l'chantillon, est fini.
Sturges propose comme limite maximale du nombre de classes
-
7/30/2019 Probabilits et Statistique.pdf
48/129
o dsigne la partie entire. Ainsi pour mesures, il ne faudrait pas construired'histogrammes de plus de classes.
Mdiane
Par dfinition, la mdiane est la valeur correspondant au milieu de la fonction de rpartition
d'une v.a.
Si la loi de la v.a. est symtrique, alors la mdiane est gale l'esprance mathmatique. lamdiane n'est pas unique. C'est une indicateur insensible aux valeurs extrmes ce qui en fait
un outil trs intressant dans le domaine des statistiques robustes.
Si l'on part d'un chantillon de ralisations tries par ordre croissant, la mdiane sera
obtenue par si est impair. Si est pair, on prend conventionnellement
Exemple : La mdiane de la srie est (la valeur est la 4me dans la
srie trie ( ) alors que la moyenne est .
Lorsque l'on ne connait qu'une rpartition en classes, on cherche la classe mdiane
telle que et . On dtermine alors par une interpolationlinaire de la forme
Mode
Par dfinition, le mode d'une v.a. est sa valeur la plus probable
-
7/30/2019 Probabilits et Statistique.pdf
49/129
Le mode n'est pas unique. Il n'est strictement dfini que pour une v.a. discrte car pour toute
v.a. continue, on a . Cependant, nous verrons dans le chapitre surl'estimation qu'il est possible de trouver une valeur que l'on assimile au mode pour les v.a.
continues.
Autres moyennes
Dans la pratique, il peut arriver que la nature des ralisations d'un chantillon ne soit pas
adapte l'utilisation de la moyenne classique. Il existe d'autres possibilits
La moyenne gomtrique :
La moyenne harmonique :
Il est trs dur de connatre les lois de comportements de ces indicateurs particuliers. Il doivent
donc tre utiliss avec prcaution.
Estimation
On considre gnralement deux types d'estimation: l'estimation ponctuelle (on cherche
estimer une valeur) et l'estimation par intervalle de confiance o l'on estime la probabilit que
la valeur vraie d'un paramtre appartienne un intervalle donn.
Subsections
Estimation ponctuelleo Introductiono Estimateur convergento Estimateur sans biaiso Estimateur efficaceo
Robustesse
-
7/30/2019 Probabilits et Statistique.pdf
50/129
Mthode du maximum de vraisemblance Estimation par intervalle de confiance
o Estimation d'une proportiono Estimation d'une moyenneo Estimation d'une variance
Estimation robusteo Interprtation de donnes: l'approche baysienneo Le traitement de l'a priorio Le traitement de l'a posteriorio Le cas monodimensionnelo Le cas gnralo Estimation itrative
Rgression linaireo Formalisationo Rsolution dans le cas d'une distribution normale des cartso Le cas de la droiteo Intervalle de confiance sur le coefficient de corrlation
Filtre de Kalman Estimation d'un mode Estimation d'une densit
Estimation ponctuelle
Subsections
Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse
Introduction
A partir de donnes d'chantillons reprsentatifs, on va induire des rsultats sur la population-
mre (i.e. population dans laquelle les chantillons ont t prlevs).
-
7/30/2019 Probabilits et Statistique.pdf
51/129
Plus exactement, soit un paramtre inconnu2intervenant dans la loi de probabilit d'une
variable alatoire . La loi de probabilit de cette variable alatoire doit tre connue
analytiquement (on choisit parmi les modles existants la loi la plus approprie au phnomne
observ). Seule la valeur numrique du paramtre intervenant dans cette loi de probabilit
est inconnue.
Soient les valeurs prises par la v.a. dans un chantillon de tailleprlev dans la population-mre.
On appelle estimateur de , et l'on note , la fonction qui aux valeurs de l'chantillon
fait correspondre la valeur du paramtre . On note la valeur numrique de cette estimation
par
Par dfinition, est une fonction des ralisations d'une v.a., est donc une v.a. dont on
peut chercher dterminer les caractristiques (loi, ddp, FR, moments, ...).
Exemple: On observe un phnomne de production de pices manufactures. Chaque pice
est associe une mesure (un indicateur de qualit par exemple). Comme on ne peut pas
vrifier chaque mesure, on procde un chantillonnage qui nous fournit donc un chantillon.
Supposons que la connaissance de la nature de cet indicateur nous permet de faire l'hypothsequ'il obit une loi de probabilit normale. Le problme est maintenant, au vue de
l'chantillon , de proposer une valeur pour la moyenne de cette loi normale. Il faut
procder une estimation du paramtre vrai qui se traduit par la valeur . Il y a une
infinit de manire possible parmi lesquelles on peut citer
mdiane
mode
Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?
-
7/30/2019 Probabilits et Statistique.pdf
52/129
Sur ce simple exemple, est rsum le problme fondamental de l'estimation: quelle est la
dfinition mathmatique de meilleur?
La rponse est simple, il n'en existe pas. Alors comment comparer les estimateurs. Pour cela,
on se sert de plusieurs critres, le plus souvent lis au bon sens:
le biais: On souhaite que l'estimation ne soit pas systmatiquement dcale par rapport lavaleur vraie.
la prcision: Si l'on rpte l'estimation sur un autre chantillon, on souhaite obtenir une
estimation cohrente, donc peu de variation d'un chantillon l'autre. On parlera aussi
d'efficacit.
la convergence: Si l'on peut estimer la valeur du paramtre sur toute la population-mre, lavaleur de l'estimation obtenue doit tre la valeur vraie du paramtre.
la complxit: Toute estimation ncessite un calcul donc un temps. On s'attachera donc valuer la complexit du calcul en fonction de la taille des donnes (i.e. ).
la robustesse: Dans tout cas concrt, il existe des sources de perturbations. On souhaite que
l'estimation ne soit pas sensible la prsence de valeurs abrantes (outliers en anglais).
Ces diffrents critres ne sont pas forcment compatibles entre eux, et l'on retrouve des
dilemmes classiques, prcision vs robustesse, convergence vs complexit.
Estimateur convergent
Un estimateur est convergent si la valeur estime tend en probabilit vers la valeur vraie
du paramtre, soit:
(arbitrairement petits)
Si l'estimation est exhaustive (l'chantillon est gal la population-mre), alors la valeur vraie
du paramtre est connue.
Estimateur sans biais
Un estimateur est dit sans biais lorsque son esprance mathmatique est gale la valeurvraie du paramtre.
-
7/30/2019 Probabilits et Statistique.pdf
53/129
Un estimateur est dit asymptotiquement sans biais si le biais diminue si la taille del'chantillon augmente:
Exemples:
X : : est un estimateur convergent sans biais de la moyenne vraie
de cette v.a.
X : : est un estimateur convergent sans biais de la variance
vraie de cette v.a.
X : ( est suppose inconnue): est un estimateur
convergent avec biais de la variance vraie de cette v.a. Cet estimateur est considr sans biais
asymptotiquement.
X : ( est suppose inconnue): est un estimateurconvergent sans biais de la variance vraie de cette v.a.
La diffrence entre ces deux derniers exemples se limite au dnominateur de la formule de
calcul de . Le deuxime estimateur est sans biais car il prend en compte par le termele fait qu'il faut utiliser une estimation pralable de la moyenne pour pouvoir faire l'estimation
de la variance, i.e. il n'y a donc plus donnes disponibles (ou degrs de liberts) mais
. Cette apprciation intuitive peut bien sr tre dmontre.
Soit un estimateur de la variance. On pose comme hypothse que
l'chantillon est constitu de ralisations de V.A. indpendantes 2 2 et de mme
nature que la V.A. X inconnue et dont on veut estimer la variance. Pour estimer le biais de
, on calcule l'esprance mathmatique de l'estimateur
-
7/30/2019 Probabilits et Statistique.pdf
54/129
o est la V.A. associe la ralisation .
Soit .
En posant , on obtient une V.A. centre et de mme variance que .
On simplifie l'quation prcdente en tenant compte de la linarit de l'oprateur esprance
mathmatique.
-
7/30/2019 Probabilits et Statistique.pdf
55/129
Pour aller plus loin, on tient compte de quelques proprits :
car les V.A. sont indpendantes 2 2. car est centre. d'aprs la proprit nonce sur et par
proprit de la variance.
On constate bien un biais qui se traduit par le facteur . Pour le compenser, on multiplie
l'estimateur par et on obtient un nouvel estimateur sans biais (car )
En dveloppant cette formule, on obtient une forme plus efficace
-
7/30/2019 Probabilits et Statistique.pdf
56/129
Estimateur efficace
La variance d'un estimateur reprsente sa prcision. Pour tous les estimateurs (ayant mme
moyenne), il est possible de trouver celui dont la prcision sera la meilleure, i.e. dont la
variance sera la plus faible. On parle alors d'estimateur variance minimum.
Lorsque l'on compare deux estimateurs, on dira galement que est plus efficace que si
.
Une estimation est lie un chantillon de taille finie. Si la population-mre est de taille
infinie, il n'est pas possible d'avoir accs la valeur vraie . La prcision que l'on pourra
obtenir sur ne pourra donc pas descendre en dea d'une certaine limite (borne infrieure de
la variance de l'estimateur ouMinimum Variance Bound (MVB)) qui est dtermine par
l'ingalit de Cramer-Rao:
o , appele quantit d'information de l'chantillon, est dfinie par:
est appele fonction de vraisemblance et se calcule par:
dsignant la ddp de la v.a. et
-
7/30/2019 Probabilits et Statistique.pdf
57/129
Si un estimateur atteint la limite infrieure, on parle alors de MVB estimateur. On dmontre
aussi que cet estimateur est obligatoirement convergent et sans biais.
Remarque: La notion d'information a t propose dans les annes 20 par le chercheuranglais Ronald A. Fisher (considr comme le pre de la statistique mathmatique). La
dmarche de Fisher est la suivante: si l'on s'intresse aux caractristiques d'une population
nombreuse (voire infinie, c'est le cas limite auquel on est en permanence ramen), on ne peut
ni connatre ni traiter les informations trop abondantes relatives chacun des individus qui la
composent. Le problme devient donc d'tre capable de dcrire correctement la population au
moyen d'indicateurs de synthse pouvant tre fournis par des chantillons issus de la
population tudier. Plus les donnes chiffres que l'on peut extraire d'un chantillon
reprsentent correctement la population de rfrence et plus l'information contenue dans cet
chantillon doit tre considre comme leve.
Partant de cette hypothse, Fisher a dfinie techniquement l'information comme la valeur
moyenne du carr de la drive du logarithme de la loi de probabilit tudie. La clbre
ingalit de Cramer permet alors de montrer que la valeur d'une telle information est
proportionnelle la faible variabilit - c'est dire au fort degr de certitude - des conclusions
qu'elle permet de tirer. Cette ide, qui est la racine de toute la thorie de l'estimation et de
l'infrence statistique, est exactement celle que l'on retrouvera vingt ans plus tard chez
Shannon, exprime cette fois en des termes non plus statistiques mais probabilistes.
Robustesse
Le terme ``robuste'' a t pour la premire fois introduit en statistique par G.E.P. Box en 1953.Un estimateur est dit robuste si il est insensible des petits carts sur les hypothses pour
lesquelles il a t optimis. Il y a deux sens au terme ``petit'': de petites variations sur toutes
les donnes, ou des carts importants sur un petit nombre de donnes. C'est le deuxime
aspect qui est le plus mal pris en compte par les estimateurs classiques.
Ainsi, la robustesse traduit le plus souvent la rsistance de l'estimation aux donnes abrentes.
On la dfinit mathmatiquement par le plus petit nombre de donnes extrmes qui modifie la
valeur de l'estimation ramen la taille de l'chantillon.
Considrons un chantillon constitu de valeurs identiques , auquel on ajoutera une
perturbation sous la forme de valeurs extrmes . Pour estimer l'esprancemathmatique, on peut utiliser la moyenne arithmtique qui donne bien sr sur l'chantillon.
Cependant, cette estimation est modifie ds l'introduction d'une nouvelle valeur, , sa
robustesse est donc de . Par contre, la mdiane de cet chantillon n'est pas modifie si l'on
ajoute une valeur extrme. En fait, la mdiane ne sera modifie que si le nombre de valeurs
extrmes est suprieur au nombre de valeurs initiales. On en dduit que la robustesse de
l'estimateur mdiane est gale dont la valeur asymptotique est .
-
7/30/2019 Probabilits et Statistique.pdf
58/129
Mthode du maximum de vraisemblanceLe critre d'efficacit permet de comparer des estimateurs. On peut aussi s'en servir pour
construire un estimateur. Soit une variable alatoire de densit de probabilit
connue analytiquement mais dont l'un des paramtres est inconnu (numriquement). Le
problme consiste donc construire une expression analytique fonction des ralisations de
cette variable dans un chantillon de taille , permettant de trouver la valeur numrique la
plus vraisemblable pour le paramtre .
Si sont des ralisations indpendantes de la v.a., on peut dire que
est une ralisation d'un vecteur alatoire dont les
composantes sont indpendantes deux deux.
L'approche retenue consiste chercher la valeur de qui rend le plus probable les ralisations
que l'on vient d'obtenir. La probabilit d'apparition a priori de l'chantillon en question peut
alors tre caractrise par le produit des probabilits d'apparition de chacune des ralisations
(puisque celles-ci sont supposes indpendantes deux deux).
La mthode du maximum de vraisemblance consiste rechercher la valeur de qui rend cette
probabilit maximale. Comme nous l'avons vu plus haut, le produit des valeurs est
aussi not et appel fonction de vraisemblance. La valeur qui rend
maximum la fonction de vraisemblance est donc la solution de:
L'emploi du logarithme sur la fonction permet de passer de la maximisation d'un produit
celle d'une somme, le rsultat restant le mme car la fonction logarithme est monotone
strictement croissante.
Proprits de la fonction de vraisemblance:
-
7/30/2019 Probabilits et Statistique.pdf
59/129
Thorme: Si il existe un estimateur efficace sans biais, il sera donn par la mthode du
maximum de vraisemblance.
Thorme: L'estimateur efficace existe si o ne
dpend pas des observations . On peut alors montrer que
Cette approche est trs thorique mais possde l'avantage d'tre parfaitement formalise.
Exemple 1: Soit une loi normale avec connu mais inconnue. L'objectif est
de construire un estimateur de la valeur , tant donn un chantillon de ralisation
. Pour cela, on part de la fonction de vraisemblance de cet chantillon:
-
7/30/2019 Probabilits et Statistique.pdf
60/129
La moyenne arithmtique est l'estimateur le plus efficace de l'esprance mathmatique dans le
cas de la loi normale. Quel est le biais de cet estimateur ?
o est une v.a. .
de part la proprit de linarit de l'oprateur esprance mathmatique. L'estimateur est doncsans biais.
-
7/30/2019 Probabilits et Statistique.pdf
61/129
Estimation par intervalle de confianceCette nouvelle approche est souvent prfre dans la pratique car elle introduit la notion
d'incertitude. On cherche dterminer l'intervalle centr sur la valeur numrique
estime du paramter inconnu contenant la valeur vraie avec un probabilit fixe a priori.
Cette probabilit permet de s'adapter aux exigences de l'application.
L'intervalle est appel intervalle de confiance et est le coefficient de confiance. Uneestimation par intervalle de confiance sera d'autant meilleure que l'intervalle sera petit pour un
coefficient de confiance grand.
La donne de dpart, outre l'chantillon, sera la connaissance de la loi de probabilit du
paramtre estimer. Comme il n'existe pas de rsolution gnrale de ce problme, nous allons
aborder successivement les cas les plus frquents (estimation d'une proportion, d'une
moyenne, d'une variance de loi normale).
Subsections
Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance
Estimation d'une proportion
Soit une population dont les individus possdent un caractre avec une probabilit (loi
0/1). On cherche dterminer cette probabilit inconnue en prlevant un chantillon de taille
dans cette population. On constate que parmi les individus possdent le caractre .
-
7/30/2019 Probabilits et Statistique.pdf
62/129
Que peut-on en dduire, i.e. la proportion approxime la valeur vraie , mais avec
quelle confiance.
Soit ; est une v.a. construite par la somme de variables alatoires 0/1 et de
mme paramtre, . C'est donc, d'aprs le thorme central limite, une variable alatoire dont
la loi de probabilit tend vers une loi normale de moyenne et d'cart-type . Cette
approximation est valable uniquement si la taille de l'chantillon est suffisamment grande (i.e.
en pratique).
Construisons l'intervalle de confiance autour de sous la forme:
o est le risque (a priori, on construit un intervalle symtrique). est une ralisation d'une
v.a. . donc on peut par normalisation et centrage obtenir une nouvelle v.a.
On en dduit donc l'intervalle de confiance sous la forme:
La valeur est donc un rsultat de calcul. La valeur de sera lue sur une table
de loi normale . Il existe par ailleurs diffrentes manires pour approximer la valeur
de :
-
7/30/2019 Probabilits et Statistique.pdf
63/129
soit par la proportion :
soit par majoration: en effet, quelle que soit la valeur de , le produit est major
par .
Exemple: Soit un chantillon de taille et une proportion estime . Quelleest la confiance dans cette valeur ou bien quel intervalle donne une confiance de (risque
de ?
Par lecture dans la table de la loi normale, on obtient .
L'intervalle de confiance autour de la proportion estime est donc .
Estimation d'une moyenneDeux cas sont envisager:
-
7/30/2019 Probabilits et Statistique.pdf
64/129
La variable alatoire mesure est normale et le nombre de ralisations est quelconque.
La variable alatoire mesure n'est pas normale et le nombre de ralisations est suprieur
30 (dans ce cas, la distribution de la moyenne tend vers une loi normale d'aprs le thorme
central limite).
Soit donc une v.a. suivant une loi normale de moyenne inconnue et d'cart-type . On
dispose d'un chantillon de ralisations de cette v.a. Comme prcdemment, l'intervalle
de confiance sur la moyenne est:
o est la moyenne arithmtique calcule partir de l'chantillon. Pour aller plus loin, nous
devons considrer deux cas
1- La variance est connue.
La valeur joue le rle d'une constante dans la formule de l'intervalle de confiance et la
nouvelle v.a. suit toujours une loi normale. La valeur de est donc lue dans
une table de la loi normale.
2- La variance est inconnue.
Dans ce cas, joue le rle d'une v.a. Soit l'estimation de que l'on obtient par:
Comme suit une loi normale, on sait que la quantit suit une loi du degrs
de libert. La nouvelle variable alatoire suit donc une loi de Student
degrs de libert. L'intervalle de confiance est alors:
-
7/30/2019 Probabilits et Statistique.pdf
65/129
o est lue dans une table de Student pour degrs de libert.
A posteriori, on peut tre intress par la taille minimale de l'chantillon tel que l'intervalle de
confiance, pour un coefficient de confiance donn, soit tel que ses bornes infrieures et
suprieures ne s'cartent pas de plus de de la valeur moyenne. On impose donc
, ce qui conduit
On approche par et par si l'cart-type est inconnu.
Estimation d'une variance
Nous n'aborderons que le cas de l'estimation de la variance d'une v.a. normale de
moyenne partir d'un chantillon de valeurs.
Si est connue (trs rare), alors l'intervalle de confiance (risque) est dfinit par
avec et o et sont les quantiles d'ordre et de
la loi du degrs de libert.
-
7/30/2019 Probabilits et Statistique.pdf
66/129
Si est inconnue. La quantit dfinie dans le paragraphe prcdent suit une loi du
degrs de libert. L'intervalle de confiance (risque) est dfinit par
o et sont les quantiles d'ordre et de la loi du
degrs de libert.
On obtient le rsultat suivant :
(attention, reprsente ici la confiance) avec lu sur une table du pour degrs de
libert, d'o l'on tire :
avec .
Estimation robuste
Nous allons dans ce paragraphe reprendre le problme de l'estimation au tout dbut afin de
montrer qu'il est possible de driver des estimateurs trs diffrents de ceux que nous avons
abords jusque l. Ces estimateurs relvent du domaine que l'on nomme les statistiquesrobustes et dont Legendre (le crateur de la mthode des moindres carrs) a t le prcurseur
puisque parlant des carts entre les donnes et l'interprtation, il dclarait (en 1805 dans sapremire publication sur les moindres carrs):
-
7/30/2019 Probabilits et Statistique.pdf
67/129
Si parmi ces erreurs, certaines apparaissent trop importantes pour tre admises, alors les
observations qui ont gnres ces erreurs seront rejetes, comme provenant d'expriences
trop peu fiables, et les inconnues seront dtermines grce aux autres observations, qui de ce
fait induiront moins d'erreurs.
Subsections
Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative
Interprtation de donnes: l'approche baysienne
Soient un ensemble de donnes, i.e. un chantillon, et un contexte ( englobera tout cequi n'est pas directement en relation avec le processus sous-jacent aux donnes). Le problme
de l'estimation est un cas particulier d'un problme plus gnral qui est celui de l'interprtation
des donnes. Soit cette interprtation. Notre problme est donc de dterminer connaissant
et . Une approche possible est de choisir l'interprtation la plus probable. C'est dire
chercher qui maximise la probabilit conditionnelle . Cette probabilit n'est pas
directement valuable mais on peut se servir du thorme de Bayes.
d'o l'on dduit
La maximisation de cette expression se faisant sur l'interprtation , on peut supprimer le
dnominateur et ne pas tenir compte de la probabilit du contexte . Si de plus on
-
7/30/2019 Probabilits et Statistique.pdf
68/129
suppose que le contexte est indpendant des donnes, on trouve l'interprtation la plus
probable en maximisant le produit .
Dans cette expression, est la validation a posteriori des donnes par l'interprtation.
est l'a priori, indpendant des donnes. Ce deuxime terme traduit le biais qui fait que
l'on ne part jamais avec tous les modles quiprobables (soit parce que l'on tient compte de
l'application sous-jacente, soit par habitude ou connaissance).
Le traitement de l'a priori
Malheureusement, on ne sait pas traduire l'a priori et donc sa probabilit, c'est pourquoi, on
suppose toujours qu'il est soit ngligeable soit qu'il contraint suffisamment l'application pour
que toutes les interprtations possibles soient de la mme catgorie.
Prenons le cas de l'interprtation de donnes bruites. Dans ce cas, on suppose que les
donnes sont des prlvements d'un phnomne perturb par un bruit additif , ce qui
nous donne . Dans ce cas, la probabilit traduisant l'a priori s'crit . Si
le bruit n'est pas corrl avec le phnomne , on obtient en fait un produit de deux
probabilits . La maximisation de ce produit ne conduit pas une solution
unique car les complexits de et s'quilibrent. En effet, pour un jeu de donnes fix, plusle modle sera d'ordre faible plus il faudra supposer un modle de bruit complexe. A l'inverse,
pour donnes, on peut toujours envisager une forme polynomiale de degr qui prdit
exactement tous les points, et dans ce cas, le bruit est nul, donc de complexit trs faible.
Mais avons-nous l'habitude de manipuler des modles d'ordre trs lev ?
Le traitement de l'a posteriori
L'a posteriori traduit l'cart entre les donnes et la prdiction faite par l'interprtation /
modle. Afin de formaliser cet cart, il est ncessaire de faire des hypothses sur la
distribution des donnes et plus particulirement sur la distribution des carts entre les
donnes et le modle. Les hypothses minimales sont gnralement au nombre de trois. Soient
une donne de l'chantillon et la prdiction du modle.
-
7/30/2019 Probabilits et Statistique.pdf
69/129
Symtrie:
Dcroissance avec le module: dcroit quand croit.
Indpendance des erreurs:
Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi
normale de moyenne nulle (pas de biais) et d'cart-type . On peut donc construire la
fonction de vraisemblance par
o .
On peut alors en dduire un estimateur par la recherche du maximum de vraisemblance, ce
qui conduit la mthode des moindres carrs qui est aborde dans la suite de ce chapitre.
Depuis l'origine des statistiques, les statisticiens ont toujours ador le fait que la distribution
de la somme d'un trs grand nombre de petites variations alatoires converge toujours vers
une distribution normale (cf Thorme central limite).
Le principal problme de ce choix est que la probabilit d'un cart gal fois est de
l'ordre de ce qui est beaucoup trop faible pour traduire la frquence d'apparition
d'un cart trs fort du une donne abrente. De plus, dans le cas de la loi normale, des
carts doivent se trouver au plus fois l'cart type.
On peut donc tre amen choisir des distributions dont la dcroissance est moins rapide. Par
exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.
Le cas monodimensionnel
Prenons le cas de l'estimation d'un paramtre reprsentant un chantillon. Soit ce paramtre.
Si l'on fait l'hypothse d'une distribution normale des carts, on aboutit l'estimateur
moyenne. Par contre, si l'on suppose que la distribution est exponentielle ( ),
on aboutit un autre estimateur (toujours par la mthode du maximum de vraisemblance) tout
aussi simple, la mdiane.
Ces deux estimateurs peuvent tre compars grce aux indicateurs que nous avons voqus au
dbut de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexit de la
-
7/30/2019 Probabilits et Statistique.pdf
70/129
moyenne est de alors que celle de la mdiane est de car il faut faire un tri
des donnes, la moyenne est donc plus rapide calculer. Par contre, la robustesse de la
moyenne est asymptotiquement nulle alors que celle de la mdiane est asymptotiquement de
0.5 ce qui traduit une bien meilleure rsistance au bruit, i.e. aux donnes abrentes.
Le cas gnral
Reprenons le cas gnral. On veut maximiser la probabilit o est
l'cart sur la me donne et la distribution des carts.
La maximisation de cette probabilit peut se rcrire sous la forme d'une minimisation d'une
fonction de cot o est le vecteur des paramtres du modle / interprtation .
avec et o traduit l'incertitude sur la me donne et permet de relativiser
la valeur de chaque cart.
Soit . La minimisation de conduit rsoudre le systme de (nombre de
paramtres) quations:
Ce systme n'a bien sur pas de solution gnrale et il convient de l'tudier en fonction du
choix de , ce qui donne une classe d'estimateurs connus sous le nom de M-estimateurs.
Modle de Legendre:
-
7/30/2019 Probabilits et Statistique.pdf
71/129
C'est le cas le plus connu car il correspond l'hypothse de normalit de la distribution des
carts. On pose et
L-estimateur:
Egalement trs utilis, cet estimateur utilise et donc ce qui
conduit l'estimateur mdian.
Modle de Cauchy / Lorentz:
Comme nous l'avons vu prcdemment, ce modle permet de par la plus lente dcroissance de
la loi de Cauchy, de mieux rendre compte des apparitions de donnes abrentes.
et . La systme rsoudre est alors non linaire et il
faut avoir recours des rsolutions itratives.
Modle de Huber:
Dans ce modle, on utilise un seuil qui permet d'avoir la fois une dcroissance rapide (i.e.
quadratique) si l'cart est faible et de rduire la dcroissance (donc augmenter l'importance)
des carts forts (au del du seuil). Il ralise un bon compromis entre le modle de Legendre et
celui du L-estimateur.
Modle de Tuckey:
Le modle de Tuckey est du mme type que celui de Hubert mais un peu plus complexe car il
permet de s'affranchir de la sensibilit au choix du seuil .
-
7/30/2019 Probabilits et Statistique.pdf
72/129
La valeur est appele point de rejet (rejection point) et joue le rle du seuil de Hubert. Lavaleur est la constante de confiance est vaut (cette valeur a t dtermine pour
obtenir une bonne adquation des carts distribus normalement). La valeur est un facteur
de dimension qui permet d'adapter le seuil l'talement de la distribution des carts. On peut
assimiler un cart-type et utiliser l'estimateur correspondant mais Tuckey propose un
estimateur plus robuste, la mdiane des carts absolus (Median of Absolute Deviation) quivaut
On peut aussi dterminer le point de rejet en pourcentage du volume de donnes. Par exemple,
on ellimine les % plus grandes et plus petites valeurs des carts. Une valeur gnralement
recommande est . La mdiane est le cas extrme de cet estimateur tronqu avec
.
R-estimateur (Jaeckel, 1972):
Le R-estimateur est un cas particulier car il ne s'appuie plus sur des relations linaires mais
tient compte essentiellement du classement des carts. La fonction de cout est la suivante:
o est le rang de l'cart dans la liste trie des carts. La fonction est normalise
telle que . Par exemple, Wilcoxon a propos la fonction suivante
.
Les tests de Kolmogorov-Smirnov et de Spearman sont d'autres exemples de R-estimateurs.
Le modle L.M.S. (Least Median of Squares, Rousseeuw, 1984):
-
7/30/2019 Probabilits et Statistique.pdf
73/129
Le vecteur de paramtres est la solution de . Si la robustesse de cet
estimateur, , est asymptotiquement gale , sa complexit est relativement leve
.
Estimation itrative
Tous les estimateurs que nous avons abords sont des mthodes directes, et, le plus souvent, ilfaut faire un compromis entre efficacit et faible complexit d'une part, et robustesse d'autre
part.
Pour cela on peut procder en plusieurs tapes pour essayer de combiner tous les avantages.
Dans un premier temps, un estimateur classique non robuste permet de quantifier l'adquation
de chaque donne au modle, i.e. par l'cart. Chaque donne est alors affecte d'un poids, le
plus souvent inversement proportionnel l'cart. On peut alors itrer le processus
d'estimation. L'hypothse sousjacente est qu'une donne abrente aura un cart initial fort et
donc une adquation et un poids faibles. Il n'interviendra donc que trs peu dans la deuxime
phase d'estimation. Le processus peut tre itr jusqu' convergence de l'estimation.
Prenons pour exemple l'estimation de l'esprance mathmatique par la moyenne arithmtique
partir d'un chantillon . On peut rsumer le processus par l'algorithme
suivant:
1. Premire estimation ( ):
2. Calcul des carts:
3. Calcul des poids: (cf le chapitre prcdent pour diverses possibilits pour ).
4. Nouvelle estimation (itration ):
5. test de convergence: Si non convergence (par exemple et )
alors retour au pas .
-
7/30/2019 Probabilits et Statistique.pdf
74/129
Dans cet exemple, on augmente la robustesse au bruit avec comme cot une complexit un
peu plus forte ( au lieu de ). En pratique, on utilise peu d'itrations car le
processus a tendance rejeter de nouveaux points (i.e. ) chaque itration. Le risque
est donc non ngligeable de voi le processus converger vers une estimation reposant sur trspeu de donnes (une seule ralisation la limite). On peut, pour viter cet cueil, arrter le
processus lorsque de la population initiale a un poids nul ou quasi-nul. Puisque l'objectif
de l'itration est de recherche la robustesse, on fixe le plus souvent .
Rgression linaire
La rgression linaire est un cas particulier d'estimation trs usit car trs bien formalis et
correspondant des modles simples (car linaires). C'est l'outil de base de la modlisation de
donnes. Une approche trs gnrale de ce problme est fournit dans le cours d'approche
conceptuelle des systmes. Nous ne traiterons ici que de la facette statistique de ce problme
mathmatique.
Subsections
Formalisation Rsolution dans le cas d'une distribution normale des carts Le cas de la droite Intervalle de confiance sur le coefficient de corrlation
Formalisation
Soit une fonction de telle que .
On souhaite modliser par une approximation linaire caractrise par un vecteur de
paramtres ( ) telle que .
-
7/30/2019 Probabilits et Statistique.pdf
75/129
L'objectif sera d'estimer le vecteur partir d'un jeu de donnes .
Pour cela, on peut donc reprendre la formalisation du chapitre prcdent. sera obtenu par
minimisation de la fonction de cot :
(On supposera par simplicit que toutes les donnes ont la mme incertitude, ce qui permet de
ne pas faire intervenir les termes .)
Rsolution dans le cas d'une distribution normale des carts
Nous avons vu qu'il est ncessaire dans ce type de problme de faire un choix sur la nature de
la distribution des carts. Nous adopterons le choix classique de la distribution normale. Dans
ce cas, nous avons vu que cela revient utiliser . On obtient alors le systme
d'quations linaires suivant:
Soit
-
7/30/2019 Probabilits et Statistique.pdf
76/129
Ce systme tant linaire, il a une solution unique sauf si le dterminant du systme est nul.
On peut montrer que ce cas intervient si il existe une relation linaire d'ordre entre les
vecteurs . On dit alors que le systme est surdimensionn et un traitement des donnes est
ncessaire afin d'elliminer pralablement cette dpendance. La dimension du nouveau vecteur
de paramtres recherch est alors de .
Le systme rsoudre est de plus symtrique. On peut donc faire appel des techniques
spcifiques telles que la dcomposition LU (mthode directe de complexit ) ou les
algorithmes Gauss-Seidel ou Jacobi (mthodes itratives de complexit o est le
nombre d'itrations ncessaires la convergence). Pour plus de dtails sur ces techniques,
rfrez vous au cours d'analyse numrique ou tout bon livre sur la rsolution de systmes
linaires.
Le cas de la droite
Nous abordons ici le cas limit o le modle est une droite. On parle aussi de regression
linaire simple. On a alors et . Le systme linaire rsoudre
s'crit:
Ce systme a une solution unique si et seulement si .
-
7/30/2019 Probabilits et Statistique.pdf
77/129
On peut considrer que les donnes constituent un chantillon d'une v.a. que l'on
peut caractriser par sa moyenne et sa variance estimes. La condition
d'existence d'une solution est donc ce qui quivaut direqu'il faut simplement que les donnes de l'chantillon ne soient pas toutes identiques. Le
systme peut alors se rcrire sous la forme:
dont la solution analytique est:
Les v.a. et sont relies par la relation o et sont les valeurs vraies.
On a vu dans ce cas que et . On
peut donc relier la valeur estime la valeur vraie par:
L'estimation sera donc parfaite si les v.a. et sont parfaitement corrles (i.e.
). Plus cette corrlation sera faible, moins bonne sera l'estimation. Le
coefficient de corrlation est donc un bon indicateur de la qualit de la rgression linaire
simple. De mme, pour le paramtre , on sait que . Donc,
-
7/30/2019 Probabilits et Statistique.pdf
78/129
L encore, l'estimation sera d'autant meilleure que la corrlation sera proche de 1. Cependant,
on constate que et interviennent comme un gain sur l'erreur due la corrlation non
parfaite. L'estimation de sera donc plus vite dgrade que celle de .
Intervalle de confiance sur le coefficient de corrlation
On peut dterminer un intervalle de confiance sur le coefficient de corrlation (afin de
quantifier la qualit de la rgression) grce l'introduction de la transformation donne
par :
et
L'intervalle de confiance est dfini par
avec o est une loi normale centre rduite.
Grce la relation liant les variables et , on peut obtenir l'intervalle de confiance sur .
-
7/30/2019 Probabilits et Statistique.pdf
79/129
Exemple : Soit obtenu sur un chantillon de taille . On souhaite construire