Download - Probabilités et Statistique.pdf

7/30/2019 Probabilits et Statistique.pdf

1/129

Probabilits et Statistique

Jean-Michel JOLION

Dpartement Gnie Industriel1

Sommaire Probabilits

o Notions de probabilitso Analyse combinatoire (rappels)

Factorielle Arrangements de p objets parmi n Permutations

Combinaisons de p parmi n Rptitions

o Epreuves et Evnementso Espace probabilis

Axiomatique de Kolmogorov Proprits lmentaires

o Probabilit conditionnelle - Thorme de Bayes Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes

o Le paradoxe de Bertrand

Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartition

Dfinition Proprits Fonction de rpartition d'une v.a. discrte

o Fonction de rpartition d'une v.a. continueo Couple de variables alatoires

Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle

o Loi d'une fonction d'une ou plusieurs variables alatoires Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes

o Moyenne et esprance mathmatique d'une v.a. Notion de moyenne pour une v.a. discrte Esprance mathmatique

o Moments Dfinitions Quelques moments particuliers


2/129

Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov

o Quelques lois de probabilits Les valeurs principales Liaisons entre lois de probabilits

o Quelques relationso Loi des grands nombres

Convergence stochastique Thorme central limite

o Simulation d'une variable alatoire Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :

o Autres indicateurs Histogramme Mdiane Mode Autres moyennes

Estimationo Estimation ponctuelle

Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse

o Mthode du maximum de vraisemblanceo Estimation par intervalle de confiance

Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance

o Estimation robuste Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative

o Rgression linaire Formalisation Rsolution dans le cas d'une distribution normale des carts


3/129

Le cas de la droite Intervalle de confiance sur le coefficient de corrlation

o Filtre de Kalmano Estimation d'un modeo Estimation d'une densit

Tests d'hypothseo Introduction

Hypothses et erreurs Tests bilatral et unilatral Rgion d'acceptation et rgion critique Choix d'un test Influence de l'chantillonnage

o Test entre deux hypothses simples La mthode de Neyman et Pearson Test de la moyenne d'une loi normale d'cart-type connu Test de la moyenne d'une loi normale d'cart-type inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion

o Test entre hypothses composes Tests UMP Test d'une moyenne de loi normale, l'cart-type tant connu Test d'une moyenne de loi normale, l'cart-type tant inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion

o Test de comparaison Comparaison de deux moyennes Comparaison de deux variances Comparaison de deux proportions

o Test du rapport des vraisemblances maximaleso Test d'adquation

Test du Test de Kolmogorov Test de Cramer-Von Mises

o Test d'indpendance Test des diffrences premires Test de Spearman

o Test de comparaison d'chantillons Test des variances de Fisher-Sndcor Test de Student Test de Spearman

o Analyse de la variance Les donnes de l'analyse Le test Analyse des contrastes


4/129

Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processus

Etude de la capabilit des processus Indicateurs gnraliss Les cartes de contrle

o #1

Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit

d'tre dpasses

o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses

o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses

o Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables

alatoires indpendantes

o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov

Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux

Problme 1 Problme 2 Problme 3 Problme 4


5/129

Sommaire

Probabilitso Notions de probabilitso Analyse combinatoire (rappels)o Epreuves et Evnementso Espace probabiliso Probabilit conditionnelle - Thorme de Bayeso Le paradoxe de Bertrand

Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartitiono Fonction de rpartition d'une v.a. continueo Couple de variables alatoireso Loi d'une fonction d'une ou plusieurs variables alatoireso Moyenne et esprance mathmatique d'une v.a.o Momentso Quelques lois de probabilitso Quelques relationso Loi des grands nombreso Simulation d'une variable alatoireo Autres indicateurs

Estimationo Estimation ponctuelleo Mthode du maximum de vraisemblanceo Estimation par intervalle de confianceo Estimation robusteo Rgression linaireo Filtre de Kalmano Estimation d'un modeo

Estimation d'une densit

Tests d'hypothseo Introductiono Test entre deux hypothses simpleso Test entre hypothses composeso Test de comparaisono Test du rapport des vraisemblances maximaleso Test d'adquationo Test d'indpendanceo Test de comparaison d'chantillons


6/129

o Analyse de la variance

Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processuso #1

Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables

alatoires indpendantes

o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov

Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux

Bibliographie

Bibliography

Introduction

Ce polycopi est un support du cours de ``Probabilits-Statistique'' de 3me anne du

dpartement Gnie Industriel de l'INSA de Lyon. Il regroupe les lments fondamentaux vus

dans ce cours. Il couvre plus que ce qui est rellement abord en cours car il a galement

vocation introduire des concepts plus avancs (comme les statistiques robustes ou la

matrise des systmes) en termes de culture gnrale.

Il n'existe pas de recueil des annales des examens des annes prcdentes car les exercices et

problmes figurant dans ces examens sont introduits chaque anne dans la nouvelle liste desexercices fournies en fin de polycopi, avec le plus souvent des lements de correction.


7/129

Le contenu de ce polycopi n'engage que son auteur, dans le cadre de ce cours de l'INSA de

Lyon.

Toute reproduction partielle ou totale, pour toute utilisation est assujtie la demande

formule auprs de l'auteur.

Une version lectronique est disponible sur le site web http://rfv.insa-

lyon.fr/ jolion/STAT/poly.html

Jean-Michel Jolion 2006-05-27


8/129

Probabilits

Subsections

Notions de probabilits Analyse combinatoire (rappels)

o Factorielleo Arrangements de p objets parmi no Permutationso Combinaisons de p parmi no Rptitions

Epreuves et Evnements Espace probabilis

o Axiomatique de Kolmogorovo Proprits lmentaires

Probabilit conditionnelle - Thorme de Bayeso Thorme des probabilits composeso Consquenceso Thorme de Bayes - Probabilits des causes

Le paradoxe de Bertrand



9/129

Notions de probabilits

Il existe plusieurs manires de dfinir une probabilit. Principalement, on parle deprobabilits inductives ou exprimentales et deprobabilits dductives ou thoriques. On

peut les dfinir comme suit :

Probabilit exprimentale ou inductive : la probabilit est dduite de toute la population

concerne. Par exemple, si sur une population d'un million de naissances, on constate 530000

garons et 470000 filles, on dit que P[garon] = 0.53

Probabilit thorique ou dductive : cette probabilit est connue grce l'tude du phnomne

sous-jacent sans exprimentation. Il s'agit donc d'une connaissance a priori par opposition ladfinition prcdente qui faisait plutt rfrence une notion de probabilit a posteriori. Par

exemple, dans le cas classique du d parfait, on peut dire, sans avoir jeter un d, que

P["obtenir un 4"] = .

Comme il n'est pas toujours possible de dterminer des probabilits a priori, on est souvent

amen raliser des expriences. Il faut donc pouvoir passer de la premire la deuxime

solution. Ce passage est suppos possible en terme de limite (i.e. avec une population dont la

taille tend vers la taille de la population relle).

Analyse combinatoire (rappels)

Subsections

Factorielle Arrangements de p objets parmi n Permutations Combinaisons de p parmi n Rptitions

Factorielle

Si une action peut tre obtenue de faons diffrentes, puis suivant cette action, defaons diffrentes indpendantes des prcdentes, puis ...alors, le nombre de possibilits

correspondant l'ensemble de ces actions est


10/129

On appelle factorielle n et l'on note n! le nombre :

On peut aussi dfinir la factorielle grce la fonction :

qui a les proprits suivantes : pour n entier et .

La formule de Stierling permet de construire une estimation de la factorielle trs valable pour

:


Arrangements de p objets parmi n

Nombre de possibilits de ranger p objets choisis parmi n :

.

Permutations

Arrangement de objets parmi en tenant compte de l'ordre : .

Par exemple, il y a permutations possibles de symboles : , ,

, , , .

Combinaisons de p parmi n

On ne tient pas compte de l'ordre des objets dans le rangement :

.


11/129

La notation anglosaxonne pour les combinaisons est un peu diffrente : .

Proprits :

Rptitions

Soient n objets dont on dispose une infinit d'exemplaires. On en choisit p parmi ces n classes

d'objets. Il peut donc y avoir rptitions du mme objet. Dans ce cas, on obtient de nouveaux

indicateurs :

Toujours dans le mme contexte, on cherche le nombre de possibilit d'avoir a fois le 1er

objet, b fois le 2me objet, ...k fois le nme objet. Le nombre de permutations est donn par :

Epreuves et Evnements

Une exprience est dite alatoire si ses rsultats ne sont pas prvisibles avec certitude enfonction des conditions initiales.

On appelle preuve la ralisation d'une exprience alatoire.

On appelle vnement la proprit du systme qui une fois l'preuve effectue est ou n'est pasralise.


12/129

Exemple : Soient l'exprience alatoire "lancer deux ds discernables" (et non pips si l'on

veut vraiment une exprience alatoire) et l'vnement A "obtenir un total des nombres

".

A se ralise pour les preuves (6,5), (5,6), (6,6).

Correspondance entre les oprateurs logiques et les ensembles (la relation liant ces notations

est un isomorphisme, on peut donc employer n'importe laquelle).

Logique Ensemble

tat du systmelment

vnement A

partievnement certain espace entier

vnement impossiblepartie vide

vnement contraire oupartie complmentaire

l'vnement B entraine l'vnement

A

A et Bintersection

vnements incompatibles

parties disjointes

A ou B (ou non exclusif)runion

ou exclusifsomme

A partir de ces notions, on peut prciser le calcul de probabilits d'un vnement A :

probabilit thorique : .

probabilit exprimentale : . Cette approche(aussi appelle approchefrquentiste) ne permet pas de donner une valeur ni mme un sens


13/129

la probabilit d'un vnement non rptable du genre "neigera-t-il le 25 octobre 2990" ce qui

limite de fait le champ d'application du calcul des probabilits.

Pour les frquentistes, seules ont un sens les probabilits calcules a posteriori sur la base de

la rptition d'un grand nombre d'vnements identiques; pour les subjectivistes, au contraire,

la notion de probabilit a priori, valuable en fonction d'un sentiment individuel d'incertitude,peut avoir un sens.

Espace probabilis

Subsections

Axiomatique de Kolmogorov Proprits lmentaires

Axiomatique de Kolmogorov

A chaque vnement, on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin

d'viter toute discussion sur cette notion, la thorie moderne des probabilits repose sur

l'axiomatique suivante :

Dfinition 1

On appelle probabilit sur ( , ) (o est l'ensemble des vvements et une classe de

parties de ), ou loi de probabilit, une application de dans telle que :

-

- pour tout ensemble dnombrable d'vnements incompatibles on a

.

Dfinition 2

On appelle espace probabilis le tripl ( , , )

Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1. On

peut donc relier la thorie des probabilits celle de la mesure.


14/129

Proprits lmentaires

De l'axiomatique de Kolmogorov, on peut dduire les proprits suivantes :

Proprit 1 :

Proprit 2 :

Proprit 3 :

Proprit 4 :

Proprit 5 : (Il n'y a stricte galit que si les vnements sont

deux deux incompatibles.)

Proprit 6 : Continuit monotone squentielle.

Proprit 7 : Thorme des probabilits totales : Soit un systme complet

d'vnements (i.e. tel que constitue une partition de ).

Remarque : . De mme, .

Probabilit conditionnelle - Thorme de Bayes

Subsections


15/129

Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes

Thorme des probabilits composes

Soient deux vnements A et B raliss respectivement et fois au cours de preuves.

On a donc et . Si de plus A et B sont raliss simultanment fois,

on a . Que peut-on dduire sur la probabilit de l'vnement B sachant que

l'vnement A est ralis ? Cette probabilit est appelle probabilit conditionnelle de B

sachant A et se note . Dans notre cas, on a .

Par dfinition, on a et .

Consquences

Deux vnements A et B sont dits indpendants si ou encore si

(l'information sur la ralisation de A n'apporte rien l'vnement B) et

.

Attention :

1) indpendant incompatible.

2) et sont indpendants uniquement si vous pouvez

prouver que thoriquement. En pratique, i.e. sur des valeursnumriques, on ne peut pas induire l'indpendance partir de cette galit constate

numriquement. On ne peut que supposer trs probable cette indpendance.

Si deux vnements et sont indpendants, alors il en est de mme de et , et

, et .


16/129

Soit , , ..., une suite d'vnements ayant une intersection commune non nulle, i.e.

, on a alors

Thorme de Bayes - Probabilits des causes

Soit un vnement qui peut dpendre de causes diffrentes et incompatibles deux deux (on ne peut avoir deux causes ralises simultanment). Etant donne la ralisation de

l'vnement , quelle est la probabilit que ce soit qui en soit la cause ?

On peut crire que car constitue un systme complet (les causes

sont incompatibles deux deux et toutes les causes possibles sont supposes connues).

Donc d'aprs le thorme des probabilits totales, on a .

En appliquant le thorme des probabilits conditionnelles, on a

donc

Exemple : Deux machines et produisent respectivement 100 et 200 objets.

produit de pices dfectueuses et en produit . Quelle est la probabilit pour qu'un

objet dfectueux ait t fabriqu par la machine ?

L'vnement constat, , est donc la prsence d'une pice dfectueuse et les causes sont les

machines et . Compte tenu des productions de ces machines, on a et

. De plus, les probabilits conditionnelles de l'vnement selon les machines


17/129

sont et . En reportant ces valeurs dans la formule

gnrale, on obtient

Le paradoxe de BertrandCe paradoxe est un exemple classique permettant de mesurer la limite des dfinitions de

probabilits.

Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard.

Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle ?

On doit Renyi les remarques suivantes :

Premire solution. Comme la longueur de la corde est dtermine par la position de sonmilieu, le choix de la corde peut consister marquer un point au hasard l'intrieur du cercle.

La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est

alors gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit dans

ce triangle qui est de rayon moiti.

Si on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la

probabilit demande :

Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au

centre du cercle. Par raison de symtrie, nous pouvons considrer que le milieu de la corde est

pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon estuniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est

une distance du centre infrieure r/2; la probabilit recherche est alors 1/2.

Troisime solution. Par raison de symtrie, nous pouvons supposer qu'on a fix une des

extrmits de la corde en . L'autre sera choisie au hasard sur la circonfrence. Si on admet

que la probabilit que l'autre extrmit tombe sur un arc donn de la circonfrence est

proportionnelle la longueur de cet arc, la corde est plus grande que le ct du triangle

quilatral inscrit quand P se trouve sur l'arc (tel que ) dont la longueur

est le 1/3 de celle de la circonfrence; la probabilit est donc de 1/3.


18/129

Il est clair que les trois hypothses de rpartition sont galement ralisable. Il n'y a pas

cependant de rel paradoxe car il s'agit simplement d'un choix de conditions exprimentales

de tirage des cordes qui conduisent des vnements diffrents.

Pour en savoir plus : http://www-ensps.u-

strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM

Variable alatoire : dfinitions

Une variable alatoire (V.A.) est une application de l'ensemble des preuves dans le corps des

rels. Elle est caractrise par l'ensemble des probabilits associes tous ses tats possibles.

Dfinition 1 Tout ensemble de parties d'un ensemble , stable par runion, intersection etcomplmentarit s'appelle une tribu sur .

Soit une tribu de parties de . Le couple s'appelle un espace probabilisable ou

mesurable et est l'ensemble des vnements.

Si peut tre muni d'une topologie, alors la tribu engendre par la classe des ouverts de est

appelle tribu borlienne.

Dfinition 2 Une variable alatoire est une application mesurable d'un espace probabilis

( , , ) dans le corps des rels muni de sa tribu borlienne ( , ) (i.e. ensemble des

intervalles de la forme ).

Dfinition 3 Pour tout borlien B (i.e. ), on dfinit une loi de probabilit de X sur

( , ) et l'on note :

Dfinition 4 Une v.a. est discrte si Card[ ] est fini ou dnombrable.

Dans ce cas, ne peut prendre, avec une probabilit non nulle, qu'un nombre fini de valeurs

particulires . On note gnralement les probabilits par .

Dfinition 5 Une v.a. est continue si elle peut prendre toute valeur sur un segment de la

forme , , , et telle que .


19/129

Dfinition 6 Une v.a. est mixte si 1) , 2)

et 3)

Fonction de rpartition

Subsections

Dfinition Proprits Fonction de rpartition d'une v.a. discrte

Dfinition

La fonction de rpartition (FR) d'une v.a. est l'application de dans dfinie par

Proprits

est non dcroissante.

est continue gauche.

est continue droite dans le cas des v.a. continues.

et


20/129

Fonction de rpartition d'une v.a. continue

Soit une v.a. continue. Sa fonction de rpartition est continue gauche et droite. Il existe

donc une fonction telle que l'on puisse crire :

Par dfinition, est appelle densit de probabilit de , ou en abrg, ddp de . Cettefonction a les proprits suivantes :

Couple de variables alatoires

Subsections

Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle


21/129

Dfinitions

Soient et deux v.a. dfinies sur le mme espace probabilis. On appelle fonction derpartition conjointe de et , la fonction dfinie par :

On a par dfinition, et .

Cas d'un couple de v.a. continues

On note la ddp conjointe de et et l'on a par dfinition :

avec les proprits suivantes :

On peut galement dfinir une fonction de rpartition marginale de , note par

(idem pour , ).

Cas d'un couple de v.a. discrtes

On note .


22/129

Distribution conditionnelle

Soient et deux v.a. continues de FR conjointe et de ddp conjointe . Comment peut-

on valuer la probabilit conditionnelle ?

On dfinit la fonction de rpartition conditionnelle par

et la densit de probabilit conditionnelle par

Si les deux v.a. sont indpendantes, alors on a

Loi d'une fonction d'une ou plusieurs variables alatoires

Dans la pratique, on est souvent amen manipuler des variables alatoires qui sont des

transformations ou des combinaisons de variables alatoires connues. C'est pourquoi on

dispose de rgles de passage d'une loi une autre, pour des transformations simples.


23/129

Subsections

Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes

Transformation d'une variable alatoire

Transformation d'une loi discrte Soit une v.a. discrte de loi . Alors, la loi de la

v.a. est dfinie par :

o dsigne la fonction rciproque de .

Transformation d'une loi continue Soit une v.a. continue dont la loi admet la densit de

probabilit et une fonction monotone et drivable. Alors, la densit de la loi de la v.a.

est dfinie par :

o dsigne la fonction rciproque de .

On peut par ces proprits montrer en particulier que la v.a. o est la fonction

de rpartition de la loi de la v.a. , suit une loi uniforme sur l'intervalle .

Exemple : Soit . On a et donc .En application de la proprit prcdente, on obtient


24/129

Densit de probabilit d'une somme de V.A. indpendantes

Soient et deux v.a. continues de ddp et . Si et sont indpendantes, alors

la densit de probabilit de la v.a. dfinie par est donne par

Cette proprit se gnralise quel que soit le nombre de variables dans la somme. On peut

aussi additionner des variables alatoires discrtes.

Soient et deux v.a. discrtes valeurs dans et . La loi de estdfinie par :

En particulier, si et sont indpendantes, on a :

On peut aussi passer par les proprits de l'oprateur esprance mathmatique (voir section

suivante).


25/129

Moyenne et esprance mathmatique d'une v.a.

Subsections

Notion de moyenne pour une v.a. discrte Esprance mathmatique

Notion de moyenne pour une v.a. discrte

Soit une v.a. discrte prenant ses valeurs dans et dont les probabilits

associes sont .

Par dfinition, on appelle moyenne thorique ou esprance mathmatique de , et l'on

note , la valeur .

On ne connait cette v.a. que par le moyen d'un chantillon de taille (dont on supposera qu'il

est significatif par rapport au nombre de valeurs possible, , de la v.a., i.e. ). Chaque

vnement se ralise fois dans l'chantillon ( ).

La moyenne exprimentale est dfinit par .

Si on admet que la proportion tend vers la propabilit thorique pour un chantillon de

taille infinie ( ) alors on peut estimer la moyenne thorique par la limite de lamoyenne exprimentale.

Esprance mathmatique

Soit une v.a. On dfinit l'esprance mathmatique de et l'on note la valeur


26/129

o est la fonction de rpartition de .

Cette intgrale est dite au sens de Stieljes. Soit une v.a. dfinie sur . On peut

discrtiser la v.a. en introduisant une nouvelle v.a. discrte en dcoupant l'intervalle

en intervalles tels que

et donc

Grce un chantillon de taille , on peut calculer une moyenne exprimentale de (

) qui tend vers la moyenne thorique si . Si de

plus, on dcoupe en une infinit d'intervalles de la forme ( ), alors on

obtient la moyenne thorique de la v.a. par

Remarque : L'esprance mathmatique n'est pas toujours dfinie. C'est en particulier le cas de

la loi de Cauchy dont la ddp est donne par car l'intgrale

diverge.

Proprits : Les proprits de l'esprance mathmatique proviennent de celle de l'oprateur

intgral et en particulier la linarit. Soit une v.a. et une constante.

Soient et deux v.a. et et deux constantes.


27/129

Plus gnralement, pour toute fonction , positive, continue, support compact

Exemple : Soient et deux v.a. continues indpendantes de mme loi . On souhaite

trouver la loi de la variable alatoire . On a donc

Les deux variables tant indpendantes, on a . Soit le

changement de variables suivant :

dont le jacobien est

Ce qui nous donne


28/129

d'o l'on dduit la densit de probabilit

Supposons maintenant que ces deux variables alatoires suivent une loi exponentielle de

paramtre , . On a alors

La v.a. suit donc une loi uniforme. Comme on doit avoir et , cela

donne et .

Moments

La notion de moment permet d'introduire celle d'indicateur rsumant et/ou caractrisant une

variable alatoire. On y retrouvera la moyenne comme cas particulier.

Subsections

Dfinitions Quelques moments particuliers Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov


29/129

Dfinitions

Moment d'ordre n. On appelle moment d'ordre n de la v.a. et l'on note la valeur

.

Pour les v.a. discrtes, cela donne :

Moment d'ordre n rapport l'abscisse a. On appelle moment d'ordre n de la v.a.

rapport l'abscisse , et l'on note , la valeur

.

Moment centr d'ordre n. On appelle moment centr d'ordre n de la v.a. et l'on note

la valeur . Le moment centr

d'ordre d'une v.a. est donc le moment d'ordre de cette v.a. rapport l'abscisse

particulire qu'est sa moyenne ( ).

Quelques moments particuliers

est la moyenne.

est la variance (voir plus loin).

Trs souvent, pour des raisons d'efficacit, les moments souhaits, i.e. , sont calculs

partir des moments simples, i.e. . En effet, le calcul d'un moment centr ncessite le calculpralable de l'esprance mathmatique, il y a donc 2 pas de calculs au lieu d'un seul pour les

moments non centrs.


30/129

, et sont utiliss pour caractriser la forme d'une distribution. Pour cela, on construit

des indicateurs sans dimension :

Le coefficient d'asymtrie (skewness) : . Ce coefficient est nul pour une

distribution parfaitement symtrique, infrieur zro si la distribution est plus tendue vers la

gauche (les valeurs infrieures la moyenne), et suprieur zro dans le cas contraire.

Le coefficient d'aplatissement (kurtosis) : . est toujours suprieur 1. De plus,

on a toujours . Plus que l'aplatissement, le coefficient mesurel'importance des ``queues'' de distribution. Cet indicateur vaut dans le cas de la loi de Gauss

(cf chapitre sur les principales lois de probabilit). Il est infrieur pour une distribution

moins large que la loi de Gauss et suprieur pour une distribution plus large.

Remarque : Ces indicateurs ne sont utilisables, i.e. n'ont de sens, que dans le cas d'une

distribution unimodale (un seul maximum).

Variance, covariance et cart-type

La variance est dfinie par

Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un

carr, la dimension de la variance n'est pas celle de la moyenne. C'est pourquoi on utilise plus

souvent l'cart type, not , qui est la racine de la variance.

On dit aussi que la variance traduit la notion d'incertitude. Plus la variance est faible, moins le

rsultat de l'exprience alatoire est incertain. A la limite, une v.a. de variance nulle conduit

des expriences strictement identiques (i.e. le phnomne est compltement dterministe, il

n'y a donc plus aucune raison de garder la notion de variable alatoire).

La variance a galement des proprits intressantes vis vis de la combinaison linaire de

v.a. :


31/129

Soient et deux v.a.

o est la covariance des v.a. et dfinie par :

La covariance peut tre vue comme le moment centr conjoint d'ordre 1 de deux v.a. Si les

deux v.a. sont indpendantes, alors leur covariance est nulle (mais la rciproque n'est pas

vraie en gnral).

Par ailleurs, soit une v.a. et et deux constantes. On a

Variable centre rduite

On appelle variable alatoire centre rduite, une v.a. construite par : .

C'est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient

et

Coefficient de corrlation

La relation entre deux v.a. peut tre quantifie par la covariance comme vue prcdemment.

Cependant, l'image de la moyenne et de la variance, la covariance est un moment donc

possde une dimension ce qui la rend plus difficile interprter. C'est pourquoi on utilise plus

gnralement le coefficient de corrlation, indicateur sans dimension, dfini par


32/129

Le coefficient de corrlation mesure la qualit de la relation linaire entre deux variables

alatoires et (i.e. de la forme ). On a les proprits suivantes :

.

Si et sont indpendantes, alors (la rciproque n'est pas vraie en

gnral).

Si il existe une relation linaire entre et alors .

On peut rcrire la relation sur la variance d'une somme de v.a. en utilisant le coefficient de

corrlation :

Et en gnralisant, on obtient

Exemple

Soit X une v.a. continue et uniforme sur (i.e. quiprobabilit de toutes les valeurs).

L'uniformit de X conduit une densit de probabilit constante :


33/129

Le calcul des moments donne :

donc et

La moyenne ( ) de X est donc nulle et la variance ( ) est gale

.

Ingalits de Bienaym - Tchebyshev - Markov

Ingalit de Tchebyshev : o est un rel positif et unefonction positive.

En posant, , on obtient l'ingalit de Markov : .

De mme, si l'on pose et , on obtient l'ingalit de

Bienaym-Tchebyshev : .

Cette ingalit est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est

une proprit trs intressante. Malheureusement, elle n'a que peu d'applications pratiques car

la majoration qu'elle fournit est la plupart du temps excessive.

Quelques lois de probabilits


34/129

Subsections

Les valeurs principales Liaisons entre lois de probabilits

Les valeurs principales

LoiTyp

eProb. ou ddp Moyenne Variance

0-1 Det

Uniforme D

Binomiale D

pour

Gomtrique D pour

Pascal D

Poisson D pour

et

Uniforme Cavec

Gauss C pour

Cauchy C non dfini non dfini


35/129

Gamma C

Exponentiell

e C pour et

Rayleigh C

pour

Laplace C

C

Student C

Weibull C

Type : D loi discrte ; C loi continue.

Liaisons entre lois de probabilits

Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associe une telle loi estconsidre comme la fonction indicatrice d'un vnement de probabilit p. C'est un cas

particulier de la loi Binomiale.

Loi binomiale : On obtient une v.a. de loi binomiale par une somme de v.a. de loi

0-1 ( ). En d'autres termes, la loi binomiale est la loi associe rptitions, dans desconditions identiques et indpendamment, d'une exprience alatoire dont l'issue est

l'apparition ou la non apparition d'un vnement. La somme de deux lois binomiales de mme

paramtre est une loi binomiale.

Loi gomtrique : La loi gomtrique est la loi du nombre d'essais ncessaires pour faire

apparatre un vnement de probabilit .


36/129

Loi de Pascal d'ordre n : C'est la loi du nombre d'essais ncessaires pour observer

exactement fois un vnement de probabilit . Cette loi est la somme de lois

gomtriques indpendantes

Loi de Poisson (magistrat franais du XIXme sicle) : On obtient une v.a. de loi de Poisson

partir d'une v.a. de loi binomiale pour laquelle on a et et

. On peut aussi introduire la loi de Poisson par la notion de processus de

Poisson. Soit un phnomne tel qu'un seul vnement puisse se produire la fois (non

simultant des ralisations) et que le nombre d'vnements se produisant pendant une

priode T ne dpend que de la dure de cette priode. Supposons enfin l'indpendance des

vnements. Soit l'esprance mathmatique d'un nombre N d'vnementspendant la priode de dure T avec la cadence c. c dsigne donc le nombre moyen

d'vnements par unit de temps. On dmontre alors que la probabilit d'obtenir n vnements

pendant un temps T est .

Figure 1: Densit de probabilit de la loi de Poisson de paramtre .

La somme de deux lois de Poisson de paramtres et est une loi de Poisson de paramtre

.

Loi Normale ou loi de Gauss-Laplace : C'est incontestablement la loi la plus connue. On ladoit Moivre qui, en 1738, a trouv cette loi comme limite de la loi binomiale. On utilisera la

notation suivante : . On la retrouve comme modle le

plus courant pour les distributions d'erreurs de mesure autour d'une valeur ``vraie''. Elle joue

aussi un rle important en terme de comportement asymptotique des autres lois deprobabilits, comme le montre le thorme central limite. Une proprit intressante de cette


37/129

loi est sa conservation vis vis de la combinaison linaire : Soient un ensemble de

v.a. normales de paramtres deux deux indpendantes, leur somme pondre par

les coefficients est une v.a. normale de paramtres la somme pondre des paramtres

Figure 2: Densit de probabilit de la loi normale centre rduite.

Loi exponentielle : Si suit une loi de Poisson, et traduit le nombre d'apparitions d'un

certain phnomne alatoire dans un intervalle de temps , alors la variable alatoirereprsente l'intervalle de temps sparant deux apparitions d'un vnement donn. Cette

nouvelle variable suit une loi exponentielle de paramtre o est le paramtre de la loi de

Poisson. En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits

lectroniques. L'esprance est souvent appele le MTBF (Mean Time Between Failure) et

le taux de dfaillance. La loi exponentielle est un cas particulier de la loi Gamma pour

.


38/129

Figure 3: Densit de probabilit de la loi exponentielle de paramtre .

La loi exponentielle est souvent utilise pour son caractre sans mmoire. Soit une variable

alatoire suivant une loi exponentielle. Soient et deux rels strictement positifs, on a

Cela signifie que la probabilit d'tre dans un intervalle dpend uniquement de la

largeur de l'intervalle et pas de sa position absolue (d'o le vocable ``d'effet sans mmoire``).

Loi de Weibull : Cette loi est aussi trs utilise pour caractriser la fiabilit des matriels.

Elle est relie la loi exponentielle par la relation suivante : suit une loi de Weibull de

paramtre si suit une loi exponentielle. On dit que est le paramtre de forme :

correspond un matriel qui se dgrade avec le temps (usure); un matriel qui se

bonifie avec le temps; (cas o la loi est exponentielle) un matriel sans usure (pannespurement accidentelles).


39/129

Figure 4: Densit de probabilit de la loi de Weibull de paramtre .

Loi Gamma : Soit une v.a. normale X de paramtres et soit une v.a. construite par

. suit une loi Gamma de paramtres . La distribution

gamma est une gnralisation de la loi exponentielle. En effet, si la loi exponentielle

corrrespond la distribution de probabilit du temps sparant l'apparition de deux vnements

donns, la loi gamma fournit la distribution de probabilit du temps qui s'coule entre la

Kme et la (K+r)me apparition de l'vnement. La loi gamma est applique comme modle

de probabilit pour prvoir la dure de vie des appareils qui subissent une usure tels les

vhicules automobiles ou les appareils mcaniques.

Loi du : Le paramtre m est le nombre de degrs de libert de cette loi. Cette distribution

permet de dfinir la loi de la v.a. o les sont des v.a. normales centresrduites indpendantes. Pour m tendant vers l'infini, cette loi tend asymptotiquement vers une

loi normale. La somme de deux v.a. du respectivement et degrs de libert, est une

nouvelle v.a. de loi du degrs de libert. On peut aussi relier cette loi la loi

Gamma avec .

Loi de Rayleigh : C'est la loi de la norme, i.e. o et sont des v.a.normales centres. C'est aussi la loi de la drive de la loi normale. La loi de Rayleigh

apparat souvent pour dcrire le bruit en sortie de certains rcepteurs de transmissions.


40/129

Loi de Student : Si : , et si (indpendante de ) est telle que suit une

loi du degrs de libert, alors la variable suit une loi de Student degrs

de libert. Cette loi sert essentiellement pour les tests statistiques d'hypothses.

Quelques relations

En statistique, on est souvent amen construire les variables alatoires suivantes :

Dans le cas, frquent, o l'on admet ou vrifie, que les sont des lois normales de mme

paramtrage , alors

suit une loi normale .

suit une loi du degrs de libert.

suit une loi de Student degrs de libert.

Par ailleurs, on sait que seules les affinits (et en particulier les sommes) conservent les loisnormale, binomiale, uniforme et Gamma ( paramtres entiers).


41/129

Loi des grands nombres

Subsections

Convergence stochastique Thorme central limite

Convergence stochastiqueOn s'intresse la loi d'une suite de v.a. indentiques, et plus particulirement la convergence

l'infini. Pour tudier cette convergence, il existe de nombreux outils dont nous rsumons ici

les principaux.

Convergence en loi. Soit une suite de v.a. de F.R. , et soit une v.a. de FR

. On dit que la suite converge en loi vers la v.a. ssi converge vers .


42/129

Convergence en probabilit. On dit que la suite converge en probabilit vers la v.a.

ssi (donns arbitrairement petits) tel que

Cette dfinition est une gnralisation du thorme de Bernouilli (dans le cas o est uneconstante). En consquence de ce thorme, on sait que dans une srie d'preuves

indpendantes, la frquence relative de l'vnement A converge en probabilit vers P(A)

quand le nombre d'preuves croit indfiniment.

Convergence en moyenne. On dit que la suite converge en moyenne d'ordre p vers la

v.a. ssi pour tendant vers l'infini. La plus utilise de ces

convergences est la convergence en moyenne quadratique ( ).

La convergence moyenne d'ordre 2 implique la convergence en moyenne d'ordre 1 (ou

convergence en moyenne) qui implique la convergence en probabilit qui implique la

convergence en loi. Cette dernire est donc la convergence la plus stricte.

Exemple : Thorme de De Moivre-Laplace : Soit une suite de v.a. binomiales .

converge en loi vers une loi normale centre rduite . On admet

gnralement que cette convergence est bonne si et . Par exemple,

soit une v.a. . Le critre est valid. Soit approximer la valeur de

. La valeur exacte est 0.1319 d'aprs les tables. D'aprs le thorme, on obtient

une valeur approche de par

Cette formule d'approximation avec une loi donne

Soit une erreur de moins de .


43/129

Thorme central limite

Le thorme central limite est l'un des rsultats les plus importants de la thorie des

probabilits. De faon informelle, ce thorme donne une estimation trs prcise de l'erreur

que l'on commet en approchant l'esprance mathmatique par la moyenne arithmtique. Ce

phnomne a d'abord t observ par Gauss qui l'appelait loi des erreurs; mais ce dernier n'ena pas donn de dmonstration rigoureuse. La preuve du thorme a t apporte part Moivre

et Laplace; le thorme porte donc parfois leurs noms.

Ce thorme est fondamental car il justifie toutes les approximations par la loi normale.

Thorme :

Soit une suite de v.a. de mme loi d'esprance et d'cart type . Alors la v.a.

converge en loi vers une v.a. normale centre rduite .

Exemples : La moyenne exprimentale ou arithmtique ( ) converge donc

vers une loi normale de moyenne , la moyenne thorique, et d'cart-type .

Une proportion tend vers une loi normale de moyenne la proportion thorique et d'cart-

type .

Comme cas particulier de ce thorme, on retrouve galement la convergence d'une suite de

loi binomiale vers la loi normale (thorme de Bernoulli). Ce thorme justifie l'utilisation de

la loi normale lorsqu'il y a rptition d'expriences identiques. Par contre, ce thorme reste

strict sur les conditions d'applications. On considre souvent que ce thorme reste valable

mme si les distributions individuelles sont diffrentes, pour autant que la variance de chacun

des termes individuels soit ngligeable vis--vis de la variance de la somme. C'est en fait un

thorme plus gnral du Lindeberg.

Thorme :

Soient des v.a. indpendantes, pas forcment de mme loi, centres et de

variance . Soient , et la fonction de rpartition de

la v.a. . Si la condition suivante est ralise


44/129

alors

La condition de Lindeberg exprime que les v.a. sont ``uniformment petites'' avec une

grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par

obtenir une loi normale. Autrement dit, si une variable est la rsultante d'un grand nombre de

causes, petites, effet additif, cette variable suit une loi normale. C'est cause de cette

interprtation que la loi normale est trs souvent employe comme modle (malheureusement

pas toujours raison).

Enfin, notons que ces thormes supposent l'existence des moments des v.a. On ne peut donc

pas les utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la

somme produit une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre

d'lments dans la somme).

Simulation d'une variable alatoire

Trs souvent en simulation, on est amen utiliser des chantillons fictifs de ralisations

d'une v.a. de loi dtermine. Nous abordons ici un ensemble de mthodes de construction de

tels chantillons

Subsections

Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :


45/129

Mthode gnrale par transformation inverse

Soit construire un chantillon de ralisations d'une v.a. de fonction de rpartition .

Soit la v.a. dfinie par . Cette v.a. suit une densit de probabilit

uniformment distribue sur l'intervalle . Sa fonction de rpartition G est telle que

.

Soient un chantillon de taille n d'une v.a. uniformment distribue sur . Les

peuvent tre considrs comme des ralisations de la v.a. . Pour calculer les ralisations

de , il suffira alors de calculer la valeur de qui correspond une valeur de sa fonction

de rpartition :

Loi uniforme

La construction d'un chantillon fictif d'une v.a. de loi quelconque ncessite en premier lieu la

construction d'un chantillon fictif d'une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on

ne pourra donc pas se servir de la mthode gnrale. On utilisera alors soit des tables de

nombres au hasard, soit des algorithmes de gnration de nombres pseudo-alatoires (fonction

random classique sur les machines par exemple).

Loi exponentielle

pour et . On a le rsultat suivant

. La mthode gnrale par transformation inverse nous

donne . Si on remplace par (ce qui est possible sans consquence car la

distribution uniforme est symtrique), alors on obtient . On a donc

.


46/129

Loi binomiale

. et doivent tre connus. On pose alors et on gnre

nombres alatoires uniformment distribus et pour chaque , on fait le test

si alors faire

si alors faire

sera la valeur de la ralisation d'une v.a. binomiale de paramtres et . Cet algorithme

utilise la proprit qui relie la loi binomiale la loi 0-1 ( ).

Loi de Poisson

. On utilise le fait que les intervalles de temps sparant deux vnements

successifs suivant une loi de Poisson sont distribus exponentiellement. On gnre donc les

intervalles distribus suivant une loi exponentielle de moyenne 1. La ralisation de

la variable alatoire de Poisson de paramtre sera alors dtermine par l'ingalit

avec ( : v.a. uniforme [0,1] et v.a. exponentielle de moyenne 1).

Loi normale :

On utilise le thorme central limite. La distribution de la moyenne d'une v.a. tend vers

une loi normale lorsque la taille de l'chantillon est suffisamment grande, et ceci quelle que

soit la distribution de la v.a. . On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc


47/129

et . La v.a. dfinie par tend vers une loi normale

centre rduite.

Pour obtenir une chantillon de v.a. normale de moyenne et de variance , on utilisera la

relation

En pratique, on utilise .

Autres indicateursIl existe d'autres indicateurs permettant de caractriser une v.a. Ils ne sont pas issus du calcul

des moments.

Subsections

Histogramme Mdiane Mode Autres moyennes

Histogramme

L'histogramme est analogue la courbe de densit. L'ordonne associe chaque abscisse est

gal la frquence d'apparition de la valeur dans l'chantillon. Dans le cas d'une v.a. discrte,

la construction de l'histogramme ne pose pas de problme. Par contre, pour une v.a. continue,il est ncessaire de rsumer les valeurs reporter sur la courbe en classes.

La dtermination du nombre de classes d'un histogramme est dlicate et il n'existe aps de

rgle absolue. Un trop faible nombre de classes fait perdre de l'information et aboutit

gommer les diffrences pouvant exister entre des groupes de l'ensemble tudi. En revanche,

un trop grand nombre de classes aboutit des graphiques incohrents o certaines classes

deviennent vides ou presque car , la taille de l'chantillon, est fini.

Sturges propose comme limite maximale du nombre de classes


48/129

o dsigne la partie entire. Ainsi pour mesures, il ne faudrait pas construired'histogrammes de plus de classes.

Mdiane

Par dfinition, la mdiane est la valeur correspondant au milieu de la fonction de rpartition

d'une v.a.

Si la loi de la v.a. est symtrique, alors la mdiane est gale l'esprance mathmatique. lamdiane n'est pas unique. C'est une indicateur insensible aux valeurs extrmes ce qui en fait

un outil trs intressant dans le domaine des statistiques robustes.

Si l'on part d'un chantillon de ralisations tries par ordre croissant, la mdiane sera

obtenue par si est impair. Si est pair, on prend conventionnellement

Exemple : La mdiane de la srie est (la valeur est la 4me dans la

srie trie ( ) alors que la moyenne est .

Lorsque l'on ne connait qu'une rpartition en classes, on cherche la classe mdiane

telle que et . On dtermine alors par une interpolationlinaire de la forme

Mode

Par dfinition, le mode d'une v.a. est sa valeur la plus probable


49/129

Le mode n'est pas unique. Il n'est strictement dfini que pour une v.a. discrte car pour toute

v.a. continue, on a . Cependant, nous verrons dans le chapitre surl'estimation qu'il est possible de trouver une valeur que l'on assimile au mode pour les v.a.

continues.

Autres moyennes

Dans la pratique, il peut arriver que la nature des ralisations d'un chantillon ne soit pas

adapte l'utilisation de la moyenne classique. Il existe d'autres possibilits

La moyenne gomtrique :

La moyenne harmonique :

Il est trs dur de connatre les lois de comportements de ces indicateurs particuliers. Il doivent

donc tre utiliss avec prcaution.

Estimation

On considre gnralement deux types d'estimation: l'estimation ponctuelle (on cherche

estimer une valeur) et l'estimation par intervalle de confiance o l'on estime la probabilit que

la valeur vraie d'un paramtre appartienne un intervalle donn.

Subsections

Estimation ponctuelleo Introductiono Estimateur convergento Estimateur sans biaiso Estimateur efficaceo

Robustesse


50/129

Mthode du maximum de vraisemblance Estimation par intervalle de confiance

o Estimation d'une proportiono Estimation d'une moyenneo Estimation d'une variance

Estimation robusteo Interprtation de donnes: l'approche baysienneo Le traitement de l'a priorio Le traitement de l'a posteriorio Le cas monodimensionnelo Le cas gnralo Estimation itrative

Rgression linaireo Formalisationo Rsolution dans le cas d'une distribution normale des cartso Le cas de la droiteo Intervalle de confiance sur le coefficient de corrlation

Filtre de Kalman Estimation d'un mode Estimation d'une densit

Estimation ponctuelle

Subsections

Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse

Introduction

A partir de donnes d'chantillons reprsentatifs, on va induire des rsultats sur la population-

mre (i.e. population dans laquelle les chantillons ont t prlevs).


51/129

Plus exactement, soit un paramtre inconnu2intervenant dans la loi de probabilit d'une

variable alatoire . La loi de probabilit de cette variable alatoire doit tre connue

analytiquement (on choisit parmi les modles existants la loi la plus approprie au phnomne

observ). Seule la valeur numrique du paramtre intervenant dans cette loi de probabilit

est inconnue.

Soient les valeurs prises par la v.a. dans un chantillon de tailleprlev dans la population-mre.

On appelle estimateur de , et l'on note , la fonction qui aux valeurs de l'chantillon

fait correspondre la valeur du paramtre . On note la valeur numrique de cette estimation

par

Par dfinition, est une fonction des ralisations d'une v.a., est donc une v.a. dont on

peut chercher dterminer les caractristiques (loi, ddp, FR, moments, ...).

Exemple: On observe un phnomne de production de pices manufactures. Chaque pice

est associe une mesure (un indicateur de qualit par exemple). Comme on ne peut pas

vrifier chaque mesure, on procde un chantillonnage qui nous fournit donc un chantillon.

Supposons que la connaissance de la nature de cet indicateur nous permet de faire l'hypothsequ'il obit une loi de probabilit normale. Le problme est maintenant, au vue de

l'chantillon , de proposer une valeur pour la moyenne de cette loi normale. Il faut

procder une estimation du paramtre vrai qui se traduit par la valeur . Il y a une

infinit de manire possible parmi lesquelles on peut citer

mdiane

mode

Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?


52/129

Sur ce simple exemple, est rsum le problme fondamental de l'estimation: quelle est la

dfinition mathmatique de meilleur?

La rponse est simple, il n'en existe pas. Alors comment comparer les estimateurs. Pour cela,

on se sert de plusieurs critres, le plus souvent lis au bon sens:

le biais: On souhaite que l'estimation ne soit pas systmatiquement dcale par rapport lavaleur vraie.

la prcision: Si l'on rpte l'estimation sur un autre chantillon, on souhaite obtenir une

estimation cohrente, donc peu de variation d'un chantillon l'autre. On parlera aussi

d'efficacit.

la convergence: Si l'on peut estimer la valeur du paramtre sur toute la population-mre, lavaleur de l'estimation obtenue doit tre la valeur vraie du paramtre.

la complxit: Toute estimation ncessite un calcul donc un temps. On s'attachera donc valuer la complexit du calcul en fonction de la taille des donnes (i.e. ).

la robustesse: Dans tout cas concrt, il existe des sources de perturbations. On souhaite que

l'estimation ne soit pas sensible la prsence de valeurs abrantes (outliers en anglais).

Ces diffrents critres ne sont pas forcment compatibles entre eux, et l'on retrouve des

dilemmes classiques, prcision vs robustesse, convergence vs complexit.

Estimateur convergent

Un estimateur est convergent si la valeur estime tend en probabilit vers la valeur vraie

du paramtre, soit:

(arbitrairement petits)

Si l'estimation est exhaustive (l'chantillon est gal la population-mre), alors la valeur vraie

du paramtre est connue.

Estimateur sans biais

Un estimateur est dit sans biais lorsque son esprance mathmatique est gale la valeurvraie du paramtre.


53/129

Un estimateur est dit asymptotiquement sans biais si le biais diminue si la taille del'chantillon augmente:

Exemples:

X : : est un estimateur convergent sans biais de la moyenne vraie

de cette v.a.

X : : est un estimateur convergent sans biais de la variance

vraie de cette v.a.

X : ( est suppose inconnue): est un estimateur

convergent avec biais de la variance vraie de cette v.a. Cet estimateur est considr sans biais

asymptotiquement.

X : ( est suppose inconnue): est un estimateurconvergent sans biais de la variance vraie de cette v.a.

La diffrence entre ces deux derniers exemples se limite au dnominateur de la formule de

calcul de . Le deuxime estimateur est sans biais car il prend en compte par le termele fait qu'il faut utiliser une estimation pralable de la moyenne pour pouvoir faire l'estimation

de la variance, i.e. il n'y a donc plus donnes disponibles (ou degrs de liberts) mais

. Cette apprciation intuitive peut bien sr tre dmontre.

Soit un estimateur de la variance. On pose comme hypothse que

l'chantillon est constitu de ralisations de V.A. indpendantes 2 2 et de mme

nature que la V.A. X inconnue et dont on veut estimer la variance. Pour estimer le biais de

, on calcule l'esprance mathmatique de l'estimateur


54/129

o est la V.A. associe la ralisation .

Soit .

En posant , on obtient une V.A. centre et de mme variance que .

On simplifie l'quation prcdente en tenant compte de la linarit de l'oprateur esprance

mathmatique.


55/129

Pour aller plus loin, on tient compte de quelques proprits :

car les V.A. sont indpendantes 2 2. car est centre. d'aprs la proprit nonce sur et par

proprit de la variance.

On constate bien un biais qui se traduit par le facteur . Pour le compenser, on multiplie

l'estimateur par et on obtient un nouvel estimateur sans biais (car )

En dveloppant cette formule, on obtient une forme plus efficace


56/129

Estimateur efficace

La variance d'un estimateur reprsente sa prcision. Pour tous les estimateurs (ayant mme

moyenne), il est possible de trouver celui dont la prcision sera la meilleure, i.e. dont la

variance sera la plus faible. On parle alors d'estimateur variance minimum.

Lorsque l'on compare deux estimateurs, on dira galement que est plus efficace que si

.

Une estimation est lie un chantillon de taille finie. Si la population-mre est de taille

infinie, il n'est pas possible d'avoir accs la valeur vraie . La prcision que l'on pourra

obtenir sur ne pourra donc pas descendre en dea d'une certaine limite (borne infrieure de

la variance de l'estimateur ouMinimum Variance Bound (MVB)) qui est dtermine par

l'ingalit de Cramer-Rao:

o , appele quantit d'information de l'chantillon, est dfinie par:

est appele fonction de vraisemblance et se calcule par:

dsignant la ddp de la v.a. et


57/129

Si un estimateur atteint la limite infrieure, on parle alors de MVB estimateur. On dmontre

aussi que cet estimateur est obligatoirement convergent et sans biais.

Remarque: La notion d'information a t propose dans les annes 20 par le chercheuranglais Ronald A. Fisher (considr comme le pre de la statistique mathmatique). La

dmarche de Fisher est la suivante: si l'on s'intresse aux caractristiques d'une population

nombreuse (voire infinie, c'est le cas limite auquel on est en permanence ramen), on ne peut

ni connatre ni traiter les informations trop abondantes relatives chacun des individus qui la

composent. Le problme devient donc d'tre capable de dcrire correctement la population au

moyen d'indicateurs de synthse pouvant tre fournis par des chantillons issus de la

population tudier. Plus les donnes chiffres que l'on peut extraire d'un chantillon

reprsentent correctement la population de rfrence et plus l'information contenue dans cet

chantillon doit tre considre comme leve.

Partant de cette hypothse, Fisher a dfinie techniquement l'information comme la valeur

moyenne du carr de la drive du logarithme de la loi de probabilit tudie. La clbre

ingalit de Cramer permet alors de montrer que la valeur d'une telle information est

proportionnelle la faible variabilit - c'est dire au fort degr de certitude - des conclusions

qu'elle permet de tirer. Cette ide, qui est la racine de toute la thorie de l'estimation et de

l'infrence statistique, est exactement celle que l'on retrouvera vingt ans plus tard chez

Shannon, exprime cette fois en des termes non plus statistiques mais probabilistes.

Robustesse

Le terme ``robuste'' a t pour la premire fois introduit en statistique par G.E.P. Box en 1953.Un estimateur est dit robuste si il est insensible des petits carts sur les hypothses pour

lesquelles il a t optimis. Il y a deux sens au terme ``petit'': de petites variations sur toutes

les donnes, ou des carts importants sur un petit nombre de donnes. C'est le deuxime

aspect qui est le plus mal pris en compte par les estimateurs classiques.

Ainsi, la robustesse traduit le plus souvent la rsistance de l'estimation aux donnes abrentes.

On la dfinit mathmatiquement par le plus petit nombre de donnes extrmes qui modifie la

valeur de l'estimation ramen la taille de l'chantillon.

Considrons un chantillon constitu de valeurs identiques , auquel on ajoutera une

perturbation sous la forme de valeurs extrmes . Pour estimer l'esprancemathmatique, on peut utiliser la moyenne arithmtique qui donne bien sr sur l'chantillon.

Cependant, cette estimation est modifie ds l'introduction d'une nouvelle valeur, , sa

robustesse est donc de . Par contre, la mdiane de cet chantillon n'est pas modifie si l'on

ajoute une valeur extrme. En fait, la mdiane ne sera modifie que si le nombre de valeurs

extrmes est suprieur au nombre de valeurs initiales. On en dduit que la robustesse de

l'estimateur mdiane est gale dont la valeur asymptotique est .


58/129

Mthode du maximum de vraisemblanceLe critre d'efficacit permet de comparer des estimateurs. On peut aussi s'en servir pour

construire un estimateur. Soit une variable alatoire de densit de probabilit

connue analytiquement mais dont l'un des paramtres est inconnu (numriquement). Le

problme consiste donc construire une expression analytique fonction des ralisations de

cette variable dans un chantillon de taille , permettant de trouver la valeur numrique la

plus vraisemblable pour le paramtre .

Si sont des ralisations indpendantes de la v.a., on peut dire que

est une ralisation d'un vecteur alatoire dont les

composantes sont indpendantes deux deux.

L'approche retenue consiste chercher la valeur de qui rend le plus probable les ralisations

que l'on vient d'obtenir. La probabilit d'apparition a priori de l'chantillon en question peut

alors tre caractrise par le produit des probabilits d'apparition de chacune des ralisations

(puisque celles-ci sont supposes indpendantes deux deux).

La mthode du maximum de vraisemblance consiste rechercher la valeur de qui rend cette

probabilit maximale. Comme nous l'avons vu plus haut, le produit des valeurs est

aussi not et appel fonction de vraisemblance. La valeur qui rend

maximum la fonction de vraisemblance est donc la solution de:

L'emploi du logarithme sur la fonction permet de passer de la maximisation d'un produit

celle d'une somme, le rsultat restant le mme car la fonction logarithme est monotone

strictement croissante.

Proprits de la fonction de vraisemblance:


59/129

Thorme: Si il existe un estimateur efficace sans biais, il sera donn par la mthode du

maximum de vraisemblance.

Thorme: L'estimateur efficace existe si o ne

dpend pas des observations . On peut alors montrer que

Cette approche est trs thorique mais possde l'avantage d'tre parfaitement formalise.

Exemple 1: Soit une loi normale avec connu mais inconnue. L'objectif est

de construire un estimateur de la valeur , tant donn un chantillon de ralisation

. Pour cela, on part de la fonction de vraisemblance de cet chantillon:


60/129

La moyenne arithmtique est l'estimateur le plus efficace de l'esprance mathmatique dans le

cas de la loi normale. Quel est le biais de cet estimateur ?

o est une v.a. .

de part la proprit de linarit de l'oprateur esprance mathmatique. L'estimateur est doncsans biais.


61/129

Estimation par intervalle de confianceCette nouvelle approche est souvent prfre dans la pratique car elle introduit la notion

d'incertitude. On cherche dterminer l'intervalle centr sur la valeur numrique

estime du paramter inconnu contenant la valeur vraie avec un probabilit fixe a priori.

Cette probabilit permet de s'adapter aux exigences de l'application.

L'intervalle est appel intervalle de confiance et est le coefficient de confiance. Uneestimation par intervalle de confiance sera d'autant meilleure que l'intervalle sera petit pour un

coefficient de confiance grand.

La donne de dpart, outre l'chantillon, sera la connaissance de la loi de probabilit du

paramtre estimer. Comme il n'existe pas de rsolution gnrale de ce problme, nous allons

aborder successivement les cas les plus frquents (estimation d'une proportion, d'une

moyenne, d'une variance de loi normale).

Subsections

Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance

Estimation d'une proportion

Soit une population dont les individus possdent un caractre avec une probabilit (loi

0/1). On cherche dterminer cette probabilit inconnue en prlevant un chantillon de taille

dans cette population. On constate que parmi les individus possdent le caractre .


62/129

Que peut-on en dduire, i.e. la proportion approxime la valeur vraie , mais avec

quelle confiance.

Soit ; est une v.a. construite par la somme de variables alatoires 0/1 et de

mme paramtre, . C'est donc, d'aprs le thorme central limite, une variable alatoire dont

la loi de probabilit tend vers une loi normale de moyenne et d'cart-type . Cette

approximation est valable uniquement si la taille de l'chantillon est suffisamment grande (i.e.

en pratique).

Construisons l'intervalle de confiance autour de sous la forme:

o est le risque (a priori, on construit un intervalle symtrique). est une ralisation d'une

v.a. . donc on peut par normalisation et centrage obtenir une nouvelle v.a.

On en dduit donc l'intervalle de confiance sous la forme:

La valeur est donc un rsultat de calcul. La valeur de sera lue sur une table

de loi normale . Il existe par ailleurs diffrentes manires pour approximer la valeur

de :


63/129

soit par la proportion :

soit par majoration: en effet, quelle que soit la valeur de , le produit est major

par .

Exemple: Soit un chantillon de taille et une proportion estime . Quelleest la confiance dans cette valeur ou bien quel intervalle donne une confiance de (risque

de ?

Par lecture dans la table de la loi normale, on obtient .

L'intervalle de confiance autour de la proportion estime est donc .

Estimation d'une moyenneDeux cas sont envisager:


64/129

La variable alatoire mesure est normale et le nombre de ralisations est quelconque.

La variable alatoire mesure n'est pas normale et le nombre de ralisations est suprieur

30 (dans ce cas, la distribution de la moyenne tend vers une loi normale d'aprs le thorme

central limite).

Soit donc une v.a. suivant une loi normale de moyenne inconnue et d'cart-type . On

dispose d'un chantillon de ralisations de cette v.a. Comme prcdemment, l'intervalle

de confiance sur la moyenne est:

o est la moyenne arithmtique calcule partir de l'chantillon. Pour aller plus loin, nous

devons considrer deux cas

1- La variance est connue.

La valeur joue le rle d'une constante dans la formule de l'intervalle de confiance et la

nouvelle v.a. suit toujours une loi normale. La valeur de est donc lue dans

une table de la loi normale.

2- La variance est inconnue.

Dans ce cas, joue le rle d'une v.a. Soit l'estimation de que l'on obtient par:

Comme suit une loi normale, on sait que la quantit suit une loi du degrs

de libert. La nouvelle variable alatoire suit donc une loi de Student

degrs de libert. L'intervalle de confiance est alors:


65/129

o est lue dans une table de Student pour degrs de libert.

A posteriori, on peut tre intress par la taille minimale de l'chantillon tel que l'intervalle de

confiance, pour un coefficient de confiance donn, soit tel que ses bornes infrieures et

suprieures ne s'cartent pas de plus de de la valeur moyenne. On impose donc

, ce qui conduit

On approche par et par si l'cart-type est inconnu.

Estimation d'une variance

Nous n'aborderons que le cas de l'estimation de la variance d'une v.a. normale de

moyenne partir d'un chantillon de valeurs.

Si est connue (trs rare), alors l'intervalle de confiance (risque) est dfinit par

avec et o et sont les quantiles d'ordre et de

la loi du degrs de libert.


66/129

Si est inconnue. La quantit dfinie dans le paragraphe prcdent suit une loi du

degrs de libert. L'intervalle de confiance (risque) est dfinit par

o et sont les quantiles d'ordre et de la loi du

degrs de libert.

On obtient le rsultat suivant :

(attention, reprsente ici la confiance) avec lu sur une table du pour degrs de

libert, d'o l'on tire :

avec .

Estimation robuste

Nous allons dans ce paragraphe reprendre le problme de l'estimation au tout dbut afin de

montrer qu'il est possible de driver des estimateurs trs diffrents de ceux que nous avons

abords jusque l. Ces estimateurs relvent du domaine que l'on nomme les statistiquesrobustes et dont Legendre (le crateur de la mthode des moindres carrs) a t le prcurseur

puisque parlant des carts entre les donnes et l'interprtation, il dclarait (en 1805 dans sapremire publication sur les moindres carrs):


67/129

Si parmi ces erreurs, certaines apparaissent trop importantes pour tre admises, alors les

observations qui ont gnres ces erreurs seront rejetes, comme provenant d'expriences

trop peu fiables, et les inconnues seront dtermines grce aux autres observations, qui de ce

fait induiront moins d'erreurs.

Subsections

Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative

Interprtation de donnes: l'approche baysienne

Soient un ensemble de donnes, i.e. un chantillon, et un contexte ( englobera tout cequi n'est pas directement en relation avec le processus sous-jacent aux donnes). Le problme

de l'estimation est un cas particulier d'un problme plus gnral qui est celui de l'interprtation

des donnes. Soit cette interprtation. Notre problme est donc de dterminer connaissant

et . Une approche possible est de choisir l'interprtation la plus probable. C'est dire

chercher qui maximise la probabilit conditionnelle . Cette probabilit n'est pas

directement valuable mais on peut se servir du thorme de Bayes.

d'o l'on dduit

La maximisation de cette expression se faisant sur l'interprtation , on peut supprimer le

dnominateur et ne pas tenir compte de la probabilit du contexte . Si de plus on


68/129

suppose que le contexte est indpendant des donnes, on trouve l'interprtation la plus

probable en maximisant le produit .

Dans cette expression, est la validation a posteriori des donnes par l'interprtation.

est l'a priori, indpendant des donnes. Ce deuxime terme traduit le biais qui fait que

l'on ne part jamais avec tous les modles quiprobables (soit parce que l'on tient compte de

l'application sous-jacente, soit par habitude ou connaissance).

Le traitement de l'a priori

Malheureusement, on ne sait pas traduire l'a priori et donc sa probabilit, c'est pourquoi, on

suppose toujours qu'il est soit ngligeable soit qu'il contraint suffisamment l'application pour

que toutes les interprtations possibles soient de la mme catgorie.

Prenons le cas de l'interprtation de donnes bruites. Dans ce cas, on suppose que les

donnes sont des prlvements d'un phnomne perturb par un bruit additif , ce qui

nous donne . Dans ce cas, la probabilit traduisant l'a priori s'crit . Si

le bruit n'est pas corrl avec le phnomne , on obtient en fait un produit de deux

probabilits . La maximisation de ce produit ne conduit pas une solution

unique car les complexits de et s'quilibrent. En effet, pour un jeu de donnes fix, plusle modle sera d'ordre faible plus il faudra supposer un modle de bruit complexe. A l'inverse,

pour donnes, on peut toujours envisager une forme polynomiale de degr qui prdit

exactement tous les points, et dans ce cas, le bruit est nul, donc de complexit trs faible.

Mais avons-nous l'habitude de manipuler des modles d'ordre trs lev ?

Le traitement de l'a posteriori

L'a posteriori traduit l'cart entre les donnes et la prdiction faite par l'interprtation /

modle. Afin de formaliser cet cart, il est ncessaire de faire des hypothses sur la

distribution des donnes et plus particulirement sur la distribution des carts entre les

donnes et le modle. Les hypothses minimales sont gnralement au nombre de trois. Soient

une donne de l'chantillon et la prdiction du modle.


69/129

Symtrie:

Dcroissance avec le module: dcroit quand croit.

Indpendance des erreurs:

Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi

normale de moyenne nulle (pas de biais) et d'cart-type . On peut donc construire la

fonction de vraisemblance par

o .

On peut alors en dduire un estimateur par la recherche du maximum de vraisemblance, ce

qui conduit la mthode des moindres carrs qui est aborde dans la suite de ce chapitre.

Depuis l'origine des statistiques, les statisticiens ont toujours ador le fait que la distribution

de la somme d'un trs grand nombre de petites variations alatoires converge toujours vers

une distribution normale (cf Thorme central limite).

Le principal problme de ce choix est que la probabilit d'un cart gal fois est de

l'ordre de ce qui est beaucoup trop faible pour traduire la frquence d'apparition

d'un cart trs fort du une donne abrente. De plus, dans le cas de la loi normale, des

carts doivent se trouver au plus fois l'cart type.

On peut donc tre amen choisir des distributions dont la dcroissance est moins rapide. Par

exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.

Le cas monodimensionnel

Prenons le cas de l'estimation d'un paramtre reprsentant un chantillon. Soit ce paramtre.

Si l'on fait l'hypothse d'une distribution normale des carts, on aboutit l'estimateur

moyenne. Par contre, si l'on suppose que la distribution est exponentielle ( ),

on aboutit un autre estimateur (toujours par la mthode du maximum de vraisemblance) tout

aussi simple, la mdiane.

Ces deux estimateurs peuvent tre compars grce aux indicateurs que nous avons voqus au

dbut de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexit de la


70/129

moyenne est de alors que celle de la mdiane est de car il faut faire un tri

des donnes, la moyenne est donc plus rapide calculer. Par contre, la robustesse de la

moyenne est asymptotiquement nulle alors que celle de la mdiane est asymptotiquement de

0.5 ce qui traduit une bien meilleure rsistance au bruit, i.e. aux donnes abrentes.

Le cas gnral

Reprenons le cas gnral. On veut maximiser la probabilit o est

l'cart sur la me donne et la distribution des carts.

La maximisation de cette probabilit peut se rcrire sous la forme d'une minimisation d'une

fonction de cot o est le vecteur des paramtres du modle / interprtation .

avec et o traduit l'incertitude sur la me donne et permet de relativiser

la valeur de chaque cart.

Soit . La minimisation de conduit rsoudre le systme de (nombre de

paramtres) quations:

Ce systme n'a bien sur pas de solution gnrale et il convient de l'tudier en fonction du

choix de , ce qui donne une classe d'estimateurs connus sous le nom de M-estimateurs.

Modle de Legendre:


71/129

C'est le cas le plus connu car il correspond l'hypothse de normalit de la distribution des

carts. On pose et

L-estimateur:

Egalement trs utilis, cet estimateur utilise et donc ce qui

conduit l'estimateur mdian.

Modle de Cauchy / Lorentz:

Comme nous l'avons vu prcdemment, ce modle permet de par la plus lente dcroissance de

la loi de Cauchy, de mieux rendre compte des apparitions de donnes abrentes.

et . La systme rsoudre est alors non linaire et il

faut avoir recours des rsolutions itratives.

Modle de Huber:

Dans ce modle, on utilise un seuil qui permet d'avoir la fois une dcroissance rapide (i.e.

quadratique) si l'cart est faible et de rduire la dcroissance (donc augmenter l'importance)

des carts forts (au del du seuil). Il ralise un bon compromis entre le modle de Legendre et

celui du L-estimateur.

Modle de Tuckey:

Le modle de Tuckey est du mme type que celui de Hubert mais un peu plus complexe car il

permet de s'affranchir de la sensibilit au choix du seuil .


72/129

La valeur est appele point de rejet (rejection point) et joue le rle du seuil de Hubert. Lavaleur est la constante de confiance est vaut (cette valeur a t dtermine pour

obtenir une bonne adquation des carts distribus normalement). La valeur est un facteur

de dimension qui permet d'adapter le seuil l'talement de la distribution des carts. On peut

assimiler un cart-type et utiliser l'estimateur correspondant mais Tuckey propose un

estimateur plus robuste, la mdiane des carts absolus (Median of Absolute Deviation) quivaut

On peut aussi dterminer le point de rejet en pourcentage du volume de donnes. Par exemple,

on ellimine les % plus grandes et plus petites valeurs des carts. Une valeur gnralement

recommande est . La mdiane est le cas extrme de cet estimateur tronqu avec

.

R-estimateur (Jaeckel, 1972):

Le R-estimateur est un cas particulier car il ne s'appuie plus sur des relations linaires mais

tient compte essentiellement du classement des carts. La fonction de cout est la suivante:

o est le rang de l'cart dans la liste trie des carts. La fonction est normalise

telle que . Par exemple, Wilcoxon a propos la fonction suivante

.

Les tests de Kolmogorov-Smirnov et de Spearman sont d'autres exemples de R-estimateurs.

Le modle L.M.S. (Least Median of Squares, Rousseeuw, 1984):


73/129

Le vecteur de paramtres est la solution de . Si la robustesse de cet

estimateur, , est asymptotiquement gale , sa complexit est relativement leve

.

Estimation itrative

Tous les estimateurs que nous avons abords sont des mthodes directes, et, le plus souvent, ilfaut faire un compromis entre efficacit et faible complexit d'une part, et robustesse d'autre

part.

Pour cela on peut procder en plusieurs tapes pour essayer de combiner tous les avantages.

Dans un premier temps, un estimateur classique non robuste permet de quantifier l'adquation

de chaque donne au modle, i.e. par l'cart. Chaque donne est alors affecte d'un poids, le

plus souvent inversement proportionnel l'cart. On peut alors itrer le processus

d'estimation. L'hypothse sousjacente est qu'une donne abrente aura un cart initial fort et

donc une adquation et un poids faibles. Il n'interviendra donc que trs peu dans la deuxime

phase d'estimation. Le processus peut tre itr jusqu' convergence de l'estimation.

Prenons pour exemple l'estimation de l'esprance mathmatique par la moyenne arithmtique

partir d'un chantillon . On peut rsumer le processus par l'algorithme

suivant:

1. Premire estimation ( ):

2. Calcul des carts:

3. Calcul des poids: (cf le chapitre prcdent pour diverses possibilits pour ).

4. Nouvelle estimation (itration ):

5. test de convergence: Si non convergence (par exemple et )

alors retour au pas .


74/129

Dans cet exemple, on augmente la robustesse au bruit avec comme cot une complexit un

peu plus forte ( au lieu de ). En pratique, on utilise peu d'itrations car le

processus a tendance rejeter de nouveaux points (i.e. ) chaque itration. Le risque

est donc non ngligeable de voi le processus converger vers une estimation reposant sur trspeu de donnes (une seule ralisation la limite). On peut, pour viter cet cueil, arrter le

processus lorsque de la population initiale a un poids nul ou quasi-nul. Puisque l'objectif

de l'itration est de recherche la robustesse, on fixe le plus souvent .

Rgression linaire

La rgression linaire est un cas particulier d'estimation trs usit car trs bien formalis et

correspondant des modles simples (car linaires). C'est l'outil de base de la modlisation de

donnes. Une approche trs gnrale de ce problme est fournit dans le cours d'approche

conceptuelle des systmes. Nous ne traiterons ici que de la facette statistique de ce problme

mathmatique.

Subsections

Formalisation Rsolution dans le cas d'une distribution normale des carts Le cas de la droite Intervalle de confiance sur le coefficient de corrlation

Formalisation

Soit une fonction de telle que .

On souhaite modliser par une approximation linaire caractrise par un vecteur de

paramtres ( ) telle que .


75/129

L'objectif sera d'estimer le vecteur partir d'un jeu de donnes .

Pour cela, on peut donc reprendre la formalisation du chapitre prcdent. sera obtenu par

minimisation de la fonction de cot :

(On supposera par simplicit que toutes les donnes ont la mme incertitude, ce qui permet de

ne pas faire intervenir les termes .)

Rsolution dans le cas d'une distribution normale des carts

Nous avons vu qu'il est ncessaire dans ce type de problme de faire un choix sur la nature de

la distribution des carts. Nous adopterons le choix classique de la distribution normale. Dans

ce cas, nous avons vu que cela revient utiliser . On obtient alors le systme

d'quations linaires suivant:

Soit


76/129

Ce systme tant linaire, il a une solution unique sauf si le dterminant du systme est nul.

On peut montrer que ce cas intervient si il existe une relation linaire d'ordre entre les

vecteurs . On dit alors que le systme est surdimensionn et un traitement des donnes est

ncessaire afin d'elliminer pralablement cette dpendance. La dimension du nouveau vecteur

de paramtres recherch est alors de .

Le systme rsoudre est de plus symtrique. On peut donc faire appel des techniques

spcifiques telles que la dcomposition LU (mthode directe de complexit ) ou les

algorithmes Gauss-Seidel ou Jacobi (mthodes itratives de complexit o est le

nombre d'itrations ncessaires la convergence). Pour plus de dtails sur ces techniques,

rfrez vous au cours d'analyse numrique ou tout bon livre sur la rsolution de systmes

linaires.

Le cas de la droite

Nous abordons ici le cas limit o le modle est une droite. On parle aussi de regression

linaire simple. On a alors et . Le systme linaire rsoudre

s'crit:

Ce systme a une solution unique si et seulement si .


77/129

On peut considrer que les donnes constituent un chantillon d'une v.a. que l'on

peut caractriser par sa moyenne et sa variance estimes. La condition

d'existence d'une solution est donc ce qui quivaut direqu'il faut simplement que les donnes de l'chantillon ne soient pas toutes identiques. Le

systme peut alors se rcrire sous la forme:

dont la solution analytique est:

Les v.a. et sont relies par la relation o et sont les valeurs vraies.

On a vu dans ce cas que et . On

peut donc relier la valeur estime la valeur vraie par:

L'estimation sera donc parfaite si les v.a. et sont parfaitement corrles (i.e.

). Plus cette corrlation sera faible, moins bonne sera l'estimation. Le

coefficient de corrlation est donc un bon indicateur de la qualit de la rgression linaire

simple. De mme, pour le paramtre , on sait que . Donc,


78/129

L encore, l'estimation sera d'autant meilleure que la corrlation sera proche de 1. Cependant,

on constate que et interviennent comme un gain sur l'erreur due la corrlation non

parfaite. L'estimation de sera donc plus vite dgrade que celle de .

Intervalle de confiance sur le coefficient de corrlation

On peut dterminer un intervalle de confiance sur le coefficient de corrlation (afin de

quantifier la qualit de la rgression) grce l'introduction de la transformation donne

par :

et

L'intervalle de confiance est dfini par

avec o est une loi normale centre rduite.

Grce la relation liant les variables et , on peut obtenir l'intervalle de confiance sur .


79/129

Exemple : Soit obtenu sur un chantillon de taille . On souhaite construire

Download - Probabilités et Statistique.pdf

Top Related