probabilités et statistique.pdf

Upload: marco-rodriguez

Post on 14-Apr-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/30/2019 Probabilits et Statistique.pdf

    1/129

    Probabilits et Statistique

    Jean-Michel JOLION

    Dpartement Gnie Industriel1

    Sommaire Probabilits

    o Notions de probabilitso Analyse combinatoire (rappels)

    Factorielle Arrangements de p objets parmi n Permutations

    Combinaisons de p parmi n Rptitions

    o Epreuves et Evnementso Espace probabilis

    Axiomatique de Kolmogorov Proprits lmentaires

    o Probabilit conditionnelle - Thorme de Bayes Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes

    o Le paradoxe de Bertrand

    Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartition

    Dfinition Proprits Fonction de rpartition d'une v.a. discrte

    o Fonction de rpartition d'une v.a. continueo Couple de variables alatoires

    Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle

    o Loi d'une fonction d'une ou plusieurs variables alatoires Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes

    o Moyenne et esprance mathmatique d'une v.a. Notion de moyenne pour une v.a. discrte Esprance mathmatique

    o Moments Dfinitions Quelques moments particuliers

  • 7/30/2019 Probabilits et Statistique.pdf

    2/129

    Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov

    o Quelques lois de probabilits Les valeurs principales Liaisons entre lois de probabilits

    o Quelques relationso Loi des grands nombres

    Convergence stochastique Thorme central limite

    o Simulation d'une variable alatoire Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :

    o Autres indicateurs Histogramme Mdiane Mode Autres moyennes

    Estimationo Estimation ponctuelle

    Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse

    o Mthode du maximum de vraisemblanceo Estimation par intervalle de confiance

    Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance

    o Estimation robuste Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative

    o Rgression linaire Formalisation Rsolution dans le cas d'une distribution normale des carts

  • 7/30/2019 Probabilits et Statistique.pdf

    3/129

    Le cas de la droite Intervalle de confiance sur le coefficient de corrlation

    o Filtre de Kalmano Estimation d'un modeo Estimation d'une densit

    Tests d'hypothseo Introduction

    Hypothses et erreurs Tests bilatral et unilatral Rgion d'acceptation et rgion critique Choix d'un test Influence de l'chantillonnage

    o Test entre deux hypothses simples La mthode de Neyman et Pearson Test de la moyenne d'une loi normale d'cart-type connu Test de la moyenne d'une loi normale d'cart-type inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion

    o Test entre hypothses composes Tests UMP Test d'une moyenne de loi normale, l'cart-type tant connu Test d'une moyenne de loi normale, l'cart-type tant inconnu Test d'une variance de loi normale, la moyenne tant connue Test d'une variance de loi normale, la moyenne tant inconnue Test d'une proportion

    o Test de comparaison Comparaison de deux moyennes Comparaison de deux variances Comparaison de deux proportions

    o Test du rapport des vraisemblances maximaleso Test d'adquation

    Test du Test de Kolmogorov Test de Cramer-Von Mises

    o Test d'indpendance Test des diffrences premires Test de Spearman

    o Test de comparaison d'chantillons Test des variances de Fisher-Sndcor Test de Student Test de Spearman

    o Analyse de la variance Les donnes de l'analyse Le test Analyse des contrastes

  • 7/30/2019 Probabilits et Statistique.pdf

    4/129

    Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processus

    Etude de la capabilit des processus Indicateurs gnraliss Les cartes de contrle

    o #1

    Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit

    d'tre dpasses

    o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses

    o Valeurs de la variable de Fisher-Sndcor ayant la probabilitd'tre dpasses

    o Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables

    alatoires indpendantes

    o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov

    Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux

    Problme 1 Problme 2 Problme 3 Problme 4

  • 7/30/2019 Probabilits et Statistique.pdf

    5/129

    Sommaire

    Probabilitso Notions de probabilitso Analyse combinatoire (rappels)o Epreuves et Evnementso Espace probabiliso Probabilit conditionnelle - Thorme de Bayeso Le paradoxe de Bertrand

    Variables alatoireso Variable alatoire : dfinitionso Fonction de rpartitiono Fonction de rpartition d'une v.a. continueo Couple de variables alatoireso Loi d'une fonction d'une ou plusieurs variables alatoireso Moyenne et esprance mathmatique d'une v.a.o Momentso Quelques lois de probabilitso Quelques relationso Loi des grands nombreso Simulation d'une variable alatoireo Autres indicateurs

    Estimationo Estimation ponctuelleo Mthode du maximum de vraisemblanceo Estimation par intervalle de confianceo Estimation robusteo Rgression linaireo Filtre de Kalmano Estimation d'un modeo

    Estimation d'une densit

    Tests d'hypothseo Introductiono Test entre deux hypothses simpleso Test entre hypothses composeso Test de comparaisono Test du rapport des vraisemblances maximaleso Test d'adquationo Test d'indpendanceo Test de comparaison d'chantillons

  • 7/30/2019 Probabilits et Statistique.pdf

    6/129

    o Analyse de la variance

    Le Contrle Statistique de Process: SPCo Introductiono Capabilit d'un processuso #1

    Tableso Fonction de rpartition de la loi normale centre rduiteo Fractiles de la loi normale centre rduiteo Fractiles de la loi du degrs de liberto Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Valeurs de la variable de Fisher-Sndcor ayant la probabilit d'tre dpasseso Table de distribution de (Loi de Student)o Table du coefficient de corrlation des rangs de Spearman de deux variables

    alatoires indpendantes

    o Fonction de rpartition de la statistique de Cramer-Von Miseso Table du test de Kolmogorov-Smirnov

    Exerciceso Probabilitso Variables alatoireso Estimationo Tests d'hypothseso SPCo Sujets gnraux

    Bibliographie

    Bibliography

    Introduction

    Ce polycopi est un support du cours de ``Probabilits-Statistique'' de 3me anne du

    dpartement Gnie Industriel de l'INSA de Lyon. Il regroupe les lments fondamentaux vus

    dans ce cours. Il couvre plus que ce qui est rellement abord en cours car il a galement

    vocation introduire des concepts plus avancs (comme les statistiques robustes ou la

    matrise des systmes) en termes de culture gnrale.

    Il n'existe pas de recueil des annales des examens des annes prcdentes car les exercices et

    problmes figurant dans ces examens sont introduits chaque anne dans la nouvelle liste desexercices fournies en fin de polycopi, avec le plus souvent des lements de correction.

  • 7/30/2019 Probabilits et Statistique.pdf

    7/129

    Le contenu de ce polycopi n'engage que son auteur, dans le cadre de ce cours de l'INSA de

    Lyon.

    Toute reproduction partielle ou totale, pour toute utilisation est assujtie la demande

    formule auprs de l'auteur.

    Une version lectronique est disponible sur le site web http://rfv.insa-

    lyon.fr/ jolion/STAT/poly.html

    Jean-Michel Jolion 2006-05-27

  • 7/30/2019 Probabilits et Statistique.pdf

    8/129

    Probabilits

    Subsections

    Notions de probabilits Analyse combinatoire (rappels)

    o Factorielleo Arrangements de p objets parmi no Permutationso Combinaisons de p parmi no Rptitions

    Epreuves et Evnements Espace probabilis

    o Axiomatique de Kolmogorovo Proprits lmentaires

    Probabilit conditionnelle - Thorme de Bayeso Thorme des probabilits composeso Consquenceso Thorme de Bayes - Probabilits des causes

    Le paradoxe de Bertrand

    Jean-Michel Jolion 2006-05-27

  • 7/30/2019 Probabilits et Statistique.pdf

    9/129

    Notions de probabilits

    Il existe plusieurs manires de dfinir une probabilit. Principalement, on parle deprobabilits inductives ou exprimentales et deprobabilits dductives ou thoriques. On

    peut les dfinir comme suit :

    Probabilit exprimentale ou inductive : la probabilit est dduite de toute la population

    concerne. Par exemple, si sur une population d'un million de naissances, on constate 530000

    garons et 470000 filles, on dit que P[garon] = 0.53

    Probabilit thorique ou dductive : cette probabilit est connue grce l'tude du phnomne

    sous-jacent sans exprimentation. Il s'agit donc d'une connaissance a priori par opposition ladfinition prcdente qui faisait plutt rfrence une notion de probabilit a posteriori. Par

    exemple, dans le cas classique du d parfait, on peut dire, sans avoir jeter un d, que

    P["obtenir un 4"] = .

    Comme il n'est pas toujours possible de dterminer des probabilits a priori, on est souvent

    amen raliser des expriences. Il faut donc pouvoir passer de la premire la deuxime

    solution. Ce passage est suppos possible en terme de limite (i.e. avec une population dont la

    taille tend vers la taille de la population relle).

    Analyse combinatoire (rappels)

    Subsections

    Factorielle Arrangements de p objets parmi n Permutations Combinaisons de p parmi n Rptitions

    Factorielle

    Si une action peut tre obtenue de faons diffrentes, puis suivant cette action, defaons diffrentes indpendantes des prcdentes, puis ...alors, le nombre de possibilits

    correspondant l'ensemble de ces actions est

  • 7/30/2019 Probabilits et Statistique.pdf

    10/129

    On appelle factorielle n et l'on note n! le nombre :

    On peut aussi dfinir la factorielle grce la fonction :

    qui a les proprits suivantes : pour n entier et .

    La formule de Stierling permet de construire une estimation de la factorielle trs valable pour

    :

    Jean-Michel Jolion 2006-05-27

    Arrangements de p objets parmi n

    Nombre de possibilits de ranger p objets choisis parmi n :

    .

    Permutations

    Arrangement de objets parmi en tenant compte de l'ordre : .

    Par exemple, il y a permutations possibles de symboles : , ,

    , , , .

    Combinaisons de p parmi n

    On ne tient pas compte de l'ordre des objets dans le rangement :

    .

  • 7/30/2019 Probabilits et Statistique.pdf

    11/129

    La notation anglosaxonne pour les combinaisons est un peu diffrente : .

    Proprits :

    Rptitions

    Soient n objets dont on dispose une infinit d'exemplaires. On en choisit p parmi ces n classes

    d'objets. Il peut donc y avoir rptitions du mme objet. Dans ce cas, on obtient de nouveaux

    indicateurs :

    Toujours dans le mme contexte, on cherche le nombre de possibilit d'avoir a fois le 1er

    objet, b fois le 2me objet, ...k fois le nme objet. Le nombre de permutations est donn par :

    Epreuves et Evnements

    Une exprience est dite alatoire si ses rsultats ne sont pas prvisibles avec certitude enfonction des conditions initiales.

    On appelle preuve la ralisation d'une exprience alatoire.

    On appelle vnement la proprit du systme qui une fois l'preuve effectue est ou n'est pasralise.

  • 7/30/2019 Probabilits et Statistique.pdf

    12/129

    Exemple : Soient l'exprience alatoire "lancer deux ds discernables" (et non pips si l'on

    veut vraiment une exprience alatoire) et l'vnement A "obtenir un total des nombres

    ".

    A se ralise pour les preuves (6,5), (5,6), (6,6).

    Correspondance entre les oprateurs logiques et les ensembles (la relation liant ces notations

    est un isomorphisme, on peut donc employer n'importe laquelle).

    Logique Ensemble

    tat du systmelment

    vnement A

    partievnement certain espace entier

    vnement impossiblepartie vide

    vnement contraire oupartie complmentaire

    l'vnement B entraine l'vnement

    A

    A et Bintersection

    vnements incompatibles

    parties disjointes

    A ou B (ou non exclusif)runion

    ou exclusifsomme

    A partir de ces notions, on peut prciser le calcul de probabilits d'un vnement A :

    probabilit thorique : .

    probabilit exprimentale : . Cette approche(aussi appelle approchefrquentiste) ne permet pas de donner une valeur ni mme un sens

  • 7/30/2019 Probabilits et Statistique.pdf

    13/129

    la probabilit d'un vnement non rptable du genre "neigera-t-il le 25 octobre 2990" ce qui

    limite de fait le champ d'application du calcul des probabilits.

    Pour les frquentistes, seules ont un sens les probabilits calcules a posteriori sur la base de

    la rptition d'un grand nombre d'vnements identiques; pour les subjectivistes, au contraire,

    la notion de probabilit a priori, valuable en fonction d'un sentiment individuel d'incertitude,peut avoir un sens.

    Espace probabilis

    Subsections

    Axiomatique de Kolmogorov Proprits lmentaires

    Axiomatique de Kolmogorov

    A chaque vnement, on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin

    d'viter toute discussion sur cette notion, la thorie moderne des probabilits repose sur

    l'axiomatique suivante :

    Dfinition 1

    On appelle probabilit sur ( , ) (o est l'ensemble des vvements et une classe de

    parties de ), ou loi de probabilit, une application de dans telle que :

    -

    - pour tout ensemble dnombrable d'vnements incompatibles on a

    .

    Dfinition 2

    On appelle espace probabilis le tripl ( , , )

    Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1. On

    peut donc relier la thorie des probabilits celle de la mesure.

  • 7/30/2019 Probabilits et Statistique.pdf

    14/129

    Proprits lmentaires

    De l'axiomatique de Kolmogorov, on peut dduire les proprits suivantes :

    Proprit 1 :

    Proprit 2 :

    Proprit 3 :

    Proprit 4 :

    Proprit 5 : (Il n'y a stricte galit que si les vnements sont

    deux deux incompatibles.)

    Proprit 6 : Continuit monotone squentielle.

    Proprit 7 : Thorme des probabilits totales : Soit un systme complet

    d'vnements (i.e. tel que constitue une partition de ).

    Remarque : . De mme, .

    Probabilit conditionnelle - Thorme de Bayes

    Subsections

  • 7/30/2019 Probabilits et Statistique.pdf

    15/129

    Thorme des probabilits composes Consquences Thorme de Bayes - Probabilits des causes

    Thorme des probabilits composes

    Soient deux vnements A et B raliss respectivement et fois au cours de preuves.

    On a donc et . Si de plus A et B sont raliss simultanment fois,

    on a . Que peut-on dduire sur la probabilit de l'vnement B sachant que

    l'vnement A est ralis ? Cette probabilit est appelle probabilit conditionnelle de B

    sachant A et se note . Dans notre cas, on a .

    Par dfinition, on a et .

    Consquences

    Deux vnements A et B sont dits indpendants si ou encore si

    (l'information sur la ralisation de A n'apporte rien l'vnement B) et

    .

    Attention :

    1) indpendant incompatible.

    2) et sont indpendants uniquement si vous pouvez

    prouver que thoriquement. En pratique, i.e. sur des valeursnumriques, on ne peut pas induire l'indpendance partir de cette galit constate

    numriquement. On ne peut que supposer trs probable cette indpendance.

    Si deux vnements et sont indpendants, alors il en est de mme de et , et

    , et .

  • 7/30/2019 Probabilits et Statistique.pdf

    16/129

    Soit , , ..., une suite d'vnements ayant une intersection commune non nulle, i.e.

    , on a alors

    Thorme de Bayes - Probabilits des causes

    Soit un vnement qui peut dpendre de causes diffrentes et incompatibles deux deux (on ne peut avoir deux causes ralises simultanment). Etant donne la ralisation de

    l'vnement , quelle est la probabilit que ce soit qui en soit la cause ?

    On peut crire que car constitue un systme complet (les causes

    sont incompatibles deux deux et toutes les causes possibles sont supposes connues).

    Donc d'aprs le thorme des probabilits totales, on a .

    En appliquant le thorme des probabilits conditionnelles, on a

    donc

    Exemple : Deux machines et produisent respectivement 100 et 200 objets.

    produit de pices dfectueuses et en produit . Quelle est la probabilit pour qu'un

    objet dfectueux ait t fabriqu par la machine ?

    L'vnement constat, , est donc la prsence d'une pice dfectueuse et les causes sont les

    machines et . Compte tenu des productions de ces machines, on a et

    . De plus, les probabilits conditionnelles de l'vnement selon les machines

  • 7/30/2019 Probabilits et Statistique.pdf

    17/129

    sont et . En reportant ces valeurs dans la formule

    gnrale, on obtient

    Le paradoxe de BertrandCe paradoxe est un exemple classique permettant de mesurer la limite des dfinitions de

    probabilits.

    Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard.

    Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle ?

    On doit Renyi les remarques suivantes :

    Premire solution. Comme la longueur de la corde est dtermine par la position de sonmilieu, le choix de la corde peut consister marquer un point au hasard l'intrieur du cercle.

    La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est

    alors gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit dans

    ce triangle qui est de rayon moiti.

    Si on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la

    probabilit demande :

    Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au

    centre du cercle. Par raison de symtrie, nous pouvons considrer que le milieu de la corde est

    pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon estuniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est

    une distance du centre infrieure r/2; la probabilit recherche est alors 1/2.

    Troisime solution. Par raison de symtrie, nous pouvons supposer qu'on a fix une des

    extrmits de la corde en . L'autre sera choisie au hasard sur la circonfrence. Si on admet

    que la probabilit que l'autre extrmit tombe sur un arc donn de la circonfrence est

    proportionnelle la longueur de cet arc, la corde est plus grande que le ct du triangle

    quilatral inscrit quand P se trouve sur l'arc (tel que ) dont la longueur

    est le 1/3 de celle de la circonfrence; la probabilit est donc de 1/3.

  • 7/30/2019 Probabilits et Statistique.pdf

    18/129

    Il est clair que les trois hypothses de rpartition sont galement ralisable. Il n'y a pas

    cependant de rel paradoxe car il s'agit simplement d'un choix de conditions exprimentales

    de tirage des cordes qui conduisent des vnements diffrents.

    Pour en savoir plus : http://www-ensps.u-

    strasbg.fr/enseignants/harthong/Hist/BERTRAND.HTM

    Variable alatoire : dfinitions

    Une variable alatoire (V.A.) est une application de l'ensemble des preuves dans le corps des

    rels. Elle est caractrise par l'ensemble des probabilits associes tous ses tats possibles.

    Dfinition 1 Tout ensemble de parties d'un ensemble , stable par runion, intersection etcomplmentarit s'appelle une tribu sur .

    Soit une tribu de parties de . Le couple s'appelle un espace probabilisable ou

    mesurable et est l'ensemble des vnements.

    Si peut tre muni d'une topologie, alors la tribu engendre par la classe des ouverts de est

    appelle tribu borlienne.

    Dfinition 2 Une variable alatoire est une application mesurable d'un espace probabilis

    ( , , ) dans le corps des rels muni de sa tribu borlienne ( , ) (i.e. ensemble des

    intervalles de la forme ).

    Dfinition 3 Pour tout borlien B (i.e. ), on dfinit une loi de probabilit de X sur

    ( , ) et l'on note :

    Dfinition 4 Une v.a. est discrte si Card[ ] est fini ou dnombrable.

    Dans ce cas, ne peut prendre, avec une probabilit non nulle, qu'un nombre fini de valeurs

    particulires . On note gnralement les probabilits par .

    Dfinition 5 Une v.a. est continue si elle peut prendre toute valeur sur un segment de la

    forme , , , et telle que .

  • 7/30/2019 Probabilits et Statistique.pdf

    19/129

    Dfinition 6 Une v.a. est mixte si 1) , 2)

    et 3)

    Fonction de rpartition

    Subsections

    Dfinition Proprits Fonction de rpartition d'une v.a. discrte

    Dfinition

    La fonction de rpartition (FR) d'une v.a. est l'application de dans dfinie par

    Proprits

    est non dcroissante.

    est continue gauche.

    est continue droite dans le cas des v.a. continues.

    et

  • 7/30/2019 Probabilits et Statistique.pdf

    20/129

    Fonction de rpartition d'une v.a. continue

    Soit une v.a. continue. Sa fonction de rpartition est continue gauche et droite. Il existe

    donc une fonction telle que l'on puisse crire :

    Par dfinition, est appelle densit de probabilit de , ou en abrg, ddp de . Cettefonction a les proprits suivantes :

    Couple de variables alatoires

    Subsections

    Dfinitions Cas d'un couple de v.a. continues Cas d'un couple de v.a. discrtes Distribution conditionnelle

  • 7/30/2019 Probabilits et Statistique.pdf

    21/129

    Dfinitions

    Soient et deux v.a. dfinies sur le mme espace probabilis. On appelle fonction derpartition conjointe de et , la fonction dfinie par :

    On a par dfinition, et .

    Cas d'un couple de v.a. continues

    On note la ddp conjointe de et et l'on a par dfinition :

    avec les proprits suivantes :

    On peut galement dfinir une fonction de rpartition marginale de , note par

    (idem pour , ).

    Cas d'un couple de v.a. discrtes

    On note .

  • 7/30/2019 Probabilits et Statistique.pdf

    22/129

    Distribution conditionnelle

    Soient et deux v.a. continues de FR conjointe et de ddp conjointe . Comment peut-

    on valuer la probabilit conditionnelle ?

    On dfinit la fonction de rpartition conditionnelle par

    et la densit de probabilit conditionnelle par

    Si les deux v.a. sont indpendantes, alors on a

    Loi d'une fonction d'une ou plusieurs variables alatoires

    Dans la pratique, on est souvent amen manipuler des variables alatoires qui sont des

    transformations ou des combinaisons de variables alatoires connues. C'est pourquoi on

    dispose de rgles de passage d'une loi une autre, pour des transformations simples.

  • 7/30/2019 Probabilits et Statistique.pdf

    23/129

    Subsections

    Transformation d'une variable alatoire Densit de probabilit d'une somme de V.A. indpendantes

    Transformation d'une variable alatoire

    Transformation d'une loi discrte Soit une v.a. discrte de loi . Alors, la loi de la

    v.a. est dfinie par :

    o dsigne la fonction rciproque de .

    Transformation d'une loi continue Soit une v.a. continue dont la loi admet la densit de

    probabilit et une fonction monotone et drivable. Alors, la densit de la loi de la v.a.

    est dfinie par :

    o dsigne la fonction rciproque de .

    On peut par ces proprits montrer en particulier que la v.a. o est la fonction

    de rpartition de la loi de la v.a. , suit une loi uniforme sur l'intervalle .

    Exemple : Soit . On a et donc .En application de la proprit prcdente, on obtient

  • 7/30/2019 Probabilits et Statistique.pdf

    24/129

    Densit de probabilit d'une somme de V.A. indpendantes

    Soient et deux v.a. continues de ddp et . Si et sont indpendantes, alors

    la densit de probabilit de la v.a. dfinie par est donne par

    Cette proprit se gnralise quel que soit le nombre de variables dans la somme. On peut

    aussi additionner des variables alatoires discrtes.

    Soient et deux v.a. discrtes valeurs dans et . La loi de estdfinie par :

    En particulier, si et sont indpendantes, on a :

    On peut aussi passer par les proprits de l'oprateur esprance mathmatique (voir section

    suivante).

  • 7/30/2019 Probabilits et Statistique.pdf

    25/129

    Moyenne et esprance mathmatique d'une v.a.

    Subsections

    Notion de moyenne pour une v.a. discrte Esprance mathmatique

    Notion de moyenne pour une v.a. discrte

    Soit une v.a. discrte prenant ses valeurs dans et dont les probabilits

    associes sont .

    Par dfinition, on appelle moyenne thorique ou esprance mathmatique de , et l'on

    note , la valeur .

    On ne connait cette v.a. que par le moyen d'un chantillon de taille (dont on supposera qu'il

    est significatif par rapport au nombre de valeurs possible, , de la v.a., i.e. ). Chaque

    vnement se ralise fois dans l'chantillon ( ).

    La moyenne exprimentale est dfinit par .

    Si on admet que la proportion tend vers la propabilit thorique pour un chantillon de

    taille infinie ( ) alors on peut estimer la moyenne thorique par la limite de lamoyenne exprimentale.

    Esprance mathmatique

    Soit une v.a. On dfinit l'esprance mathmatique de et l'on note la valeur

  • 7/30/2019 Probabilits et Statistique.pdf

    26/129

    o est la fonction de rpartition de .

    Cette intgrale est dite au sens de Stieljes. Soit une v.a. dfinie sur . On peut

    discrtiser la v.a. en introduisant une nouvelle v.a. discrte en dcoupant l'intervalle

    en intervalles tels que

    et donc

    Grce un chantillon de taille , on peut calculer une moyenne exprimentale de (

    ) qui tend vers la moyenne thorique si . Si de

    plus, on dcoupe en une infinit d'intervalles de la forme ( ), alors on

    obtient la moyenne thorique de la v.a. par

    Remarque : L'esprance mathmatique n'est pas toujours dfinie. C'est en particulier le cas de

    la loi de Cauchy dont la ddp est donne par car l'intgrale

    diverge.

    Proprits : Les proprits de l'esprance mathmatique proviennent de celle de l'oprateur

    intgral et en particulier la linarit. Soit une v.a. et une constante.

    Soient et deux v.a. et et deux constantes.

  • 7/30/2019 Probabilits et Statistique.pdf

    27/129

    Plus gnralement, pour toute fonction , positive, continue, support compact

    Exemple : Soient et deux v.a. continues indpendantes de mme loi . On souhaite

    trouver la loi de la variable alatoire . On a donc

    Les deux variables tant indpendantes, on a . Soit le

    changement de variables suivant :

    dont le jacobien est

    Ce qui nous donne

  • 7/30/2019 Probabilits et Statistique.pdf

    28/129

    d'o l'on dduit la densit de probabilit

    Supposons maintenant que ces deux variables alatoires suivent une loi exponentielle de

    paramtre , . On a alors

    La v.a. suit donc une loi uniforme. Comme on doit avoir et , cela

    donne et .

    Moments

    La notion de moment permet d'introduire celle d'indicateur rsumant et/ou caractrisant une

    variable alatoire. On y retrouvera la moyenne comme cas particulier.

    Subsections

    Dfinitions Quelques moments particuliers Variance, covariance et cart-type Variable centre rduite Coefficient de corrlation Exemple Ingalits de Bienaym - Tchebyshev - Markov

  • 7/30/2019 Probabilits et Statistique.pdf

    29/129

    Dfinitions

    Moment d'ordre n. On appelle moment d'ordre n de la v.a. et l'on note la valeur

    .

    Pour les v.a. discrtes, cela donne :

    Moment d'ordre n rapport l'abscisse a. On appelle moment d'ordre n de la v.a.

    rapport l'abscisse , et l'on note , la valeur

    .

    Moment centr d'ordre n. On appelle moment centr d'ordre n de la v.a. et l'on note

    la valeur . Le moment centr

    d'ordre d'une v.a. est donc le moment d'ordre de cette v.a. rapport l'abscisse

    particulire qu'est sa moyenne ( ).

    Quelques moments particuliers

    est la moyenne.

    est la variance (voir plus loin).

    Trs souvent, pour des raisons d'efficacit, les moments souhaits, i.e. , sont calculs

    partir des moments simples, i.e. . En effet, le calcul d'un moment centr ncessite le calculpralable de l'esprance mathmatique, il y a donc 2 pas de calculs au lieu d'un seul pour les

    moments non centrs.

  • 7/30/2019 Probabilits et Statistique.pdf

    30/129

    , et sont utiliss pour caractriser la forme d'une distribution. Pour cela, on construit

    des indicateurs sans dimension :

    Le coefficient d'asymtrie (skewness) : . Ce coefficient est nul pour une

    distribution parfaitement symtrique, infrieur zro si la distribution est plus tendue vers la

    gauche (les valeurs infrieures la moyenne), et suprieur zro dans le cas contraire.

    Le coefficient d'aplatissement (kurtosis) : . est toujours suprieur 1. De plus,

    on a toujours . Plus que l'aplatissement, le coefficient mesurel'importance des ``queues'' de distribution. Cet indicateur vaut dans le cas de la loi de Gauss

    (cf chapitre sur les principales lois de probabilit). Il est infrieur pour une distribution

    moins large que la loi de Gauss et suprieur pour une distribution plus large.

    Remarque : Ces indicateurs ne sont utilisables, i.e. n'ont de sens, que dans le cas d'une

    distribution unimodale (un seul maximum).

    Variance, covariance et cart-type

    La variance est dfinie par

    Elle traduit la dispersion de la distribution de la v.a. autour de sa valeur moyenne. Etant un

    carr, la dimension de la variance n'est pas celle de la moyenne. C'est pourquoi on utilise plus

    souvent l'cart type, not , qui est la racine de la variance.

    On dit aussi que la variance traduit la notion d'incertitude. Plus la variance est faible, moins le

    rsultat de l'exprience alatoire est incertain. A la limite, une v.a. de variance nulle conduit

    des expriences strictement identiques (i.e. le phnomne est compltement dterministe, il

    n'y a donc plus aucune raison de garder la notion de variable alatoire).

    La variance a galement des proprits intressantes vis vis de la combinaison linaire de

    v.a. :

  • 7/30/2019 Probabilits et Statistique.pdf

    31/129

    Soient et deux v.a.

    o est la covariance des v.a. et dfinie par :

    La covariance peut tre vue comme le moment centr conjoint d'ordre 1 de deux v.a. Si les

    deux v.a. sont indpendantes, alors leur covariance est nulle (mais la rciproque n'est pas

    vraie en gnral).

    Par ailleurs, soit une v.a. et et deux constantes. On a

    Variable centre rduite

    On appelle variable alatoire centre rduite, une v.a. construite par : .

    C'est le moyen le plus classique pour normaliser une v.a. Par construction, on obtient

    et

    Coefficient de corrlation

    La relation entre deux v.a. peut tre quantifie par la covariance comme vue prcdemment.

    Cependant, l'image de la moyenne et de la variance, la covariance est un moment donc

    possde une dimension ce qui la rend plus difficile interprter. C'est pourquoi on utilise plus

    gnralement le coefficient de corrlation, indicateur sans dimension, dfini par

  • 7/30/2019 Probabilits et Statistique.pdf

    32/129

    Le coefficient de corrlation mesure la qualit de la relation linaire entre deux variables

    alatoires et (i.e. de la forme ). On a les proprits suivantes :

    .

    Si et sont indpendantes, alors (la rciproque n'est pas vraie en

    gnral).

    Si il existe une relation linaire entre et alors .

    On peut rcrire la relation sur la variance d'une somme de v.a. en utilisant le coefficient de

    corrlation :

    Et en gnralisant, on obtient

    Exemple

    Soit X une v.a. continue et uniforme sur (i.e. quiprobabilit de toutes les valeurs).

    L'uniformit de X conduit une densit de probabilit constante :

  • 7/30/2019 Probabilits et Statistique.pdf

    33/129

    Le calcul des moments donne :

    donc et

    La moyenne ( ) de X est donc nulle et la variance ( ) est gale

    .

    Ingalits de Bienaym - Tchebyshev - Markov

    Ingalit de Tchebyshev : o est un rel positif et unefonction positive.

    En posant, , on obtient l'ingalit de Markov : .

    De mme, si l'on pose et , on obtient l'ingalit de

    Bienaym-Tchebyshev : .

    Cette ingalit est la plus connue des trois. Elle est valable quelle que soit la v.a. X, ce qui est

    une proprit trs intressante. Malheureusement, elle n'a que peu d'applications pratiques car

    la majoration qu'elle fournit est la plupart du temps excessive.

    Quelques lois de probabilits

  • 7/30/2019 Probabilits et Statistique.pdf

    34/129

    Subsections

    Les valeurs principales Liaisons entre lois de probabilits

    Les valeurs principales

    LoiTyp

    eProb. ou ddp Moyenne Variance

    0-1 Det

    Uniforme D

    Binomiale D

    pour

    Gomtrique D pour

    Pascal D

    Poisson D pour

    et

    Uniforme Cavec

    Gauss C pour

    Cauchy C non dfini non dfini

  • 7/30/2019 Probabilits et Statistique.pdf

    35/129

    Gamma C

    Exponentiell

    e C pour et

    Rayleigh C

    pour

    Laplace C

    C

    Student C

    Weibull C

    Type : D loi discrte ; C loi continue.

    Liaisons entre lois de probabilits

    Loi 0-1 : on appelle aussi cette loi, loi de Bernoulli. La v.a. associe une telle loi estconsidre comme la fonction indicatrice d'un vnement de probabilit p. C'est un cas

    particulier de la loi Binomiale.

    Loi binomiale : On obtient une v.a. de loi binomiale par une somme de v.a. de loi

    0-1 ( ). En d'autres termes, la loi binomiale est la loi associe rptitions, dans desconditions identiques et indpendamment, d'une exprience alatoire dont l'issue est

    l'apparition ou la non apparition d'un vnement. La somme de deux lois binomiales de mme

    paramtre est une loi binomiale.

    Loi gomtrique : La loi gomtrique est la loi du nombre d'essais ncessaires pour faire

    apparatre un vnement de probabilit .

  • 7/30/2019 Probabilits et Statistique.pdf

    36/129

    Loi de Pascal d'ordre n : C'est la loi du nombre d'essais ncessaires pour observer

    exactement fois un vnement de probabilit . Cette loi est la somme de lois

    gomtriques indpendantes

    Loi de Poisson (magistrat franais du XIXme sicle) : On obtient une v.a. de loi de Poisson

    partir d'une v.a. de loi binomiale pour laquelle on a et et

    . On peut aussi introduire la loi de Poisson par la notion de processus de

    Poisson. Soit un phnomne tel qu'un seul vnement puisse se produire la fois (non

    simultant des ralisations) et que le nombre d'vnements se produisant pendant une

    priode T ne dpend que de la dure de cette priode. Supposons enfin l'indpendance des

    vnements. Soit l'esprance mathmatique d'un nombre N d'vnementspendant la priode de dure T avec la cadence c. c dsigne donc le nombre moyen

    d'vnements par unit de temps. On dmontre alors que la probabilit d'obtenir n vnements

    pendant un temps T est .

    Figure 1: Densit de probabilit de la loi de Poisson de paramtre .

    La somme de deux lois de Poisson de paramtres et est une loi de Poisson de paramtre

    .

    Loi Normale ou loi de Gauss-Laplace : C'est incontestablement la loi la plus connue. On ladoit Moivre qui, en 1738, a trouv cette loi comme limite de la loi binomiale. On utilisera la

    notation suivante : . On la retrouve comme modle le

    plus courant pour les distributions d'erreurs de mesure autour d'une valeur ``vraie''. Elle joue

    aussi un rle important en terme de comportement asymptotique des autres lois deprobabilits, comme le montre le thorme central limite. Une proprit intressante de cette

  • 7/30/2019 Probabilits et Statistique.pdf

    37/129

    loi est sa conservation vis vis de la combinaison linaire : Soient un ensemble de

    v.a. normales de paramtres deux deux indpendantes, leur somme pondre par

    les coefficients est une v.a. normale de paramtres la somme pondre des paramtres

    Figure 2: Densit de probabilit de la loi normale centre rduite.

    Loi exponentielle : Si suit une loi de Poisson, et traduit le nombre d'apparitions d'un

    certain phnomne alatoire dans un intervalle de temps , alors la variable alatoirereprsente l'intervalle de temps sparant deux apparitions d'un vnement donn. Cette

    nouvelle variable suit une loi exponentielle de paramtre o est le paramtre de la loi de

    Poisson. En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits

    lectroniques. L'esprance est souvent appele le MTBF (Mean Time Between Failure) et

    le taux de dfaillance. La loi exponentielle est un cas particulier de la loi Gamma pour

    .

  • 7/30/2019 Probabilits et Statistique.pdf

    38/129

    Figure 3: Densit de probabilit de la loi exponentielle de paramtre .

    La loi exponentielle est souvent utilise pour son caractre sans mmoire. Soit une variable

    alatoire suivant une loi exponentielle. Soient et deux rels strictement positifs, on a

    Cela signifie que la probabilit d'tre dans un intervalle dpend uniquement de la

    largeur de l'intervalle et pas de sa position absolue (d'o le vocable ``d'effet sans mmoire``).

    Loi de Weibull : Cette loi est aussi trs utilise pour caractriser la fiabilit des matriels.

    Elle est relie la loi exponentielle par la relation suivante : suit une loi de Weibull de

    paramtre si suit une loi exponentielle. On dit que est le paramtre de forme :

    correspond un matriel qui se dgrade avec le temps (usure); un matriel qui se

    bonifie avec le temps; (cas o la loi est exponentielle) un matriel sans usure (pannespurement accidentelles).

  • 7/30/2019 Probabilits et Statistique.pdf

    39/129

    Figure 4: Densit de probabilit de la loi de Weibull de paramtre .

    Loi Gamma : Soit une v.a. normale X de paramtres et soit une v.a. construite par

    . suit une loi Gamma de paramtres . La distribution

    gamma est une gnralisation de la loi exponentielle. En effet, si la loi exponentielle

    corrrespond la distribution de probabilit du temps sparant l'apparition de deux vnements

    donns, la loi gamma fournit la distribution de probabilit du temps qui s'coule entre la

    Kme et la (K+r)me apparition de l'vnement. La loi gamma est applique comme modle

    de probabilit pour prvoir la dure de vie des appareils qui subissent une usure tels les

    vhicules automobiles ou les appareils mcaniques.

    Loi du : Le paramtre m est le nombre de degrs de libert de cette loi. Cette distribution

    permet de dfinir la loi de la v.a. o les sont des v.a. normales centresrduites indpendantes. Pour m tendant vers l'infini, cette loi tend asymptotiquement vers une

    loi normale. La somme de deux v.a. du respectivement et degrs de libert, est une

    nouvelle v.a. de loi du degrs de libert. On peut aussi relier cette loi la loi

    Gamma avec .

    Loi de Rayleigh : C'est la loi de la norme, i.e. o et sont des v.a.normales centres. C'est aussi la loi de la drive de la loi normale. La loi de Rayleigh

    apparat souvent pour dcrire le bruit en sortie de certains rcepteurs de transmissions.

  • 7/30/2019 Probabilits et Statistique.pdf

    40/129

    Loi de Student : Si : , et si (indpendante de ) est telle que suit une

    loi du degrs de libert, alors la variable suit une loi de Student degrs

    de libert. Cette loi sert essentiellement pour les tests statistiques d'hypothses.

    Quelques relations

    En statistique, on est souvent amen construire les variables alatoires suivantes :

    Dans le cas, frquent, o l'on admet ou vrifie, que les sont des lois normales de mme

    paramtrage , alors

    suit une loi normale .

    suit une loi du degrs de libert.

    suit une loi de Student degrs de libert.

    Par ailleurs, on sait que seules les affinits (et en particulier les sommes) conservent les loisnormale, binomiale, uniforme et Gamma ( paramtres entiers).

  • 7/30/2019 Probabilits et Statistique.pdf

    41/129

    Loi des grands nombres

    Subsections

    Convergence stochastique Thorme central limite

    Convergence stochastiqueOn s'intresse la loi d'une suite de v.a. indentiques, et plus particulirement la convergence

    l'infini. Pour tudier cette convergence, il existe de nombreux outils dont nous rsumons ici

    les principaux.

    Convergence en loi. Soit une suite de v.a. de F.R. , et soit une v.a. de FR

    . On dit que la suite converge en loi vers la v.a. ssi converge vers .

  • 7/30/2019 Probabilits et Statistique.pdf

    42/129

    Convergence en probabilit. On dit que la suite converge en probabilit vers la v.a.

    ssi (donns arbitrairement petits) tel que

    Cette dfinition est une gnralisation du thorme de Bernouilli (dans le cas o est uneconstante). En consquence de ce thorme, on sait que dans une srie d'preuves

    indpendantes, la frquence relative de l'vnement A converge en probabilit vers P(A)

    quand le nombre d'preuves croit indfiniment.

    Convergence en moyenne. On dit que la suite converge en moyenne d'ordre p vers la

    v.a. ssi pour tendant vers l'infini. La plus utilise de ces

    convergences est la convergence en moyenne quadratique ( ).

    La convergence moyenne d'ordre 2 implique la convergence en moyenne d'ordre 1 (ou

    convergence en moyenne) qui implique la convergence en probabilit qui implique la

    convergence en loi. Cette dernire est donc la convergence la plus stricte.

    Exemple : Thorme de De Moivre-Laplace : Soit une suite de v.a. binomiales .

    converge en loi vers une loi normale centre rduite . On admet

    gnralement que cette convergence est bonne si et . Par exemple,

    soit une v.a. . Le critre est valid. Soit approximer la valeur de

    . La valeur exacte est 0.1319 d'aprs les tables. D'aprs le thorme, on obtient

    une valeur approche de par

    Cette formule d'approximation avec une loi donne

    Soit une erreur de moins de .

  • 7/30/2019 Probabilits et Statistique.pdf

    43/129

    Thorme central limite

    Le thorme central limite est l'un des rsultats les plus importants de la thorie des

    probabilits. De faon informelle, ce thorme donne une estimation trs prcise de l'erreur

    que l'on commet en approchant l'esprance mathmatique par la moyenne arithmtique. Ce

    phnomne a d'abord t observ par Gauss qui l'appelait loi des erreurs; mais ce dernier n'ena pas donn de dmonstration rigoureuse. La preuve du thorme a t apporte part Moivre

    et Laplace; le thorme porte donc parfois leurs noms.

    Ce thorme est fondamental car il justifie toutes les approximations par la loi normale.

    Thorme :

    Soit une suite de v.a. de mme loi d'esprance et d'cart type . Alors la v.a.

    converge en loi vers une v.a. normale centre rduite .

    Exemples : La moyenne exprimentale ou arithmtique ( ) converge donc

    vers une loi normale de moyenne , la moyenne thorique, et d'cart-type .

    Une proportion tend vers une loi normale de moyenne la proportion thorique et d'cart-

    type .

    Comme cas particulier de ce thorme, on retrouve galement la convergence d'une suite de

    loi binomiale vers la loi normale (thorme de Bernoulli). Ce thorme justifie l'utilisation de

    la loi normale lorsqu'il y a rptition d'expriences identiques. Par contre, ce thorme reste

    strict sur les conditions d'applications. On considre souvent que ce thorme reste valable

    mme si les distributions individuelles sont diffrentes, pour autant que la variance de chacun

    des termes individuels soit ngligeable vis--vis de la variance de la somme. C'est en fait un

    thorme plus gnral du Lindeberg.

    Thorme :

    Soient des v.a. indpendantes, pas forcment de mme loi, centres et de

    variance . Soient , et la fonction de rpartition de

    la v.a. . Si la condition suivante est ralise

  • 7/30/2019 Probabilits et Statistique.pdf

    44/129

    alors

    La condition de Lindeberg exprime que les v.a. sont ``uniformment petites'' avec une

    grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par

    obtenir une loi normale. Autrement dit, si une variable est la rsultante d'un grand nombre de

    causes, petites, effet additif, cette variable suit une loi normale. C'est cause de cette

    interprtation que la loi normale est trs souvent employe comme modle (malheureusement

    pas toujours raison).

    Enfin, notons que ces thormes supposent l'existence des moments des v.a. On ne peut donc

    pas les utiliser par exemple pour des v.a. suivant une loi de Cauchy (dans ce cas particulier, la

    somme produit une v.a. qui a toujours une loi de Cauchy et cela quel que soit le nombre

    d'lments dans la somme).

    Simulation d'une variable alatoire

    Trs souvent en simulation, on est amen utiliser des chantillons fictifs de ralisations

    d'une v.a. de loi dtermine. Nous abordons ici un ensemble de mthodes de construction de

    tels chantillons

    Subsections

    Mthode gnrale par transformation inverse Loi uniforme Loi exponentielle Loi binomiale Loi de Poisson Loi normale :

  • 7/30/2019 Probabilits et Statistique.pdf

    45/129

    Mthode gnrale par transformation inverse

    Soit construire un chantillon de ralisations d'une v.a. de fonction de rpartition .

    Soit la v.a. dfinie par . Cette v.a. suit une densit de probabilit

    uniformment distribue sur l'intervalle . Sa fonction de rpartition G est telle que

    .

    Soient un chantillon de taille n d'une v.a. uniformment distribue sur . Les

    peuvent tre considrs comme des ralisations de la v.a. . Pour calculer les ralisations

    de , il suffira alors de calculer la valeur de qui correspond une valeur de sa fonction

    de rpartition :

    Loi uniforme

    La construction d'un chantillon fictif d'une v.a. de loi quelconque ncessite en premier lieu la

    construction d'un chantillon fictif d'une v.a. uniforme entre 0 et 1. Pour une loi uniforme, on

    ne pourra donc pas se servir de la mthode gnrale. On utilisera alors soit des tables de

    nombres au hasard, soit des algorithmes de gnration de nombres pseudo-alatoires (fonction

    random classique sur les machines par exemple).

    Loi exponentielle

    pour et . On a le rsultat suivant

    . La mthode gnrale par transformation inverse nous

    donne . Si on remplace par (ce qui est possible sans consquence car la

    distribution uniforme est symtrique), alors on obtient . On a donc

    .

  • 7/30/2019 Probabilits et Statistique.pdf

    46/129

    Loi binomiale

    . et doivent tre connus. On pose alors et on gnre

    nombres alatoires uniformment distribus et pour chaque , on fait le test

    si alors faire

    si alors faire

    sera la valeur de la ralisation d'une v.a. binomiale de paramtres et . Cet algorithme

    utilise la proprit qui relie la loi binomiale la loi 0-1 ( ).

    Loi de Poisson

    . On utilise le fait que les intervalles de temps sparant deux vnements

    successifs suivant une loi de Poisson sont distribus exponentiellement. On gnre donc les

    intervalles distribus suivant une loi exponentielle de moyenne 1. La ralisation de

    la variable alatoire de Poisson de paramtre sera alors dtermine par l'ingalit

    avec ( : v.a. uniforme [0,1] et v.a. exponentielle de moyenne 1).

    Loi normale :

    On utilise le thorme central limite. La distribution de la moyenne d'une v.a. tend vers

    une loi normale lorsque la taille de l'chantillon est suffisamment grande, et ceci quelle que

    soit la distribution de la v.a. . On peut donc prendre Y : v.a. uniforme sur [0,1]. Donc

  • 7/30/2019 Probabilits et Statistique.pdf

    47/129

    et . La v.a. dfinie par tend vers une loi normale

    centre rduite.

    Pour obtenir une chantillon de v.a. normale de moyenne et de variance , on utilisera la

    relation

    En pratique, on utilise .

    Autres indicateursIl existe d'autres indicateurs permettant de caractriser une v.a. Ils ne sont pas issus du calcul

    des moments.

    Subsections

    Histogramme Mdiane Mode Autres moyennes

    Histogramme

    L'histogramme est analogue la courbe de densit. L'ordonne associe chaque abscisse est

    gal la frquence d'apparition de la valeur dans l'chantillon. Dans le cas d'une v.a. discrte,

    la construction de l'histogramme ne pose pas de problme. Par contre, pour une v.a. continue,il est ncessaire de rsumer les valeurs reporter sur la courbe en classes.

    La dtermination du nombre de classes d'un histogramme est dlicate et il n'existe aps de

    rgle absolue. Un trop faible nombre de classes fait perdre de l'information et aboutit

    gommer les diffrences pouvant exister entre des groupes de l'ensemble tudi. En revanche,

    un trop grand nombre de classes aboutit des graphiques incohrents o certaines classes

    deviennent vides ou presque car , la taille de l'chantillon, est fini.

    Sturges propose comme limite maximale du nombre de classes

  • 7/30/2019 Probabilits et Statistique.pdf

    48/129

    o dsigne la partie entire. Ainsi pour mesures, il ne faudrait pas construired'histogrammes de plus de classes.

    Mdiane

    Par dfinition, la mdiane est la valeur correspondant au milieu de la fonction de rpartition

    d'une v.a.

    Si la loi de la v.a. est symtrique, alors la mdiane est gale l'esprance mathmatique. lamdiane n'est pas unique. C'est une indicateur insensible aux valeurs extrmes ce qui en fait

    un outil trs intressant dans le domaine des statistiques robustes.

    Si l'on part d'un chantillon de ralisations tries par ordre croissant, la mdiane sera

    obtenue par si est impair. Si est pair, on prend conventionnellement

    Exemple : La mdiane de la srie est (la valeur est la 4me dans la

    srie trie ( ) alors que la moyenne est .

    Lorsque l'on ne connait qu'une rpartition en classes, on cherche la classe mdiane

    telle que et . On dtermine alors par une interpolationlinaire de la forme

    Mode

    Par dfinition, le mode d'une v.a. est sa valeur la plus probable

  • 7/30/2019 Probabilits et Statistique.pdf

    49/129

    Le mode n'est pas unique. Il n'est strictement dfini que pour une v.a. discrte car pour toute

    v.a. continue, on a . Cependant, nous verrons dans le chapitre surl'estimation qu'il est possible de trouver une valeur que l'on assimile au mode pour les v.a.

    continues.

    Autres moyennes

    Dans la pratique, il peut arriver que la nature des ralisations d'un chantillon ne soit pas

    adapte l'utilisation de la moyenne classique. Il existe d'autres possibilits

    La moyenne gomtrique :

    La moyenne harmonique :

    Il est trs dur de connatre les lois de comportements de ces indicateurs particuliers. Il doivent

    donc tre utiliss avec prcaution.

    Estimation

    On considre gnralement deux types d'estimation: l'estimation ponctuelle (on cherche

    estimer une valeur) et l'estimation par intervalle de confiance o l'on estime la probabilit que

    la valeur vraie d'un paramtre appartienne un intervalle donn.

    Subsections

    Estimation ponctuelleo Introductiono Estimateur convergento Estimateur sans biaiso Estimateur efficaceo

    Robustesse

  • 7/30/2019 Probabilits et Statistique.pdf

    50/129

    Mthode du maximum de vraisemblance Estimation par intervalle de confiance

    o Estimation d'une proportiono Estimation d'une moyenneo Estimation d'une variance

    Estimation robusteo Interprtation de donnes: l'approche baysienneo Le traitement de l'a priorio Le traitement de l'a posteriorio Le cas monodimensionnelo Le cas gnralo Estimation itrative

    Rgression linaireo Formalisationo Rsolution dans le cas d'une distribution normale des cartso Le cas de la droiteo Intervalle de confiance sur le coefficient de corrlation

    Filtre de Kalman Estimation d'un mode Estimation d'une densit

    Estimation ponctuelle

    Subsections

    Introduction Estimateur convergent Estimateur sans biais Estimateur efficace Robustesse

    Introduction

    A partir de donnes d'chantillons reprsentatifs, on va induire des rsultats sur la population-

    mre (i.e. population dans laquelle les chantillons ont t prlevs).

  • 7/30/2019 Probabilits et Statistique.pdf

    51/129

    Plus exactement, soit un paramtre inconnu2intervenant dans la loi de probabilit d'une

    variable alatoire . La loi de probabilit de cette variable alatoire doit tre connue

    analytiquement (on choisit parmi les modles existants la loi la plus approprie au phnomne

    observ). Seule la valeur numrique du paramtre intervenant dans cette loi de probabilit

    est inconnue.

    Soient les valeurs prises par la v.a. dans un chantillon de tailleprlev dans la population-mre.

    On appelle estimateur de , et l'on note , la fonction qui aux valeurs de l'chantillon

    fait correspondre la valeur du paramtre . On note la valeur numrique de cette estimation

    par

    Par dfinition, est une fonction des ralisations d'une v.a., est donc une v.a. dont on

    peut chercher dterminer les caractristiques (loi, ddp, FR, moments, ...).

    Exemple: On observe un phnomne de production de pices manufactures. Chaque pice

    est associe une mesure (un indicateur de qualit par exemple). Comme on ne peut pas

    vrifier chaque mesure, on procde un chantillonnage qui nous fournit donc un chantillon.

    Supposons que la connaissance de la nature de cet indicateur nous permet de faire l'hypothsequ'il obit une loi de probabilit normale. Le problme est maintenant, au vue de

    l'chantillon , de proposer une valeur pour la moyenne de cette loi normale. Il faut

    procder une estimation du paramtre vrai qui se traduit par la valeur . Il y a une

    infinit de manire possible parmi lesquelles on peut citer

    mdiane

    mode

    Quel est le meilleur estimateur de la moyenne ? Existe-t-il ?

  • 7/30/2019 Probabilits et Statistique.pdf

    52/129

    Sur ce simple exemple, est rsum le problme fondamental de l'estimation: quelle est la

    dfinition mathmatique de meilleur?

    La rponse est simple, il n'en existe pas. Alors comment comparer les estimateurs. Pour cela,

    on se sert de plusieurs critres, le plus souvent lis au bon sens:

    le biais: On souhaite que l'estimation ne soit pas systmatiquement dcale par rapport lavaleur vraie.

    la prcision: Si l'on rpte l'estimation sur un autre chantillon, on souhaite obtenir une

    estimation cohrente, donc peu de variation d'un chantillon l'autre. On parlera aussi

    d'efficacit.

    la convergence: Si l'on peut estimer la valeur du paramtre sur toute la population-mre, lavaleur de l'estimation obtenue doit tre la valeur vraie du paramtre.

    la complxit: Toute estimation ncessite un calcul donc un temps. On s'attachera donc valuer la complexit du calcul en fonction de la taille des donnes (i.e. ).

    la robustesse: Dans tout cas concrt, il existe des sources de perturbations. On souhaite que

    l'estimation ne soit pas sensible la prsence de valeurs abrantes (outliers en anglais).

    Ces diffrents critres ne sont pas forcment compatibles entre eux, et l'on retrouve des

    dilemmes classiques, prcision vs robustesse, convergence vs complexit.

    Estimateur convergent

    Un estimateur est convergent si la valeur estime tend en probabilit vers la valeur vraie

    du paramtre, soit:

    (arbitrairement petits)

    Si l'estimation est exhaustive (l'chantillon est gal la population-mre), alors la valeur vraie

    du paramtre est connue.

    Estimateur sans biais

    Un estimateur est dit sans biais lorsque son esprance mathmatique est gale la valeurvraie du paramtre.

  • 7/30/2019 Probabilits et Statistique.pdf

    53/129

    Un estimateur est dit asymptotiquement sans biais si le biais diminue si la taille del'chantillon augmente:

    Exemples:

    X : : est un estimateur convergent sans biais de la moyenne vraie

    de cette v.a.

    X : : est un estimateur convergent sans biais de la variance

    vraie de cette v.a.

    X : ( est suppose inconnue): est un estimateur

    convergent avec biais de la variance vraie de cette v.a. Cet estimateur est considr sans biais

    asymptotiquement.

    X : ( est suppose inconnue): est un estimateurconvergent sans biais de la variance vraie de cette v.a.

    La diffrence entre ces deux derniers exemples se limite au dnominateur de la formule de

    calcul de . Le deuxime estimateur est sans biais car il prend en compte par le termele fait qu'il faut utiliser une estimation pralable de la moyenne pour pouvoir faire l'estimation

    de la variance, i.e. il n'y a donc plus donnes disponibles (ou degrs de liberts) mais

    . Cette apprciation intuitive peut bien sr tre dmontre.

    Soit un estimateur de la variance. On pose comme hypothse que

    l'chantillon est constitu de ralisations de V.A. indpendantes 2 2 et de mme

    nature que la V.A. X inconnue et dont on veut estimer la variance. Pour estimer le biais de

    , on calcule l'esprance mathmatique de l'estimateur

  • 7/30/2019 Probabilits et Statistique.pdf

    54/129

    o est la V.A. associe la ralisation .

    Soit .

    En posant , on obtient une V.A. centre et de mme variance que .

    On simplifie l'quation prcdente en tenant compte de la linarit de l'oprateur esprance

    mathmatique.

  • 7/30/2019 Probabilits et Statistique.pdf

    55/129

    Pour aller plus loin, on tient compte de quelques proprits :

    car les V.A. sont indpendantes 2 2. car est centre. d'aprs la proprit nonce sur et par

    proprit de la variance.

    On constate bien un biais qui se traduit par le facteur . Pour le compenser, on multiplie

    l'estimateur par et on obtient un nouvel estimateur sans biais (car )

    En dveloppant cette formule, on obtient une forme plus efficace

  • 7/30/2019 Probabilits et Statistique.pdf

    56/129

    Estimateur efficace

    La variance d'un estimateur reprsente sa prcision. Pour tous les estimateurs (ayant mme

    moyenne), il est possible de trouver celui dont la prcision sera la meilleure, i.e. dont la

    variance sera la plus faible. On parle alors d'estimateur variance minimum.

    Lorsque l'on compare deux estimateurs, on dira galement que est plus efficace que si

    .

    Une estimation est lie un chantillon de taille finie. Si la population-mre est de taille

    infinie, il n'est pas possible d'avoir accs la valeur vraie . La prcision que l'on pourra

    obtenir sur ne pourra donc pas descendre en dea d'une certaine limite (borne infrieure de

    la variance de l'estimateur ouMinimum Variance Bound (MVB)) qui est dtermine par

    l'ingalit de Cramer-Rao:

    o , appele quantit d'information de l'chantillon, est dfinie par:

    est appele fonction de vraisemblance et se calcule par:

    dsignant la ddp de la v.a. et

  • 7/30/2019 Probabilits et Statistique.pdf

    57/129

    Si un estimateur atteint la limite infrieure, on parle alors de MVB estimateur. On dmontre

    aussi que cet estimateur est obligatoirement convergent et sans biais.

    Remarque: La notion d'information a t propose dans les annes 20 par le chercheuranglais Ronald A. Fisher (considr comme le pre de la statistique mathmatique). La

    dmarche de Fisher est la suivante: si l'on s'intresse aux caractristiques d'une population

    nombreuse (voire infinie, c'est le cas limite auquel on est en permanence ramen), on ne peut

    ni connatre ni traiter les informations trop abondantes relatives chacun des individus qui la

    composent. Le problme devient donc d'tre capable de dcrire correctement la population au

    moyen d'indicateurs de synthse pouvant tre fournis par des chantillons issus de la

    population tudier. Plus les donnes chiffres que l'on peut extraire d'un chantillon

    reprsentent correctement la population de rfrence et plus l'information contenue dans cet

    chantillon doit tre considre comme leve.

    Partant de cette hypothse, Fisher a dfinie techniquement l'information comme la valeur

    moyenne du carr de la drive du logarithme de la loi de probabilit tudie. La clbre

    ingalit de Cramer permet alors de montrer que la valeur d'une telle information est

    proportionnelle la faible variabilit - c'est dire au fort degr de certitude - des conclusions

    qu'elle permet de tirer. Cette ide, qui est la racine de toute la thorie de l'estimation et de

    l'infrence statistique, est exactement celle que l'on retrouvera vingt ans plus tard chez

    Shannon, exprime cette fois en des termes non plus statistiques mais probabilistes.

    Robustesse

    Le terme ``robuste'' a t pour la premire fois introduit en statistique par G.E.P. Box en 1953.Un estimateur est dit robuste si il est insensible des petits carts sur les hypothses pour

    lesquelles il a t optimis. Il y a deux sens au terme ``petit'': de petites variations sur toutes

    les donnes, ou des carts importants sur un petit nombre de donnes. C'est le deuxime

    aspect qui est le plus mal pris en compte par les estimateurs classiques.

    Ainsi, la robustesse traduit le plus souvent la rsistance de l'estimation aux donnes abrentes.

    On la dfinit mathmatiquement par le plus petit nombre de donnes extrmes qui modifie la

    valeur de l'estimation ramen la taille de l'chantillon.

    Considrons un chantillon constitu de valeurs identiques , auquel on ajoutera une

    perturbation sous la forme de valeurs extrmes . Pour estimer l'esprancemathmatique, on peut utiliser la moyenne arithmtique qui donne bien sr sur l'chantillon.

    Cependant, cette estimation est modifie ds l'introduction d'une nouvelle valeur, , sa

    robustesse est donc de . Par contre, la mdiane de cet chantillon n'est pas modifie si l'on

    ajoute une valeur extrme. En fait, la mdiane ne sera modifie que si le nombre de valeurs

    extrmes est suprieur au nombre de valeurs initiales. On en dduit que la robustesse de

    l'estimateur mdiane est gale dont la valeur asymptotique est .

  • 7/30/2019 Probabilits et Statistique.pdf

    58/129

    Mthode du maximum de vraisemblanceLe critre d'efficacit permet de comparer des estimateurs. On peut aussi s'en servir pour

    construire un estimateur. Soit une variable alatoire de densit de probabilit

    connue analytiquement mais dont l'un des paramtres est inconnu (numriquement). Le

    problme consiste donc construire une expression analytique fonction des ralisations de

    cette variable dans un chantillon de taille , permettant de trouver la valeur numrique la

    plus vraisemblable pour le paramtre .

    Si sont des ralisations indpendantes de la v.a., on peut dire que

    est une ralisation d'un vecteur alatoire dont les

    composantes sont indpendantes deux deux.

    L'approche retenue consiste chercher la valeur de qui rend le plus probable les ralisations

    que l'on vient d'obtenir. La probabilit d'apparition a priori de l'chantillon en question peut

    alors tre caractrise par le produit des probabilits d'apparition de chacune des ralisations

    (puisque celles-ci sont supposes indpendantes deux deux).

    La mthode du maximum de vraisemblance consiste rechercher la valeur de qui rend cette

    probabilit maximale. Comme nous l'avons vu plus haut, le produit des valeurs est

    aussi not et appel fonction de vraisemblance. La valeur qui rend

    maximum la fonction de vraisemblance est donc la solution de:

    L'emploi du logarithme sur la fonction permet de passer de la maximisation d'un produit

    celle d'une somme, le rsultat restant le mme car la fonction logarithme est monotone

    strictement croissante.

    Proprits de la fonction de vraisemblance:

  • 7/30/2019 Probabilits et Statistique.pdf

    59/129

    Thorme: Si il existe un estimateur efficace sans biais, il sera donn par la mthode du

    maximum de vraisemblance.

    Thorme: L'estimateur efficace existe si o ne

    dpend pas des observations . On peut alors montrer que

    Cette approche est trs thorique mais possde l'avantage d'tre parfaitement formalise.

    Exemple 1: Soit une loi normale avec connu mais inconnue. L'objectif est

    de construire un estimateur de la valeur , tant donn un chantillon de ralisation

    . Pour cela, on part de la fonction de vraisemblance de cet chantillon:

  • 7/30/2019 Probabilits et Statistique.pdf

    60/129

    La moyenne arithmtique est l'estimateur le plus efficace de l'esprance mathmatique dans le

    cas de la loi normale. Quel est le biais de cet estimateur ?

    o est une v.a. .

    de part la proprit de linarit de l'oprateur esprance mathmatique. L'estimateur est doncsans biais.

  • 7/30/2019 Probabilits et Statistique.pdf

    61/129

    Estimation par intervalle de confianceCette nouvelle approche est souvent prfre dans la pratique car elle introduit la notion

    d'incertitude. On cherche dterminer l'intervalle centr sur la valeur numrique

    estime du paramter inconnu contenant la valeur vraie avec un probabilit fixe a priori.

    Cette probabilit permet de s'adapter aux exigences de l'application.

    L'intervalle est appel intervalle de confiance et est le coefficient de confiance. Uneestimation par intervalle de confiance sera d'autant meilleure que l'intervalle sera petit pour un

    coefficient de confiance grand.

    La donne de dpart, outre l'chantillon, sera la connaissance de la loi de probabilit du

    paramtre estimer. Comme il n'existe pas de rsolution gnrale de ce problme, nous allons

    aborder successivement les cas les plus frquents (estimation d'une proportion, d'une

    moyenne, d'une variance de loi normale).

    Subsections

    Estimation d'une proportion Estimation d'une moyenne Estimation d'une variance

    Estimation d'une proportion

    Soit une population dont les individus possdent un caractre avec une probabilit (loi

    0/1). On cherche dterminer cette probabilit inconnue en prlevant un chantillon de taille

    dans cette population. On constate que parmi les individus possdent le caractre .

  • 7/30/2019 Probabilits et Statistique.pdf

    62/129

    Que peut-on en dduire, i.e. la proportion approxime la valeur vraie , mais avec

    quelle confiance.

    Soit ; est une v.a. construite par la somme de variables alatoires 0/1 et de

    mme paramtre, . C'est donc, d'aprs le thorme central limite, une variable alatoire dont

    la loi de probabilit tend vers une loi normale de moyenne et d'cart-type . Cette

    approximation est valable uniquement si la taille de l'chantillon est suffisamment grande (i.e.

    en pratique).

    Construisons l'intervalle de confiance autour de sous la forme:

    o est le risque (a priori, on construit un intervalle symtrique). est une ralisation d'une

    v.a. . donc on peut par normalisation et centrage obtenir une nouvelle v.a.

    On en dduit donc l'intervalle de confiance sous la forme:

    La valeur est donc un rsultat de calcul. La valeur de sera lue sur une table

    de loi normale . Il existe par ailleurs diffrentes manires pour approximer la valeur

    de :

  • 7/30/2019 Probabilits et Statistique.pdf

    63/129

    soit par la proportion :

    soit par majoration: en effet, quelle que soit la valeur de , le produit est major

    par .

    Exemple: Soit un chantillon de taille et une proportion estime . Quelleest la confiance dans cette valeur ou bien quel intervalle donne une confiance de (risque

    de ?

    Par lecture dans la table de la loi normale, on obtient .

    L'intervalle de confiance autour de la proportion estime est donc .

    Estimation d'une moyenneDeux cas sont envisager:

  • 7/30/2019 Probabilits et Statistique.pdf

    64/129

    La variable alatoire mesure est normale et le nombre de ralisations est quelconque.

    La variable alatoire mesure n'est pas normale et le nombre de ralisations est suprieur

    30 (dans ce cas, la distribution de la moyenne tend vers une loi normale d'aprs le thorme

    central limite).

    Soit donc une v.a. suivant une loi normale de moyenne inconnue et d'cart-type . On

    dispose d'un chantillon de ralisations de cette v.a. Comme prcdemment, l'intervalle

    de confiance sur la moyenne est:

    o est la moyenne arithmtique calcule partir de l'chantillon. Pour aller plus loin, nous

    devons considrer deux cas

    1- La variance est connue.

    La valeur joue le rle d'une constante dans la formule de l'intervalle de confiance et la

    nouvelle v.a. suit toujours une loi normale. La valeur de est donc lue dans

    une table de la loi normale.

    2- La variance est inconnue.

    Dans ce cas, joue le rle d'une v.a. Soit l'estimation de que l'on obtient par:

    Comme suit une loi normale, on sait que la quantit suit une loi du degrs

    de libert. La nouvelle variable alatoire suit donc une loi de Student

    degrs de libert. L'intervalle de confiance est alors:

  • 7/30/2019 Probabilits et Statistique.pdf

    65/129

    o est lue dans une table de Student pour degrs de libert.

    A posteriori, on peut tre intress par la taille minimale de l'chantillon tel que l'intervalle de

    confiance, pour un coefficient de confiance donn, soit tel que ses bornes infrieures et

    suprieures ne s'cartent pas de plus de de la valeur moyenne. On impose donc

    , ce qui conduit

    On approche par et par si l'cart-type est inconnu.

    Estimation d'une variance

    Nous n'aborderons que le cas de l'estimation de la variance d'une v.a. normale de

    moyenne partir d'un chantillon de valeurs.

    Si est connue (trs rare), alors l'intervalle de confiance (risque) est dfinit par

    avec et o et sont les quantiles d'ordre et de

    la loi du degrs de libert.

  • 7/30/2019 Probabilits et Statistique.pdf

    66/129

    Si est inconnue. La quantit dfinie dans le paragraphe prcdent suit une loi du

    degrs de libert. L'intervalle de confiance (risque) est dfinit par

    o et sont les quantiles d'ordre et de la loi du

    degrs de libert.

    On obtient le rsultat suivant :

    (attention, reprsente ici la confiance) avec lu sur une table du pour degrs de

    libert, d'o l'on tire :

    avec .

    Estimation robuste

    Nous allons dans ce paragraphe reprendre le problme de l'estimation au tout dbut afin de

    montrer qu'il est possible de driver des estimateurs trs diffrents de ceux que nous avons

    abords jusque l. Ces estimateurs relvent du domaine que l'on nomme les statistiquesrobustes et dont Legendre (le crateur de la mthode des moindres carrs) a t le prcurseur

    puisque parlant des carts entre les donnes et l'interprtation, il dclarait (en 1805 dans sapremire publication sur les moindres carrs):

  • 7/30/2019 Probabilits et Statistique.pdf

    67/129

    Si parmi ces erreurs, certaines apparaissent trop importantes pour tre admises, alors les

    observations qui ont gnres ces erreurs seront rejetes, comme provenant d'expriences

    trop peu fiables, et les inconnues seront dtermines grce aux autres observations, qui de ce

    fait induiront moins d'erreurs.

    Subsections

    Interprtation de donnes: l'approche baysienne Le traitement de l'a priori Le traitement de l'a posteriori Le cas monodimensionnel Le cas gnral Estimation itrative

    Interprtation de donnes: l'approche baysienne

    Soient un ensemble de donnes, i.e. un chantillon, et un contexte ( englobera tout cequi n'est pas directement en relation avec le processus sous-jacent aux donnes). Le problme

    de l'estimation est un cas particulier d'un problme plus gnral qui est celui de l'interprtation

    des donnes. Soit cette interprtation. Notre problme est donc de dterminer connaissant

    et . Une approche possible est de choisir l'interprtation la plus probable. C'est dire

    chercher qui maximise la probabilit conditionnelle . Cette probabilit n'est pas

    directement valuable mais on peut se servir du thorme de Bayes.

    d'o l'on dduit

    La maximisation de cette expression se faisant sur l'interprtation , on peut supprimer le

    dnominateur et ne pas tenir compte de la probabilit du contexte . Si de plus on

  • 7/30/2019 Probabilits et Statistique.pdf

    68/129

    suppose que le contexte est indpendant des donnes, on trouve l'interprtation la plus

    probable en maximisant le produit .

    Dans cette expression, est la validation a posteriori des donnes par l'interprtation.

    est l'a priori, indpendant des donnes. Ce deuxime terme traduit le biais qui fait que

    l'on ne part jamais avec tous les modles quiprobables (soit parce que l'on tient compte de

    l'application sous-jacente, soit par habitude ou connaissance).

    Le traitement de l'a priori

    Malheureusement, on ne sait pas traduire l'a priori et donc sa probabilit, c'est pourquoi, on

    suppose toujours qu'il est soit ngligeable soit qu'il contraint suffisamment l'application pour

    que toutes les interprtations possibles soient de la mme catgorie.

    Prenons le cas de l'interprtation de donnes bruites. Dans ce cas, on suppose que les

    donnes sont des prlvements d'un phnomne perturb par un bruit additif , ce qui

    nous donne . Dans ce cas, la probabilit traduisant l'a priori s'crit . Si

    le bruit n'est pas corrl avec le phnomne , on obtient en fait un produit de deux

    probabilits . La maximisation de ce produit ne conduit pas une solution

    unique car les complexits de et s'quilibrent. En effet, pour un jeu de donnes fix, plusle modle sera d'ordre faible plus il faudra supposer un modle de bruit complexe. A l'inverse,

    pour donnes, on peut toujours envisager une forme polynomiale de degr qui prdit

    exactement tous les points, et dans ce cas, le bruit est nul, donc de complexit trs faible.

    Mais avons-nous l'habitude de manipuler des modles d'ordre trs lev ?

    Le traitement de l'a posteriori

    L'a posteriori traduit l'cart entre les donnes et la prdiction faite par l'interprtation /

    modle. Afin de formaliser cet cart, il est ncessaire de faire des hypothses sur la

    distribution des donnes et plus particulirement sur la distribution des carts entre les

    donnes et le modle. Les hypothses minimales sont gnralement au nombre de trois. Soient

    une donne de l'chantillon et la prdiction du modle.

  • 7/30/2019 Probabilits et Statistique.pdf

    69/129

    Symtrie:

    Dcroissance avec le module: dcroit quand croit.

    Indpendance des erreurs:

    Pour aller plus loin, on suppose le plus souvent que la distribution des erreurs suit une loi

    normale de moyenne nulle (pas de biais) et d'cart-type . On peut donc construire la

    fonction de vraisemblance par

    o .

    On peut alors en dduire un estimateur par la recherche du maximum de vraisemblance, ce

    qui conduit la mthode des moindres carrs qui est aborde dans la suite de ce chapitre.

    Depuis l'origine des statistiques, les statisticiens ont toujours ador le fait que la distribution

    de la somme d'un trs grand nombre de petites variations alatoires converge toujours vers

    une distribution normale (cf Thorme central limite).

    Le principal problme de ce choix est que la probabilit d'un cart gal fois est de

    l'ordre de ce qui est beaucoup trop faible pour traduire la frquence d'apparition

    d'un cart trs fort du une donne abrente. De plus, dans le cas de la loi normale, des

    carts doivent se trouver au plus fois l'cart type.

    On peut donc tre amen choisir des distributions dont la dcroissance est moins rapide. Par

    exemple, on peut utiliser la distribution de Cauchy, ou une distribution exponentielle.

    Le cas monodimensionnel

    Prenons le cas de l'estimation d'un paramtre reprsentant un chantillon. Soit ce paramtre.

    Si l'on fait l'hypothse d'une distribution normale des carts, on aboutit l'estimateur

    moyenne. Par contre, si l'on suppose que la distribution est exponentielle ( ),

    on aboutit un autre estimateur (toujours par la mthode du maximum de vraisemblance) tout

    aussi simple, la mdiane.

    Ces deux estimateurs peuvent tre compars grce aux indicateurs que nous avons voqus au

    dbut de ce chapitre. Ils sont tous les deux convergents et sans biais. La complexit de la

  • 7/30/2019 Probabilits et Statistique.pdf

    70/129

    moyenne est de alors que celle de la mdiane est de car il faut faire un tri

    des donnes, la moyenne est donc plus rapide calculer. Par contre, la robustesse de la

    moyenne est asymptotiquement nulle alors que celle de la mdiane est asymptotiquement de

    0.5 ce qui traduit une bien meilleure rsistance au bruit, i.e. aux donnes abrentes.

    Le cas gnral

    Reprenons le cas gnral. On veut maximiser la probabilit o est

    l'cart sur la me donne et la distribution des carts.

    La maximisation de cette probabilit peut se rcrire sous la forme d'une minimisation d'une

    fonction de cot o est le vecteur des paramtres du modle / interprtation .

    avec et o traduit l'incertitude sur la me donne et permet de relativiser

    la valeur de chaque cart.

    Soit . La minimisation de conduit rsoudre le systme de (nombre de

    paramtres) quations:

    Ce systme n'a bien sur pas de solution gnrale et il convient de l'tudier en fonction du

    choix de , ce qui donne une classe d'estimateurs connus sous le nom de M-estimateurs.

    Modle de Legendre:

  • 7/30/2019 Probabilits et Statistique.pdf

    71/129

    C'est le cas le plus connu car il correspond l'hypothse de normalit de la distribution des

    carts. On pose et

    L-estimateur:

    Egalement trs utilis, cet estimateur utilise et donc ce qui

    conduit l'estimateur mdian.

    Modle de Cauchy / Lorentz:

    Comme nous l'avons vu prcdemment, ce modle permet de par la plus lente dcroissance de

    la loi de Cauchy, de mieux rendre compte des apparitions de donnes abrentes.

    et . La systme rsoudre est alors non linaire et il

    faut avoir recours des rsolutions itratives.

    Modle de Huber:

    Dans ce modle, on utilise un seuil qui permet d'avoir la fois une dcroissance rapide (i.e.

    quadratique) si l'cart est faible et de rduire la dcroissance (donc augmenter l'importance)

    des carts forts (au del du seuil). Il ralise un bon compromis entre le modle de Legendre et

    celui du L-estimateur.

    Modle de Tuckey:

    Le modle de Tuckey est du mme type que celui de Hubert mais un peu plus complexe car il

    permet de s'affranchir de la sensibilit au choix du seuil .

  • 7/30/2019 Probabilits et Statistique.pdf

    72/129

    La valeur est appele point de rejet (rejection point) et joue le rle du seuil de Hubert. Lavaleur est la constante de confiance est vaut (cette valeur a t dtermine pour

    obtenir une bonne adquation des carts distribus normalement). La valeur est un facteur

    de dimension qui permet d'adapter le seuil l'talement de la distribution des carts. On peut

    assimiler un cart-type et utiliser l'estimateur correspondant mais Tuckey propose un

    estimateur plus robuste, la mdiane des carts absolus (Median of Absolute Deviation) quivaut

    On peut aussi dterminer le point de rejet en pourcentage du volume de donnes. Par exemple,

    on ellimine les % plus grandes et plus petites valeurs des carts. Une valeur gnralement

    recommande est . La mdiane est le cas extrme de cet estimateur tronqu avec

    .

    R-estimateur (Jaeckel, 1972):

    Le R-estimateur est un cas particulier car il ne s'appuie plus sur des relations linaires mais

    tient compte essentiellement du classement des carts. La fonction de cout est la suivante:

    o est le rang de l'cart dans la liste trie des carts. La fonction est normalise

    telle que . Par exemple, Wilcoxon a propos la fonction suivante

    .

    Les tests de Kolmogorov-Smirnov et de Spearman sont d'autres exemples de R-estimateurs.

    Le modle L.M.S. (Least Median of Squares, Rousseeuw, 1984):

  • 7/30/2019 Probabilits et Statistique.pdf

    73/129

    Le vecteur de paramtres est la solution de . Si la robustesse de cet

    estimateur, , est asymptotiquement gale , sa complexit est relativement leve

    .

    Estimation itrative

    Tous les estimateurs que nous avons abords sont des mthodes directes, et, le plus souvent, ilfaut faire un compromis entre efficacit et faible complexit d'une part, et robustesse d'autre

    part.

    Pour cela on peut procder en plusieurs tapes pour essayer de combiner tous les avantages.

    Dans un premier temps, un estimateur classique non robuste permet de quantifier l'adquation

    de chaque donne au modle, i.e. par l'cart. Chaque donne est alors affecte d'un poids, le

    plus souvent inversement proportionnel l'cart. On peut alors itrer le processus

    d'estimation. L'hypothse sousjacente est qu'une donne abrente aura un cart initial fort et

    donc une adquation et un poids faibles. Il n'interviendra donc que trs peu dans la deuxime

    phase d'estimation. Le processus peut tre itr jusqu' convergence de l'estimation.

    Prenons pour exemple l'estimation de l'esprance mathmatique par la moyenne arithmtique

    partir d'un chantillon . On peut rsumer le processus par l'algorithme

    suivant:

    1. Premire estimation ( ):

    2. Calcul des carts:

    3. Calcul des poids: (cf le chapitre prcdent pour diverses possibilits pour ).

    4. Nouvelle estimation (itration ):

    5. test de convergence: Si non convergence (par exemple et )

    alors retour au pas .

  • 7/30/2019 Probabilits et Statistique.pdf

    74/129

    Dans cet exemple, on augmente la robustesse au bruit avec comme cot une complexit un

    peu plus forte ( au lieu de ). En pratique, on utilise peu d'itrations car le

    processus a tendance rejeter de nouveaux points (i.e. ) chaque itration. Le risque

    est donc non ngligeable de voi le processus converger vers une estimation reposant sur trspeu de donnes (une seule ralisation la limite). On peut, pour viter cet cueil, arrter le

    processus lorsque de la population initiale a un poids nul ou quasi-nul. Puisque l'objectif

    de l'itration est de recherche la robustesse, on fixe le plus souvent .

    Rgression linaire

    La rgression linaire est un cas particulier d'estimation trs usit car trs bien formalis et

    correspondant des modles simples (car linaires). C'est l'outil de base de la modlisation de

    donnes. Une approche trs gnrale de ce problme est fournit dans le cours d'approche

    conceptuelle des systmes. Nous ne traiterons ici que de la facette statistique de ce problme

    mathmatique.

    Subsections

    Formalisation Rsolution dans le cas d'une distribution normale des carts Le cas de la droite Intervalle de confiance sur le coefficient de corrlation

    Formalisation

    Soit une fonction de telle que .

    On souhaite modliser par une approximation linaire caractrise par un vecteur de

    paramtres ( ) telle que .

  • 7/30/2019 Probabilits et Statistique.pdf

    75/129

    L'objectif sera d'estimer le vecteur partir d'un jeu de donnes .

    Pour cela, on peut donc reprendre la formalisation du chapitre prcdent. sera obtenu par

    minimisation de la fonction de cot :

    (On supposera par simplicit que toutes les donnes ont la mme incertitude, ce qui permet de

    ne pas faire intervenir les termes .)

    Rsolution dans le cas d'une distribution normale des carts

    Nous avons vu qu'il est ncessaire dans ce type de problme de faire un choix sur la nature de

    la distribution des carts. Nous adopterons le choix classique de la distribution normale. Dans

    ce cas, nous avons vu que cela revient utiliser . On obtient alors le systme

    d'quations linaires suivant:

    Soit

  • 7/30/2019 Probabilits et Statistique.pdf

    76/129

    Ce systme tant linaire, il a une solution unique sauf si le dterminant du systme est nul.

    On peut montrer que ce cas intervient si il existe une relation linaire d'ordre entre les

    vecteurs . On dit alors que le systme est surdimensionn et un traitement des donnes est

    ncessaire afin d'elliminer pralablement cette dpendance. La dimension du nouveau vecteur

    de paramtres recherch est alors de .

    Le systme rsoudre est de plus symtrique. On peut donc faire appel des techniques

    spcifiques telles que la dcomposition LU (mthode directe de complexit ) ou les

    algorithmes Gauss-Seidel ou Jacobi (mthodes itratives de complexit o est le

    nombre d'itrations ncessaires la convergence). Pour plus de dtails sur ces techniques,

    rfrez vous au cours d'analyse numrique ou tout bon livre sur la rsolution de systmes

    linaires.

    Le cas de la droite

    Nous abordons ici le cas limit o le modle est une droite. On parle aussi de regression

    linaire simple. On a alors et . Le systme linaire rsoudre

    s'crit:

    Ce systme a une solution unique si et seulement si .

  • 7/30/2019 Probabilits et Statistique.pdf

    77/129

    On peut considrer que les donnes constituent un chantillon d'une v.a. que l'on

    peut caractriser par sa moyenne et sa variance estimes. La condition

    d'existence d'une solution est donc ce qui quivaut direqu'il faut simplement que les donnes de l'chantillon ne soient pas toutes identiques. Le

    systme peut alors se rcrire sous la forme:

    dont la solution analytique est:

    Les v.a. et sont relies par la relation o et sont les valeurs vraies.

    On a vu dans ce cas que et . On

    peut donc relier la valeur estime la valeur vraie par:

    L'estimation sera donc parfaite si les v.a. et sont parfaitement corrles (i.e.

    ). Plus cette corrlation sera faible, moins bonne sera l'estimation. Le

    coefficient de corrlation est donc un bon indicateur de la qualit de la rgression linaire

    simple. De mme, pour le paramtre , on sait que . Donc,

  • 7/30/2019 Probabilits et Statistique.pdf

    78/129

    L encore, l'estimation sera d'autant meilleure que la corrlation sera proche de 1. Cependant,

    on constate que et interviennent comme un gain sur l'erreur due la corrlation non

    parfaite. L'estimation de sera donc plus vite dgrade que celle de .

    Intervalle de confiance sur le coefficient de corrlation

    On peut dterminer un intervalle de confiance sur le coefficient de corrlation (afin de

    quantifier la qualit de la rgression) grce l'introduction de la transformation donne

    par :

    et

    L'intervalle de confiance est dfini par

    avec o est une loi normale centre rduite.

    Grce la relation liant les variables et , on peut obtenir l'intervalle de confiance sur .

  • 7/30/2019 Probabilits et Statistique.pdf

    79/129

    Exemple : Soit obtenu sur un chantillon de taille . On souhaite construire