aide mémoire statistique et probabilités

488
2 e édition

Upload: chah1990

Post on 10-Jun-2015

6.022 views

Category:

Technology


5 download

DESCRIPTION

this a file for probability for engineers

TRANSCRIPT

  • 1. AIDE-MMOIRE DE LINGNIEURR. VEYSSEYRERene VeysseyreSTATISTIQUEET PROBABILITSPOUR LINGNIEURPOUR LINGNIEUR2e dition ET PROBABILITSCet aide-mmoire rassemble toutes les dfinitions,RENEE VEYSSEYRE STATISTIQUElois et formules du calcul des probabilits et de laest agrgestatistique utiles lingnieur en activit aussi bien de mathmatiqueset professeur honorairequ ltudiant en formation. lcole centrale La premire partie donne les principales dfinitions, de Paris.et propose un rsum de tous les rsultats que lonpeut obtenir partir dun tableau de donnes. La deuxime partie donne le vocabulaire du calculdes probabilits et tudie les principales loisdiscrtes et continues. La troisime partie traite des problmes rencontrspar lingnieur dans le domaine de la dcision :chantillonnage, estimation et tests dhypothse,tests de comparaison, tests dajustement, rgression. La quatrime partie propose un rsum de lanalysedes donnes.Cette nouvelle dition a t augmente dun chapitresur la rgression multiple. 2e ditionISBN 2 10 049994 7 www.dunod.com

2. lims Page I Jeudi, 10. aot 2006 11:21 11 Rene Veysseyre Aide-mmoire Statistique et probabilits pour lingnieur 2e dition 3. lims Page II Jeudi, 10. aot 2006 11:21 11 Dunod, Paris, 2001, 2006 ISBN 2 10 049994 7 4. i i doc 2006/8/9 11:52 page III #1i iTABLE DES MATIRES Principales notations XI A Statistique descriptive 1 Reprsentation graphique et numrique des donnes31.1 Gnralits et principales dnitions 31.2 Sries numriques une dimension 71.3 Sries numriques deux dimensions26 BCalcul des probabilitsc Dunod La photocopie non autorise est un dlit 2 Le modle probabiliste332.1 Introduction 332.2 Les concepts probabilistes 352.3 Mesure de probabilit et espace probabilis402.4 chantillons et sous-populations 41 3 Probabilit conditionnelle. Indpendance423.1 Dnition423.2 Principe des probabilits composes443.3 vnements indpendants44IIIi ii i 5. iidoc 2006/8/9 11:52 page IV #2ii3.4 Indpendance deux deux et indpendance mutuelle 453.5 Thorme de Bayes 46 4 Variables alatoires relles494.1 Gnralits sur les variables alatoires494.2 Fonction de rpartition 524.3 Densit de probabilit544.4 Discontinuits dune fonction de rpartition et lois discrtes564.5 Loi de probabilit dune variable alatoire Y fonctiondune variable alatoire X574.6 Indpendance de deux variables alatoires 584.7 Moments dune variable alatoire59 5 Lois de probabilit discrtes 675.1 Dnition dune variable discrte 675.2 Loi de Dirac695.3 Loi uniforme705.4 Loi binomiale ou loi des tirages avec remise715.5 Loi multinomiale775.6 Loi hypergomtrique ou loi du tirage exhaustif 805.7 Loi de Poisson835.8 Lois limites845.9 Rsum87 6 Lois de probabilit continues 896.1 Gnralits 896.2 Loi uniforme906.3 Loi exponentielle 926.4 Loi gamma 956.5 Lois bta de types I et II976.6 Loi de Laplace-Gauss ou loi normale1006.7 Loi log-normale109 7 Convolution. Fonctions caractristiques. Convergences stochastiques1127.1 Convolution112IViiii 6. ii doc 2006/8/9 11:52 page V #3ii7.2Fonction caractristique1167.3Convergence des suites de variables alatoires1207.4Lois des grands nombres 1247.5Thorme central limite 125 8 Variables alatoires simultanes1278.1tude dun couple de variables alatoires discrtes 1278.2tude dun couple de variables alatoires continues 1328.3Extension des vecteurs alatoires 1398.4Application : loi normale multidimensionnelle 141 9 Processus alatoires1469.1Dnitions1479.2Processus quivalents 1489.3Moments 1499.4Continuits 1499.5Processus stationnaires 1509.6Exemples de processus alatoires1539.7Martingale1549.8Mouvement brownien1569.9Marche au hasard1579.10 Processus et chanes de Markov1589.11 Processus ponctuels 166c Dunod La photocopie non autorise est un dlit9.12 Application aux phnomnes dattente170 C Statistique infrentielle 10 Caractristiques dun chantillon.Application aux chantillons gaussiens 17910.1 Introduction17910.2 Dnition dun chantillon alatoire18010.3 Caractristiques dun chantillon alatoire 181Viiii 7. i i doc 2006/8/9 11:52 page VI #4i i10.4 Distribution du chi-deux 18510.5 Distribution de Fisher-Snedecor18810.6 Distribution de Student19010.7 Cas particulier des chantillons gaussiens 192 11 Lois des valeurs extrmes. chantillons articiels19511.1 chantillons ordonns et statistique dordre 19511.2 Loi de la variable X(k) , ralisation de rang k19811.3 Loi de la variable X(n) , plus grande valeur observe19911.4 Loi de la variable X(1) , plus petite valeur observe20211.5 chantillons articiels et simulation203 12 Thorie de lestimation 21012.1 Expos du problme et exemples 21012.2 Dnition dune statistique21212.3 Statistique exhaustive 21312.4 Information de Fisher218 13 Estimation ponctuelle 22013.1 Dnition dun estimateur22013.2 Principales qualits dun estimateur 22113.3 Estimateur sans biais de variance minimale 22713.4 Prcision intrinsque dun estimateur et ingalit de Cramer-Rao 22813.5 Mthode du maximum de vraisemblance (MV) 22913.6 Extension au cas de plusieurs paramtres 232 14 Estimation par intervalle de conance 23514.1 Dnition dun intervalle de conance23514.2 Exemples dintervalles de conance 23814.3 Estimation et intervalle de conance dans le cas dune population deffectif ni253 15 Les tests statistiques25515.1 Notions gnrales sur les tests statistiques 25515.2 Diffrentes catgories de tests statistiques 263VIi ii i 8. i idoc 2006/8/9 11:52 page VII #5i i15.3 Test entre deux hypothses simples et mthode de Neyman et Pearson26415.4 Tests entre deux hypothses composites26715.5 Principaux tests paramtriques270 16 Tests dajustement et de comparaison 27716.1 Tests dajustement27716.2 Tests de comparaison dchantillons 28916.3 Analyse de la variance simple entre299 17 Tests dindpendance 30617.1 Variables quantitatives 30617.2 Variables ordinales et corrlation des rangs30817.3 Concordance de p classements31317.4 Liaison entre une variable quantitative et une variable qualitative 31417.5 Liaison entre deux variables qualitatives 316 18 Fiabilit32118.1 Gnralits et principales dnitions 32118.2 Dnition mathmatique de la abilit 32218.3 Taux de dfaillance 32418.4 Fiabilit dun matriel usag 32618.5 Fiabilit en cas de remplacement prventif327c Dunod La photocopie non autorise est un dlit18.6 Esprance de vie32818.7 Exemples de lois de abilit32818.8 Fiabilit dun systme en fonction de celle de ses composants 332 D Analyse des donnes 19 Introduction lanalyse des donnes 33719.1 chantillon dune variable alatoire33819.2 chantillon dun couple de variables alatoires 343VIIi ii i 9. i i doc 2006/8/9 11:52 page VIII #6i i19.3 chantillon de p variables alatoires 34519.4 Prsentation des principales mthodes 348 20 Rgression linaire simple35220.1 Introduction35220.2 Mesures de liaison35320.3 Choix des variables 35420.4 Modle thorique de la rgression simple35520.5 Ajustement du modle de rgression linaire sur des donnes exprimentales35720.6 tude de la rgression linaire (aspects descriptifs) 35920.7 tude de la rgression linaire (aspects infrentiels)36320.8 tude dune valeur prvisionnelle 37120.9 Conclusions 375 21 Rgression multiple. Modle linaire gnral37621.1 Introduction 37621.2 Rgression entre variables alatoires37721.3 Modle linaire gnral38221.4 Estimations des paramtres du modle de rgression (Y, Xb, s2 In ) 38521.5 Estimation du paramtre b du modle linaire38721.6 Tests dans le modle linaire 38721.7 Intervalle de prvision 39021.8 Corrlations39021.9 Fiabilit de la rgression393 22 Analyse de la variance41022.1 Gnralits et but de la thorie41022.2 Analyse de la variance double entre41122.3 Analyse de la variance orthogonale entres multiples41922.4 Analyse de la variance embote 42222.5 Carr latin 427VIIIi ii i 10. i idoc 2006/8/9 11:52 page IX #7i i Annexes Analyse combinatoire 433 Rappels mathmatiques436 Tables statistiques442 Bibliographie467 Index471c Dunod La photocopie non autorise est un dlit IXi ii i 11. iidoc 2006/8/9 11:52 page X #8iiiiii 12. i idoc 2006/8/9 11:52 page XI #9i i PRINCIPALES NOTATIONS N Ensemble des entiers positifs ou nuls (on dit aussi les entiers naturels). NEnsemble des entiers strictement positifs (cet ensemble ne contient pas 0). Z Ensemble des entiers de signes quelconques. ZEnsemble Z sauf 0. R Ensemble des entiers de signes quelconques. R1Ensemble des entiers positifs ou nuls. REnsemble des entiers non nuls. Cardinal dun ensemble ni (abrviation card) : Lentier naturel qui indique le nombre de ses lments. Cardinal dun ensemble inni : un nombre appel aleph. 1[a, b] fonction caractristique de lensemble [a, b] gale 1 pour les points de cet ensemble et 0, sinon. Notation de la fonction exponentielle :c Dunod La photocopie non autorise est un dlit ea ou exp a (la deuxime notation est utilise pour viter dcrire un exposant trop long). Notation de la fonction logarithme : ln dsigne le logarithme nprien et log le logarithme base 10 sauf dans le cas de la loi log-normale. Factorielle n! 5 n(n 1)(n 2)...2 3 1. Matrice transpose : La matrice t A transpose de la matrice A est obtenue en permutant lignes et colonnes. XIi ii i 13. i idoc 2006/8/9 11:52 page XII #10i ii ii i 14. i idoc 2006/8/9 11:52 page 1 #11i i A Statistique descriptivei ii i 15. i idoc 2006/8/9 11:52 page 2 #12i ii ii i 16. ii doc 2006/8/9 11:52 page 3 #13ii 1 REPRSENTATION GRAPHIQUE ET NUMRIQUEDES DONNES 1.1 Gnralits et principales dnitions A Ce premier chapitre donne les dnitions et les proprits des principales no- STATISTIQUE DESCRIPTIVE tions utiles pour comprendre et traiter un problme de statistique. La statistique descriptive a pour but : de dgager les proprits essentielles que lon peut dduire dune accumu-lation de donnes ; de donner une image concise et simplie de la ralit. Le rsultat dune observation, dune mesure, nest pas gale la valeur tho- rique calcule ou espre par lingnieur ; la rptition dune mme mesure,c Dunod La photocopie non autorise est un dlit ralise dans des conditions qui semblent identiques, ne conduit pas tou- jours aux mmes rsultats. Ces uctuations, dues des causes nombreuses, connues ou inconnues, contrles ou non, crent des difcults aux ing- nieurs et aux scientiques. Quel rsultat doivent-ils prendre ? Quel degr de conance peuvent-ils accorder la dcision prise ? Les rponses une enqute varient dun individu un autre ; quelles conclusions valables peut-on tirer dun sondage ? Les mthodes de la statistique descriptive apportent des r- ponses ces problmes. Pour tre soumis un traitement statistique, un tableau de donnes doit com- porter au moins une variable de nature alatoire. Une dnition simple du caractre alatoire dune variable est quelle peut prendre au hasard des valeurs diffrentes.3iiii 17. ii doc 2006/8/9 11:52 page 4 #14ii 1 Reprsentation1.1 Gnralits et principalesgraphique et numriquednitions des donnes1.1.1 Population et individusEnsemble statistique ou population : runion des individus sur lesquels on tu-die une ou plusieurs proprits.Unit statistique : chaque individu.Une population doit tre correctement dnie an que lappartenance dunindividu cette population soit reconnue sans ambigut.Exemple 1.1Une usine fabrique des tiges mtalliques utilises dans lassemblage de certainesstructures. Pour tudier la rsistance la traction de ces tiges, on mesure cettersistance pour un lot de 100 tiges.Proprit tudie : la rsistance la traction de tiges mtalliques.Population statistique : lensemble des 100 tiges ou des 100 mesures.Unit statistique : chacune des tiges ou chacune des 100 mesures.1.1.2 Caractres et variables statistiquesCaractresOn sintresse certaines particularits ou caractres des individus dune popu-lation statistique : un seul caractre tudi, srie numrique une dimension (paragraphe 1.2), deux caractres tudis, srie numrique deux dimensions (para- graphe 1.3), plus de deux caractres, on doit utiliser les techniques de lanalyse multidi- mensionnelle (voir chapitres 19 et suivants).Les caractres tudis peuvent tre : le poids, la taille, le niveau dtudes, la catgorie socioprofessionnelle, lelieu dhabitation..., dans le secteur des sciences humaines, le poids, la masse, la composition..., dans le secteur des sciences techniques.ModalitsUn caractre peut prendre diffrentes modalits. Ces modalits doivent treincompatibles et exhaustives an que lappartenance ou la non-appartenance4iiii 18. iidoc 2006/8/9 11:52 page 5 #15ii1 Reprsentation1.1 Gnralits et principales graphique et numriquednitionsdes donnes dun individu une modalit soit dnie sans ambigut. Un caractre peut tre : quantitatif, les modalits sont mesurables ou reprables, qualitatif, les modalits ne sont pas mesurables. Variables statistiques ou alatoires Une variable statistique ou alatoire est un caractre faisant lobjet dune tude statistique. Elle peut donc tre qualitative ou quantitative. Une variable quantitative est appele : discrte si elle prend un nombre ni de valeurs souvent entires, continue si elle prend toutes les valeurs dun intervalle ni ou inni. Remarque En toute rigueur, une variable statistique ne peut jamais tre continue, le degr A de prcision des mesures ou des appareils entranant toujours des discontinuits STATISTIQUE DESCRIPTIVE dans les rsultats. Une variable statistique ou alatoire est note par une lettre majuscule X , Y , et les valeurs quelle prend par des lettres minuscules x1 , x2 ..., y1 , y2 ... 1.1.3 chantillon chantillon : groupe restreint, ou sous-ensemble, issu de la population.c Dunod La photocopie non autorise est un dlit chantillon alatoire : les rsultats recueillis sur ce sous-ensemble doivent pou- voir tre tendus, cest--dire infrs, la population entire. Pour dnir un tel chantillon, une mthode consiste prlever, au hasard, un sous-ensemble dindividus, en utilisant, par exemple, des tables de nombres au hasard (chapitre 11, paragraphe 11.5). 1.1.4 Frquences absolues, relatives, cumules Dans le cas des variables discrtes, on appelle : Frquence absolue ni ou effectif, associe une valeur xi de la variable ala- toire X , le nombre dapparitions de cette variable dans la population ou dans lchantillon. 5iiii 19. ii doc 2006/8/9 11:52 page 6 #16ii 1 Reprsentation 1.1 Gnralits et principalesgraphique et numrique dnitions des donnes Frquence relative, associe la valeur xi de la variable alatoire X , le nombre nfi 5 ino ni est la frquence absolue et n le nombre total de donnes. Frquence cumule absolue, associe une valeur xi de la variable, le nombredindividus dont la mesure est infrieure ou gale xi .iNi 5nkk51On dnit la frquence cumule relative :i Fi 5 fkk51Exemple 1.2 Dfauts relevs sur une pice de tissuUn fabricant de tissu essaie une nouvelle machine ; il compte le nombre de dfautssur 75 chantillons de 10 mtres. Il a trouv les rsultats suivants : Tableau 1.1 Nombre de dfauts sur une pice de tissus. Nombre k de dfauts0123 4 5 Nombre nk dchantillons 38 15 11 6 3 2Nombre dindividus : les 75 chantillons.Frquence absolue associe la valeur k, le nombre nk : par exemple, sur les 75chantillons examins, 11 prsentent k 5 2 dfauts, donc si k 5 2, nk 5 11.Frquence relative associe la valeur k : le quotient nk /n.11/75 5 0,146 est la frquence relative associe la valeur k 5 2.Frquence cumule absolue associe la valeur k : le nombre dchantillons ayantau plus k dfauts (k compris).38 1 15 1 11 5 64 est la frquence cumule absolue associe la valeur k 5 2.Frquence cumule relative associe la valeur k, le nombre dchantillons ayantau plus k dfauts (k compris) divis par n. 64/75 5 0,853 est la frquence cumule relative associe la valeur k 5 2.Les frquences relatives et les frquences cumules relatives peuvent tre utili-ses pour comparer deux ou plusieurs populations.6iiii 20. i i doc 2006/8/9 11:52 page 7 #17i i1 Reprsentation1.2 Sries numriques graphique et numrique une dimensiondes donnes Dans le cas dune distribution continue, les donnes sont en gnral regrou- pes en classes (paragraphe 1.2.1). Les frquences absolues, relatives et cumu- les sont dnies par rapport aux classes et non par rapport aux valeurs de la variable. 1.2 Sries numriques une dimension 1.2.1 Reprsentation graphique des donnes En prsence dun ensemble de donnes associes un seul caractre, on doit : ranger ces donnes par valeurs non dcroissantes (ou non croissantes) et dterminer les frquences absolues, relatives et cumules, visualiser ces donnes laide dun diagramme en btons pour des variables discrtes ou dun histogramme pour des variables continues.A Rangement des donnes par valeurs non dcroissantesSTATISTIQUE DESCRIPTIVE Variables discrtes Tableau 1.2 Donnes discrtes.ValeursFrquencesFrquences Frquences Frquences de lacumulescumulesabsolues relativesvariableabsoluesrelatives i xini fi NiFi 5 fkk51c Dunod La photocopie non autorise est un dlitExemple 1.3 Dfauts relevs sur une pice de tissu (suite)On complte le tableau 1.1 en calculant les frquences relatives fi , toutes les fr-quences absolues cumules Ni et les frquences relatives cumules Fi .Tableau 1.3 tude statistique du nombre de dfauts sur une pice de tissu.Nombre nifiNi Fi de dfauts0380,506380,5061150,20 53 5 38 1 150,7062110,14664 5 53 1 110,8533 60,08 70 5 64 1 6 0,9334 30,04 73 5 70 1 3 0,9735 20,02675 5 73 1 2 17i ii i 21. ii doc 2006/8/9 11:52 page 8 #18ii 1 Reprsentation 1.2 Sries numriquesgraphique et numrique une dimension des donnesVariables continuesLes donnes sont regroupes en k classes.Une classe est dnie par ses extrmits ei1 , ei et son effectif ni .Effectif dune classe ou frquence absolueLe nombre ni de valeurs de la variable X telles que : ei1X < ei .Amplitude dune classeLa quantit ei ei1 .Frquence cumule relativeiFi 5 fk k51avec F1 5 f1 . Elle donne la proportion des individus tels que X < ei . Tableau 1.4 Donnes continues.ClassesEffectifs Frquences absoluesFrquences cumules ei1X < ei ni fi NiExemple 1.4 Essais de abilit de dispositifs lectroniques100 dispositifs identiques ont t soumis un test de abilit ; on a not la durede vie, en heures, jusqu dfaillance (n de laptitude du dispositif remplir lafonction requise). Tableau 1.5 Dure de vie de 100 dispositifs identiques. Dure de vieNombre niFrquence FrquenceFrquence (en heures)de dispositifsrelative ficumulecumule (frquenceabsolue relative Fi absolue)0 X < 150 300,30 30 0,30150 X < 300 150,15 45 0,45300 X < 450 120,12 57 0,57450 X < 600 100,10 67 0,67600 X < 75080,08 75 0,75750 X < 90080,08 83 0,83900 X < 1 05080,08 91 0,911 050 X < 1 20060,06 97 0,971 200 X < 1 35030,03100 1La variable statistique dure de vie des dispositifs est une variable continue.8iiii 22. iidoc 2006/8/9 11:52 page 9 #19ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Les classes peuvent tre dgale amplitude ou non ; on choisit, soit le nombre de classes, soit lamplitude des classes. Dans lexemple 1.4, les classes sont dgale amplitude (150 heures). Le nombre de classes ne doit pas tre trop petit, perte dinformations, ni trop grand, le regroupement en classes est alors inutile et de plus, certaines classes pourraient avoir des effectifs trop faibles. En gnral, le nombre de classes est compris entre 5 et 20 ; il dpend du nombre n dobservations et de ltalement des donnes. La formule de Sturges donne une valeur approximative du nombre k de classes :k 5 1 1 3,222 log10 n do le nombre de classes selon les valeurs de n (tableau 1.6). Tableau 1.6 Effectif n de lchantillon et nombre k de classes.n 10 10 < n35 n70 n 90 n 150 n 300 n 620 n A < 35< 70< 90 < 150< 300 < 620 < 1 300 STATISTIQUE DESCRIPTIVE4 5 6 78 910 11 La premire ligne donne leffectif de lchantillon tudi et la deuxime ligne, le nombre correspondant k de classes.Amplitude des classes Elle est gale E /k o E 5 xmax xmin est ltendue de la srie des observations (si les classes sont dgale amplitude). Si au contraire, on commence par dnir lamplitude des classes, on ne doitc Dunod La photocopie non autorise est un dlit pas choisir cette amplitude trop faible, le nombre de classes est alors trop lev ni trop grande, le nombre de classes est alors trop petit par rapport celui que donne la formule de Sturges. Les valeurs dune classe sont assimiles la valeur centrale ou centre de la classe gale :ei1 1 ei2 Le regroupement en classes fait perdre aux individus leur caractre propre ainsi que les dtails ns des distributions. Exemple 1.5 Essais de abilit de dispositifs lectroniques (suite) 30 dispositifs ont une dure de vie comprise entre 0 et 150 heures, on admet que ces 30 dispositifs ont tous une dure de vie gale 75 heures. 9iiii 23. i idoc 2006/8/9 11:52 page 10 #20i i1 Reprsentation1.2 Sries numriques graphique et numrique une dimensiondes donnes De mme, 10 dispositifs ont une dure de vie comprise entre 450 et 600 heures que lon prend gale 525 heures. Le diagramme en feuilles On dcompose une donne numrique en deux parties : la tige qui comprend le premier ou les deux premiers chiffres, la feuille qui comprend les autres chiffres. On crit les tiges les unes sous les autres et en regard de chaque tige, les feuilles correspondantes ; tiges et feuilles sont spares par un trait vertical. Exemple 1.6 Exemple de diagramme en feuilles Le tableau 1.7 donne le poids en grammes de 25 prouvettes.Tableau 1.7 Poids de 25 prouvettes.250253 256 258 260 261 263 265 270271272 273 274 276 276 279 279 281284285 286 287 288 290 290 Comme tige, on choisit les deux premiers chiffres de chaque mesure, cest--dire 25, 26, 27, 28 et 29. Les feuilles sont alors constitues du dernier chiffre de la mesure :25 0 3 6 826 0 1 3 527 0 1 2 3 4 6 6 9 928 1 4 5 6 7 829 0 0 Le diagramme indique que le poids moyen se situe entre 270 et 280 g et quil doit tre voisin de 270 g. Les diffrents modes de reprsentation graphique des donnes Les reprsentations graphiques permettent davoir rapidement une vue den- semble dun tableau de donnes. Variables discrtes : diagramme en btons En abscisses, on porte les diffrentes valeurs xi prises par la variable X . Puis, on trace un bton dont la longueur est proportionnelle ni ou fi ; dans le deuxime cas, on peut ventuellement comparer deux sries de donnes.10i ii i 24. i idoc 2006/8/9 11:52 page 11 #21i i1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnesExemple 1.7 Classement de 100 familles en fonction du nombredenfantsOn a relev le nombre denfants de 100 familles choisies au hasard. Le tableau 1.8donne les principales caractristiques de cette tude. Tableau 1.8 Statistique sur le nombre denfants de 100 familles. xi0123 4567Total ni20 25 30 105532100 fi0,20 0,25 0,30 0,100,05 0,05 0,03 0,02 1 Fi0,20 0,45 0,75 0,850,90 0,95 0,98 1xi nombre denfants compris entre 0 et 7.ni nombre de familles ayant xi enfants.fi frquence relative des familles ayant xi enfants.Fi frquence cumule des familles ayant au plus xi enfants.ASTATISTIQUE DESCRIPTIVE0,30,20,1c Dunod La photocopie non autorise est un dlit0012 3 4567 Figure 1.1 Diagramme en btons de la distribution de lexemple 1.7. Variables continues ou rparties en classes Histogramme et proprits Un histogramme est constitu de rectangles juxtaposs dont la base corres- pond lamplitude de chaque classe et dont la surface est proportionnelle la frquence absolue ou relative de cette classe. Lhistogramme est un outil statistique facile utiliser, donnant rapidement une image du comportement dun procd industriel et lallure globale de la 11i ii i 25. ii doc 2006/8/9 11:52 page 12 #22ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes distribution ; il montre ltalement des donnes et apporte ainsi des rensei- gnements sur la dispersion et sur les valeurs extrmes ; il permet de dceler, ventuellement, des valeurs aberrantes. Polygone de frquences Il permet de reprsenter sous forme de courbe, la distribution des frquences absolues ou relatives. Il est obtenu en joignant, par des segments de droite, les milieux des cts suprieurs de chaque rectangle de lhistogramme. Pour fermer ce polygone, on ajoute chaque extrmit une classe de frquence nulle. Exemple 1.8 tude de la dispersion dun lot de 400 rsistances On a contrl 400 rsistances dont la valeur nominale est gale 100 kV et on a regroup les rsultats en classes damplitude 2 kV qui reprsente environ le dixime de la dispersion totale de lchantillon contrl. Tableau 1.9 tude statistique des mesures de la rsistance dun lot de 400 pices.Classe Limites ni Ni fiFides classesI[92, 94[10 10 0,025 0,025II [94, 96[15 25 0,03750,0625III[96, 98[40 65 0,100,1625IV [98, 100[ 60125 0,150,3125V [100, 102[ 90215 0,225 0,5375VI[102, 104[ 70285 0,175 0,7125VII [104, 106[ 50335 0,125 0,8375VIII[106, 108[ 35370 0,08750,925IX[108, 110[ 20390 0,050,975X [110, 112[ 10400 0,025 1 Les classes tant toutes de mme amplitude, lhistogramme est facile tracer ; il suft de construire des rectangles dont laire est proportionnelle la frquence des rsistances de la classe correspondante. Courbes de frquences cumules Courbe cumulative croissante : on joint les points ayant pour abscisses la limite suprieure des classes et pour ordonnes les frquences cumules croissantes12iiii 26. ii doc 2006/8/9 11:52 page 13 #23ii 1 Reprsentation 1.2 Sries numriquesgraphique et numrique une dimension des donnes 100908070605040302010 0 190 92 94 96 98 100 102 104 106 108 110 112 114 Figure 1.2 Histogramme de la distribution de lexemple 1.8 et polygone de frquence. correspondant la classe considre (pour le premier point, on porte la va-A leur 0). Elle donne le nombre dobservations infrieures une valeur quel- STATISTIQUE DESCRIPTIVE conque de la srie. Courbe cumulative dcroissante : la construction de cette courbe est analogue la prcdente. Les points ont pour abscisses, les limites infrieures des classes et pour ordonnes, les frquences cumules dcroissantes (pour le dernier point, la valeur est 0). Elle donne le nombre dobservations suprieures une valeur quelconque de la srie.1c Dunod La photocopie non autorise est un dlit0 192 94 96 98 100 102 104 106 108 110 112 Figure 1.3 Courbe cumulative croissante (trait plein) et courbe cumulative dcroissante (trait pointill) de la distribution de lexemple 1.8.13iiii 27. ii doc 2006/8/9 11:52 page 14 #24ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Autres modes de reprsentations graphiques On dnit des diagrammes secteurs circulaires et des diagrammes rectangles horizontaux. Le diagramme secteurs circulaires consiste en un cercle dcoup en secteurs circulaires ; laire de chaque secteur, reprsentant la proportion des diffrentes composantes dun tout, est proportionnelle aux frquences, relatives ou abso- lues. Le diagramme rectangles horizontaux est dni de faon analogue. Un autre mode de reprsentation est la bote moustaches ou box-plot (voir paragraphe 1.2.2, Quantiles). 1.2.2 Reprsentation numrique des donnes Une srie de donnes peut tre rsume par quelques valeurs numriques ap- peles caractristiques des sries statistiques, classes en quatre grandes catgo- ries : les caractristiques de tendance centrale, les caractristiques de dispersion, les caractristiques de forme, les caractristiques de concentration. Caractristiques de tendance centrale Elles donnent une ide de lordre de grandeur des valeurs constituant la srie ainsi que la position o semblent se concentrer les valeurs de cette srie. Les principales caractristiques de tendance centrale sont la moyenne arithmtique, la mdiane, la mdiale, le mode et les quantiles. Moyenne arithmtique Dnition et calcul Pour calculer la moyenne arithmtique, deux cas sont distinguer selon la faon dont les donnes ont t recueillies. Cas 1 : n donnes non rparties en classes :n1 x5 xin i5114iiii 28. iidoc 2006/8/9 11:52 page 15 #25ii 1 Reprsentation 1.2 Sries numriquesgraphique et numrique une dimension des donnes Cas 2 : n donnes rparties en k classes, la classe i tant deffectif absolu ni et deffectif relatif fi :k k 1x5 ni xi 5 fi xi n i51i51 Changement dorigine et changement dchelle On pose pour toutes les donnes, yi 5 axi 1 b, a et b tant des constantes ; on obtient : y 5 ax 1 b Proprits La moyenne arithmtique permet de rsumer par un seul nombre la srie statistique. Elle prend en compte toutes les valeurs de la srie et elle est facile calculer.A Elle est sensible aux valeurs extrmes, il est parfois ncessaire de supprimer STATISTIQUE DESCRIPTIVE des valeurs extrmes ou aberrantes . La quantit ei 5 xi x est lcart de la valeur xi la moyenne arithmtique. La moyenne arithmtique des carts ei est nulle. Mdiane Me Dnition et calcul La mdiane est plutt une moyenne de position.c Dunod La photocopie non autorise est un dlit La mdiane est la valeur, observe ou possible, dans la srie des donnes classes par ordre croissant (ou dcroissant) qui partage cette srie en deux parties comprenant exactement le mme nombre de donnes de part et dautre de M e . Comme pour la moyenne arithmtique, on distingue deux cas. Cas 1 : n donnes non rparties en classes : pour une srie ayant un nombre impair de donnes, la mdiane est unevaleur observe de la srie ; pour une srie ayant un nombre pair de donnes, on peut prendre pourvaleur mdiane, indiffremment lune ou lautre des valeurs centrales ounimporte quelle valeur intermdiaire entre ces deux valeurs, par exemple,la moyenne arithmtique de ces deux valeurs, mais, dans ces conditions, cenest pas une valeur observe.15iiii 29. iidoc 2006/8/9 11:52 page 16 #26ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Cas 2 : n donnes rparties en k classes. La mdiane est obtenue : soit par interpolation linaire lintrieur de la classe centrale, si le nombre de classes est impair, soit en prenant la moyenne des deux classes centrales , si le nombre de classes est pair. Pour faire ce calcul, on suppose implicitement que la distribution est uniforme lintrieur de chaque classe. Proprits Le calcul de la mdiane est rapide. La mdiane nest pas inuence par les valeurs extrmes ou aberrantes. La mdiane est inuence par le nombre des donnes mais non par leurs valeurs, elle ne peut donc pas tre utilise en thorie de lestimation. Si la variable statistique est discrte, la mdiane peut ne pas exister ; elle correspond seulement une valeur possible de cette variable. La mdiane est le point dintersection des courbes cumulatives croissante et dcroissante. La mdiane ne se prte pas aux combinaisons algbriques ; la mdiane dune srie globale ne peut pas tre dduite des mdianes des sries composantes.Exemple 1.9 Dispersion dun lot de 400 rsistances (suite)Calcul de la moyenne arithmtique : 1 x5 (93 3 10 1 95 3 15 1 97 3 40 1 1 111 3 10) 5 101,90400La moyenne arithmtique est gale 101,90 kV.Mdiane : la srie des observations comporte un nombre pair de classes. Onpeut dnir une classe mdiane comme la moyenne des classes V et VI, cest--dire la classe ctive [101, 103[ donc une rsistance gale 102 kV.Un calcul plus prcis consiste chercher la valeur de la rsistance de lindi-vidu occupant le rang 200 (ou 200,5 !). Ne connaissant pas la distribution lintrieur des classes, on fait une interpolation linaire. Le tableau de lexemple1.8 montre que cet individu appartient la classe V.125 rsistances ont une valeur nominale infrieure 100 kV et 215 rsistancesont une valeur nominale infrieure 102 kV do le calcul de la mdiane :2 3 (200 125) 100 1 5 101,66(215 125)16iiii 30. i idoc 2006/8/9 11:52 page 17 #27i i1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnesLa mdiane est gale 101,66 kV. Donc, 200 rsistances ont une valeur nomi-nale infrieure ou gale 101,66 kV et 200 rsistances ont une valeur nominalesuprieure 101, 66 kV.Le point dintersection des deux courbes cumulatives a pour abscisse la mdiane.Exemple 1.10 tude de deux sries dobservationsOn considre les sries dobservations suivantes.Srie I : 5 observations classes par ordre croissant, 2, 5, 8, 11, 14Moyenne arithmtique 8, mdiane 8Srie II : 6 observations classes par ordre croissant, 6, 6, 14, 16, 18, 18Moyenne arithmtique 13, mdiane 15Srie III : les deux sries prcdentes runies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18, 18Moyenne arithmtique 10,72, mdiane 11A Mode ou valeur dominante M0STATISTIQUE DESCRIPTIVE Le mode est une moyenne de frquence. Dnition Le mode est la valeur de la variable statistique la plus frquente que lon observe dans une srie dobservations. Si la variable est une variable discrte, le mode sobtient facilement. Si la va- riable est une variable continue, on dnit une classe modale.c Dunod La photocopie non autorise est un dlit Proprits Le mode nexiste pas toujours et quand il existe, il nest pas toujours unique. Si aprs regroupement des donnes en classes, on trouve deux ou plu- sieurs modes diffrents, on doit considrer que lon est en prsence de deux ou plusieurs populations distinctes ayant chacune leurs caractris- tiques propres ; dans ce cas, la moyenne arithmtique nest pas une caract- ristique de tendance centrale.Exemple 1.11 Dispersion dun lot de 400 rsistances (suite)On ne peut pas dnir une valeur modale en ne connaissant pas la distribution lintrieur de chaque classe.On dnit une classe modale, cest la classe V. 17i ii i 31. i i doc 2006/8/9 11:52 page 18 #28i i1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnesExemple 1.12 Suite de lexemple 1.10Srie I : pas de mode.Srie II : deux modes 6 et 18.Srie III : les deux sries runies, trois modes 6, 14 et 18. Mdiale La mdiale est la valeur centrale qui partage en deux parties gales la masse de la variable. Par exemple, la mdiale partage un ensemble demploys dune entreprise en deux groupes tels que la somme totale des salaires perus par le premier groupe soit gale la somme totale des salaires perus par le second groupe. On vrie facilement que :mdialemdiane Remarque Pour dnir nimporte quelle caractristique (except la moyenne arithmtique), il faut que les donnes soient classes en ordre croissant (ou dcroissant). Pour le calcul de la mdiane, on peut trouver un rsultat diffrent selon que les donnes sont classes par ordre croissant ou dcroissant. Quantiles Cette notion est trs utilise dans les sciences humaines. Dnition Les quantiles sont des caractristiques de position partageant la srie statistique ordonne en k parties gales. Pour k 5 4, les quantiles, appels quartiles, sont trois nombres Q1 , Q2 , Q3 tels que : 25 % des valeurs prises par la srie sont infrieures Q1 , 25 % des valeurs prises par la srie sont suprieures Q3 , Q2 est la mdiane Me , Q3 Q1 est lintervalle interquartile, il contient 50 % des valeurs de lasrie.18i ii i 32. ii doc 2006/8/9 11:52 page 19 #29ii 1 Reprsentation 1.2 Sries numriquesgraphique et numrique une dimension des donnes Pour k 5 10, les quantiles sont appels dciles, il y a neuf dciles D1 , D2 ... 10 % des valeurs de la srie sont infrieures D1 ... Pour k 5 100, les quantiles sont appels centiles, il y a 99 centiles, chacun correspondant 1 % de la population. Application Le diagramme en bote moustaches ou box-plot (Tukey) permet de repr- senter schmatiquement les principales caractristiques dune distribution en utilisant les quartiles. La partie centrale de la distribution est reprsente par une bote de largeur arbitraire et de longueur la distance interquartile, la mdiane est trace lin- trieur. La bote rectangle est complte par des moustaches correspondant aux valeurs suivantes : valeur suprieure : Q3 1 1,5(Q3 Q1 )A valeur infrieure : Q1 1,5(Q3 Q1 ) STATISTIQUE DESCRIPTIVE Les valeurs extrieures aux moustaches sont reprsentes par des toiles et peuvent tre considres comme aberrantes. ** * Q1 MeQ3 Figure 1.4 Exemple de bote moustaches (les astrisques * reprsentent les valeurs aberrantes de la distribution).c Dunod La photocopie non autorise est un dlit Caractristiques de dispersion Ces caractristiques quantient les uctuations des valeurs observes autour de la valeur centrale et permettent dapprcier ltalement de la srie. Les prin- cipales sont : lcart-type ou son carr appel variance, le coefcient de variation et ltendue. Variance et cart-type Dnition et calcul La variance dun chantillon, note s2 , est appele aussi cart quadratique moyen ou variance empirique. La racine carre de la variance est appele cart- type.19iiii 33. ii doc 2006/8/9 11:52 page 20 #30ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Cest la moyenne de la somme des carrs des carts par rapport la moyenne arithmtique. La moyenne arithmtique x et lcart-type s sexpriment avec la mme unit que les valeurs observes xi . Cas 1 : n donnes non rparties en classes : n1 eq 5 s 2 52(xi x)2n i51 Formule simplie ne faisant apparatre que les donnes (facile dmontrer) :n1 s2 5xi2 x 2ni51 La variance est donc gale la moyenne des carrs moins le carr de la moyenne. Cas 2 : n donnes rparties en k classes, la classe i tant deffectif absolu ni . Dans ces conditions, on obtient : k1eq 5 s2 5 2 ni (xi x) 2n i51k 1s2 5ni xi2 x 2 n i51 Changement dorigine et dchelle On pose, pour toutes les donnes, Y 5 aX 1 b, a et b tant des constantes, on obtient : s2 1b 5 a2 sXaX 2 Un changement dorigine na donc aucune inuence sur le rsultat. Proprits Lcart-type s caractrise la dispersion dune srie de valeurs. Plus s est petit, plus les donnes sont regroupes autour de la moyenne arithmtique x et plus la population est homogne ; cependant avant de conclure, il faut faire attention lordre de grandeur des donnes.20iiii 34. ii doc 2006/8/9 11:52 page 21 #31ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Lcart-type permet de trouver le pourcentage de la population appartenant un intervalle centr sur lesprance mathmatique. La variance tient compte de toutes les donnes, cest la meilleure caractris- tique de dispersion (nombreuses applications en statistique). Exemple 1.13 Sries dobservations de lexemple 1.10 Srie I 1 2 Variance : s2 5 2 1 52 1 82 1 112 1 142 (8)2 5 185 cart-type : s 5 4,24 Srie II Variance : s2 5 26,33 cart-type : s 5 5,13 Srie III (les deux sries runies) Variance : s2 5 28,74 cart-type : s 5 5,36 A STATISTIQUE DESCRIPTIVE Coefcient de variation Dnition Il sexprime, sous la forme dun pourcentage, par lexpression suivante : sCV 5 3 100 x Propritsc Dunod La photocopie non autorise est un dlit Le coefcient de variation ne dpend pas des units choisies. Il permet dapprcier la reprsentativit de la moyenne arithmtique x par rapport lensemble des donnes. Il permet dapprcier lhomognit de la distribution, une valeur du coef- cient de variation infrieure 15 % traduit une bonne homognit de la distribution. Il permet de comparer deux distributions, mme si les donnes ne sont pas exprimes avec la mme unit ou si les moyennes arithmtiques des deux sries sont trs diffrentes. Quelques exemples de coefcient de variation : le coefcient de variation du rgime nival est voisin de 0,1 ; celui dun cours deau rgulier de 0,3 mais il peut atteindre 0,5 et mme 1 pour un cours deau irrgulier.21iiii 35. i i doc 2006/8/9 11:52 page 22 #32i i1 Reprsentation1.2 Sries numriques graphique et numrique une dimensiondes donnes tendue Dnition Ltendue est la quantit : E 5 xmax xmin Proprits Ltendue est facile calculer. Elle ne tient compte que des valeurs extrmes de la srie ; elle ne dpend ni du nombre, ni des valeurs intermdiaires ; elle est trs peu utilise ds que le nombre de donnes dpasse 10. Elle est utilise en contrle industriel o le nombre de pices prleves d- passe rarement 4 ou 5 ; elle donne une ide apprciable de la dispersion. Cependant, ds que cela est possible, on prfre prlever 15 20 units et utiliser lcart-type pour apprcier la dispersion. Caractristiques de forme Distribution symtrique Une distribution est symtrique si les valeurs de la variable statistique sont galement distribues de part et dautre dune valeur centrale. Pour une distri- bution symtrique :mode 5 mdiane 5 moyenne arithmtique Coefcient dasymtrie ou de dissymtrie ou skewnessnm3 1 g1 5o m3 5 (xi x)3s3 n i51 Coefcient daplatissement ou kurtosisnm4 1 g2 5o m4 5 (xi x)4s4 n i51 Ces deux coefcients sont principalement utiliss pour vrier quune distri- bution est proche dune distribution normale (loi de Laplace-Gauss) ; en effet, pour une telle loi, le coefcient daplatissement est gal 3 et le coefcient22i ii i 36. iidoc 2006/8/9 11:52 page 23 #33ii 1 Reprsentation1.2 Sries numriquesgraphique et numrique une dimension des donnes dasymtrie 0 (chapitre 6, paragraphe 6.6.2). Selon la valeur de ces coef- cients, on peut donner quelques caractristiques sur la forme de la distribu- tion : si g1 > 0, la distribution est tale vers la droite, si g1 < 0, la distribution est tale vers la gauche, si g1 5 0, on ne peut pas conclure que la distribution est symtrique maisla rciproque est vraie, si g2 > 3, la distribution est moins aplatie quune distribution gaussienne, si g2 < 3, la distribution est plus aplatie quune distribution gaussienne.Caractristiques de concentration Ces caractristiques sont utilises pour une grandeur positive cumulative telle que le revenu, la consommation... ACourbe de concentration STATISTIQUE DESCRIPTIVE Soit une distribution de consommation X de masse totale M . chaque valeur xi de la variable X , on associe le point qui a : pour abscisse F (xi ) 5 Proportion des individus consommant moins de xiMasse des consommations < xi pour ordonne G (xi ) 5Masse totale Pour une distribution non uniforme, cette courbe est toujours en dessous de la premire bissectrice ; en effet, F (xi ) est la proportion des individus consommant moins de xi ; ils ne peuvent pas globalement consommer autantc Dunod La photocopie non autorise est un dlit que les 100 F (xi ) % suivants donc G(xi ) < F (xi ). La courbe de concentration traduit le pourcentage des individus consommant moins de xi la contribution de ces individus la moyenne x de la masse totale. Indice de concentration ou indice de Gini1 Plus la distribution de X est ingalement rpartie, plus la courbe de concen- tration sloigne de la premire bissectrice, la premire bissectrice traduisant lquirpartition. 1. conomiste italien n en 1884.23iiii 37. ii doc 2006/8/9 11:52 page 24 #34ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnes Un indice propos par Gini est le suivant (gure 1.5) :G 5 aire ODBC aire ODBA Lindice de Gini est gal au double de laire comprise entre la courbe de concentration et la premire bissectrice.C B G/2 D01O AFigure 1.5 Courbe de concentration et indice de Gini. Cet indice est donn par lintgrale double o f est la densit de la loi de la variable X et m son esprance mathmatique : 111G5| x y | f (x) f (y) d x d y 2m Pour un chantillon de taille n, on obtient : n n 1G5xi xjn (n 1) x i51 j5i11 Exemple 1.14 tude de la rpartition du revenu annuel On considre la rpartition par tranches de revenus annuels des contribuables sou- mis limpt sur le revenu (rles mis en 1966 au titre des revenus de 1965). Le fait que la dernire classe soit ouverte nentrane pas dinconvnients pour les reprsentations graphiques et les calculs car leffectif de cette classe reprsente en- viron 1 % de leffectif total (0,009 9).24iiii 38. ii doc 2006/8/9 11:52 page 25 #35ii1 Reprsentation 1.2 Sries numriques graphique et numrique une dimensiondes donnesTableau 1.10 Rpartition du revenu annuel.Classes de revenus Nombre de contribuables(en francs) (en milliers)0 R < 50 000549,350 000 R < 100 000 3 087,4100 000 R < 150 0002 229,0150 000 R < 200 0001 056,7200 000 R < 350 000 925,0350 000 R < 500 000 211,0500 000 R < 700 00090,8700 000 et plus81,6Total8 230,8 Pour calculer la moyenne arithmtique, on donne une valeur moyenne cette A dernire classe, 775 000 F par exemple. STATISTIQUE DESCRIPTIVE La moyenne arithmtique est alors gale 142 225 F, lcart-type 114 640 F. Le coefcient de variation est gal 0,80. La mdiane est gale 110 742 F, elle est reprsente par le contribuable qui a pour numro n 4 115,4 3 1 000, le nombre dobservations prsentant une valeur infrieure la mdiane est gal au nombre dobservations prsentant une valeur suprieure la mdiane. Le mode est approximativement gal 62 500 F.c Dunod La photocopie non autorise est un dlit La distribution est tale vers la droite :mode < mdiane < moyenne arithmtique Le premier quartile est reprsent par le contribuable n 2057,73 3 1 000 qui a pour revenu 74 433,50 F. Le troisime quartile est reprsent par le contribuable n 6173,1 3 1 000 qui a pour revenu 164 536,24 F. Pour dnir la courbe de concentration, on a divis, an de simplier les calculs, les revenus par 25 000. Abscisses Fi : frquences cumules croissantes Ordonnes Gi : (masse des revenus des contribuables x)/masse totale des revenus) La masse totale des revenus est gale 46 824,20 F (ou 46 824,2 3 25 000).25iiii 39. ii doc 2006/8/9 11:52 page 26 #36ii1 Reprsentation 1.3 Sries numriques graphique et numrique deux dimensionsdes donnes Tableau 1.11 Rsultats numriques du tableau 1.10. ClasseCentreEffectifAbscisse Contribution OrdonneFi de chaqueGi classe [0, 2[ 1549,3 0,0667 549,3 0,00117 [2, 4[ 33 087,4 0,44189 262,20,2095 [4, 6[ 52 229,0 0,712711 145 0,4475 [6, 8[ 71 056,7 0,84107 396,90,605 [8, 14[ 11925,0 0,953410 175 0,823[14, 20[ 17211,0 0,97913 5870,899[20, 28[ 24 90,8 0,99012 179,20,946 [28, [31 81,6 1 2 529,61 1.3 Sries numriques deux dimensions Soient X et Y les deux caractres tudis, p le nombre de modalits prises par X , q le nombre de modalits prises par Y et n le nombre total dobservations. On tudie, par exemple, le poids et la taille dun nombre n dindividus, le temps de travail sans pause et le nombre de pices assembles ou le nombre daccidents survenus pendant cette priode. 1.3.1 Reprsentation graphique des donnes Tableaux statistiques On suppose que les deux variables tudies sont des variables discrtes et que les caractres sont des caractres quantitatifs. Les tableaux statistiques portent le nom de tableaux croiss ou tableaux de contingence. Dans chaque case du tableau, on crit leffectif nij de lchantillon, cest--dire le nombre de donnes tel que X 5 xi et Y 5 yj . On dnit les frquences absolues suivantes : Les frquences marginales : q p ni . 5ni j et n. j 5ni jj51 i5126iiii 40. i idoc 2006/8/9 11:52 page 27 #37i i1 Reprsentation1.3 Sries numriques graphique et numrique deux dimensionsdes donnes Tableau 1.12 Tableau de contingence.XY x1 xixp Frquences marginalesy1 n11ni1 np1n.1yj n1jnij npjn.jyq n1qniqn.qFrquences n1.ni. np.nmarginales La frquence marginale ni. est donc le nombre dindividus possdant la modalit i du caractre X quelle que soit la distribution du caractre Y ; par exemple tous les individus ayant le mme poids quelle que soit leur taille.A Les frquences conditionnelles sont dnies pour chaque valeur de i et j.STATISTIQUE DESCRIPTIVE La frquence conditionnelle nj/i est la distribution de la variable Y quand on a x la modalit i pour la variable X ; on sintresse, par exemple, la rpartition des tailles des individus ayant tous le mme poids. Elle est dnie par :ni jn j /i 5 ni. On dnit de la mme faon la frquence conditionnelle nj/i par : ni jc Dunod La photocopie non autorise est un dlitni/j 5 n.j On sintresse, par exemple, la rpartition des poids des individus ayant tous la mme taille. Les frquences relatives fij , fi. et f.j sont obtenues en divisant les effectifs nij et les frquences marginales ni. et n.j par leffectif total n. Les distributions X et Y sont statistiquement indpendantes si et seulement si : fi j 5 fi . f. j pour toutes les valeurs des indices i et j. Diffrents tests peuvent tre mis en uvre pour vrier lindpendance de deux variables statistiques (chapitre 17, tests dindpendance). 27i ii i 41. ii doc 2006/8/9 11:52 page 28 #38ii1 Reprsentation 1.3 Sries numriques graphique et numrique deux dimensionsdes donnes Reprsentations graphiques Variables quantitatives : nuage de points dans R2 . Variables qualitatives : analyse multidimensionnelle, en particulier thorie de la rgression (chapitres 19, 20, 21 et 22). 1.3.2 Mesure de dpendance Ltude de la distribution simultane de deux variables a pour but de prciser le type de liaison pouvant exister entre ces deux variables, la nature et lintensit de cette liaison, laide de diffrents coefcients. Variables quantitatives Rapport de corrlation linaire Soient x et y les moyennes des valeurs prises par les variables X et Y gales : 11 x5ni . xiy5 n.j yj n in j et sX et sY les carts-types de ces distributions. Le rapport de corrlation linaire est le coefcient symtrique par rapport aux variables X et Y dni par la relation :1 nij (xi x) yj yn i r5 sX sY On dmontre que 1 r 1. r 5 0 non-corrlation linaire, r 5 1 relation du type a X 1 b Y 1 c 5 0 o a, b et c sont desconstantes. Rapport de corrlation de Y en X Le rapport de corrlation de la variable Y par rapport la variable X est un coefcient non symtrique dni par :1 2 2ni . yi y s Y /X n i2 eY /X 55 2sY1 2n.j yj yn j28iiii 42. ii doc 2006/8/9 11:52 page 29 #39ii1 Reprsentation1.3 Sries numriques graphique et numrique deux dimensionsdes donnes yi est la moyenne des valeurs prises par la variable Y pour une valeur xe xi de la variable X cest--dire :q 1 yi 5nik ykni.k51 On dmontre que 0 e2 1. e2 5 0 non-corrlation, e2 5 1 liaison fonctionnelle, une valeur de la variable X correspond une seule valeur de la variable Y . Remarques Si la variable X est qualitative et la variable Y quantitative, on peut calculer ce rapport de corrlation. Si pour toutes les valeurs des indices i et j, leffectif nij est gal 1, alors le rapport de corrlation e2 est gal 1 mais, dans ce cas, il na aucune signication. A Les proprits de ces deux coefcients et les tests correspondants sont donns STATISTIQUE DESCRIPTIVE dans le chapitre 17. Variables qualitatives Les principaux coefcients sont les suivants : Coefcient d 2ni. n.j 2 nij n2fij2 2 d 5 n5 n ij 1 5 n 1 ni. n.j ni. n.j fi. f.jc Dunod La photocopie non autorise est un dliti ,ji ,ji ,jn2 Plus d est petit, plus la liaison entre les variables X et Y est forte. Ses proprits sont tudies dans le chapitre 16, paragraphe 16.2.4. partir de ce coefcient, on peut en dnir dautres : Coefcient de contingence 1 d22d 2 1n Coefcient de Pearsond2f2 5n29iiii 43. i i doc 2006/8/9 11:52 page 30 #40i i1 Reprsentation1.3 Sries numriques graphique et numrique deux dimensionsdes donnes Coefcient de Tschuprow f2 T 5 p1 q1 o p et q dsignent le nombre de modalits prises par les variables X et Y respectivement. Ce coefcient est analogue un coefcient de corr- lation linaire 0 < T < 1.RemarqueDans le cas particulier o p 5 q 5 2, le calcul du coefcient d 2 et donc desautres coefcients sont particulirement simples. Tableau 1.13 Calcul du coefcient d2 (p 5 q 5 2). X x1x2Frquences Y marginales y1n11 n21 n11 1 n21 y2n12 n22 n12 1 n22 Frquencesn11 1 n12 n21 1 n22 n marginalesOn obtient pour le coefcient d 2 : (n11 n22 n12 n21 )2d2 5 n(n11 1 n21 ) (n11 1 n12 ) (n21 1 n22 ) (n12 1 n22 )30i ii i 44. i i doc 2006/8/9 11:52 page 31 #41i i B Calculdes probabilitsi ii i 45. iidoc 2006/8/9 11:52 page 32 #42iiiiii 46. i i doc 2006/8/9 11:52 page 33 #43i i2 LE MODLE PROBABILISTE 2.1 Introduction Dans des domaines trs diffrents comme le domaine scientique, sociolo- gique, mdical, les sciences humaines..., on sintresse de nombreux phno- mnes dans lesquels apparat souvent leffet du hasard. Ces phnomnes sont caractriss par le fait que les rsultats des observations varient dune exp- rience lautre. Une exprience est appele alatoire sil est impossible de prvoir son rsultat etB si, rpte dans des conditions identiques, elle peut donner, ou aurait pu don-CALCUL DES PROBABILITS ner, si lexprience est unique, des rsultats diffrents. En gnral, les rsultats obtenus varient dans un certain domaine, certains rsultats apparaissant plus frquemment que dautres. Ils peuvent tre visualiss par des diagrammes, des histogrammes, des courbes cumulatives de frquences, etc., et tre caractri- ss par quelques valeurs numriques telles que la moyenne arithmtique, lac Dunod La photocopie non autorise est un dlit mdiane, le mode, la variance... (voir chapitre 1). Le mot probabilit est pass rapidement dans le langage courant bien que la thorie des probabilits soit une branche relativement rcente des thories mathmatiques. Le concept des probabilits semblait tre connu des Grecs et des gyptiens. Cependant, ce nest que vers le milieu du XVIIe sicle que lon peut situer le d- but de cette thorie. Dabord limite ltude des jeux de hasard (jeux de pile ou face, roulettes, jeux de cartes...), elle sest rapidement tendue tous les do- maines de la Science, en Physique (thorie du potentiel, physique statistique, physique corpusculaire...), en Informatique, en conomie, en Gntique, en Psychologie... Linuence des jeux de hasard se retrouve encore dans certaines expressions, comme lesprance mathmatique qui tait lesprance du gain,33i ii i 47. i idoc 2006/8/9 11:52 page 34 #44i i 2 Le modle probabiliste2.1 Introductionpouvant tre parfois une perte. Le mot probabilit ou ladjectif probable estbien souvent synonyme du mot chance.Les premiers rsultats mathmatiques furent introduits par Pascal et Fermatau milieu du XVIIe sicle. Puis, apparaissent, la n du XVIIe sicle, le nomde Huyghens et surtout au XVIIIe sicle, les noms de Bernoulli, De Moivre,Bayes, Laplace, (le tome VII de ses uvres sintitule Calcul des Probabili-ts), Gauss et au XXe sicle, Poincar, Borel, Frchet, Lvy, Kolmogorov,Khintchin...Alors que la thorie du calcul des probabilits sest dveloppe rapidement aucours du XXe sicle, le concept de probabilit soulve encore de nombreusescontroverses non entirement rsolues. Cependant, on peut distinguer deuxcoles et diffrents concepts.2.1.1 Lcole objectiveLa probabilit dvnements rptitifs est dnie partir de la frquence dap-paritions de ces vnements. On distingue diffrents concepts :Lapproche frquentiste ou frquentielleCest la thorie de Laplace, Von Mises ; elle est fonde sur la notion dpreuvesrptes et indpendantes, la probabilit tant dnie comme la limite de lafrquence relative des observations.naCette frquence, exprime comme le rapport (na tant le nombre dessaisno lvnement A a t ralis au cours de n essais indpendants, rpts dansdes conditions identiques), a des uctuations autour dune valeur limite quiest la probabilit de lvnement A (loi des grands nombres). Mais, on sup-pose implicitement que la frquence relative tend vers cette limite avec unegrande probabilit ! Cest--dire, que lon dnit la probabilit partir de laprobabilit !La notion de probabilit tire des jeux de hasardLa probabilit est le quotient du nombre de cas favorables par le nombre decas possibles, mais chaque cas tant suppos galement possible, donc qui-probable, on dnit encore la probabilit partir de la probabilit !34i ii i 48. ii doc 2006/8/9 11:52 page 35 #45ii2 Le modle probabiliste2.2 Les concepts probabilistes Lapproche axiomatique ou mathmatique Kolmogorov a introduit, au dbut du XXe sicle (1933), les concepts probabi- listes cest--dire le modle probabiliste. partir daxiomes, il a construit une thorie parfaitement logique et cohrente, le mot hasard nintervenant pas. Cette axiomatique repose essentiellement sur des concepts mathmatiques g- nraux, principalement sur la thorie de lintgration et de la mesure. Jusqu la n du XIXe sicle, la seule manire de dnir lintgrale dune fonc- tion tait celle de Riemann avec les sommes de Riemann-Darboux. Grce au concept de mesure, introduit par Borel (1894, 1897), Lebesgue labore une thorie plus gnrale de lintgration. Puis enn, grce Radon vers 1913, les concepts de mesure et dintgration, dnis sur R et Rn , vont tre tendus des ensembles plus gnraux sur lesquels on a dni une tribu. La notion de tribu, les thormes de dcomposition de Lebesgue-Nikodym et lexistence des densits ont apport un dveloppement considrable la thorie des pro- babilits et lui ont donn sa forme actuelle. La probabilit tant alors une mesure particulire, tous les rsultats de la thorie de la mesure lui sont applicables. B CALCUL DES PROBABILITS 2.1.2 Lcole subjective Elle associe, la frquence observe de la ralisation dun vnement, un degr de conance (ou de croyance) qui permet dvaluer la probabilit de cet vnement. Elle a t dveloppe principalement par Keynes, De Finetti, Savage...c Dunod La photocopie non autorise est un dlit Elle va mme jusqu nier lexistence de probabilits objectives. Le trait de probabilits de De Finetti commence en effet par la probabilit nexiste pas. Elle prend beaucoup dimportance dans les thories de la dcision en associant la probabilit des vnements celle de leurs consquences. Mais la difcult est dvaluer la premire probabilit, cest--dire la probabilit a priori et lim- portance des consquences dpend des utilisateurs. 2.2 Les concepts probabilistes lorigine probabiliser consistait rpartir, sur chacun des lments dun en- semble, un ensemble de valeurs ou probabilits dont la somme tait gale 1.35iiii 49. iidoc 2006/8/9 11:52 page 36 #46ii 2 Le modle probabiliste 2.2 Les concepts probabilistesSi cet ensemble, ou espace des preuves, est de dimension nie, il ny a pas dedifcults majeures. En revanche, si cet espace a la puissance du continu, leproblme dassocier chacun de ses lments, une probabilit, est pratique-ment sans solution.Pour formaliser ces notions, trois tapes sont ncessaires : dnir le cadre dans lequel on observe les manifestations du hasard, cest- -dire dnir une exprience alatoire et lensemble fondamental V, dnir un vnement alatoire et la classe C des vnements alatoires, dnir une probabilit sur lespace (V, C ), cest--dire affecter un poids chaque vnement traduisant la chance de ralisation de cet vnement.2.2.1 Exprience alatoireUne exprience est dite alatoire sil est impossible den prvoir le rsultat,cest--dire, si rpte dans les mmes conditions, elle peut donner des rsul-tats diffrents, dans un ensemble dissues considres comme possibles : succession dappels un standard tlphonique non surcharg, observation de la dure de vie dun individu anonyme dans une population humaine, observation de la dure de fonctionnement sans panne dun appareil, jeu de pile ou face de dure innie...Les rsultats dune exprience alatoire appartiennent un espace fondamentalou espace des preuves V ; un point quelconque v de V est un rsultat lmen-taire.Do la dnition :Une exprience alatoire est un choix au hasard dun point v dans un ensemble V.Lensemble V dpend des connaissances que lon a, a priori, sur les rsultatspossibles de lexprience alatoire.Exemples 2.1On lance une pice de monnaie. Pour lensemble V, on peut choisir : soit lensemble V1 5 {pile, face}, soit lensemble V2 5 {pile, face, tranche}.On considre la succession des appels un standard tlphonique non surcharget on tudie la rpartition des instants o le standard reoit un appel, partir dun36iiii 50. ii doc 2006/8/9 11:52 page 37 #47ii2 Le modle probabiliste2.2 Les concepts probabilistes instant choisi comme origine (on admet que deux appels ne peuvent se produire rigoureusement au mme instant, et que le phnomne nest pas limit dans le temps). Une ralisation de cet vnement est une suite croissante de nombres rels positifs ti o ti dsigne linstant denregistrement du ime appel :v 5 {t1 < t2 < < tn < tn11 < }. V est donc une partie de (R1 )N On lance deux ds et on sintresse la somme des points apparaissant sur les deux ds. On obtient : soit V1 5 {2, 3, . . . , 12} soit V2 5 {2, 3, . . . , 12}N si on recommence N fois la partie. On lance deux ds et on sintresse aux points marqus sur chaque d :v 5 {x , y} avec 1 x y 6 V 5 {x , y} est une partie de Z26 B On considre lexprience alatoire dure de vie dun individu . Lensemble V est CALCUL DES PROBABILITS soit lensemble N, soit la demi-droite relle positive R selon le procd discontinu ou continu de cette mesure. Le choix de lespace V peut savrer difcile ou mme arbitraire. Si on rpte lexprience une innit de fois, les espaces qui vont intervenir seront ZN ou RN de dimension innie. Dans certains cas, il faut mme faire intervenir desc Dunod La photocopie non autorise est un dlit espaces fonctionnels. 2.2.2 vnement alatoire Un vnement alatoire est li une exprience alatoire ; une fois lexprience ralise, on peut alors dire si lvnement a t ralis ou non. Un vnement alatoire A peut tre identi la partie de V dont les lments ralisent lvnement A. Exemple 2.2 On jette deux ds et soit A lvnement : le total des points est suprieur ou gal 11 .37iiii 51. i idoc 2006/8/9 11:52 page 38 #48i i 2 Le modle probabiliste 2.2 Les concepts probabilistesLensemble des rsultats possibles est lensemble V 5 {(1, 1), (1, 2), . . . , (6, 6)}.Un total suprieur ou gal 11 est reprsent par lensemble des trois couples :v 5 {x , y} tels que x 1 y 11, cest--dire les couples {5, 6}, {6, 5}, {6, 6}.Cet ensemble de trois couples ralise lvnement A.On pourrait choisir pour lensemble des vnements, lensemble P(V) desparties de V, mais comme cet ensemble est en gnral trop vaste pour tre probabilis , on se limite un ensemble strictement contenu dans P(V),vriant les proprits logiques suivantes, qui servent de base axiomatique ladnition mathmatique de la notion dvnement alatoire.Paralllisme entre la terminologie ensemblisteet la terminologie probabiliste tout vnement A est associ son contraire, non A ou A ou Ac qui estralis si et seulement si A ne lest pas.Dans lespace V des vnements, A et A sont reprsents par des ensemblescomplmentaires au sens ensembliste. Pour tout couple dvnements A et B, lvnement A et B est ralis si Aet B sont raliss.Dans lespace V des vnements, lvnement A et B est reprsentpar lintersection des ensembles ralisant A et B, on le note A et B ou A B . Pour tout couple dvnements A et B, lvnement A ou B est ralis silun des deux ou si les deux sont raliss.Dans lespace V des vnements, il est reprsent par la runion des en-sembles ralisant A et B, on le note, ou ntant pas exclusif, A ou B ou A B . Deux vnements A et B sont incompatibles si la ralisation de lun impliquela non ralisation de lautre,Dans lespace V des vnements, deux vnements incompatibles sont re-prsents par deux parties disjointes. Les vnements A1 , A2 . . . , An forment un systme complet dvnementsou systme exhaustif si les ensembles qui leur sont associs forment unepartition de lespace V.38i ii i 52. i idoc 2006/8/9 11:52 page 39 #49i i2 Le modle probabiliste2.2 Les concepts probabilistes Tableau 2.1 Terminologies probabiliste et ensembliste.Terminologie probabilisteTerminologie Notation ensemblistevnement certainEspace entierVvnement impossible Partie videvnement contraireComplmentaire A ou AcA et B Intersection ABA ou B (ou non exclusif) RunionABvnements incompatibles Parties disjointes AB5Systme complet dvnements Partition de V Ai Bj 5 Ai 5 VImplication A BInclusionAB Implication A B ou A B : lvnement A ne peut tre ralis sans que B le soit. Toutes les oprations prcdemment dnies stendent plus de deux vne- ments. La classe des vnements associs une exprience alatoire est doncB une tribu C de parties de V (tribu ou s-algbre). (Voir annexe 2 la dnitionCALCUL DES PROBABILITS dune tribu.) En rsum : Un espace probabilisable est un couple (V, C ) form dun ensemble V et dune tribu C de parties de V (qui sont les vnements).c Dunod La photocopie non autorise est un dlit 2.2.3 Quantication des rsultats Le rsultat dune exprience alatoire ne peut pas tre prvu avec certitude. La thorie des probabilits doit cependant donner des rsultats quantis, donc associer chaque vnement un poids, cest--dire un nombre qui va- lue sa chance de ralisation, ce nombre traduit la loi du phnomne tu- di. Historiquement, cette notion sest dgage partir de la notion de frquence de ralisation dun vnement A li une exprience v, au cours dune suite de rptitions identiques de v. Puis lapproche axiomatique, utilise depuis la n du sicle dernier, a donn les bases mathmatiques la thorie des probabilits. 39i ii i 53. i idoc 2006/8/9 11:52 page 40 #50i i 2 Le modle probabiliste2.3 Mesure de probabilitet espace probabilis2.3 Mesure de probabilit et espaceprobabilis2.3.1 Dnition de la probabilitIntuitivement, si A et B sont deux vnements incompatibles, la chance de voirse raliser A ou B doit tre gale la somme des poids traduisant les chancesde ralisation de A et B. De mme, si (An ), n appartenant N, dsigne unensemble dvnements tel que chacun deux est impliqu par le suivant et telque leur ralisation simultane est impossible, alors le poids de An a une limitenulle quand n tend vers linni.Une probabilit Pr dnie sur lensemble (V, C), est une application de Cdans [0, 1] telle que : Pr (V) 5 1 Pr ( Ai ) 5 Pr (Ai ) pour toute runion nie ou dnombrable dvne- iments incompatibles.Le triplet (V, C , Pr) est un espace probabilis, la mesure Pr ainsi dnie est unemesure positive de masse totale gale 1 1.2.3.2 Proprits lmentairesElles se dduisent des axiomes de dnition : Pr () 5 0 mais Pr (A) 5 0 nimplique pas A 5 Lvnement A tel que Pr (A) 5 0 est un vnement presque impossible. Pr A 5 1 Pr (A) Pr (A B) 5 Pr (A) 1 Pr (B) Pr (A B) Pr ( Ai ) Pr (Ai ) (aucune hypothse particulire sur les vnements Ai ) i si la suite des vnements Ai tend vers 0 en dcroissant, la limite de Pr(Ai )est nulle. si Bi est un systme complet dvnements, alors A, Pr (A) 5Pr (A Bi )i40i ii i 54. ii doc 2006/8/9 11:52 page 41 #51ii2 Le modle probabiliste2.4 chantillonset sous-populations Cest la premire forme du thorme des probabilits totales. Remarque Pr(A) 5 1 nimplique pas A 5 V. Lvnement A tel que Pr(A) 5 1 est un vnement presque certain. 2.4 chantillons et sous-populations De nombreux problmes faisant intervenir le calcul des probabilits se ra- mnent aux problmes de tirer des chantillons de taille r dans un ensemble de taille n, appel population, quelle que soit la nature de ses lments. Sui- vant la rgle du tirage, cet chantillon est : ordonn ou non, avec ou sans rptitions (on dit aussi avec ou sans remise). Deux autres espaces interviennent souvent dans des problmes lmentaires, lespace des sous-populations de taille r avec rptitions et lespace des permu- B tations de n objets. CALCUL DES PROBABILITS Remarque Choisir un lment au hasard, signie que les divers choix possibles sont quipro- bables donc que lensemble V est muni de la loi de probabilit uniforme. Dans ce cas, tous les calculs sont simples et se ramnent souvent des calculs danalysec Dunod La photocopie non autorise est un dlit combinatoire. Des rappels danalyse combinatoire sont dvelopps dans lannexe 1.41iiii 55. i i doc 2006/8/9 11:52 page 42 #52i i 3 PROBABILIT CONDITIONNELLEINDPENDANCE 3.1 Dnition Soit (V, C, Pr) un espace probabilis. Lintersection de deux vnements A et B est lvnement, not A B, ralis, si et seulement si, les deux vnements A et B sont raliss. Cependant, on peut sintresser la ralisation de lvnement A sachant lvnement B ralis, si cet vnement est de probabilit non nulle, cest--dire on sintresse la probabilit conditionnelle sachant B. La probabilit conditionnelle sachant B est lapplication de C dans [0, 1] dnie par : Pr (A B) A C Pr (A/B) 5 Pr (B) Cette application dnit une probabilit sur le mme espace probabilis (V, C, Pr), la probabilit conditionnelle Pr( . / B) est dnie comme la proba- bilit Pr sur la tribu C , le terme Pr(B) est un facteur de normalisation. Selon les vnements A et B, diffrents cas sont possibles. 3.1.1 Les vnements A et B sont incompatibles Lvnement A ne se ralisera pas si lvnement B est ralis : Pr (A/B) 5 0 Exemple 3.1 On lance deux ds et on considre les deux vnements : A : obtenir un chiffre impair sur les deux ds, B : la somme des points obtenus sur les deux ds est un nombre impair. Ces deux vnements sont incompatibles.42i ii i 56. ii doc 2006/8/9 11:52 page 43 #53ii 3 Probabilit conditionnelle3.1 Dnition Indpendance 3.1.2 Les vnements A et B ne sont pas incompatibles Deux vnements peuvent tre totalement dpendants ou dpendants. vnements totalement dpendants Deux vnements A et B sont totalement dpendants si A B, ou si lv- nement B tant ralis, la probabilit de ralisation de lvnement A est gale 1 :Pr (A/B) 5 1 On dit que A dpend totalement de B.Exemple 3.2Les vnements suivants sont totalement dpendants : A : le nombre est gal 4, 6, 8, B : le nombre est un nombre pair compris entre 2 et 20. vnements dpendants B CALCUL DES PROBABILITS Deux vnements A et B sont dpendants si la probabilit de ralisation de lvnement A change selon que B est ralis ou non.Exemple 3.3On lance un d parfaitement quilibr et on considre les vnements suivants :c Dunod La photocopie non autorise est un dlit A : obtenir la face 6, B : obtenir un nombre pair, C : obtenir un nombre suprieur ou gal 3.Pr(A) 5 1/6Pr(B) 5 1/2Pr(C) 5 4/6 5 2/3Si lvnement B ralis, la probabilit de ralisation de A est gale 1/3.Si lvnement C ralis, la probabilit de ralisation de A est gale 1/4.Les probabilits conditionnelles de A ne sont donc pas gales la probabilit de Ani gales entre elles :Pr(A) 5 1/6Pr(A/B) 5 1/3Pr(A/C) 5 1/4Les vnements A et B dune part, A et C dautre part sont dpendants.43iiii 57. iidoc 2006/8/9 11:52 page 44 #54ii3 Probabilit conditionnelle 3.3 vnementsIndpendance indpendants 3.2 Principe des probabilits composes Le principe des probabilits composes dcoule des axiomes et des dnitions. Il scrit : Pr (A B) 5 Pr (A/B) Pr (B) 5 Pr (B/A) Pr (A) Cette formule est valable mme si les probabilits Pr(A) et Pr(B) sont nulles toutes les deux ; mais dans ces conditions, on ne peut pas dnir Pr(A/B) ni Pr(B/A). 3.3 vnements indpendants 3.3.1 Dnition Lvnement A est indpendant de lvnement B si la probabilit de ralisa- tion de lvnement A nest pas modie par une information concernant la ralisation de lvnement B, cest--dire si : Pr (A/B) 5 Pr (A) Le principe des probabilits composes entrane :Pr (A B) 5 Pr (A) Pr (B) 5 Pr (B/A) Pr (A) Pr (B/A) 5 Pr (B) Lvnement B est donc galement indpendant de lvnement A. Les vnements A et B sont indpendants et vrient la proprit : Pr (A B) 5 Pr (A) Pr (B) 3.3.2 vnements incompatibles et vnements indpendants La proprit les vnements A et B sont incompatibles implique : Pr (A B) 5 Pr (A) 1 Pr (B) La proprit les vnements A et B sont indpendants implique : Pr (A B) 5 Pr (A) 3 Pr (B)44iiii 58. i idoc 2006/8/9 11:52 page 45 #55i i 3 Probabilit conditionnelle3.4 Indpendance Indpendancedeux deux et indpendance mutuelle Les oprations union et somme semblent jouer le mme rle que les opra- tions intersection et produit. Cependant, les deux concepts, incompatibles et indpendants, sont totalement diffrents : Le premier vnements incompatibles est une notion ensembliste. Le second vnements indpendants est une notion probabiliste : deuxvnements peuvent tre indpendants pour une loi de probabilit et nonpour une autre loi. 3.4 Indpendance deux deux et indpendance mutuelle La notion dindpendance et le principe des probabilits composes se gn- ralisent plusieurs vnements. 3.4.1 Gnralisation du principe des probabilits composes Ce principe se traduit par la formule de Poincar que lon dmontre par rcur- B rence :CALCUL DES PROBABILITS Pr (A1 A2 . . . An ) 5 Pr (A1 ) Pr (A2 /A1 ) Pr (A3 /A1 A2 ) ...Pr (An /A1 A2 . . . An1 ) 3.4.2 Indpendance mutuelle Les vnements Ai , i (1, . . . , n), sont mutuellement indpendants si, pourc Dunod La photocopie non autorise est un dlit toute partie I de lensemble des indices, on a : PrAi 5Pr(Ai )i Ii I Lindpendance mutuelle implique lindpendance deux deux mais cest une condition plus forte. Exemple 3.4 On lance deux ds et on considre les vnements suivants : A : le premier d donne une face impaire, B : le deuxime d donne une face impaire, 45i ii i 59. ii doc 2006/8/9 11:52 page 46 #56ii3 Probabilit conditionnelle 3.5 Thorme de BayesIndpendance C : la somme des points apparaissant sur les deux faces est impaire. Les vnements A, B et C sont deux deux indpendants. En effet : Pr(A) 5 1/2 Pr(B) 5 1/2 Pr(C) 5 1/2 Pr(A B) 5 Pr(A C) 5 Pr(B C) 5 1/4 Les vnements A, B et C ne sont pas indpendants : Pr(A B C) 5 0 3.5 Thorme de Bayes 3.5.1 Deuxime forme du thorme des probabilits totales On considre un vnement A de probabilit non nulle et lensemble (Ci )i(1,...,n) de toutes les causes possibles de ralisation de cet vnement ; cet ensemble forme un ensemble complet dvnements et lvnement A se produit en mme temps quun et un seul des Ci , cest--dire : A 5 (A C1 ) (A C2 ) (A Cn ) On en dduit la deuxime forme du thorme des probabilits totales : n nPr (A) 5 Pr (A Ci ) 5 Pr (A/Ci ) Pr (Ci ) i51i51 3.5.2 Thorme de Bayes Considrons une des causes susceptibles de raliser lvnement A, la cause Ck par exemple. Le thorme des probabilits composes donne :Pr (A Ck ) 5 Pr (A/Ck ) Pr (Ck ) 5 Pr (Ck /A) Pr (A) De la deuxime forme du thorme des probabilits totales, on dduit Pr(A), puis le thorme de Bayes :Pr (A/Ck ) Pr (Ck )Pr (Ck /A) 5 nPr (A/Ci ) Pr (Ci )i51 Sous cette forme, le thorme de Bayes (publi aprs sa mort en 1763) apparat comme une consquence logique des axiomes et des dnitions. Il prsente un46iiii 60. ii doc 2006/8/9 11:52 page 47 #57ii 3 Probabilit conditionnelle 3.5 Thorme de Bayes Indpendance grand intrt, car il permet de modier notre connaissance des probabilits en fonction dinformations nouvelles, il joue un rle trs important dans la statistique baysienne.Exemple 3.5Trois machines automatiques produisent des pices de voitures. La machine M1produit 40 % du total des pices, la machine M2 25 % et la machine M3 produit35 %. En moyenne, les pourcentages des pices non conformes aux critres impo-ss sont de 10% pour la machine M1 , de 5 % pour la machine M2 et de 1 % pourla machine M3 .Une pice est choisie au hasard dans la production totale des trois machines. Onconstate quelle nest pas conforme aux critres imposs.Quelle est la probabilit quelle ait t produite par la machine M1 ?On peut appliquer directement le thorme de Bayes.Soit B lvnement la pice est bonne et D lvnement la pice est dfec-tueuse .Les trois causes possibles de ralisation de lvnement D sont les trois machines.On connat les probabilits de ces causes par exemple Pr(M1 ) 5 0,40 ainsi que les Bprobabilits conditionnelles Pr(D/M1 ) 5 0,10. CALCUL DES PROBABILITSPr (D/M1 ) Pr (M1 )Pr (M1 /D) 5 3Pr (D/Mi ) Pr (Mi )i51On peut visualiser ce problme par larbre suivant : 0, B90c Dunod La photocopie non autorise est un dlit 0,40 M 1 0,10 D 0,95 B Pr (M1 et D) 0,25V M2 Pr (M1 /D) 5 0,05 D Pr (D) 0,99 B 0,35 M 3 0,01 DPr (D) 5 0,40 3 0,10 1 0,25 3 0,05 1 0,35 3 0,01 5 0,056 0,40 3 0,10Pr (M1 /D) 5 5 0,7140,05647iiii 61. i i doc 2006/8/9 11:52 page 48 #58i i3 Probabilit conditionnelle 3.5 Thorme de BayesIndpendance 3.5.3 Signication et rle de ce thorme Les vnements Ci constituent lensemble de toutes les causes possibles etexclusives de ralisation dun vnement A. Les probabilits Pr(Ci ) des vnements Ci (pour chaque valeur de lindice i)sont values compte tenu de notre connaissance relative aux conditionsdans lesquelles lvnement A sest produit ou se produira. Les probabilits Pr(A/Ci ) sont les probabilits de ralisation de A danslventualit Ci (pour chaque valeur de lindice i). Lvnement A tant liaux vnements Ci , nos connaissances sur ces liens permettent dattribuerdes valeurs aux probabilits conditionnelles. Lvnement A est ralis : les probabilits Pr(A/Ci ) ne changent pas, les probabilits Pr(Ci ) deviennent caduques, on doit les remplacer par lesprobabilits sachant A ralis, cest--dire les expressions Pr(Ci /A), on est donc pass des probabilits a priori aux probabilits a posteriori. Lexpression a priori ne signie pas en labsence de toute information ; les expressions correctes sont probabilits avant et aprs information, car il est impossible de dnir des probabilits de ralisation dvnements sur lesquels on na aucune information. 3.5.4 Conclusion La probabilit dun vnement peut tre considre comme une caractris- tique de notre information son sujet que lon modie ds que cette infor- mation est complte. Toute probabilit est donc conditionnelle et dpend de notre connaissance des objets en cause. Nous devons nous souvenir que la probabilit dun vnement nest pas une qualit de lvnement lui-mme mais un simple mot pour dsigner le degr de connaissance que nous, ou quelquun dautre, peut esprer.J. Stuart Mill (1806-1873) Cette dmarche baysienne est une des approches possibles de la probabilit ; elle peut servir au diagnostic mdical, la thorie de la dcision...48i ii i 62. i i doc 2006/8/9 11:52 page 49 #59i i4 VARIABLES ALATOIRES RELLES 4.1 Gnralits sur les variables alatoires 4.1.1 Dnition dune variable alatoire Les variables alatoires constituent un espace fondamental dlments ala- toires, un tel lment tant dni par rfrence une exprience alatoire. Si (V, C , Pr) dsigne un espace probabilis et (E, E ) un espace probabilisable,B un lment alatoire, dni sur (V, C , Pr) et valeurs dans (E, E ), est uneCALCUL DES PROBABILITS application mesurable de (V, C ) dans (E, E ). Cet lment est appel : variable alatoire relle si lespace (E, E ) est lespace (R, B), o B est la tribude Borel de R, variable alatoire complexe si lespace (E, E ) est lespace (C, C ), variable alatoire vectorielle ou vecteur alatoire, de dimension n, si lespacec Dunod La photocopie non autorise est un dlit(E, E ) est lespace (Rn , Bn ). Dans ce chapitre, on ne dnira que des variables alatoires relles. Les pro- prits de ces variables sont donc celles des fonctions relles mesurables. Exemple 4.1 Variable alatoire On jette n fois une pice de monnaie. Lespace fondamental est V 5 (P, F)n o P dsigne pile et F face ; la tribu associe est la tribu P(V) des parties de V. On peut sintresser : soit aux rsultats lmentaires : v 5 (v1 , v2 , . . . , vn ) o vi dsigne soit pile, soit face. On obtient, par exemple, la succession v 5 (P, F, F, F, P, F) pour n 5 649i ii i 63. i idoc 2006/8/9 11:52 page 50 #60i i 4 Variables alatoires 4.1 Gnralitsrellessur les variables alatoires soit au nombre de fois o pile est sorti au cours des n jets. On obtient, par exemple, 2 fois pile quand on a lanc 6 fois la pice. On dnit une fonction X application de V dans V 5 (1, 2, . . . , n) o X (v) est le nombre de fois o pile apparat dans v. Si v 5 (P, F, F, F, P, F), X (v) 5 2. Si la pice est parfaitement quilibre, il semble logique de munir (V, P(V)) de la loi de probabilit uniforme : Pr(P) 5 Pr(F) 5 1/2 Sur lespace (V , P(V )), on dnit une probabilit PrX ou Pr , image de Pr par lapplication :A P(V ) Pr (A ) 5 Pr(X 1 (A )) Cette application X est une variable alatoire. 4.1.2 Loi de probabilit dune variable alatoire relle X La loi de probabilit dune variable alatoire relle X est la loi de probabilit Prx dnie sur lespace (R, B) par : B B Prx (B) 5 Pr(v/X (v) B) 5 Pr X 1 (B) On montre facilement que Prx est une mesure positive sur (R, B) et comme : Prx (R) 5 Pr(X 1 (R)) 5 Pr(V) 5 1 cette mesure est une probabilit. Prx est la mesure image de Pr par X . (R, B, Prx ) est lespace de probabilit associ la variable alatoire relle X . Une variable alatoire relle traduit donc lide de rsultat numrique associ un phnomne alatoire. Exemple 4.2 Loi de probabilit On jette deux ds quilibrs et on sintresse la somme S des points gurant sur les deux ds. On dnit les espaces V et V par : V 5 (1, 2, . . . , 6)2 et V 5 (2, 3, . . . , 12)50i ii i 64. i idoc 2006/8/9 11:52 page 51 #61i i 4 Variables alatoires 4.1 Gnralitsrellessur les variables alatoires V est lespace fondamental ou ensemble des couples v 5 (n1 , n2 ), n1 et n2 pre- nant les valeurs entires entre 1 et 6, bornes comprises, et V est lensemble des rsultats possibles, cest--dire lensemble des valeurs que la somme S peut prendre. Soit X lapplication de V dans V telle que :X (v) 5 (n1 , n2 ) Pr(v) 5 1/36 car tous les lments de V ont la mme probabilit de ralisation et le cardinal de V est gal 36. Par dnition, Pr (A ) 5 Pr(X 1 (A )) Ainsi, Pr (6) 5 Pr{X 1 (6)} 5 Pr{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} 5 5/36. La loi Pr est constitue de masses ponctuelles, elle peut donc tre reprsente par un diagramme en btons. 6 / 36 - 5 / 36 - 4 / 36 -BCALCUL DES PROBABILITS 3 / 36 - 2 / 36 - 1 / 36 - 0c Dunod La photocopie non autorise est un dlit2 3 45 678 9 10 11 12 Figure 4.1 Histogramme de la loi de la variable alatoire S (somme des points obtenus en lanant deux ds). 4.1.3 Quelle tribu de R doit-on choisir ? Une variable alatoire relle est un procd de mesure dun phnomne ala- toire. La question essentielle est de connatre la probabilit que X prenne ses valeurs dans un intervalle [a, b] et ceci, quel que soit cet intervalle, car la pro- babilit que X prenne une valeur donne, est souvent nulle. Prx permet de donner un sens cette notion puisque :Prx ([a, b]) 5 Pr(X [a, b]) 51i ii i 65. ii doc 2006/8/9 11:52 page 52 #62ii 4 Variables alatoires 4.2 Fonction de rpartitionrelles La tribu de Borel B de R est la plus petite tribu de R contenant les intervalles, do le choix. En rsum, les proprits des variables alatoires relles sont donc celles des fonctions mesurables. Il en rsulte, en particulier que la composition, la somme, le produit de deux variables alatoires relles, la limite dune suite dnombrable de variables alatoires relles est une variable alatoire relle. 4.2 Fonction de rpartition Une loi de probabilit est une mesure abstraite sur R, elle est donc en gnral peu maniable et peu utilise dans les applications concrtes. Or, la tribu de Borel B de R contient les intervalles du type ] , x[, on en dduit la notion de fonction de rpartition. 4.2.1 Dnition La fonction de rpartition de la variable alatoire relle X est lapplication F de R dans R dnie par : x RF (x) 5 Prx (, x) 5 Pr {v / X (v) < x } On crit plus simplement : x RF (x) 5 Pr (X < x) 4.2.2 Principales proprits Elles se dduisent de la dnition et des proprits dune probabilit (mesure positive, nie, dnie sur R) : une fonction de rpartition est une fonction F dnie sur R et valeursdans [0, 1], une fonction de rpartition est une fonction croissante au sens large, la limite de F (x) quand x tend vers est gale 0, la limite de F (x) quand x tend vers 1 est gale 1, une fonction de rpartition est continue gauche, cest--dire F (x) 5 F (x ) si la variable alatoire relle est continue, la fonction F est continue droiteet drivable,52iiii 66. i idoc 2006/8/9 11:52 page 53 #63i i 4 Variables alatoires4.3 Fonction de rpartitionrelles la fonction de rpartition permet de traiter tous les problmes faisant inter- venir une seule variable alatoire X . La probabilit de tout intervalle de R est gale :Pr (a X < b) 5 F (b) F (a) En revanche, si on considre plusieurs variables alatoires relles, la seule connaissance des fonctions de rpartition de chaque variable est insufsante pour dterminer la dpendance entre ces variables.10,80,60,4 BCALCUL DES PROBABILITS0,20 10 1 2 3 45 6 78 9 10 11 12 13 14 Figure 4.2 Fonction de rpartition de la variable alatoire S (somme desc Dunod La photocopie non autorise est un dlit points obtenus en lanant deux ds). Remarque Cette fonction de rpartition est aussi appele fonction de rpartition en non- dpassement par opposition une fonction G qui serait dnie par :G (x) 5 Pr (Xx) ou fonction de rpartition en dpassement. Cette fonction, tant dcroissante au sens large, a une drive ngative qui ne peut pas dnir une probabilit. Pour cette raison, cest la fonction de rpartition en non-dpassement qui est utilise comme fonction de rpartition. 53i ii i 67. i i doc 2006/8/9 11:52 page 54 #64i i 4 Variables alatoires4.3 Densit de probabilitrelles 4.3 Densit de probabilit 4.3.1 Dnition Si la loi de probabilit Prx dune variable alatoire relle X admet une densit par rapport la mesure de Lebesgue l sur R, cette densit est appele densit de probabilit de la variable X . Plus simplement, on peut dnir la densit f si elle existe par : f (x) d x 5 Pr (x X < x 1 d x) o d x dsigne la mesure de Lebesgue sur R. 4.3.2 Relation entre fonction de rpartition et densit Soit X une variable alatoire relle et F sa fonction de rpartition. Si la loi de probabilit Prx admet une densit f , on peut crire :F (x) 5 Prx ], x[ 5 1], x[ d Prx 5 1], x[ f (x) d x R RF (x) 5 f (x) d x 5 f (x) d x], x[ ], x] 1[a,b] est la fonction caractristique de lintervalle [a, b] (voir annexe 2). Les deux dernires intgrales sont gales car un ensemble rduit un point est un ensemble de mesure de Lebesgue nulle. Si de plus f est continue en x, F est drivable et F (x) 5 f (x). On peut alors crire :b Pr (aX < b) 5f (x) d x 5 F (b) F (a)a Les gures 4.3 (reprsentation graphique de f ) et 4.4 (reprsentation gra- phique de F ) mettent en vidence la relation existant entre ces deux fonctions. 4.3.3 Caractrisation dune densit de probabilit Une application mesurable de R dans R1 telle que :f dl 5 1R54i ii i 68. i i doc 2006/8/9 11:52 page 55 #65i i 4 Variables alatoires 4.3 Densit de probabilitrelles f F (x 0) 0 1 x0 x Figure 4.3 Exemple de densit de probabilit. F(x) 1F(a) 0,5BCALCUL DES PROBABILITS 1 0m a x Figure 4.4 Exemple de fonction de rpartition. peut tre considre comme la densit dune loi de probabilit. En effet, lac Dunod La photocopie non autorise est un dlit fonction F dnie par : x RF (x) 5f (x) d x], x[ est une fonction : monotone, croissante, continue, F (1 ) 5 1 et F () 5 0 Cette fonction F a les proprits dune fonction de rpartition, la fonction f est la densit correspondante. Cependant, une loi de probabilit ne peut admettre de densit que si sa fonction de rpartition est continue (condition ncessaire mais non sufsante). 55i ii i 69. i i doc 2006/8/9 11:52 page 56 #66i i 4 Variables alatoires 4.4 Discontinuitsrellesdune fonction de rpartition et lois discrtes Remarques Retrouver f par drivation de F ou F par intgration de f na de sens que pour des variables alatoires continues. La proprit :f dl 5 1R correspond la proprit Pr(V) 5 1. Pour une variable alatoire relle discrte, lintgrale est remplace par une somme nie ou innie. 4.4 Discontinuits dune fonction de rpartition et lois discrtes On suppose que la fonction de rpartition F dune variable alatoire relle X1 admet une discontinuit en x0 , alors F (x0 ) F (x0 ) > 0 et la loi de probabilit1 PrX admet en x0 , une masse ponctuelle gale F (x0 ) F (x0 ). Une discontinuit de F en un point entrane lexistence dune masse ponc- tuelle, au point correspondant, pour la distribution. Ce rsultat se gnralise au cas o F admet une innit, au plus dnombrable, de points de discontinuit. Les lois de probabilit constitues dune somme, au plus dnombrable, de masses ponctuelles sont appeles lois discrtes. Une variable alatoire discrte est une variable alatoire dont la loi de probabilit est discrte ; sa fonction de rpartition se compose de segments. Une loi discrte est dnie par deux suites numriques (an ) et ( pn ), n N, ayant les proprits suivantes :Pr (an ) 5 pn pn0pn 5 1 n Remarque La variable alatoire S somme des points marqus sur les deux ds est une variable alatoire discrte.56i ii i 70. i idoc 2006/8/9 11:52 page 57 #67i i 4 Variables alatoires 4.5 Loi de probabilitrelles dune variable alatoire Y fonction dune variable alatoire X 4.5 Loi de probabilit dune variable alatoire Y fonction dune variable alatoire X X est une variable alatoire relle dnie sur (V, C , Pr), admettant F pour fonction de rpartition et f pour densit. w est une application mesurable de R dans R, muni de sa tribu de Borel. Lapplication compose, w X de (V, C ) dans R est mesurable, elle dnit donc une variable alatoire relle note Y 5 w (X ). Soient Prx et Pry les lois de probabilit des variables X et Y respectivement. Pour tout borlien de R, on a :1 1Pry (B) 5 Pr Y (B) 5 Pr X w 1 (B) 5 Prx w 1 (B) Pry est par dnition la mesure image de Prx par lapplication w. Deux cas sont distinguer selon que lapplication est bijective ou non. w est une application bijective, ayant une fonction inverse w1 drivable. BLa variable alatoire Y admet pour fonction de rpartition et pour densitCALCUL DES PROBABILITSles expressions :f w1 ( y)G( y) 5 F w1 ( y) etg( y) 5 w w1 ( y) w est une application quelconque, mesurable de R dans R. La fonction de rpartition et la densit de la variable Y sont obtenues cherchant directe-c Dunod La photocopie non autorise est un dlit ment lantcdent ou les antcdents, pour la variable X , de lvnement Y < y. Exemple 4.3 La variable alatoire X suit une loi uniforme sur [1, 2]. Densit de la variable : f (x) d x 5 1/3 sur [1, 2], f (x) 5 0 sinon. Fonction de rpartition : F (x) 5 0x 1, F (x) 5 (x 1 1)/3 1 x 2, F (x) 5 1x 2. 57i ii i 71. i idoc 2006/8/9 11:52 page 58 #68i i 4 Variables alatoires 4.6 Indpendancerellesde deux variables alatoires On considre la variable Y 5 w(X ) 5 X 2 Lapplication w nest pas bijective sur [1, 2] Elle est bijective et croissante sur ]1, 2]. La formule gnrale sapplique dans ce cas et donne :1 y11 x ]1, 2[ y ]1, 4[g( y) 5 G( y) 5 6 y 3 Lapplication w nest pas bijective sur [1, 1] x [1, 1] y ]0, 1] G( y) 5 Pr Y < y 5 Pr y < X 4g y 50 G y 51 La fonction de rpartition est continue mais la densit est discontinue pour y 5 1. 4.6 Indpendance de deux variables alatoires Soient X et Y deux variables alatoires relles dnies sur le mme espace probabilis (V, C , Pr). Le couple (X , Y ) est donc une application mesurable de (V, C ) dans R2 , muni de sa tribu de Borel.58i ii i 72. i i doc 2006/8/9 11:52 page 59 #69i i 4 Variables alatoires4.7 Moments dune variablerelles alatoire X et Y sont deux variables alatoires indpendantes si, pour tout couple de borliens Bi et Bj de R, on a :Pr{(X Bi ) (Y Bj )} 5 Pr(X Bi ) Pr(Y Bj ) La loi de probabilit du couple (X , Y ), ou loi conjointe, cest--dire Prxy , est gale la loi produit Prx Pry . Do les proprits : la fonction de rpartition H (x , y) du couple (X , Y ) est gale au produit des fonctions de rpartition F (x) et G( y) de X et Y , ou fonctions