ufr des sciences fondamentales et biomédicales

117
C. Huber Master de Santé publique M2 recherche STATISTIQUE MATHEMATIQUE PARTIE PRATIQUE 1 - 66 Table des matières au début (p. 1-2) ________________________________________ Tables statistiques T1 - T22 _________________________________________ PARTIE THEORIQUE 1 - 50 Table des matières à la fin (p. 49-50)

Upload: others

Post on 10-Jan-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UFR des Sciences Fondamentales et Biomédicales

C. Huber Master de Santé publique M2 recherche

STATISTIQUE MATHEMATIQUE

PARTIE PRATIQUE 1 - 66 Table des matières au début (p. 1-2)

________________________________________

Tables statistiques T1 - T22

_________________________________________

PARTIE THEORIQUE 1 - 50 Table des matières à la fin (p. 49-50)

Page 2: UFR des Sciences Fondamentales et Biomédicales

1

C. Huber

Table des matières

de la PARTIE PRATIQUE

Introduction 3 A Rappels de probabilités. Principes des tests et de l'estimation

A1 Calcul de probabilités et variables aléatoires réelles 3 A2 Lois de probabilité les plus utilisées 5 A2-1 Lois continues 5 a. Lois normales 5 b. Lois exponentielles 7 c. Lois gamma 7 d. Lois du chi deux 8 e. Lois béta 9 f. Lois de Fisher-Snedecor 10 g. Lois de Student 10 A2-2 Lois discrètes 10 a. Lois de Bernoulli 10 b. Lois binomiales 11 c. Lois multinomiales 11 d. Lois de Poisson 11 A2-3 Approximations 12 a. Approximation normale de la binomiale 12 b. Approximation normale d'une somme 13 c. Approximation de Poisson de la binomiale 13 d. Approximation normale du chi deux 14 A3 Principe des tests 14 A4 Principe de l'estimation et maximum de vraisemblance 15

B Tests d'ajustement B1 Introduction 17 B2 Test d'ajustement du chi2 pour une loi spécifiée 17 a. cas discret 17 b. cas continu 18 B3 Test d'ajustement du chi2 avec estimation de paramètres 19 B4 Test de Kolmogorov-Smirnov pour un échantillon 23 C Mise en évidence de liaisons : tests d'indépendance C1 Cas de deux variables discrètes 25 a. à deux valeurs 25 b. à un nombre quelconque de valeurs 27 C2 Cas d'une variable continue et d'une variable à deux valeurs 29 a. Test de comparaison de moyennes 30 a1 grands échantillons 30 a2 petits échantillons 30 b. Tests non paramétriques 32 b1 Test de la médiane 33

Page 3: UFR des Sciences Fondamentales et Biomédicales

2

C. Huber

b2 Test de Wilcoxon 35 b3 Test de Kolmogorov-Smirnov pour 2 échantillons 36

C3 Cas de deux variables continues 38 a. Couple normal : test du coefficient de corrélation 38 b. Cas général : tests non paramétriques 39 coefficient de corrélation des rangs de Spearman 39 coefficient de corrélation de Kendall 41 c. Intervention d'un troisième facteur 43 coefficient de corrélation partielle 43

D Tests non paramétriques pour comparer k échantillons 1 k échantillons indépendants 45 Test de la médiane généralisée 46 Analyse de la variance non paramétrique : test de Kruskal-Wallis 49 2 k échantillons liés : analyse de la variance NP à deux facteurs 52 Variables binaires: test de Cochran 52 Variables continues: test de Friedman 54 Exercices 57 Tables Normale T1 Student T2 Chi deux T3 T4 Kolmogorov-Smirnov pour un échantillon T5 Wilcoxon, Mann-Whitney T6 T7 T8 T9 T10 Spearman T11 Kolmogorov-Smirnov pour deux échantillons T12 T13 Kendall T14 Fisher-Snedecor T15 T16 T17 T18 Kruskal-Wallis T19 T20 Friedman T21 T22

Page 4: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 3

PARTIE PRATIQUE

Introduction Nous rappelons dans cette première partie, plus pratique que celle qui suit: A. Les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. B. Les "Tests d'ajustement" qui traitent le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. C. Les "Tests d'homogénéité et d'indépendance", qui servent à mettre en évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple conduit à la comparaison de deux proportions observées, qui peut être considéré: - Soit comme un test d'homogénéité de deux échantillons d'une variable en 0,1, (malades et non-malades) : on se demande si le facteur de risque est présent dans la même proportion dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1. Les tests de comparaison de deux échantillons sont de trois types: - approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de l'échantillon est assez grande, - paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations. - non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui n'est pas toujours le cas.). D. Les tests non paramétriques d'analyse de variance destinés à comparer plus de deux échantillons dans le cas où ces échantillons sont liés et dans le cas où ils sont indépendants.

C. Huber

Page 5: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 4

A Rappel de notions de probabilités.

Principe des Tests et de l'estimation.

A1 - Calcul des probabilités et variables aléatoires réelles

Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu a. Ces événements seront notés A, B, C, D,... . Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B) . b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement)

Si A ne se produit pas, c'est que c'est son complémentaire Ac dans E qui se produit :

P(Ac) = 1 - P(A)

c) Probabilité que A se produise sachant que B s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à B est notée P(A|B) et définie comme

P(A|B) = P(A∩B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que c'est une figure ?

d) Probabilité que A et B se produisent ensemble :

C. Huber

Page 6: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 5

Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A∩B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on a

P(A∩B) = P(A|B)P(B) = P(B|A)P(A)

Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements :

Si A et B sont indépendants , P(A∩B) = P(A) P(B), P(A|B) = P(A) , P(B|A) = P(B) .

Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B.

Espérance et variance d'une variable aléatoire réelle :

Si X est une variable aléatoire réelle (v.a.r.), son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies :

1)Si X est discrète, telle que P(X = xi) = pi , i = 1, 2, ..,k , son espérance EX et sa variance Var(X) sont respectivement :

EX = Σ pi xi ,

Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 .

Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) .

2) De même, si X est continue, de densité de probabilité f(x) au point x, EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX)2 f(x) dx et σ(X) = √ Var(X) .

Propriétés de l'espérance et de la variance :

- L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X1+ X2 + ... + Xn) = E X1 + E X2 + ...+ E Xn . - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y),

où cov(X,Y) vaut, par définition : cov(X,Y) = E(XY) - EX EY .

Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y).

Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme le produit XY, multipliée par 104. Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:

C. Huber

Page 7: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 6

ρ = cov(X,Y) / σX σY

A2 - Lois de probabilité les plus utilisées A2-1. Lois continues

a) Lois normales N (µ, σ2) Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ2) si sa densité de probabilité au point x vaut

f(x) = 1

2π σexp (- (x - µ)

2

2 σ2

) , x ∈ IR .

Alors, EX = µ, Var(X) = σ2 , et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z :

ϕ(z) = 1

2πe

- z2

2 , z ∈ IR .

On note Φ la fonction de répartition correspondante ∫ ∞−

ϕ=≤=Φz

dt)t()zZ(Pz)( Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi normale N(µ,σ2) P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]

Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes, leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes

C. Huber

Page 8: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 7

L (X) = N(µ, σ2) ⇒ L (X+Y) = N(µ, + µ', σ2 + σ'2 )

L (Y) = N(µ', σ'2) Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si, pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(X,Y) soit nul. b) Lois exponentielles E (λ) La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à : f(x) = λ e- λx si x ≥ 0 , ( λ > 0 ) . = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut F(x) = 1 - e- λx , si x ≥ 0 ; = 0 , si x < 0 . L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2 En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs :

0xex)a(

)x(f x1_aa

,a ≥Γλ

= λ−λ

où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ... 3. 2.1 . Γ (a) s'écrit

Γ(a) = e-t

ta-1

0

∞dt

C. Huber

Page 9: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 8

On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = √π . Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ) . La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : ϕX(t) = E (e-tX) (par définition de la transformée de Laplace)

=

λa

Γ(a) 0∞ xa-1 e−(λ+t)xdx .

a

Γ(a) 0∞ ya-1 e−ydy

(λ+t)- 1

(λ+t)a - 1

.

= λ

a

(λ+t)a

Alors ϕ X+Y (t) = E ( e-t(X + Y)) = E ( e-tX) E ( e-tY) puisque X et Y sont indépendantes,

et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b , qui est la transformée de Laplace de la loi Γ(a+b, λ) .

d) Lois du chi deux ( χ2 ) à n degrés de liberté C'est, par définition la loi Γ(n/2, 1/2) : χ2n = Γ(n/2, 1/2) . Donc sa densité de probabilité est égale à

2/x12/n2/nn ex

)2/n(21)x(f −−

Γ= si x ≥ 0

Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)]n/2 , soit ϕ (t) = (2t + 1) - n/2. Théorème Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable

χn2 = Ζ12 + Ζ22 + .... + Zn2 suit la loi du χ2 à n degrés de liberté (d.d.l.) , notée χ2n .

C. Huber

Page 10: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 9

démonstration: D'après ce qui précède, il suffit de montrer que L (X2) = Γ(1/2 , 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 :

ϕ X12 (t) = E ( e–t (X1

2) ) = (1/ 2π ) e–x 2(t+1/2)= (2t + 1)–1/2 .

Moments On voit sans calcul que E (χ12 ) = 1, puisque cette moyenne est égale à celle de Z12 , c'est à dire à la variance de Z1 , qui est de moyenne nulle, et de variance 1. De même,

E ( χn2 ) = n .

Pour calculer tous les moments, E( χn2k) , il suffit de dériver la transformée de Laplace ϕ χ12 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1)-3/2 = E( χn2 ) et que, de manière générale, la dérivée d'ordre k vaut ϕ (k)(t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x2k e-tx f(x2) d( x2) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k)(0) = 1.3.5..(2k-1) E( χ12k) Par définition de la variance, on a Var(χ12) = E ((χ12)2) - (E (χ12))2 = 3 − 1 = 2. Comme l'indépendance de Z1 , Z2 ,...., Zn entraîne l'indépendance de leurs carrés et que tous les Zi2

suivent la même loi du χ12 , on a immédiatement Var (χn2 ) = 2 n .

e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si

∫ −− −==≤βx

0

1b1ax dy)y1(y

)b,a(B1)b,a(I)x(P x ∈[0 1]

Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est

1b1a )x1(x)b,a(B

1)b,a;x(f −− −= x ∈[0 1]

C. Huber

Page 11: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 10

f (x;a,b) = 1

B(a,b)x

a-1(1-x)

b-10 Š x Š 1

où B (a,b) = Γ(a+b)

Γ(a) Γ(b)( = (a+b-1)!

(a-1)! (b−1)!si a et b sont entiers).

On peut prouver que si β suit la loi de f. r. Ix (a,b) alors

E β = a

a + bet Var β = ab

(a+b)2

(a+b+1) Si U et V sont deux variables aléatoires indépendantes, de lois Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b). f) Loi de Fisher-Snedecor à n1 et n2 degrés de liberté F ( n1 , n2 ) Si U est une variable aléatoire qui suit la loi béta ( n1/+2, n2/2), la variable aléatoire ( n2/ n1) U suit la loi de Fisher-Snédécor à n1 et n2 degrés de liberté, notée F(n1,n2). En particulier, si L (Y1) = χ2(n1)

L (Y2) = χ2(n2) L ( n2Y1 / n1Y2 ) = F (n1 , n2 ) Y1 et Y2 indépendantes g) Loi de Student à n degrés de liberté T(n) Par définition, si L (X) = N(0,1) L (Y) = χ2(n ) L (X / Y

n ) = T(n) X et Y indépendantes

A2-2. Lois discrètes

a) Loi de Bernoulli b(p) , p ∈ [ 0 1] C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q : P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq. b) Loi binomiale B (n, p) , n ∈ΙΝ , 0 ≤ p ≤ 1 C'est la loi de la somme Sn de n variables aléatoires X1,X2,..,Xn indépendantes et de même loi de Bernoulli b(p), de paramètre p (0≤p≤1)

C. Huber

Page 12: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 11

1 avec la probabilité p Xi = 0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique Sn = X1 + X2 + .. + Xn qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de Sn est donnée par n ! P (Sn = j ) = pj = ------------ pj qn-j , j = 0,1,2,....n . j! (n- j) ! ESn = np et Var (Sn) = npq L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est généralement noté

Cn

j ou nj

c) Loi multinomiale M (n, p1, p2 ,..., pr) , n ∈ΙΝ , pi ≥ 0 , Σ pi =1 Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les probabilités respectives p1, p2 ,..., pr , lorsqu'on répète n fois l'épreuve de manière indépendante, on obtient r effectifs N1, N2 ,..., Nr , où Ni est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de Ni est la loi binomiale de paramètres n et pi L (Ni) = B(n,pi) , i = 1, 2, ..., r ; E(Ni) = npi et Var(Ni) = npi qi . Mais il est clair que deux effectifs Ni et Nj qui correspondent à deux valeurs différentes de X, i et j, ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations. La loi de N = (N1, ..., Nr) ne peut donc pas être décrite à partir des seules lois binomiales B(n,pi) de chacun des Ni. Elle est appelée la loi multinomiale de paramètres (n, p1, p2, ..., pr) et notée M (n; p1, p2, ..., pr) . La probabilité de l'événement N1 = n1, N2 = n2 , ..., Nr = nr est égale, pourvu que la somme des ni soit égale à n, à

C. Huber

Page 13: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 12

P (N1 = n1 , N2 = n2 , ..., Nr = nr ) = n!

n1! n2! ... nr!p1

n1p2n2... pr

nr

Remarque Les variables (Ni -npi) / √ npiqi sont centrées réduites, et, lorsque n est grand (npi et nqi au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux.

d) Loi de Poisson ∏ (λ) , λ > 0 Définition Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité pk pour qu'elle prenne la valeur k étant définie par λk pk = P (X = k) = e - λ __ k = 0,1,2,... k! λ paramètre > 0 Alors EY = Var(Y) = λ On rappelle que 0! = 1 par définition. Propriété (Somme de variables de Poisson indépendantes) La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres : X et Y indépendantes L (X) = π (λ) ⇒ L (X+Y) = π (λ+µ)

L (Y) = π (µ) Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres.

A2-3 Approximations a) Approximation normale de la loi binomiale Une variable binomiale Sn, de loi B(n,p), a pour espérance np et pour variance npq. Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand ? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 : B(n, p) ≅ N(np,npq) dès que np ≥ 5 et nq ≥ 5 ce qui s'écrit aussi Sn ≅ np + npq Z

C. Huber

Page 14: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 13

où Z est normale centrée réduite N(0,1). b) Approximation normale d'une somme de variables indépendantes On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ2 : Sn = X1 + X2 + .. + Xn Alors E( Sn ) = n µ , Var ( Sn ) = n σ2 , et la loi de Sn , qui n'est pas connue puisqu'elle dépend de la loi commune des Xi , qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle : L (Sn ) ≅ N( n µ , n σ2 ) Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi Si Sn = X1 + X2 + .. + Xn , indépendantes, de même loi continue, E(Xi) = µ , Var(Xi) = σ2, et n ≥ 30 , alors L ( (Sn - n µ) / nσ 2 ) ≅ Ν(0,1) ce qui s'écrit aussi Sn ≅ n µ + nσ 2 Z où L (Z) = N(0,1).

c) Approximation de Poisson de la binomiale Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un événement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np. Plus précisément : on a l'approximation de Poisson suivante pour la loi binomiale : pourvu que p ≤ 0,1 et 1 ≤ np < 10 B(n,p) ≅ Π (np)

d) Approximation normale du χn2

C. Huber

Page 15: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 14

Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand P( χn2 ≤ x ) ≅ P ( n + 2n Ζ ≤ x ) = Φ ( (x - n) / 2n ) .

A3 - Principe des tests

Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique. Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène. Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : Xi désignera le résultat sur le ième produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès - inconnue - de cette nouvelle technique. Mais Xi peut aussi bien être la durée de vie du ième sujet, et c'est alors une variable continue. A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(X1, ..., Xn) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons Ho cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité (en général, si y est trop grand ou trop petit), on rejette Ho comme ayant conduit à une observation trop peu probable, voire invraisemblable. Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse Ho qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé Po = ϕ(X1, ..., Xn) = ( X1+ ...+Xn) / n C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations. En fait, on aimerait rejeter cette hypothèse Ho au profit de l'hypothèse H1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses Ho : p = 0,5 H1 : p > 0,5 Si la proportion observée po est trop éloignée de 0,5 , et plutôt trop grande, on rejettera Ho au profit de H1.

C. Huber

Page 16: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 15

C'est le type de problème intitulé "Comparaison d'une proportion observée, ici po , à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(X1, ..., Xn) sous Ho , sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique. On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle Ho a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie. Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a (on rappelle que le "niveau" d'un test est la probabilité de rejeter H0 quand elle est vraie) : c'est de rejeter Ho lorsque le rapport des probabilités des observations sous Ho et sous H1 est plus petit qu'une valeur donnée. Cela est une conséquence du lemme de Neyman et Pearson: Le test de Ho (P = P0) contre H1 (P = P1) qui a pour zone de rejet de Ho : x : [P0(X=x) / P1(X=x) ≤ h est le plus puissant parmi les tests qui ont le même niveau que lui.

Il suffira donc de choisir la valeur du nombre h de telle sorte que P0 x : [P0(X=x) / P1(X=x) ≤ h = α

pour obtenir le test de niveau α le plus puissant.

A4 - Principe de l'estimation L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors :

p =

X1+X2 +...+X nn = po proportion observée

Mais deux points ont besoin d'être précisés dès qu'on veut généraliser : 1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité (en général 95 %) de contenir p. Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne : L (p) ≈ N( p , σ2) Alors [ p - 2σ ; p + 2σ ]

C. Huber

Page 17: UFR des Sciences Fondamentales et Biomédicales

Rappels : Probabilités, principes des tests et de l'estimation 16

est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait, non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(P0) = p0q0 / n, ce qui donne pour intervalle de confiance à 95 % : [ po - 2 pq

n ; po + 2 pqn ] .

2) Que faire s'il n'y a pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer:

Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) . La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x1, x2, ..., xn . On choisit comme estimateur de θ la valeur

θ qui maximise V(θ) : V(θ) ≥ V(θ) pour tout θ

Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand. Exemple 1 : durée de vie exponentielle On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ ? Exemple 2 : palmier à huile Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade ? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau.

C. Huber

Page 18: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 17

B. TESTS D'AJUSTEMENT

B1 - Introduction Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type : "Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses ? Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation ("goodness of fit" tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée. Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant. B2 - Test d'ajustement du chi2 pour une loi spécifiée a. Cas d'une variable discrète : X a un nombre fini r de modalités, notées 1, 2, ..., r et il s'agit de tester l'hypothèse Ho : P(X = 1) = p1 , P(X = 2) = p2 , ..., P(X = r) = pr , où p1 , p2, ..., pr sont des probabilités données à l'avance. Alors on considère la statistique

E2 =r

∑i = 1

(N i - n pi)2

n pi

qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie. On peut démontrer que, si Ho est vraie, et pourvu que tous les npi soient assez grands (supérieurs à 5), E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl). Exemple 3 : dosage Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe

C. Huber

Page 19: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 18

entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, à r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ? b. Test d'ajustement du chi 2 pour une variable continue Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable : c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun : ] - ∞, a1], ]a1 , a2] ,..., ] ar-1 +∞ [ Si l'on a observé un n-échantillon de valeurs de X, x1,..., xn, on résume ces observations en (N1, ..., Nr) où N1 désigne le nombre des xi qui sont inférieurs à a1, N2 le nombre de ceux qui tombent entre a1 (non compris) et a2 (compris) etc... Sous l'hypothèse H0 : la loi de X est la loi N (0,1) les probabilités pj pour que X tombe dans chacun des r intervalles Ij = ]aj-1 aj] peuvent être calculées :

pj = 12π

aj -1

aj

exp - z2

2 dz

Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée. Exemple 4 : Taux de cholestérol On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants : Taux de cholestérol Effectif Taux de cholestérol Effectif ] 90 110] 01 ]190 210] 17 ] 110 130] 02 ]210 230] 12 ] 130 150] 18 ]230 250] 4 ] 150 170] 26 ]250 270] 2 ] 170 190] 16 ]270 290] 1 ]290 310] 1 On devra calculer les probabilités attribuées à chacun des intervalles par la loi

C. Huber

Page 20: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 19

N (200, 36) :

pj = 12π 6

aj-1

aj

exp - (z - 200)2

72 dz

avec ao = - ∞ , a1 = 110, a2 =130,..., a11 = + ∞ , ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet pj peut aussi s'écrire pj = F(aj) - F(aj-1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1 - 200) / 6) On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire npj supérieur à 5 pour chacun des pj . Alors la variable d'écart vaut :

E2 =r

Σi = 1

(N i - n pi)2

n pi

et, sous l'hypothèse nulle Ho , le taux de cholestérol suit dans cette sous-population la loi N (200, 36), E2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté. Si la valeur observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si : P(χ2r-1 ≥ e2 ) ≤ 0,05 et si l'on s'est fixé le seuil de 5%, on rejettera Ho. On pourra faire le calcul des pj, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%. B3 - Tests d'ajustement du chi 2 avec estimation de paramètres Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées. En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ2 respectivement par m et s2 pour pouvoir effectuer un ajustement sur la loi N (m ; s2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant. Exemple 2 : suite Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau.

C. Huber

Page 21: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 20

L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas. Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a : P (X =2) = θ2 = p1 P (X = 1) = 2 θ (1 − θ) = p2 P (X = 0) = (1 - θ)2 = p3 Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3) où N1 est le nombre de couples dont les deux éléments sont malades , N2 le nombre de couples comportant un seul pied malade, N3 le nombre de couples dont aucun pied n'est malade,

est une loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ). Préalablement à l'ajustement, il faudra estimer θ .

Nombre de pieds malades dans le couple 2 1 0 Nombre de couples 73 185 242 Avec les notations précédemment introduites : N1 = 73 , N2 =185 , N3 = 242

p1 = θ2 , p2 = 2 θ (1 − θ) , p3 = (1 - θ)2 . La vraisemblance s'obtient en remplaçant dans : P (N1 = n1, N2 = n2, N3 = n3) n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de θ seul. Calculons donc Pθ (N1 = n1, N2 = n2, N3 = n3), c'est-à-dire, de manière générale, la loi multinomiale

de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ) : P( N1 = n1 , N2 = n2 , N3 = n3 ) = n!

n1! n2!n3!p1

n1 p2n2p3

n3

On voit que ce calcul se généralise au cas où l'on a, non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon :

P( N1 = 73 , N2 = 185 , N3 = 242 ) = 500!73! 185!242! θ

2x73[2θ(1 -θ)]

185(1 − θ)

2 x 242

L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance

C. Huber

Page 22: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 21

puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut : L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ : L'( θ ) = 331 / θ - 669 / (1 - θ) = 0 ce qui donne

θ =331

1 000= 0,331

valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0 . Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit P (X = 1) = p1 et de manière générale P (X = i ) = pi pour i variant de 1 à r. Les valeurs de p1, ... , pr sont des fonctions connues d'un ou plusieurs paramètres θ 1, ... , θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance :

V( θ 1 , θ 2 ,. .. , θ k ) = n!n1! n2!n3!

p1( θ 1 , θ 2 ,. . ., θ k )n1

p2( θ 1 , θ 2 ,. .. , θ k )n2

...pk( θ 1 , θ 2 ,. . ., θ k )nk

est la vraisemblance de l'échantillon si l'on a observé n1 fois la valeur 1 pour X, n2 fois la valeur 2, etc... Et les valeurs

θ 1 , θ 2 , . . . , θ k sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir ces valeurs par dérivation. Il en résulte des estimateurs

p1 , p2 , . . . , pr Pour tester H0 : la loi de X a pour paramètre θ 1, ... , θ k On calcule la variable d'écart E2 entre les effectifs observés ni dans chacune des classes et leurs espérances sous Ho :

E2 =r

∑i = 1

(N i - n pi)2

n pi Alors, sous Ho, E2 suit une loi proche de celle du chi-2 a r-k-1 degrés de liberté, pourvu que n soit assez grand pour que

C. Huber

Page 23: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 22

n pi ≥ 5 pour i = 1, 2, . . . , r

Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance. Exemple 2 : palmier à huile (suite)

Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ , et les valeurs correspondantes estimées de p1 , p2 , p3 sont : 0,1096 , 0,4422 et 0,4475 On vérifie que

n pi ≥ 5 pour i = 1, 2, 3 La variable d'écart :

E2 =r

Σi = 1

(N i - n pi)2

n pi= 12,55

suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous l'hypothèse nulle. Or P (χ12 ≥ 12,55 ) < 0,001 On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o/oo . Remarque 1 Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres. Exemple Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques

x etsn

2

n - 1 On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol. Remarque 2 En ce qui concerne la puissance de ces tests d'ajustement, appelés "tests du Chi-deux", l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E2, sous chacune de ces lois pose un problème différent qu'il faut résoudre au coup par coup.

C. Huber

Page 24: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 23

B4 - Test de Kolmogorov-Smirnov : On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E2, ne tient pas compte d'un ordre éventuel des r classes. Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov. La statistique sur laquelle est fondé ce test est D = sup Fn- F . Sup Fn- F signifie : sup t ∈R Fn (t) - F (t) , c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) :

Fn(t) = 1n

n

Σi = 1

1]- ∞ t] (xi)

c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x1, ... , xn). Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée pour n variant de 1 à 35. Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de Dn vers une loi indépendante de n, quand n croit :

P ( supt n ⎮Fn (t) - F (t)⎮ < α ) → 1 - 2∞

Σk = 1

(- 1)k+1 e - 2 k2α

2

pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que , en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par √n, où n est le nombre des observations. Exemple 6 : radiographies Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle Ho cette hypothèse, qui dit que les préférences des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages. Rang de la radio choisie (1 est la plus foncée) 1 2 3 4 5 Nombre de sujets choisissant 0 1 0 5 4 ce rang F : fonction de répartition 1/5 2/5 3/5 4/5 5/5

C. Huber

Page 25: UFR des Sciences Fondamentales et Biomédicales

Tests d'ajustement 24

théorique sous H0 Fn : fonction de répartition 0/10 1/10 1/10 6/10 10/10 empirique Fn - F 2/10 3/10 5/10 2/10 0 Donc D = 5/10 = 0, 500. Pour n = 10, la table de la loi de D, sous H0, nous dit que : PH0 (D ≥ 0, 500) < 0, 01 Le test est donc significatif, on rejette H0, avec un degré de signification inférieur à 1%. Remarque : Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 : 1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de

regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles. 2) Lorsque le nombre d'observations est petit, le test du χ2 ne peut pas s'appliquer du

tout. Si l'on essaie d'appliquer le test du χ2 à l'exemple ci-dessus, on doit combiner plusieurs catégories adjacentes :

Foncé (1,2) Clair (3,4,5) Fréquence de choix 1 9 Alors χ12 = 3,75. La probabilité que χ12 soit supérieur à 3,75 tombe entre 0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%. Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

C. Huber

Page 26: UFR des Sciences Fondamentales et Biomédicales

Indépendance 25

C Mise en evidence de liaisons : Tests d'indépendance.

La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup

d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont.

Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I.

Partant de là, nous allons introduire d'autres méthodes, plus générales.

C1 - Les deux caractères sont discrets : a - Deux caractères à deux classes : Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux

valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine ? On dispose des observations suivantes :

Intoxication sensibles non sensibles taille d'échantillon Milieu Citadins 123 153 276 Ruraux 145 150 295

portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre

part parmi les habitants de la campagne. Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux

proportions observées" qui sont ici : - La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49

Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse Ho (p = p'), la contre- hypothèse étant H1 (p ≠ p'). Sous l'hypothèse nulle Ho, la variable aléatoire

C. Huber

Page 27: UFR des Sciences Fondamentales et Biomédicales

Indépendance 26

E =P' o - P o

P t Qt ( 1n1

+ 1n2

)

où Po est la proportion de sensibles pour un échantillon de n1citadins P'o est la proportion de sensibles dans un échantillon de n2 ruraux Pt est la proportion de sensibles dans l'échantillon total de taille n1+ n2 Qt = 1 - Pt a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1): en effet n1po, n1qo, n2 p'o, n2 q'o sont tous supérieurs à 5. On notera, dans toute la suite Z une variable de loi N(0,1). La valeur observée de E, dans notre exemple est :

e =p' o - po

pt qt ( 1n1

+ 1n2

)= 0,49 - 0,45

0,47.0,53 ( 1276 + 1

295)= 0,04

0,04 = 1

Et la probabilité pour que, sous l'hypothèse Ho, on ait observé une valeur de E , qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près

P (|Ε| ≥ | e |) ≈ P ( |Ε| ≥ 1) ≈ 0,32 Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on

conserverait Ho pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %.

On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles.

Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire

|Ε| ≥ |e| ou E2 ≥ e2

De même que lors de l'étude des tests d'ajustement, on peut montrer que E2 s'écrit aussi, en notant :

N1 l'effectif de ceux qui sont sensibles parmi les citadins N2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins N3 l'effectif de ceux qui sont sensibles parmi les ruraux N4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux Pt la proportion des sensibles sur le total Qt la proportion des insensibles sur le total Qt = 1 - Pt

C. Huber

Page 28: UFR des Sciences Fondamentales et Biomédicales

Indépendance 27

E2 =(N 1 - n1P t )2

n1P t+

(N2 - n1Qt )2

n1Qt+

(N 3 - n2P t )2

n2P t+

(N4 - n2Qt )2

n2Qt

Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n1+n2 et Pt constitue alors un bon estimateur de cette proportion. Alors E2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée. On appelle quelquefois les Ni les effectifs observés et les niPt et niQt les effectifs "calculés" ou "théoriques". Sous l'hypothèse Ho, pourvu que les dénominateurs niPt et niQt soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On

rappelle qu'on appelle loi du chi deux à r degrés de liberté (notée χ2r) la loi de la variable S = Z21+Z22+... +Z2r où les Zi sont indépendantes et toutes de loi N(0, 1)). Dans la table des lois du chi deux, on lit que P(E2 >e2) = P(E2 > 1) ≈ 0, 32. On constate donc que le test fondé sur E2 est identique à celui fondé sur E, mais la forme E2 permet une généralisation immédiate en cas où A a r modalités, B a k modalités .

b - Deux caractères à r et k classes : Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C). Les résultats d'une observation portant sur n = 1574 malades sont les suivants :

Durée X écoulée depuis

C. Huber

Page 29: UFR des Sciences Fondamentales et Biomédicales

Indépendance 28

la vaccination A B C Total Degré de gravité Y de la maladie G 1 42 230 273 M 6 114 347 467 L 23 301 510 834 Total 30 457 1087 1574

Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative :

Ho : X et Y sont indépendantes, H1 : X et Y sont liées .

De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et nij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n.j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et ni. le nombre total de ceux pour lesquels X vaut i , et qui figure à droite de la ligne i. Sous l'hypothèse Ho d'indépendance de X et Y :

P (X = i, Y = j) = P (X = i) . P (Y = j) soit pij = pi . p.j

Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont

pij =nijn , pi. =

ni.n ,p.j =

n.jn

Si Ho est vraie, les écarts

pij - pi. . p .j

ne doivent être dus qu'aux fluctuations d'échantillonnage,

On peut démontrer que la variable

E2

= ∑i = 1, . . ,r ; j = 1, . . ,k

(nij - ni.p .j)2

ni.p .j

suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes). Revenant à l'exemple considéré, r = k = 3 et la variable E2, qui vaut e = 61,4, suit , sous l'hypothèse Ho, une loi du χ2 à (r -1) (k - 1) = 4 degrés de liberté.

C. Huber

Page 30: UFR des Sciences Fondamentales et Biomédicales

Indépendance 29

Donc PHo (E2 > 61,4) < 10-3 d'après la table, le test est donc significatif avec un très bon degré de signification (10-3): on rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la vaccination.

C2 - Cas d'un caractère continu et d'un caractère discret à deux classes

On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X vaut 0 et lorsque X vaut 1. Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut 0 dans l'un des deux groupes et 1 dans l'autre.

a - Test de comparaison de moyennes :

Lorsque les deux lois L (Y | X = 0) et L (Y | X = 1) sont différentes, cela peut provenir par exemple d'une différence entre les deux espérances : Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0. On teste alors : Ho : EY' = EY H1 : EY' ≠ E Y C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais ici noté E) entre les moyennes observées pour Y et pour Y' :

E = Y' - Y

S' 2

n' + S2

n

Si l'on choisit pour risque d'erreur de première espèce α , la zone de rejet de Ho , donc de l'hypothèse que X et Y sont indépendants, correspond à la région : |E| > h où h est choisi tel que : PHo |E| > h= α .

a.1 - Cas des grands échantillons (supérieurs à 30) :

Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi,

C. Huber

Page 31: UFR des Sciences Fondamentales et Biomédicales

Indépendance 30

par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous Ho, est proche de la loi normale N (0,1). C'est-à-dire que si Z est une variable normale N (0,1), de densité de probabilité qui vaut par conséquent

f(z) = 12π

exp ( - z2

2 )

on a

( ) ( ) dzzhZPhEPh

h)

2exp(

21)()(

2

−=≤≈≤ ∫− π

Exemple

Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades traités par ce médicament : au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe on administre le médicament. Les moyennes et variance estimées sur chacun des groupes sont my = 80 s2y = 5 pour le rythme cardiaque Y du groupe témoin, my' = 81 s2y'= 3 pour le rythme cardiaque Y'du groupe traité . Le test bilatéral de Ho (EY' = EY) contre H1 (EY' EY) qui se fonde sur l'écart réduit E défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification compris entre 1% et 2 %.

a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student :

Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut plus obtenir la loi de E sous H0 grâce à l'approximation normale. Cependant, si l'on sait (ou si l'on peut s'autoriser à supposer) que la loi de Y et celle de Y' sont toutes les deux normales et de même variance, la variable :

E' = Y' - Y

n' Sy'2 + n Sy

2

n + n' - 21n'

+ 1n

suit la loi de Student à n + n' - 2 degrés de liberté. Définition de la loi de Student à n ddl : Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire

T = XY

n

suit la loi de Student à n degrés de liberté dont la densité gn (t) au point t vaut

C. Huber

Page 32: UFR des Sciences Fondamentales et Biomédicales

Indépendance 31

gn(t) = cn (1 + t2

n )

- n + 12

(où cn est le coefficient positif qui assure que ∫ gn(t) dt = 1 ). Exemple : dosage de la transferrine

Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974)) Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les résultats suivants :

- moyenne des dosages 1,9 g|l - écart type de l'échantillon 0,2 g|l

Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé les résultats suivants : - moyenne des dosages 1,3 g|l - écart type de l'échantillon 0,2 g|l. En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite alcoolique chronique, on veut tester Ho : EY' = EY H1 : EY' < EY Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test d'égalité des variances aurait permis de conclure à l'égalité de celles-ci. Alors

E' = Y' - Y

n' Sy'2 + n Sy

2

n + n' - 21n'

+ 1n

qui vaut ici -7,79, suit sous Ho une loi de Student à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que P (E' < -7,79) = P (T27 < - 7,79) < 0,001 Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique chronique. Cependant, on voit bien quelles sont les limites de cette première méthode pour traiter le cas des petits échantillons : D'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des variances des variables de base, pour pouvoir fonder un test sur la variable E' de loi de

C. Huber

Page 33: UFR des Sciences Fondamentales et Biomédicales

Indépendance 32

Student sous Ho. D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types de différences peuvent intervenir, à moyennes égales ou non.

b. Les tests non paramétriques :

Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des variables de base. Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2 paramètres pour la loi normale, N (µ, σ2), la moyenne µ et l'écart type σ ,1 pour la loi de Poisson etc.) :

- le test de la médiane - le test de Wilcoxon - le test de Kolmogorov-Smirnov;

Nous illustrerons chacun de ces trois tests sur un même exemple : Exemple :

Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5 autres seront des témoins non traités, mais à qui on administre un placebo.Les résultats concernant la durée de survie exprimée en années sont les suivants :

Traités (T) 6,5 4,2 17,8 7,9 13,2 Non Traités (NT) 6,7 0,4 2,9 1,2 5,6

Pour chacun des trois tests, la première opération à effectuer est d'ordonner les valeurs obtenues, en les considérant dans leur ensemble : En effet, sous l'hypothèse nulle Ho : L (S | T ) = L (S | NT ) qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités (NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles respectives n et n', mais un seul grand échantillon de taille n + n'.

On obtient ainsi la suite : Durée de survie 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 17,8

C. Huber

Page 34: UFR des Sciences Fondamentales et Biomédicales

Indépendance 33

Rang 1 2 3 4 5 6 7 8 9 10 Traitement T T T T T

b.1 Test de la médiane :

Rappelons la définition de la médiane d'une loi ou d'une variable. Définition de la médiane : Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) = P(X ≤ x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que :

m = ½[ inf x : F(x) ≥ 0,5) + sup x : F(x) ≥ 0,5]

La médiane est donc en gros une valeur m telle que : P (X<m) = P (X>m) = 1/2 . C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa gauche qu'à sa droite. Ici

m = 6,05

Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane m de l'échantillon par m = x(n+1)/2 si n est impair et (x(n/2) + x(n/2+1))/2 si n est pair où les x(i) sont les valeurs ordonnées de l'échantillon. On remplace alors les résultats observés par le résumé suivant :

groupes Non traités Traités Totaux Effectifs Nombre des patients dont la durée de survie est 1 4 5 supérieure à la médiane Nombre des patients dont la durée de survie est 4 1 5 inférieure à la médiane (≤) Totaux 5 5 10

Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à la médiane. De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane

C. Huber

Page 35: UFR des Sciences Fondamentales et Biomédicales

Indépendance 34

générale observée : Groupe I Groupe II Totaux X > M (médiane générale) A C A + C X ≤ M B D B + D Totaux A + B = n C + D = n' n + n' A+C représente (à une unité près) la moitié de l'effectif global n + n'. Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de type I et n' de type II,on tirait au hasard (A + C) boules. Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules parmi les n + n' a la même probabilité de sortir. Comme il y a en tout

n + n'A + C

telles combinaisons dont

nA x n'

C

contiennent exactement A boules du type I et C du type II. Donc :

P(A,C) =

nA . n'

Cn+n'A+C

qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D :

P' A,C) = (A+B)! (B+D)! (A+C)! (C+D)!(n+n' )! A! B! C! D!

Rappel :

on rappelle que la quantité nk , notée aussi Cn

k, est le nombre des combinaisons de n objets pris k par k,

et vaut n!k! (n-k)!.

où n! , appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1 . Cette loi a été tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des deux groupes : voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table correspond à un test unilatéral de l'hypothèse H0 d'indépendance. Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie.

Remarques

1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de

C. Huber

Page 36: UFR des Sciences Fondamentales et Biomédicales

Indépendance 35

puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup d'information en remplaçant les données initiales sur la durée de survie par le tableau des effectifs inférieurs et supérieurs à la médiane globale. La variable quantitative continue qu'était la durée de survie a été transformée en une variable à deux classes.

2) Le test finalement employé sur le tableau des effectifs A, B, C, D est un test d'indépendance entre deux caractères à deux classes : Traités, non traités Survie à plus de 6 ans, et à moins de 6 ans Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I. 3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test du χ2 . D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification du test à partir de la formule qui donne P (A, C).

b.2 Test de Wilcoxon pour deux échantillons

Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales, est plus puissant que le précédent. La statistique considérée est la somme W des rangs des valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par ordre croissant. Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités on obtient : W = 4 + 6 + 8 + 9 + 10 = 37 . Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse Ho de non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2, ..., 10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5 premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont équiprobables et donc de probabilité 1 / 10! . Mais deux permutations telles que les 5 premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux individustraités, on ne les distinguera donc pas. Comme il y a (5!)2 telles permutations, on obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle vaut

5! 5!10!

Remarquons qu'elle n'est pas toujours égale à la probabilité pour que W soit égale à une certaine valeur. En effet, les deux répartitions distinctes suivantes : R1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins R2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins donnent la même valeur à W : 37. On décidera de rejeter Ho si W est trop grand ou trop petit . On peut décider de rejeter Ho si P (W ≥ 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien l'information contenue dans les données). Pour calculer P (W ≥ 37) il faut déterminer les répartitions R telles que W ≥ 37. Leur nombre,

C. Huber

Page 37: UFR des Sciences Fondamentales et Biomédicales

Indépendance 36

multiplié par (5!)2 / 10! donnera la probabilité cherchée : R = (6, 7, 8, 9, 10)Traités W = 40 R = (5, 7, 8, 9, 10)T W = 39 R = (5, 6, 8, 9, 10)T W = 38 R = (4, 7, 8, 9, 10)T W = 38 R = (5, 6, 7, 9, 10)T W = 37 R = (4, 6, 8, 9, 10)T W = 37 R = (3, 7, 8, 9, 10)T W = 37

Donc P (W ≥ 37) = 7.(5!)2 / 10! ≅ 0,026 . Au seuil de 5%, on rejette donc Ho et on conclut que le traitement est efficace. Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous avions employé avant et dont le nom est test de Fisher ou d'Irwin-Fisher. Ces deux procédures de test sont non-paramétriques puisque aucune hypothèse n'a été faite sur la forme de la loi de la variable étudiée. Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables qui donnent les probabilités relatives à W pour les valeurs n1 et n2 des deux tailles d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de Mann-Whitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des dépassements des sujets de l'autre groupe (II), donc

W = U +n1 (n1 + 1)

2

ou n1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2 . b.3 Test de Kolmogorov - Smirnov pour deux échantillons :

L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra en évidence que des différences concernant justement les espérances des lois concernées. Le test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois : Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun des deux échantillons. Reprenons l'exemple précédent et notons Fn la fonction de répartition empirique de la survie dans le groupe non traité. F'n la même quantité chez le groupe traité. Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on considère D = maximumx (Fn (x) - F'n (x)) appelée la statistique de Kolmogorov.

C. Huber

Page 38: UFR des Sciences Fondamentales et Biomédicales

Indépendance 37

Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart maximal des fonctions de répartition empiriques dans le sens choisi. Ici: D = maximumx ( Fn (x) - F'n (x) ) appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous.

0 13,20,4 1,2 2,9 4,2 5,6 7,9

1

6,5 6,7

Fn

F'n

Fonctions de répartition empiriques des durées de survie : Fn pour le groupe non traité F'n pour le groupe traité.

La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table T12 "Table of critical values of KD in the Kolmogorov - Smirnov two-sample test". KD y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux colonnes intitulées "One-tailed test". Pour le test bilatéral, aux deux colonnes "Two-tailed test". Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation normale , sous Ho, pour W1, somme des rangs du groupe I :

L (W1) ≈ N (n1 ( n1 + n2 + 1)

2 ;n1 n2 ( n1 + n2 + 1)

12 )

où n1 et n2 sont les tailles des deux échantillons et N = n1 + n2. Dans notre cas, N = 5 : il faudrait, pour qu'un test unilatéral soit significatif à 5% que KD soit égal à 4 (et qu'il soit égal à 5 pour être significatif à 1%) ; Comme ici KD = 3, le test n'est pas significatif (tout au moins

C. Huber

Page 39: UFR des Sciences Fondamentales et Biomédicales

Indépendance 38

à 5%). Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut démontrer qu'il a effectivement de très bonnes propriétés. Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer alors ? L'une des possibilités, la plus simple, est d'affecter à chacun des ex-aequo le rang moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière). On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs intermédiaires à l'ensemble des ex-aequo.

C3 - Liaison entre deux caractères continus a - Cas normal :

Le test classique qui permet de mettre en évidence une liaison entre deux caractères continus lorsque ces deux variables ont une loi jointe normale et ont la même variance, est le test du coefficient de corrélation empirique. Dans ce cas particulier, le couple de variables (X, Y) admet pour densité de probabilité en tout point (x,y) du plan :

f(x,y) = 1

2 π σ2

exp ( - 1

2(1- ρ2)

(x-µ)2

- 2ρ(x−µ)(y−µ' ) + (y-µ' )2

)

où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y:

ρ(X,Y) = E [(X - EX) (Y - EY)]σ(X) σ(Y)

Dans ce cas particulier, les variables X et Y sont indépendantes si et seulement si ρ est nul, et le test d'indépendance est fondé sur la loi du coefficient de corrélation empirique :

R =:

n

∑i = 1

(xi - x) (yi - y)

[n

∑i = 1

(xi - x)2

] [n

∑i = 1

(yi - y)2

]

dont la loi , qui dépend de n, est tabulée. mais il est rare que l'on puisse supposer a priori que la loi du couple est normale avec des variances égales.

b - Cas général : méthodes non paramétriques :

L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R ci-dessus est très restrictive.

C. Huber

Page 40: UFR des Sciences Fondamentales et Biomédicales

Indépendance 39

Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y, ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la statistique est libre. L'idée est de remplacer les valeurs des variables par leurs rangs : on ordonne par ordre croissant les valeurs xi observées et on affecte à chacune son rang, qui varie ainsi de 1 à n : R (i) désigne le rang de Xi. De même pour les yi : S (i) désigne le rang de Yi.

b1 Coefficient de corrélation des rangs de Spearman : rs :

Le coefficient de corrélation des rangs de Spearman, noté rs est le coefficient de corrélation de la suite (R(i), S(i)), i = 1, ..., n, des rangs :

Rs =:

n

∑i = 1

(R(i) - R) (S(i) - S)

[n

∑i = 1

(R(i) - R)2

] [n

∑i = 1

(S(i) - S)2

]

Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite des n premiers entiers. Or on sait que

n

∑i = 1

i = n (n+1)2 donc R = S = n + 1

2

n

∑i = 1

i2 = n (n+1) (2n + 1)6 donc Σ R2 = Σ S 2 = n (n+1) (2n + 1)

6

En utilisant pour le coefficient de corrélation l'expression

Rs =Σ RS

(Σ R2) (Σ S2)

on obtient, en notant di la différence R (i) - S (i) entre les rangs de X et de Y :

rs = 1 -6 Σ di

2

n3 - n

C. Huber

Page 41: UFR des Sciences Fondamentales et Biomédicales

Indépendance 40

Exemple Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45 à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes d'Angleterre et du pays de Galles. Lorsqu'apparaissent des ex-aequo , on affecte à chacun d'eux le même rang, qui est la moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux. Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une telle procédure est négligeable sur le comportement de rs. Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la somme des carrés des rangs : Σ R2 (ou Σ S2, ou les deux) ne vaut plus

n (n+1) (2n+1)

6

mais une valeur inférieure qu'il faut alors calculer. Ville Mortalité Calcium Ville Mortality Calcium

per 100,000 ppm per 100,000 ppm (y) (x) (y) (x) Bath 1,247 105 Newcastle 1,702 44 Birkenhead 1,668 17 Northampton 1,309 59 Birmingham 1,466 5 Norwich 1,259 133 Blackburn 1,800 14 Nottingham 1,427 27 Blackpool 1,609 18 Oldham 1,724 6 Bolton 1,558 10 Oxford 1,175 107 Bootle 1,807 15 Plymouth 1,486 5 Bournemouth 1,299 78 Portsmouth 1,456 90 Bradford 1,637 10 Preston 1,696 6 Brighton 1,359 84 Reading 1,236 101 Bristol 1,392 73 Rochdale 1,711 13 Burnley 1,755 12 Rotherham 1,444 14 Coventry 1,307 78 St Helens 1,591 49 Croydon 1,254 96 Salford 1,987 8 Darlington 1,491 20 Sheffield 1,495 14 Derby 1,555 39 Southampton 1,369 68 Doncaster 1,428 39 Southend 1,257 50 East Ham 1,318 122 Southport 1,587 75 Exeter 1,260 21 Southshields 1,713 71 Gateshead 1,723 44 Stockport 1,557 13 Grimsby 1,379 94 Stoke 1,640 57 Halifax 1,742 8 Sunderland 1,709 71 Huddersfield 1,574 9 Wallasey 1,625 20 Ipswich 1,096 138 Walsall 1,527 60 Hull 1,569 91 West Bromwich 1,627 53 Leeds 1,591 16 West Ham 1,486 122 Leicester 1,402 37 Wolverhampton 1,485 81

C. Huber

Page 42: UFR des Sciences Fondamentales et Biomédicales

Indépendance 41

Liverpool 1,772 15 York 1,378 71 Manchester 1,828 8 Cardiff 1,519 21 Middlesborough1,704 26 Newport 1,581 14 Swansea 1,625 13

Ici rs = - 0, 727 pour les 30 observations de la colonne de gauche. Que conclure en ce qui concerne ces 30 villes ? On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion ? Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour l'autre. A chacune de ces permutations, qui sont en nombre n, correspond une valeur du coefficient de corrélation de Spearman rs. Chacune de ces valeurs a donc pour probabilité 1/ n et cette loi a été tabulée. Lorsque n est assez grand, au-delà de 10, la loi de

T = Rsn - 2

1 - Rs2

est approximativement la loi de Student à n - 2 degrés de liberté. b2 Coefficient d'association des rangs de Kendall :

Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives. Le test correspondant a la même puissance que le précédent, et il a l'avantage de se généraliser au cas où intervient une troisième variable: voir ci-dessous, le coefficient de corrélation partielle des rangs. Voyons, sur un exemple, comment se définit le coefficient de Kendall.

Exemple :

Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c, et d. Le tableau ci-dessous donne les pronostics, en années :

Patient a b c d Médecin 1 : X 1 2 0,9 0,5 Médecin II : Y 1,5 0,8 2 1

Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau ci-dessous

Patient d c a b Médecin 1 : R 1 2 3 4 Médecin II : S 2 4 3 1

C. Huber

Page 43: UFR des Sciences Fondamentales et Biomédicales

Indépendance 42

Pour déterminer le degré de correspondance de ces deux classements, on décompte le nombre de couples (de patients) qui sont rangés dans le même ordre, de la manière suivante : Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a concordance, et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d, a): on lui affecte aussi + 1; le troisième par contre (d, b) est inversé: il est discordant et on lui affecte le score - 1, et ainsi de suite . On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la valeur : - 2. Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre des couples distincts, c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par deux : 4!/(2!2!) = 6 On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de concordance observée à sa valeur maximale : ici

τ = −2

6= − 0,33

Comme le coefficient rs de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus simple, de le calculer est la suivante : A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus petits que lui. Ainsi cela donne dans notre exemple : Patient d : 2 - 1 = 1 , c : - 2 , a : - 1 , ce qui donne en tout -2. La loi de τ sous Ho est tabulée. De plus, dès que n est supérieur à 10, la loi de

τ − µτ

στ

est approximativement la loi normale N (0, 1), où µτ = 0 et

στ = 2 (2n+5)9n (n-1)

b3 Coefficient d'association partielle de Kendall τ xy,z :

Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à l'intervention d'une troisième variable Z.

C. Huber

Page 44: UFR des Sciences Fondamentales et Biomédicales

Indépendance 43

De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation entre X et Y à Z fixé. On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait l'intelligence.

Exemple :

Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z on obtient le tableau suivant :

Sujet a b c d Rang de Z 1 2 3 4 Rang de X 3 1 2 4 Rang de Y 2 3 1 4

A chacun des 6 couples de sujets on associe un signe + lorsque la variable correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau :

Couple (a,b) (a, c) (a, d) (b, c) (b, d) (c, d) Z + + + + + + X - - + + + + Y - + + + + +

Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et de Z. On considère donc les effectifs des couples concordants et discordants de la manière suivante :

Y couples dont le Y couples dont Total signe concorde le signe diffère avec celui de Z de celui de Z

X couples dont le signe concorde avec celui de Z A B A + B X couples dont le signe diffère de celui de Z C D C + D

Total A + C B + D n! / 2! (n-2)!

Ici A = 4, B = 0, C = D =1. On appelle coefficient d'association partielle de Kendall le rapport :

τxy,z = AD - BC

(A+B) (C+D) (A+C) (B+D) qui vaut ici 0,63.

C. Huber

Page 45: UFR des Sciences Fondamentales et Biomédicales

Indépendance 44

Si l'on avait calculé le coefficient d'association de Kendall τxy , on aurait trouvé τxy = 0,67 .

Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z. On peut démontrer que

τxy,z =τxy − τzx τzy

(1−τzy

2) (1−τzx

2)

qui est une formule plus facile à calculer que la précédente, car le nombre des combinaisons de n objets pris 2 à 2 devient rapidement très grand avec n. On pourra le vérifier sur l'exemple. On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait cependant obtenir cette loi par simulation.

C. Huber

Page 46: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

45

D Tests non paramétriques pour comparer

k échantillons

D1 k échantillons indépendants : Médiane généralisée. Analyse de la variance non-paramétrique. D2 k échantillons liés : Test de Cochran. Test de Friedman.

C. Huber

Page 47: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

46

D1 - Tests non paramétriques pour k échantillons

indépendants.

- Test de la médiane généralisée. - Test de Kruskal-Wallis : analyse de la variance à un facteur.

1 Test de la médiane généralisée :

Etant donnés k échantillons indépendants, pas nécessairement de la même taille, le test de la médiane sert à tester si tous les groupes ont été tirés de la même population, ou au moins de populations qui ont la même médiane. On ne peut faire ce test que lorsque la variable qui a été mesurée est réelle ou a des valeurs ordonnées. Pour appliquer cette méthode, on commence par calculer la médiane globale M de l'ensemble de toutes les observations, obtenue en considérant les k échantillons comme s'il s'agissait d'un seul. On classe alors chaque valeur observée par rapport à M et on la remplace par un + si elle est supérieure et par un - si elle est inférieure. Pour chacun des k échantillons, cela donne deux scores: - Le nombre des + (Le nombre des valeurs supérieures à M) - Le nombre des - (Le nombre des valeurs inférieures à M) On peut alors représenter les observations ainsi dichotomisées par un tableau à k lignes et deux colonnes où figurent les fréquences des plus et des moins dans chacun des k échantillons. Pour teste l'hypothèse que les k groupes proviennent de la même population, au moins en ce qui concerne les médianes, on calcule la valeur de la statistique suivante χ2 = ∑i j (Oij - Eij)2 / Eij où Oij est le nombre des observations qui se trouvent à l'intersection de la ligne i et de la colonne j et Eij l'espérance de cet effectif sous l'hypothèse Ho . C'est la statistique habituelle du chi 2 d'ajustement appliquée à notre cas où r = 2, c'est à dire que j = 1, 2, i varie de 1 à k, et dont la loi est approximativement celle d'un chi 2 à (k - 1) (r - 1) = k - 1 degrés de liberté. La valeur de Eij est égale à la moitié de l'effectif total dans le groupe j, soit Eij = nj / 2, car si la médiane est la

C. Huber

Page 48: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

47

même pour tous les échantillons, on a en moyenne autant de + que de - dans chaque échantillon.

Remarque Dans le cas où certaines des valeurs observées sont exactement égales à la médiane globale, il n'est pas correct de considérer que Eij = nj / 2, car la probabilité d'être inférieur ou égal à m a pour estimateur 0. 1 / n , la fréquence relative dans l'échantillon global des valeurs inférieures ou égales à M, qui est supérieure à 1/2. Cela revient à appliquer la technique habituelle qui veut que Eij = Oi. O.j / n , le produit du total de ligne par le total de colonne, divisé par le total général n, c'est à dire l'effectif global. Exemple Un chercheur dans un centre de santé publique veut étudier l'influence du degré d'instruction de la mère sur le soin avec lequel elle assure la surveillance médicale de son enfant. Dans ce but, il considère le niveau maximum de culture atteint par la mère, mesuré par le diplôme le plus élevé, et par conséquent le nombre d'années d'études que cela suppose, et le nombre de visites de contrôle médical effectuées pour l'enfant au cours de ses deux premières années.

Niveau d'instruction de la mère Ecole Collège Lycée premier cycle licence maîtrise élémentaire (bac) d'université ou au-delà 4 2 2 9 2 2 3 4 0 4 4 6 0 1 4 2 5 7 6 3 3 2 1 3 8 2 0 0 0 2 5 3 5 2 5 1 1 1 2 7 1 6 5 1 Le tableau ci-dessus est obtenu de la manière suivante: Parmi les 528 naissances enregistrées dans une grande maternité pendant une période donnée, il tire dans la liste alphabétique une sur 12 d'entre elles, ce qui lui donne 44 couples (mère-enfant) pour lesquels il a les deux informations précédentes. On distingue 6 groupes de mères ayant le même niveau d'instruction : l'école élémentaire, le collège, jusqu'en troisième, le lycée, jusqu'à l'obtention du bac, le premier cycle des universités, la licence et enfin la maîtrise ou au-delà. L'hypothèse nulle Ho est qu'il n'y a pas de différence en ce qui concerne le nombre des visites de contrôle en fonction du degré d'instruction de la mère. On a donc 6 échantillons indépendants. Si on les regroupe, on trouve pour médiane globale du nombre des visites M = 2.5, valeur qui laisse 22 observations à sa gauche et 22 à sa droite. Les scores dans chacun des groupes donnent donc le tableau suivant.

Niveau d'instruction de la mère

C. Huber

Page 49: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

48

Ecole Collège Lycée premier cycle licence maîtrise Total (élémentaire) (bac) (d'université) (ou au-delà) Nbre de mères dont les visites 5 4 7 3 2 1 22 sont plus fréquen- tes que la médiane. 5 5,5 6,5 2 2 1 Nbre de mères dont les visites 5 7 6 1 2 1 22 sont moins fréquen tes que la médiane 5 5,5 6,5 2 2 1 Total 10 11 13 4 4 2 44 Les effectifs en italiques représentent les effectifs "calculés", les Eij , alors que les effectifs observés, les Oïj sont indiqués en caractères ordinaires. On constate alors qu'on ne peut pas effectuer un test de chi 2 car un grand nombre de cases ont un effectif inférieur à 5. Cependant, comme les groupes qui contiennent trop peu d'observations concernent les trois niveaux d'instruction les plus élevés, on peut les regrouper pour en faire un seul : celui des mères qui ont fait des études universitaires, quel qu'en soit le niveau. Après regroupement, cela donne le tableau suivant Niveau d'instruction de la mère Ecole Collège Lycée Etudes universitaires Total élémentaire (bac) Nbre de mères dont les visites 5 4 7 6 22 sont plus fréquen tes que la médiane. 5 5,5 6,5 5 Nbre de mères dont les visites 5 7 6 4 22 sont moins fréquen- tes que la médiane 5 5,5 6,5 5 Total 10 11 13 10 44 Comme tous les effectifs théoriques (en italique), sont maintenant supérieurs à 5, on peut effectuer un test du chi 2 sur ce tableau, ce qui donne: χ2 = (Oij - Eij)2/Eij = (5 - 5) 2 / 5 + (4 - 5.5) 2 / 5.5 +..+ (4 - 5) 2 / 5

= 1,295 .

Comme il reste 4 classes, le nombre de degrés de liberté est égal à 3. Or la probabilité pour qu'un chi 2 à trois degrés de liberté dépasse cette valeur est égale, d'après la table, à une valeur comprise entre 0,70 et 0,80. On ne peut donc pas rejeter

C. Huber

Page 50: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

49

l'hypothèse nulle selon laquelle le nombre des visites médicales de contrôle pour les enfants entre 0 et 2 ans est indépendante du niveau d'instruction de la mère.

2 Analyse de la variance non paramétrique : Test de Kruskal-Wallis.

On se souvient que l'analyse de variance classique, qui teste l'égalité des moyennes dans plusieurs populations, suppose que toutes les variables aléatoires concernées sont normales (on dit aussi parfois gaussiennes). Si rien ne permet de faire cette hypothèse de normalité, on peut tester cette hypothèse d'égalité des moyennes grâce au test de Kruskal-Wallis explicité ci-dessous. On remarquera que le test précédent permettait de tester l'égalité des médianes. Les données consistent donc en k échantillons indépendants issus de populations différentes, dont on se demande si elles ont la même moyenne. On ne fait pas l'hypothèse de normalité comme en analyse de variance classique, mais on suppose que les lois sont continues (pour éviter les ex-aequo). Bien sûr, il faut que les grandeurs mesurées le soient sur une échelle ordinale. Notons nj la taille du jème échantillon, j = 1, ..., k, et n le nombre total des observations n = Σ nj . On ordonne toutes les valeurs dans leur ensemble (n en tout) et on remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n pour la plus grande. A chacun des k échantillons, on fait ensuite correspondre son score obtenu comme la somme des rangs des observations qui le composent: soit Rj ce score. La statistique de Kruskal-Wallis est ainsi définie

12 Rj

2

K-W = ___________ ∑ ( ____ ) - 3 (n + 1) n (n + 1) j nj

On peut démontrer que lorsqu'il y a suffisamment d'observations (plus de 5 cas dans chacun des groupes, pour prendre l'approximation habituelle), cette statistique est approximativement distribuée, si Ho est vraie, comme un chi 2 à k - 1 degrés de liberté. Dans le cas où k = 3 et le nombre des sujets dans chacun des trois échantillons est inférieur à 5, on dispose de tables qui donnent les valeurs critiques exactes pour la statistique K-W.

Exemple 1 Un obstétricien se demande si le fait que la mère fume a une influence sur le poids du nouveau-né. Les mères sont divisées en 8 catégories par ordre croissant de quantité de cigarettes fumées par jour, et le poids des nouveau-nés est exprimé en kilos. On obtient le tableau suivant: 1 2 3 4 5 6 7 8

C. Huber

Page 51: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

50

4,5 4,3 4,2 3,6 4,1 3,6 3,5 3,0 3,8 4,6 4,3 3,6 3,9 3,2 3,4 3,8 4,2 3,6 4,2 3,9 4,1 3,2 4,0 4,3 4,5 4,1 3,9 3,0 3,5 3,5 2,5 3,2 3,3 4,2 4,3 3,0 2,2 5,4 3,4 4,3 3,5 3,1 2,2 4,6 3,0 3,9 3,6 2,9 2,6 4,4 3,8 4,3 4,2 3,8 4,2 1,1 K-W = (12 / 56 (56 + 1)) ∑ ( Rj 2 / nj ) - 3 (56+1) Ce qui donne, d'après le tableau des rangs ci-dessous K-W = (12 / 56 (56 + 1)) ( 216,5 2 /8 + 414 2 /10 + 277,5 2 /8+ 105, 5 2 /6 + 122 2 /4 + 72 2 /4 + 317 2 /10) - 3x57 = 18,464. Cette statistique suit une loi qui est à peu près un chi 2 à k - 1 = 7 degrés de liberté. Or, d'après la table PHo(χ2 > 18,464) < 0,02. On rejette donc Ho .

Rangs des poids de naissance 1 2 3 4 5 6 7 8 52,5 47,5 41,0 23,0 36,0 23,0 18,5 8,5 27,5 54,5 47,5 23,0 31,5 12,5 15,5 27,5 41,0 23,0 41,1 31,5 36,0 12,5 34,0 47,5 52,5 36,0 31,5 8,5 18,5 18,5 4,0 41,0 14,0 41,0 47,5 8,5 2,5 56,0 15,5 47,5 18,5 11,0 2,5 54,5 8,5 31,5 23,0 6,0 5,0 51,0 27,5 47,5 41,0 27,5 41,0 1,0 De telle sorte que : Rl = 216,5 R2 = 414,0 R3 = 277,5 R4 = 105,5 R5 =122,0 R6 = 71,5 R7 = 72,0 R8 = 317,0 Remarque

C. Huber

Page 52: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

51

Cependant, on remarque qu'il y a beaucoup d'ex-aequo, ce qui est contraire à l'hypothèse que l'on fait toujours lorsqu'on veut se servir des rangs l'hypothèse de continuité de la loi sous-jacente, qui interdit les ex-aequo pourvu que la mesure soit très précise. En effet les mesures ici ne sont pas d'une très grande précision et elles provoquent l'apparition de pas mal d'ex-aequo. On sait que si l'on fait la correction pour tenir compte des ex-aequo, on obtiendra une valeur de K-W plus grande et donc un test plus significatif : on dit que le test sans correction est conservatif. Pour faire la correction, il faut diviser K-W par la statistique suivante :

1 - (∑ T )/ (n3 - n) où la sommation a lieu sur toutes les séries d'ex-aequo, et T = t3 - t, où t est le nombre des ex-aequo dans la série. Les premiers ex-aequo apparaissent dans la série 8 où il y a deux ex-aequo de rang 2,5 . Donc dans ce cas, t = 2 et T = 8 - 2 = 6. Les ex-aequo suivants ont le rang 8,5 et sont au nombre de 4, ce qui donne pour la valeur de T correspondante: 64 - 4 = 60. On a ainsi 13 groupes d'ex-aequo : il y a - 5 groupes de 2 ex-aequo, donnant T = 6 et ∑T = 30 - 1 groupe de 3, qui donne T = 24, - 4 groupes de 4, qui donnent T = 60 et ∑T = 240, - 1 groupe de 5, donnant T = 120, - 1 groupe de 6, donnant T = 210, - 1 groupe de 7 donnant T = 336. Donc 1 - (∑ T )/ (n3 - n) = 0,9945, ce dont on remarque que c'est une très faible correction. K-W corrigé vaut 18,464 / 0,9945 = 18,566. Et la probabilité pour un chi 2 à 7 degrés de liberté de dépasser cette valeur est inférieure à 0,01, et on rejette donc l'hypothèse nulle avec encore plus de conviction que précédemment.

C. Huber

Page 53: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

52

D2 - Tests non paramétriques pour k échantillons

liés.

Analyse de la variance à deux facteurs.

- Test de Cochran pour des réponses binaires. - Test de Friedman pour des réponses ordinales.

Si l'on veut utiliser un test de comparaison de deux échantillons pour comparer k échantillons, on aura des difficultés pour deux raisons - D'une part, il faudra effectuer un très grand nombre de tests; par exemple si k = 5, il faudra faire 10 tests, le nombre des combinaisons de 5 objets pris deux par deux. - D'autre part, si chacun de ces tests est fait au niveau 5 %, le résultat obtenu ne le sera pas avec ce même niveau. On peut prouver que le niveau passe alors à 40 %. On va voir maintenant deux tests non pararnétriques destinés à remplacer l'analyse de variance à deux facteurs lorsqu'on n'a pas l'hypothèse de normalité.

1 Le test de Cochran :

Le test de Mac Nemar pour deux échantillons peut être étendu au cas où l'on a plus de deux échantillons. Voici deux exemples de circonstances dans lesquelles on peut employer un test de ce type : 1) On a plusieurs (n) groupes de (k) sujets comparables (on dit "appariés") qui répondent à une même question dans des circonstances différentes. Par exemple, de deux médicaments qui entrent en compétition pour assurer le même service (on peut penser par exemple à l'aspirine et à l'ergotamine pour supprimer les maux de tête), on leur demande lequel ils préfèrent, avant une campagne publicitaire pour l'un des deux, puis après une telle campagne, ou après un scandale impliquant le mauvais usage de l'un des deux produits, etc... . S'il y a k circonstances différentes, on a k échantillons, qui sont liés puisque ce sont des sujets appariés qui répondent 2) On relève, sur n sujets, la présence ou l'absence de k symptômes : on a alors k échantillons qui sont liés car il s'agit des mêmes sujets. Dans ces deux cas, on a k échantillons liés de réponses dichotomiques et le test de Cochran peut être employé. Les données peuvent être rangées dans un tableau à n lignes et k colonnes, et on veut tester que la fréquence des réponses d'une certaine sorte est la même dans chacune des k colonnes, ou plutôt que les différences peuvent être imputées au hasard seul. En notant:

- Gj le nombre total de "succès" dans la jème colonne,

C. Huber

Page 54: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

53

- Li le nombre total de "succès" dans la ième ligne, - G la moyenne des Gj , la statistique de Cochran est ainsi définie

∑ ∑

= =

=

−= n

1i

n

1i

2

2k

j )GG(

ii

1j

LLk

1)-k(kQ

L'indice de colonne j varie de 1 à k et l'indice de ligne i de 1 à n. Cochran a montré que cette statistique est approximativement distribuée comme un chi 2 à k - 1 degrés de liberté. Une formule équivalente à la précédente, mais plus facile à calculer est la suivante

Q = (k-1)[ k ∑ Gj 2 - (∑ Gj )2] / k ∑ Li - ∑ Li

2

Exemple Une interview est conduite auprès de 18 personnes, la question posée étant "De ces deux médicaments, lequel utilisez vous de préférence en telle circonstance ? ", la réponse étant codée 1 s'il s'agit du premier et 0 s'il s'agit du second. On obtient le tableau suivant: Numéro Interview 1 Interview 2 Interview 3 Li Li 2 1 0 0 0 0 0 2 1 1 0 2 4 3 0 1 0 1 1 4 0 0 0 0 0 5 1 0 0 1 1 6 1 1 0 2 4 7 1 1 0 2 4 8 0 1 0 1 1 9 1 0 0 1 1 10 0 0 0 0 0 il 1 1 1 3 9 12 1 1 1 3 9 13 1 1 0 2 4 14 1 1 0 2 4 15 1 1 0 2 4 16 1 1 1 3 9 17 1 1 0 2 4 18 1 1 0 2 4 G1 = 13 G2 = 13 G3 = 3 ∑ Li = 29 ∑ Li2 = 63

C. Huber

Page 55: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

54

Il en résulte que Q = 16,7. Or d'après la table, la probabilité que Q égale ou dépasse une telle valeur est inférieure à 10-3 puisque sa loi est approximativement un chi 2 à k - 1 = 2 degrés de liberté. On rejette donc l'hypothèse nulle.

2 Le test de Friedman

Lorsque les données consistent en k échantillons liés de valeurs ordinales, le test de Friedman permet de tester si ces k échantillons peuvent être considérés comme provenant d'une même population. Il permet donc de faire une analyse de variance à deux facteurs fondée sur les rangs. Comme les k échantillons sont liés, les échantillons ont tous la même taille, n, et l'appariement entre les échantillons fait que les sujets vont k par k, soit qu'il y ait effectivement. - n ensembles de k sujets appariés, - n sujets, chacun sous k conditions différentes (auto-appariement). Exemple 1 : On étudie le délai de disparition d'une affection de l'épiderme après l'emploi de l'une ou l'autre de 4 différentes thérapies, dont deux consistent en l'application de pommade et deux en l'absorption par voie orale d'un certain produit. Les observations sont les suivantes sur n = 3 groupes de 4 personnes. Thérapie I 11 III IV Groupe A 7 9 4 1 Groupe B 8 6 5 2 Groupe C 6 9 1 2 A l'intérieur de chaque ligne, on ordonne les valeurs par ordre croissant et on remplace chacune d'elles par son rang, obtenant ainsi le tableau suivant

Thérapie I 11 III IV Groupe A 3 4 2 1 Groupe B 4 3 2 1 Groupe C 3 4 1 2 R1 = 10 R2 = 11 R3 =5 R4 = 4 Si l'hypothèse nulle est vraie, la répartition des rangs dans chacune des colonne doit être la même. C'est à dire que l'on doit s'attendre à avoir la même fréquence de 1, 2, 3 et 4 dans chacune des colonnes, ce qui a pour conséquence que la somme des rangs dans chacune des colonnes devrait être à peu près la même. En notant R, la somme des rangs de la colonne i, la statistique de Friedman est la suivante:

C. Huber

Page 56: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

55

Fr2 =12

nk(k +1)Ri

2

i=1

k

∑ − 3n(k +1)

Cette statistique a une loi qui, sous l'hypothèse Ho, est approximativement celle du chi 2 à k -1 degrés de liberté pourvu que n et k soient suffisamment grands. Ici, n n'est pas très grand puisqu'il ne vaut que 3. Aussi on utilise la table exacte pour les petites valeurs de n et k, et on trouve Fr2 = 7,4 , donc PHo ( Fr2 ≥7,4) = 0,033. Aussi rejette-t-on l'hypothèse Ho. Exemple 2 : On s'intéresse au délai nécessaire à l'élimination des traces dans le sang d'un médicament, pour une même dose, lorsque on utilise trois modes d'administration. différents. Pour cela, on choisit 18 groupes de 3 personnes appariées sur le sexe, l'âge, le poids et la gravité de la maladie traitée par ce médicament, et on note le temps nécessaire, en heures, à l'élimination de ce produit dans le sang après la prise du produit. On obtient le tableau d'observations suivant. Type d'administration I II III 1 10 32 21 2 25 38 17 3 12 32 21 4 10 20 30 5 34 17 26 6 23 30 10 7 31 27 18 8 11 34 26 9 30 11 22 10 36 19 23 il 26 37 14 12 29 36 15 13 32 21 18 14 24 35 15 15 25 25 13 16 30 21 13 17 33 25 18 18 20 35 12 R1 = 39,5 R2 = 42,5 R3 = 26,0 Par suite Fr2 = 8,4 pour un nombre de degrés de liberté égal à k - 1 = 3 - 1 = 2. La probabilité qu'un chi 2 à 2 ddl égale ou dépasse cette valeur est comprise entre 0,01 et 0,02. Le test est donc significatif avec un degré de signification inférieur à 2 % et on rejette Ho.

C. Huber

Page 57: UFR des Sciences Fondamentales et Biomédicales

Non paramétrique pour k échantillons

56

C. Huber

Page 58: UFR des Sciences Fondamentales et Biomédicales

Exercices 57

EXERCICES ET PROBLEMES

1 - Exercices de Révision sur le Calcul des Probabilités 1 Urne Trouver, en fonction de r, la probabilité pour que, de r chiffres tirés au hasard de 0, 1, 2, ..., 9, l'un après l'autre, avec remise, il n'y en ait pas deux qui soient égaux (r < 10). Indication : On pourra commencer par supposer que r = 2, puis r = 3, puis généraliser. 2 Cartes Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5 cartes au hasard, B prenant celles qui restent. a) Quelle est la probabilité que A ait le joker ? b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker

sachant que ce dernier n'a pas été jeté ? 3 Conseil de sécurité Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine, les Etats Unis et la Russie sont des membres permanents. Si, lors d'un meeting, les membres prennent place au hasard, quelle est la probabilité pour que : Britanniques et Français soient voisins Russes et Américains non a) dans le cas où ils sont alignés, b) dans le cas où ils sont autour d'une table ronde. Indication : on notera B, F, R, A les quatre représentants en question. 1) Compter le nombre total de dispositions possibles . 2) Pour un placement global donné de B, F, R, A réalisant la condition demandée,

compter : a) le nombre de placements possibles de B, F, R, A, b) le nombre de placements possibles des autres membres.

3) Analyser la différence entre l'alignement et la table ronde. 4 Billes en bois et en verre Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2 / 3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois, ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la couleur. Que faites vous ? 5 Viager

C. Huber

Page 59: UFR des Sciences Fondamentales et Biomédicales

Exercices 58

Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et fixe dépend de la disparition des deux conjoints actuellement âgés de 60 ans pour la femme et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la rente au bout de 10 ans. a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant ? Table de mortalité Nombre de survivants Hommes Femmes Naissance 1 000 000 1 000 000 60 ans 381 065 428 583 70 ans 242 442 312 612 80 ans 80 381 139 349 b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être son montant r pour être équitable ?

2 - Exercices de génétique Rappel de quelques définitions de génétique : Base Gamète : cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n

chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes. zygote : cellule résultant de la fécondation. diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double

de celui des gamètes. Systèmes de croisement Les définitions qui suivent concernent uniquement des populations d'effectif infiniment grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de sélection signifie que le polymorphisme de la population est conditionné par des gènes inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne soit favorisé par la sélection d'autre part. L'absence de sélection est définie par les trois hypothèses : 1) Lorsqu'un zygote est formé, la probabilité qu'il a de se développer en adulte apte à la

reproduction ne dépend pas de son génotype. 2) Le nombre de gamètes formés par un individu apte à la reproduction ne dépend pas de

son génotype. 3) La probabilité pour qu'un gamète participe à la formation d'un zygote ne dépend, ni du

génotype de l'individu qui l'a formé, ni de son propre génotype.

Panmixie : L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les gamètes femelles. Consanguinité Coefficient de parenté :

C. Huber 58

Page 60: UFR des Sciences Fondamentales et Biomédicales

Exercices 59

Le coefficient de parenté de deux individus K et L, qui est noté fKL, est égal à la probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un des locus homologues du génôme de L, ces deux locus soient identiques. Locus identiques : Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de duplications successives. Coefficient de consanguinité individuel : Le coefficient de consanguinité d'un individu diploide I est la probabilité pour que deux locus homologues de son génome soient identiques. On le note fI (Cela entraîne que, dans une espèce diploide, le coefficient de consanguinité de I est égal au coefficient de parenté de ses parents). Coefficient de consanguinité moyen α : d'une population. C'est la probabilité pour que deux locus homologues d'un individu quelconque de la population soient identiques. 6 Maladie génétique dans une population panmictique : Une malformation n'ayant pas de retentissement sur la fécondité et déterminée par un allèle a, récessif autosomique, présente dans une population donnée une fréquence q (= 1 / 10 000) ; on extrait au hasard 10 000 individus de cette population panmictique. a) Donner, sur cet échantillon, une estimation moyenne (ou estimateur de la moyenne) de : α) du nombre d'allèles a appartenant à des individus malades. β) du nombre d'allèles a appartenant à des individus cliniquement sains. b) Au sein de cette population, les mariages se font au hasard (panmixie). Quelles sont les fréquences moyennes des mariages suivants : α) Ceux dont la descendance sera épargnée par la maladie (On donnera une réponse littérale en fonction de p et q, fréquences respectives des allèles A et a) β) Ceux dont les enfants seront touchés avec une probabilité de 1 / 4 γ) Ceux dont les enfants seront touchés avec une probabilité de 1 / 2 c) Si au contraire les homozygotes aa ont une fécondité nulle et en admettant que la sélection n'ait pas d'effet sur les hétérozygotes, calculer quel taux de mutation assurerait à l'allèle a une fréquence stable. 7 Consanguinité : Soit un sujet dont les parents sont doubles cousins germains. a) Etablir l'arbre généalogique b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés. c) Calculer le coefficient de consanguinité de ce sujet. d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une mucoviscidose (maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun renseignement sur la famille.

C. Huber

Page 61: UFR des Sciences Fondamentales et Biomédicales

Exercices 60

8 Achondroplasie : Un couple de nains achondroplases I1et I2 a eu successivement : - II1 enfant achondroplase - II2 enfant normal - II3 enfant d'aspect achondroplase, décédé à la naissance. L'achondroplasie est une maladie dominante autosomique, et on peut considérer l'homozygotie comme létale en général. a) Donner les génotypes les plus probables des sujets : I1, I2, II1, II2 et II3 b) Quel est le génotype le plus probable des parents de I1 et de I2 ? c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet

ordre ? d) ... dans n'importe quel ordre ? e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains ? f) II2consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa

descendance. 9 Groupes sanguins : 556 individus prélevés au hasard dans une population supposée infiniment grande présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux co-dominants M et N : 167 sont M 280 MN 109 N EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population étudiée. 10 Phosphatases érythrocytaires : Les hématies humaines renferment des phosphatases dénommées "Phosphatases érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse, désignés par A, B et C. Chez certains individus, il existe une seule phosphatase érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB, AC et BC. Sur 268 individus extraits au hasard d'une population humaine, on dénombre : 25 de phénotype A 106 B 113 AB 9 AC 15 BC Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur le mode de reproduction de la population, qui rende compte de cette distribution ? 11 Génétique et calcul conditionnel Le coefficient de parenté de deux individus K et L, noté fkl, est égal à la probabilité

C. Huber 60

Page 62: UFR des Sciences Fondamentales et Biomédicales

Exercices 61

pour que, si l'on prend au hasard un des locus du génome de K et un des locus homologues du génome de L, ces deux locus soient identiques. On dit que deux locus sont identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre ou si l'un est issu de l'autre par duplications successives. 1) Quel est le coefficient de parenté de - deux soeurs ? - deux cousins germains ? 2) Les parents du sujet sont doubles cousins germains. a) Etablir l'arbre généalogique du sujet. b) Calculer le coefficient de consanguinité du sujet.

On appelle coefficient de consanguinité d'un sujet la probabilité pour que deux locus homologues de son génome soient identiques.

3) La mucoviscidose est une maladie récessive autosomique de fréquence 1 / 25000. Quelle est la probabilité pour que le sujet développe une mucoviscidose ?

4) Comparer ce risque à celui encouru par un sujet non consanguin. Conclusion ?

3 - Exercices variés (Expérimentation biologique, épidémiologie, essais thérapeutiques) ;

12 Suspension d'organismes virulents Une grande suspension d'organismes virulents est diluée à la concentration moyenne de 1 organisme pour 0. 1 ml. En supposant que les organismes sont répartis aléatoirement dans la suspension et que tout organisme virulent causera une infection chez l'animal de laboratoire à qui il sera injecté, quelle proportion des animaux sera infectée si on injecte 0.1ml à chacun des animaux d'un lot important ? 13 Rhumes Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population. On a obtenu les résultats suivants : - 42 ont été attaqués les deux fois. - 11 ont été attaqués pendant la première période mais pas pendant la seconde. - 19 n'ont jamais été attaqués. 1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet

sur le risque encouru lors de la deuxième période ? 2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur ? Justifier vos réponses par un

test dont vous donnerez le degré de signification. 14 poids de naissance Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sud-ouest de l'Angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18 (1974).

C. Huber

Page 63: UFR des Sciences Fondamentales et Biomédicales

Exercices 62

Poids [0 1[ [1 2[ [2 3[ [3 4[ [4 5[ [5 6[ [6 7[ [7 8[ Effectif 3 40 82 126 364 1182 4173 6723 Poids [8 9[ [9 10[ [10 11[ [11 12[ [12 13[ [13 14[ [14 15[ Effectif 4305 1365 240 39 2 0 1 Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375. 1) Donner un intervalle de confiance à 95% pour le poids moyen de naissance. Donner un intervalle de confiance à 95% et à 98% pour le poids moyen de naissance. 2) Tracer sur un même graphique la fonction de répartition observée et la fonction de

répartition de la loi normale de même moyenne et de même variance qu'elle. Ces deux lois vous paraissent elles proches ?

3) Effectuer un test pour vérifier s'il est ou non acceptable de considérer que le poids de naissance suit une loi normale.

15. Poids de naissance et âge de la mère : On désire savoir s'il existe une liaison entre le poids de naissance Y d'un enfant et l'âge X de sa mère à l'accouchement. Dans ce but, on prélève 100 dossiers médicaux dans le fichier des naissances d'une maternité. Les résultats obtenus sont les suivants (X est exprimé en années et Y en kilogrammes) : Σ xi = 2 500 Σ xi2 = 65 000 Σ yi = 300 Σ yi2 = 925 Σ xi yi = 7545 1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données

pour répondre à la question que l'on se pose ? Ces hypothèses seront faites dans toute la suite.

2) Tracer la droite de régression observée de Y par rapport à X.Quelle est sa pente ? Commenter.

3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une liaison entre le poids à la naissance d'un enfant et l'âge de sa mère ? Effectuer ce test et énoncer clairement la conclusion correspondante.

4) On a prélevé 100 dossiers médicaux de femmes qui ont accouché récemment, par tirage au sort dans l'ensemble des maternités relatives à la population considérée. Les résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants :

Σ xi = 26 80 Σ xi2 = 74 350 Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des hypothèses faites au 1) est justifiée ? 16. Aptitude à goûter la phénylthiocarbamide : L'aptitude à être goûteur ou non goûteur de la PTC (Phénylthiocarbamide) est contrôlée par un locus à 2 allèles T et t, de fréquences respectives p et q. Les individus tt sont non goûteurs. Les individusb TT et Tt sont goûteurs (T est dominant). 1) Quelle est, en fonction de p et q la fréquence des génotypes TT, Tt et tt ? (On suppose

C. Huber 62

Page 64: UFR des Sciences Fondamentales et Biomédicales

Exercices 63

que les gènes s'associent de manière indépendante pour former les génotypes). 2) On suppose que les mariages ont lieu au hasard. Combien y a-t-il de mariages différents

possibles ? Quelles sont leurs probabilités ? 3) Sur cinq familles de parents Tt x tt ayant un seul enfant chacune, quelle est la

probabilité: a) que 3 exactement de ces familles aient un enfant goûteur ? b) que chacune de ces familles ait un enfant goûteur ? 4) Pour estimer la fréquence p' des goûteurs dans la population, on a réalisé une enquête

portant sur n = 625 sujets. Parmi eux, 500 sont goûteurs et 125 non goûteurs. Donner un intervalle de confiance de coefficient de confiance 98 % pour p'.

5) Pouvez-vous déduire de la question précédente un intervalle de confiance pour q ? 6) Sachant qu'un couple a cinq enfants en tout dont un seul est goûteur, quelle est la

probabilité qu'il s'agisse d'un couple Tt x tt ? 17. Dénombrement de globules rouges Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est donné ci-dessous : X = i le nombre de 0 1 2 3 4 5 6 7 8 9 10 N globules d'une case ni = nombre 13 41 90 112 100 66 45 22 9 1 1 500 de cases ayant i globules On donne Σ x2 = Σ ni i2 = 8 114 . I – 1) Calculer la moyenne observée m du nombre X de globules par case et la variance s2 de

X. 2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique. 3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation

de µ par le maximum de vraisemblance. Comparer avec le résultat du 1). 4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ ? Quelles

sont les propriétés de cet estimateur ? II – 1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de

savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain. 2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m1, m2] où m1 et

m2 sont définies par Prob [m ∈ (m1, m2) / µ = 4] = 5 %. Quelles sont vos conclusions ?

3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la répartition théorique moyenne du nombre de globules est donnée par le tableau suivant où Ri est l'effectif théorique ou "attendu" des cases ayant i globules:

C. Huber

Page 65: UFR des Sciences Fondamentales et Biomédicales

Exercices 64

X = i 0 1 2 3 4 5 6 7 8 9 10 11 Ri 9,1 36,6 73,3 97,7 97,7 78,1 52,1 29,8 14,9 6,6 2,7 1,4 Peut-on admettre au risque de 5 % que les résultats observés initialement sont

ceux d'un sujet sain ? 4) Comparez aux résultats du II - 2) et commentez.

III – Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte que le nombre de cases sans globules. On obtient alors les résultats suivants : X 0 21 Nbre total de cases 1er prélèvement 13 487 500 2ème prélèvement 19 481 500 La proportion de cases vides est-elle la même pour ces deux prélèvements ? 18. Délai d'apparition d'une maladie On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un milieu polluant est une variable aléatoire dont la loi admet la densité f (x) = a.exp (-ax) si x ≥ 0 = 0 si x < 0 1) Quelle est la fonction de répartition F (x) de cette variable au point x ?

2) Calculer EX et Var (X). 3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un

délai moyen d'apparition M = ( X1 + ... +Xn) / n. Que valent l'espérance E(M) et la variance V(M) de M ?

4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque 3% pour le paramètre inconnu a ?

5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le segment [0 a]

C. Huber 64

Page 66: UFR des Sciences Fondamentales et Biomédicales

Exercices 65

19. Diabète infantile Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie, c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes. Durée Nombre de Rétinopathies R1 R2 R3 d'évolution cas 15 < t ≤ 20 173 67 45 15 7 20 < t ≤ 25 58 32 17 12 3 t > 25 38 22 12 7 3 TOTAL 269 121 74 34 13 Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans. Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en sont atteints ont été répartis en trois catégories : R1, R2 et R3 d'après la gravité de la rétinopathie : R1 si l'atteinte est légère, R2 si elle est moyenne et R3 si elle est forte. a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P

étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de signification accepterait on cette hypothèse ?

b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des malades atteints de rétinopathie dans chacune des classes de durée d'évolution. Peut-on considérer que ce pourcentage croit significativement en même temps que la durée d'évolution, au seuil de 5 % ?

c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la durée d'évolution du diabète ?

d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la tension, et obtenu au bout de 40 jours de traitement les résultats suivants :

Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 patient Différence +1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9 -8 -18 -5 -22 -21 -15 -11 de tension Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet). 20. Durée de vie uniforme

C. Huber

Page 67: UFR des Sciences Fondamentales et Biomédicales

Exercices 66

La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi uniforme sur un intervalle de temps [ 0 ; θ ] . θ est inconnu et on veut l'estimer après avoir observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4, 10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ ?

C. Huber 66

Page 68: UFR des Sciences Fondamentales et Biomédicales

Tests 1

Statistique mathematique :Tests d’hypotheses.

C. Huber

Partie I

Les tests comme cas particulier de la theorie de la

decision.

1 Introduction

On observe un phenomene aleatoire, qualitatif ou quantitatif, X, dont la loi dependd’un parametre θ inconnu variant dans un ensemble Θ. L’un des buts fondamentauxde la statistique mathematique est de prendre des decisions en ce qui concerne leparametre inconnu θ ou plus generalement la loi de X, une fois que l’on a observe uncertain nombre de realisations de X et d’agir en consequence.Exemples:

• Un medecin a obtenu 34 guerisons rapides sur 50 cas traites par un anti-inflammatoireA et 44 sur 50 par un autre anti-inflammatoire B. Peut il considerer que B estmeilleur que A ? ou bien doit il attribuer au hasard la difference observee?

• Disposant de la mesure d’un examen biologique sur une centaine de sujets, le tauxde glycemie a jeun par exemple, on se demande si cette variable suit, commecela est habituellement suppose, une loi normale. Comment repondre a cettequestion?

On se rend bien compte que, pour prendre une decision, il faudra tenir compte decertains risques a encourir. Evidemment, plus les risques associes a une decision serontfaibles, meilleure sera la decision. Nous allons exposer ici les bases elementaires de latheorie de la decision. La theorie des tests apparaıtra comme un cas particulier de latheorie de la decision.

2 Notations et definitions

Soit X une variable aleatoire qui est

I

Page 69: UFR des Sciences Fondamentales et Biomédicales

3 EXEMPLE: UN JEU Tests 2

• soit continue (et alors numerique) de densite f(x, θ) en x,

• soit discrete, de masse (ou probabilite) f(x, θ) en x,

ou θ est un parametre inconnu appartenant a Θ, qui est appele l’ensemble des parametres.Soit A un ensemble dit l’ensemble des actions. En general, A est defini a partir de Θet consiste souvent en une partition de Θ. Soit alors un n-echantillon, x = (x1, · · · , xn)de X et E l’ensemble des valeurs possibles de cet echantillon. Une decision d est uneapplication de E dans A:

d : E −→ A

Si x est observe, on decide de mener l’action a = d(x).

Definition 1 (Fonction de cout) Supposons que, si on choisit l’action a alors queθ est la vraie valeur (inconnue) du parametre, cela coute L(θ, a). L est une fonctionde Θ × A dans IR. Elle est appelee la fonction de cout.

Definition 2 (Risque d’une decision) Supposons que θ0 soit la vraie valeur (in-connue) de θ. On appelle risque de la decision d pour la fonction de cout L la valeurmoyenne (ou esperance) de L(θ0, d(X)):

R(d, θ0) = E(L(d(X), θ0)).

3 Exemple: un jeu

3.1 Jeu sans observation prealable

1. On suppose qu’on dispose d’une urne contenant deux types de pieces: le premiertype est en proportion π1 dans l’urne et le deuxieme type en proportion π2 =1 − π1. La probabilite de tirer pile avec le premier type de piece est p1 et ellevaut p2 avec le deuxieme.On note

P (pile|type1) = p1 = 12

+ ∆1 ∆1 > 0P (pile|type2) = p2 = 1

2− ∆2 ∆2 > 0

2. On tire au hasard une piece de l’urne.

3. On parie contre la banque qu’un jet X de la piece donnera:

• Action A1 : pile.

• Action A2 : face.

4. L’enjeu est de :

• ℓ euros si on joue pile

C.Huber I

Page 70: UFR des Sciences Fondamentales et Biomédicales

3 EXEMPLE: UN JEU Tests 3

• m euros si on joue face.

5. Quelle action choisir ?

Considerons que l’etat de la nature est le type (inconnu) de la piece. Cet etat estnote E1 si la piece est du premier type et E2 si elle est du second type. NotonsY la perte (ou le gain) que l’on subit lorsqu’on choisit l’action Ai (i = 1 ou 2)alors que l’etat de la nature est Ej (j = 1 ou 2) et qi = 1 − pi, i = 1, 2Ce gain Y est aleatoire. On peut en calculer la moyenne (ou esperance) condi-tionnellement a l’etat de la nature et a l’action menee:

E[Y |E1, A1] = ℓp1 − ℓq1 = ℓ(p1 − q1) = +2ℓ∆1

E[Y |E2, A1] = ℓp2 − ℓq2 = ℓ(p2 − q2) = −2ℓ∆2

E[Y |E1, A2] = −mp1 + mq1 = m(q1 − p1) = −2m∆1

E[Y |E2, A2] = −mp2 + mq2 = m(q2 − p2) = +2m∆2

Etat de la nature Etat de la natureE1 E2

Action A1 2ℓ∆1 −2ℓ∆2

Action A2 −2m∆1 2m∆2

Pour calculer le gain moyen lorsqu’on mene l’action A1, il faut moyenner sur lesdeux etats possibles E1 et E2 de la nature:

E[Y |A1] = π12ℓ∆1 − π22ℓ∆2 = ℓgE[Y |A2] = −π12m∆1 + π22m∆2 = −mg

ou g = 2(π1∆1 − π2∆2).

La decision a prendre depend donc du signe de g: Si g > 0, il faut choisir l’actionA1, c’est a dire parier pile, sinon parier face.

Le signe de g est celui de (π1∆1−π2∆2). La regle de decision est donc la suivante:

Si π1

π2> ∆2

∆1choisir pile : A1

Si π1

π2< ∆2

∆1choisir face : A2

Si π1

π2= ∆2

∆1choix indifferent.

C.Huber I

Page 71: UFR des Sciences Fondamentales et Biomédicales

3 EXEMPLE: UN JEU Tests 4

3.2 Jeu avec observations prealables

On modifie le jeu: cette fois on decide de l’action a mener apres avoir tire la piece etl’avoir jetee n fois. Le nombre aleatoire R de fois que l’on a obtenu pile donne uneinformation sur le type de la piece, que l’on a appele ”l’etat de la nature”. La suitedes jets (x1 · · · , xn) donne R = k fois pile et n − k fois face. On a

P (R = k|E1) =(

nk

)pk

1(1 − p1)n−k

P (R = k|E2) =(

nk

)pk

2(1 − p2)n−k

La probabilite a posteriori des etats de la nature est la suivante:

P (E = E1|R = k) = P (R=k|E=E1)P (E=E1)P (R=k|E=E1)P (E=E1)+P (R=k|E=E2)P (E=E2)

=π1(n

k)pk1(1−p1)n−k

π1(nk)pk

1(1−p1)n−k+π2(nk)pk

2(1−p2)n−k

= π1

π1+(p2p1

)k(1−p21−p1

)n−kπ2

= 1

1+p2p1

k(1−p21−p1

)n−k π2π1

= π′1

P (E = E2|R = k) = π′2

= 1 − π′1

=(

p2p1

)k(1−p21−p1

)n−k π2π1

1+(p2p1

)k(1−p21−p1

)n−k π2π1

Doncπ′

2

π′1

=π2

π1(p2

p1)k(

1 − p2

1 − p1)n−k =

π2

π1× P (R = k|E2)

P (R = k|E1)

c’est a dire que le rapport initial des probabilites des deux types de piece est corrigepar le rapport des vraisemblances des observations. Par consequent, a la suite del’experimentation prealable de la piece, la decision devient:

choisir pile : A1 Siπ′1

π′2

> ∆2

∆1

choisir face : A2 Siπ′1

π′2

< ∆2

∆1

choix indifferent Siπ′1

π′2

= ∆2

∆1.

C.Huber I

Page 72: UFR des Sciences Fondamentales et Biomédicales

4 AUTRES EXEMPLES Tests 5

4 Autres exemples

4.1 Estimation de moindre variance

Prenons A = Θ, c’est a dire que l’action consiste a choisir une valeur du parametre. Onsuppose que le cout du choix de θ dans Θ, lorsque θ0 est la vraie valeur du parametre,est

L(θ, θ0) = (θ − θ0)2.

Notons X un echantillon de X

X = (X1, · · · , Xn)

et x l’observation correspondante

x = (x1, · · · , xn).

Apres avoir observe un echantillon x = (x1, · · · , xn) de X de loi fθ, on prend la decision

θ = d(x)

c’est a dire que d(x) est l’estimateur choisi pour θ. Si nous ne nous interessons qu’auxestimateurs sans biais, c’est a dire aux decisions d telles que

E(d(X1, · · · , Xn)|θ) = θ

la meilleure decision d sans biais, au sens de la fonction de cout L est celle qui rendminimum

R(d, θ) = E[(d(X) − θ)2|θ] = var(d(X)|θ).

4.2 Decision multiple

On considere une partition de Θ:

A = Θ1, · · · , Θk

c’est a dire que l’action consiste, non pas a choisir une valeur unique de θ dans Θ maisplutot l’appartenance de θ a l’un des k sous-ensembles Θj . On considere la fonction deperte L qui verifie:

L(θ, a) = 0 si θ ∈ aL(θ, a) > 0 si θ /∈ a

Dans le cas ou Θ est fini et a p elements, on a donc une matrice de perte

L(θi, aj) i = 1, 2, · · · , p, j = 1, 2, · · · , k

C.Huber I

Page 73: UFR des Sciences Fondamentales et Biomédicales

5 LES TESTS COMME CAS PARTICULIER DE DECISION Tests 6

5 Les tests comme cas particulier de decision

Le cas particulier ou k = 2 (partition de Θ en deux) est celui qui definit ce que l’onappelle un probleme de test.Un probleme concret:Un medicament est produit par lots de 500 dont une proportion p est defectueuse.Cette proportion n’est pas connue, mais on sait qu’elle peut prendre l’une des quatrevaleurs

0.01 0.05 0.15 0.25

Chaque medicament defectueux doit etre rectifie et le cout unitaire est de 3 euros.Toutefois, il est possible d’eliminer toutes les defectuosites en procedant a un reglageavant la mise en marche de la production, reglage dont le cout est de 70 euros. On ale choix entre deux decisions:

• D1 : redoser les 500 × p medicaments defectueux,

• D2 : proceder au reglage avant chaque production.

Les risques de ces deux decisions sont des fonctions de p:

p 0.01 0.05 0.15 0.25D1 15 75 225 375D2 70 70 70 70

On voit bien que, de ces deux decisions, aucune n’est uniformement meilleure, c’esta dire meilleure quel que soit p: D1 est meilleure pour p = 0.01 et D2 est meilleurepartout ailleurs. Il s’agit de prendre une decision en presence d’une incertitude sur pet plusieurs strategies peuvent etre envisagees:

1. Limiter les trop gros degatsOn considere pour cela, associee a la decision d son plus grand risque en θ:

maxθ

R(d, θ)

et on choisit la decision qui minimise le plus grand risque. C’est ce qu’on appelleune regle minimax. Ici,

mind∈D1,D2

maxθ

R(d, θ) = mind∈D1,D2

70, 375.

D2 est donc parmi D1, D2 la regle minimax.

2. Minimiser le risque moyen a partir d’une information a priori sur le parametrep du probleme, sous la forme d’une loi a priori sur p:Par exemple, on connaıt les probabilites a priori des taux de medicaments defectueux

C.Huber I

Page 74: UFR des Sciences Fondamentales et Biomédicales

5 LES TESTS COMME CAS PARTICULIER DE DECISION Tests 7

taux 0.01 0.05 0.15 0.25probabilite 0.7 0.1 0.1 0.1

On peut choisir dans ce cas la regle de decision d qui minimise le cout moyen,soit

E(R(d)) = 0.7R(p1, d) + 0.1R(p2, d) + 0.1R(p3, d) + 0.1R(p4, d).

Ici,E(R(D1, p)) = 78E(R(D2, p)) = 70

D2 est la meilleure decision au sens de cette strategie, dite strategie de Bayes.

Cet exemple nous conduit aux deux definitions suivantes: Soit R(d, θ) le risqueassocie a la decision d, d variant dans un ensemble de decisions possibles D.

Definition 3 (Regle minimax sur l’ensemble de decisions D) :d0 est dite regle minimax sur D si d0 minimise le risque maximum pour tous les θ,c’est a dire:

R(d0, θ) = mind∈D

(maxθ∈Θ

R(d, θ))

Definition 4 (Regle de Bayes pour la loi a priori τ) :Si τ est une loi a priori sur le parametre θ, une regle d0 de l’ensemble de decisions Dest dite de Bayes relativement a τ si

R(d0, τ) = E(R(d0, θ)|τ) = mind∈D

R(d, τ).

C.Huber I

Page 75: UFR des Sciences Fondamentales et Biomédicales

1 LES QUATRE TYPES DE MODELES Tests 8

Partie II

Modele statistique associe a un test: parametrique,

non-parametrique ou semi-parametrique.

Etant donne un probleme de test, le premier stade de la formalisation mathematiqueconsiste a lui associer un modele statistique.

1 Les quatre types de modeles

1.1 Modeles parametriques

Par commodite mathematique, on choisit souvent pour X un modele parametrique:c’est a dire que l’on suppose que l’ensemble H des lois possibles de X a une densitedont on connaıt la forme, mais dans laquelle intervient un parametre inconnu:

p(x, θ) x ∈ IRn θ ∈ Θ ⊂ IRd

ou p est une fonction completement specifiee et Θ l’ensemble des valeurs duparametre θ ; assimilant un element de H a sa densite, on ecrit :

H = p(x, θ)θ∈Θ⊂IRd (1)

En particulier, on suppose souvent qu’on a affaire a une loi normale, a cause destheoremes de convergence comme le theoreme de la limite centrale. Une hypotheseH , qui est un sous-ensemble de H, peut alors etre simplement consideree comme unsous-ensemble de Θ, et une fonctionnelle sur H comme une fonction de θ.Les raisons qui justifient un tel choix de H sont souvent de type heuristique, et ce quel’on sait en general, c’est que la loi de X n’est pas tres eloignee d’une loi de la formep(x, θ). Or il se trouve que les tests et estimateurs optimaux adaptes a un modele telque (1) perdent souvent leurs bonnes proprietes des qu’on s’ecarte un peu de H. Enrevanche, si on choisit pour H un modele assez vaste pour etre a peu pres sur d’engloberla loi de X, on se premunit contre de tels risques. Comme c’est souvent au prix d’uneperte assez minime d’efficacite pour le sous-modele parametrique, il y aura des cas ouce sera avantageux. Ces modeles statistiques, trop vastes pour etre representes sous laforme (1) sont appeles non parametriques.

1.2 Modeles non parametriques

Considerons l’exemple de l’introduction: apres avoir observe 34 succes sur 50 pourl’anti inflammatoire A et 44 sur 50 pour l’anti inflammatoire B, on se demande si les

C.Huber II

Page 76: UFR des Sciences Fondamentales et Biomédicales

1 LES QUATRE TYPES DE MODELES Tests 9

deux produits sont equivalents (hypothese H0) ou si B est meilleur que A. Nous sommesdans un cas parametrique, la loi du succes Y est Bernoulli, pour A comme pour B,de probabilites de succes respectives pA et pB. Rappelons nous cependant que c’est larapidite de l’action de l’anti inflammatoire qui est en cause. Aussi, si on veut etre plusprecis et que l’on observe la duree X qui s’ecoule entre le debut de la prise du produitet la guerison, l’hypothese nulle est que

H0 : L(X|A) = L(X|B)

la loi commune n’est alors pas du tout specifiee et peut etre n’importe quelle loi continuesur IR+. Cela devient un probleme non-parametrique. On appelle cette hypothesegenerale l’hypothese d’homogeneite. Elle est souvent dans la pratique remplacee parune hypothese plus simple, celle de l’egalite des moyennes

H00 : E(X|A) = E(X|B)

qui en est une consequence mais qui n’entraıne pas H0.

1.3 Modeles robustes

Ce type de modele consiste a supposer que la loi de la variable X ne verifie pas (1)mais presque, c’est a dire que cette loi se trouve dans un voisinage de

H = p(x, θ)θ∈Θ⊂IRd

pour une certaine distance sur les probabilites. Plusieurs choix de distances sont pos-sibles (Levy, Prokhorov, variation totale). Ces trois distances ont pour definitionsrespectives, F et G etant deux fonctions de repartition,P et Q deux probabilites:

Distance en variation totaledvar(P, Q) = supB(|P (B) − Q(B)|)

Distance de Kullback :

dK(Q, P ) =∫ +∞−∞ log(dP

dQ)dP

Distance de Levy :dL(F, G) = inf ǫ : F (x) ≤ G(x + ǫ) + ǫ

Distance de Prokhorov :dπ(P, Q) = inf ǫ : Q(B) ≤ P (Bǫ + ǫ) ∀ B

ou Bǫ est l’ensemble des points distants de B d’au plus ǫ. Deux de ces distances, cellede Levy et celle de Prokhorov tiennent compte d’un possible ”flou”, d’une possibleincertitude, sur la definition des ensembles dont on mesure la probabilite, et sont, dece fait, plus realistes que les autres. Les tests que l’on est amene a choisir dans ce cassont de type minimax.

C.Huber II

Page 77: UFR des Sciences Fondamentales et Biomédicales

2 EXEMPLES Tests 10

1.4 Modeles semi parametriques

Lorsqu’on veut modeliser l’impact d’un traitement Z sur la duree X de survie, onemploie souvent pour cela un modele de Cox. On note

h(t|Z)dt =P (t ≤ X ≤ t + dt|Z)

P (X ≥ t|Z

et le modele suppose que

h(t|Z) = h0(t)eβZ

ou Z = 1 pour les patients traites et Z = 0 pour les temoins, h0(t) est le taux de mortde base (des sujets non traites) qui est libre d’etre egal a n’importe quelle fonctionpositive et β est un parametre qu’on espere negatif. En effet, dans ce cas,le taux demort sous traitement est inferieur a ce qu’il est sans traitement. On teste donc

H0 : β = 0H1 : β < 0

Le probleme de test semble parametrique car il est seulement relatif au parametre β.Mais comme h0 est une fonction non specifiee, le modele, qui inclut le couple (h0, β),est dit semi-parametrique.

2 Exemples

Les exemples suivants illustrent les difficultes rencontrees en pratique dans le choix deH, et introduisent, dans des cas simples, certains tests usuels.

Exemple 1Sur 10 individus issus du croisement de deux heterozygotes Aa, on en a observe 8 dephenotype a recessif. L’hypothese que AA est un caractere lethal, c’est a dire mortelavant la naissance, semble-t-elle etre verifiee ?

Dans cet exemple, l’observation S est le nombre des sujets de phenotype a. La loide S est binomiale B(n, p) ou n = 10 et p est inconnu :

P (S = k) = Cknθk(1 − θ)n−k k ∈ 0, 1, . . . , n

C.Huber II

Page 78: UFR des Sciences Fondamentales et Biomédicales

2 EXEMPLES Tests 11

Mais comme la loi de Mendel entraıne que les quatre configurations du resultat ducroisement AA, Aa, aA, aa ont toutes la meme probabilite, egale a 1/4, p vaut 1/4 siAA n’est pas lethal, et 1/3 si AA est lethal. On a donc ici

H = B(10, 1/4); B(10, 1/3)H0 = B(10, 1/4)H1 = B(10, 1/3)

Exemple 2On observe le diametre d’une piece utilisee pour des protheses et produite par un tourautomatique. Ce diametre devrait etre egal a une valeur d donnee. L’observation desix mesures supposees independantes de ce diametre a donne les resultats suivants :

x = (5, 8; 4, 7; 5, 0; 5, 1; 4, 8; 4, 9)

On peut supposer que cette piece a un diametre D qui suit une loi normale N(µ, σ2).Si d = 5, on se demande donc si µ = 5.

Dans ce cas les trois ensembles H, H0 et H1 sont:

H = N(µ, σ2); µ ∈ IR; σ2 ∈ IR+

H0 = N(5, σ2); σ2 ∈ IR+H1 = N(µ, σ2); µ 6= 5; σ2 ∈ IR+

Exemple 3Deux produits dermatologiques sont testes sur deux zones symetriques de la peau dedix patients atteints d’une certaine affection. Les dix mesures appariees de la reductiondes surfaces atteintes ont donne les resultats suivants

A : 0,19 0,22 0,18 0,17 1,20 0,14 0,09 0,13 0,26 0,66B : 0,21 0,27 0,15 0,18 0,40 0,08 0,14 0,28 0,30 0,68

Ces observations permettent elles de conclure qu’il y a une difference entre les deuxproduits ?

Exemple 4Un medecin decide de s’assurer de l’efficacite d’un traitement dont il pense qu’il peutprolonger la duree de vie de certains malades ayant deja eu un infarctus. il choisit pour

C.Huber II

Page 79: UFR des Sciences Fondamentales et Biomédicales

2 EXEMPLES Tests 12

cela dix malades comparables a tous les points de vue, en prend 5 au hasard, a qui ilapplique le traitement. Les 5 autres seront des temoins, non traites. Ils recevront unplacebo. Les resultats concernant la duree de survie, en annees, sont les suivants :

Traites : 6,5 4,2 17,8 7,9 13,2Non traites : 6,7 0,4 2,9 1,2 5,6

Peut on en conclure que le traitement est efficace ?

De ces quatre exemples, le premier est le seul ou un modele parametrique soit rigoureuse-ment justifie. En revanche, dans tous les autres exemples, l’hypothese de normalite quiest faite le plus souvent, n’a que des justifications assez vagues. En particulier, dansle quatrieme exemple qui comporte un tres petit nombre d’observations, le medecinn’emploie l’hypothese de normalite que parce que ”beaucoup de variables aleatoiresbiologiques sont approximativement normales a cause du theoreme limite centrale”.Cela le conduira a utiliser un test de Student, optimal sous cette hypothese.Mais, si le medecin repugne a faire l’hypothese de normalite parce qu’elle est forte etassez mal justifiee, il peut choisir un modele statistique beaucoup plus large, en sup-posant que la duree de survie, chez les malades non traites, a une loi de densite f et,chez ceux qui ont subi un traitement, une loi de densite f∆ telle que :

f∆(x) = f(x − ∆)

Pourvu que ∆ soit positif, il mesure l’amelioration due au traitement. Le modele seranon parametrique, et s’il y a eu m observations sous traitement et n−m sous placebo,il s’ecrira:

H = Πmi=1f(xi − ∆) Πn

j=m+1f(xj) ; f densite quelconque ; ∆ ≥ 0

L’hypothese H0 de non efficacite du traitement correspond a ∆ = 0 a tester contreH1 = ∆ ≥ 0. On peut des maintenant examiner s’il serait possible de fonder un testsur une statistique T dont la loi serait toujours la meme quelle que soit la loi choisiedans H0 pour les observations. Une telle statistique est dite libre sous H0. On estalors assure de ne pas depasser un certain niveau α qu’on s’est fixe arbitrairement al’avance.Par exemple, le nombre N des patients qui ont survecu plus de quatre ans parmi lesmalades qui ont subi le traitement, est, sous l’hypothese H0 et conditionnellement al’echantillon global,une variable qui a une loi hypergeometrique H(n = 10, m = 7, k =5).On rappelle que la loi hypergeometrique est celle d’une variable N qui compte le

C.Huber II

Page 80: UFR des Sciences Fondamentales et Biomédicales

2 EXEMPLES Tests 13

nombre de boules blanches tirees d’une urne lorsqu’on fait k tirages au hasard successifssans remise dans une urne contenant m boules blanches et n-m boules noires. Eneffet tout se passe, sous l’hypothese H0 comme si, parmi les dix patients, 7 etaient,independamment de tout traitement, en quelque sorte predestines a survivre plus dequatre ans. Si H0 est vraie, appliquer le traitement a cinq d’entre eux revient a faireun tirage au hasard parmi les 10. Donc

P (N = 5) =C5

7

C510

=1

12≃ 0, 083

Cette loi ne depend donc pas de f . On peut cependant estimer que cette probabiliteest trop elevee pour permettre de rejeter H0. D’autre part la valeur seuil de 4 ans a etechoisie arbitrairement. Nous verrons plus tard un test fonde sur une statistique libresous H0 qui prend mieux en compte l’information donnee par les observations.

Exemple 5 : Insuffisance respiratoire : sensibilite, specificite et courbe Roc.La quantite d’air, en litres, rejetee par un sujet sain lors d’une expiration forcee est

une variable aleatoire X qui est supposee normale N(µ = 2.65; σ2 = 0.5) et la capaciterespiratoire Y est la somme de deux expirations forcees successives separees par unintervalle de deux minutes et supposees independantes.

1. Quelle est la loi de la capacite respiratoire d’un sujet sain ?

2. Quelle est la probabilite pour qu’un sujet sain ait une capacite respiratoire inferieurea 3.3 ?

Une maladie M entraıne une insuffisance respiratoire chez les sujets qui en sontatteints. La loi de leur capacite respiratoire Y ′ est chez eux normale N(µ′ =2.8; σ′2 = 1).

3. Quelle est la probabilite p′ pour qu’un sujet atteint de M ait une capacite respi-ratoire inferieure a 3.3 ?

4. Si l’on se fonde sur l’observation de Y pour diagnostiquer M, quelle regle dediagnostic proposez vous ?

5. Avec cette regle quels sont les risques d’erreur que vous prenez ?

6. Si on appelle D le diagnostic, qui vaut 1 si on diagnostique M et 0 sinon, onappelle sensibilite (se) la probabilite d’un bon diagnostic de M et specificite (sp) laprobabilite d’un bon diagnostic de ”non M”. Quand on change de seuil, commentevolue se en fonction de 1-sp ?

Les reponses a ces diverses questions sont les suivantes:

C.Huber II

Page 81: UFR des Sciences Fondamentales et Biomédicales

2 EXEMPLES Tests 14

1. La loi de la somme de deux v.a. normales independantes est normale de moyennela somme des moyennes et de variance la somme des variances. En notant Z unevariable normale standard, Z ∼ N(0, 1):

Y ∼ N((µ = 5.3; σ2 = 1)p = P (Y < 1.3) = P (Z + 5.3 < 3.3)

= P (Z < −2) = 1 − P (Z < 2)= 1 − 0.9772 = 0.0228

p′ = P (Y ′ < 3.3) = P (Z + 2.8 < 3.3)= P (Z < 0.5) = 1 − P (Z < 0.5)= 1 − 0.6915 = 0.3085

D = 1 si y < 3.3D = 0 si y > 3.3.

Les risques d’erreur sont donc:

P (D = 0|M = 1) = P (Y ′ > 3.3) = 1 − p′ = 0.6915.P (D = 1|M = 0) = P (Y < 3.3) = p = 0.0228.

Autrement dit, en choisissant ce seuil, on a une bonne specificite, mais une tresmauvaise sensibilite. Il vaut donc mieux choisir un seuil plus eleve, par exemplecelui c qui egalise les deux erreurs :

P (Z+5.3 < c) = P (Z+2.8 > c) ⇒ c−2.8 = −(c−5.3) ⇒ c = (5.3+2.8)/2 = 4.05

Etant donnees les deux lois normales en jeu, les valeurs utiles de x se situent entre 0 et 8.

Voici les ordres en Splus permettant d’obtenir les resultats ci-dessus et les figures 1et 2 (voir plus loin). Ordres en Splus :

seuil< −seq(0,8,0.05)plot(seuil,dnorm(seuil,5.3,1),type=”l”,lty=1,lwd=3, col=1,xlab = ”y”,ylab=”densitede y et y’”)lines(seuil,dnorm(seuil,2.8,1),lty=1,lwd=3,col=2)lines(c(4.05,4.05),c(-0.2,dnorm(4.05,2.8,1)), lwd=2,col=1,lty=1)lines(c(3.3,3.3),c(-0.2,dnorm(3.3,2.8,1)), lwd=2,col=3,lty=1)export.graph(”a:\\ vems.eps”, Name=”GSD2”, ExportType = ”EPS”,) sens < −pnorm(seuil-2.8)un.moins.spec < − pnorm(seuil-5.3)plot(un.moins.spec,sens,type=”l”,xlab=”1 - specificite”,ylab=”sensibilite”)title(main=”courbe ROC”)export.graph(”a:\\Roc.eps”, Name=”GSD3”, ExportType = ”EPS”,)

C.Huber II

Page 82: UFR des Sciences Fondamentales et Biomédicales

3 QUELQUES REMARQUES GENERALES Tests 15

.50.8

y

dens

ite d

e y

et y

0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

Figure 1: Courbes de densite des vems pour les malades et les temoins

1 - specificite

sens

ibili

te

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

courbe ROC

Figure 2: Courbe ROC

3 Quelques remarques generales

L’ensemble des notions evoquees a propos des exemples qui viennent d’etre traites peutetre resume de facon abstraite comme suit. Si (Ω,A, A) est l’espace probabilise associeaux realisations ω du phenomene, X est une variable aleatoire definie sur cet espace

C.Huber II

Page 83: UFR des Sciences Fondamentales et Biomédicales

3 QUELQUES REMARQUES GENERALES Tests 16

et a valeurs dans (E,B) , appele espace des experiences, et que l’on peut souvent enpratique assimiler a IRp muni de la tribu B de ses boreliens. Par exemple ω est unegreffe de rein, et X est la duree de la greffe jusqu’au rejet, ou bien la similarite destissus du receveur et du donneur. Dans ces deux cas, p = 1. En revanche, si X estl’ensemble de ces deux valeurs, p = 2.

Soit P la probabilite sur (E,B) image par X de la loi A. Si M est l’ensemble detoutes les probabilites sur (E,B), toute connaissance que l’on pourrait avoir a priori(c’est a dire avant l’experience) sur le phenomene se traduit en l’appartenance de P aun sous-ensemble de M. Supposons donc que

P ∈ H ⊂ M (2)

Une hypothese H0 peut alors etre identifiee a un sous-ensemble de H, strictementinclus dans H, car sinon le probleme serait resolu. Appelons H1 le complementaire deH0 dans H : ce sera l’hypothese alternative, H0 etant l’hypothese nulle.Une caracteristique du phenomene sera une fonctionnelle T (P ) de la loi P de X avaleurs dans IRk pour un k entier :

T (P ) = (T1(P ), . . . , Tk(P ))

Par exemple, T1(P ) pourrait etre la moyenne de la loi P et T2(P ) pourrait etre savariance. Considerons un probleme de test : le modele statistique peut etre caracterisesoit par le couple (H0, H1) soit par le couple (H0,H1) et il s’agit de trouver une ap-plication mesurable φ de l’espace des observations (E,B) dans ([0; 1],B[0; 1]) , appeleefonction critique du test , ou simplement test, qui, a tout x associe la probabilite φ(x)de rejeter l’hypothese H0; φ doit etre optimal dans un certain sens. Par exemple, siα est un nombre compris entre 0 et 1, on peut demander a φ de rendre (4) maximumparmi tous les tests qui verifient (3) :

supP∈H0

∫φ dP ≤ α (3)

infP∈H1

∫φ dP (4)

En effet,

supP∈H0

∫φdP

majore la probabilite de rejeter H0 a tort, et

infP∈H1

∫φdP

C.Huber II

Page 84: UFR des Sciences Fondamentales et Biomédicales

3 QUELQUES REMARQUES GENERALES Tests 17

minore celle d’accepter H1 a juste titre.

Un tel test est appele maximin .

Pour un test φ donne, le membre de gauche de l’inegalite (3) est appele le niveaudu test et l’expression (4) sa puissance ; α est le seuil de signification qu’on s’estfixe.Si, dans la classe des tests verifiant (3), il en existe un φ0 qui, pour chaque P de H1,rende maximum

∫φ dP , on dit que φ0 est uniformement le plus puissant, en abrege

UPP, au niveau α.

Dans beaucoup de cas, il n’existe pas de test UPP, mais il existe un test ayant cettepropriete dans une sous-classe de tests ayant une propriete donnee.

Qu’il s’agisse d’un probleme de test ou d’estimation, le choix de H est primordial.

C.Huber II

Page 85: UFR des Sciences Fondamentales et Biomédicales

1 NEYMAN ET PEARSON: DEUX HYPOTHESES SIMPLES Tests 18

Partie III

Tests optimaux:Neyman et Pearson

1 Neyman et Pearson: deux hypotheses simples

Supposons que l’on ait a tester H0 = p contre H1 = q ou p et q sont les densitesde deux lois connues. Le lemme de Neyman et Pearson, qui donne la solution opti-male de ce probleme, qui se pose assez rarement dans la pratique, doit son interet a ceque certains problemes de tests d’hypotheses composees peuvent etre reduits a un testd’hypotheses simples.

Lemme 1 (Neyman et Pearson) Pour tester p contre q au niveau α, le test le pluspuissant est de la forme :

Φ(x) =

= 1 si q(x) > kp(x)= κ si q(x) = kp(x) NP= 0 si q(x) < kp(x)

ou k ∈ IR+ et κ ∈ [01] doivent verifier

∫ΦdP = α. (5)

Pour tout α ∈ [01], on peut trouver un test verifiant ces deux equations.

DemonstrationLa fonction c 7−→ α(c) = P (q(x) > cp(x)) est decroissante et continue a droite sur[0+∞[ ; De plus α(0−) = 1 et α(∞) = 0. En effet, les ensembles Ec = x|q(x) > cp(x)decroissent, quand c −→ ∞ , de l’espace entier quand c est negatif a E∞ = x|q(x) >0, p(x) = 0; la continuite a droite de α decoule de ce que, pour tout h positif,

α(c) − α(c + h) = Pcp(x) < q(x) ≤ (c + h)p(x) −−−−→h−→0+

P (∅) = 0

Par suite, pour tout α ∈ [01], il existe k ≥ 0 tel que

α(k−) ≥ α ≥ α(k) (6)

Si k est un point de continuite de α, c’est a dire si P (kp(x) = q(x)) = Q(kp(x) =q(x)) = 0, alors, quel que soit le choix de κ, l’equation ( 5) est verifiee. Si k est unpoint de discontinuite de α, il suffit de prendre :

C.Huber III

Page 86: UFR des Sciences Fondamentales et Biomédicales

2 NEYMAN ET PEARSON:DEUX HYPOTHESES COMPOSEES Tests 19

κ =α − α(k)

α(k−) − α(k). (7)

Soit Φ1 un autre test. Alors, pour tout x on a :

signe(Φ1 − Φ2) = signe(q − kp)

a moins que l’une de ces deux expressions ne soit nulle. Donc, dans tous les cas,on a

(Φ − Φ1)(q − kp) ≥ 0. (8)

Par suite, si Φ1 est de niveau α, c’est a dire si∫

Φ1dP ≤ α , on a

∫ΦdQ −

∫Φ1dQ ≥ k

∫(Φ − Φ1)dP = k(α −

∫Φ1dP ) ≥ 0. (9)

Reciproquement, pour que Φ1 ait la meme puissance que Φ, il faut que ( 8) soit presquesurement nul. Donc il faut que Φ1 verifie ( 1) presque surement.

2 Neyman et Pearson:deux hypotheses composees

Nous allons voir maintenant un certain nombre de cas ou le test de deux hypotesescomposees H0 et H1 peut se ramener a celui de deux hypotheses simples.

2.1 Ordre stochastique

Definition 5 Soient sur (Ω,A) deux probabilites P et Q et une variable aleatoire Xreelle. On dit que X est, sous P , stochastiquement plus petite que sous Q si:

P (X ≤ x) ≥ Q(X ≤ x) x ∈ IR. (10)

De meme, si X et Y sont deux variables aleatoires reelles definies sur un memeespace de probabilite, et de fonctions de repartition respectives FX et FY , on dit que Xest stochastiquement plus petite que Y si

FX(x) ≥ FY (x) x ∈ IR. (11)

Lemme 2 Etant donnees deux fonctions de repartition F0 et F1, une condition necessaireet suffisante pour que F0(x) ≤ F1(x) pour tout x reel est qu’il existe deux fonctions f0

et f1 croissantes, avec f1 ≤ f0, et une variable aleatoire reelle U definie sur un espace(Ω,A,P) telles que f0(U) et f1(U) aient respectivement F0 et F1 pour fonctions derepartition.

C.Huber III

Page 87: UFR des Sciences Fondamentales et Biomédicales

2 NEYMAN ET PEARSON:DEUX HYPOTHESES COMPOSEES Tests 20

DemonstrationLa condition est suffisante car F0(x) = P (f0(U) ≤ x) ≤ P (f1(U) ≤ x) = F1(x).Pour montrer que la condition est necessaire, il suffit de prendre f0 = F−1

0 et f1 = F−11 .

Comme F0 ≤ F1, f0 = F−10 ≥ f1 = F−1

1 .

2.2 Couple le moins favorable

Definition 6 Etant donnes deux sous ensembles disjoints H0 et H1 de l’ensemble detoutes les probabilites sur l’espace (IRn,B) des experiences, on dit que le couple (P0, Q0)est le moins favorable pour tester H0 contre H1 si la variable aleatoire γ = dQ0/dP0

est stochastiquement la plus grande sous P0 dans H0, et la plus petite sous Q0 dans H1,c’est a dire :

P (γ > c) ≤ P0(γ > c) ≤ Q0(γ > c) ≤ Q(γ > c) P ∈ H0 Q ∈ H1 (12)

2.3 Neyman et Pearson generalise

Pour choisir un test Φ de H0 contre H1, on peut choisir l’un des trois criteres d’optimalitesuivants, ou λ est compris entre 0 et 1 :

1. sup(supP∈H0

∫ΦdP ), (supQ∈H1

∫(1 − Φ)dQ) minimum

2. λ(supP∈H0

∫ΦdP ) + (1 − λ)(supQ∈H1

∫(1 − Φ)dQ) minimum

3.

supP∈H0

∫ΦdP ≤ α pour un α ∈ (01)

infQ∈H1 inf ΦdQ maximum

Theoreme 1 (Neyman et Pearson generalise) S’il existe dans H0×H1 un couplele moins favorable (P0, Q0), la famille des tests les plus puissants de P0 contre Q0,donnee par (NP) contient les tests optimaux de H0 contre H1 pour les trois criteresci-dessus.

DemonstrationSoit β la puissance du test de niveau α le plus puissant de P0 contre Q0, qui est donnepar le lemme de Neyman et pearson :

Φ0(x) =

1 si q0 > kp0

κ si q0 = kp0

1 si q0 < kp0

Pour un tel test et en tenant compte de ( 12), on a

∫Φ0 dP ≤

∫Φ0 dP0 ≤

∫Φ0 dQ0 ≤

∫Φ0 dQ P ∈ H0 Q ∈ H1. (13)

C.Huber III

Page 88: UFR des Sciences Fondamentales et Biomédicales

2 NEYMAN ET PEARSON:DEUX HYPOTHESES COMPOSEES Tests 21

Donc EQ[Φ0] ≥ β quel que soit Q dans H1.

Tout autre test de niveau α sur H0 aura en Q0 une puissance inferieure ou egale aβ. Donc Φ0 verifie le troisieme critere d’optimalite.Supposons qu’un test Φ1 soit optimal pour le deuxieme critere et posons

α = supP∈H0

∫Φ1dP

Alors le test Φ0 de niveau α est tel que :∫

Φ1 dQ0 ≤∫

Φ0 dQ0 ≤∫

Φ0 dQ Q ∈ H1

Donc

infQ∈H1

∫Φ1 dQ ≤ inf

Q∈H1

∫Φ0 dQ

et il y a necessairement egalite puisque Φ1 est optimal pour le deuxieme critere. Parsuite, Φ0 est aussi optimal pour le ce critere. Un raisonnement tout a fait analogueprouve que Φ0 est aussi optimal pour le premier critere.

2.4 Application aux familles de lois a rapport de vraisem-

blance monotone

Definition 7 Soit (h(x, θ))θ∈IR une famille parametree de densites sur IR par rapport

a une mesure µ. S’il existe une statistique T (x) telle que pour tout θ2 > θ1, il existeune fonction c telle que

h(θ2, x)

h(θ1, x)= c(T (x)) x ∈ IR (14)

ou c est une fonction croissante, on dit que la famille (hθ) est a rapport de vraisemblancemonotone en T (x).

Exemple : familles exponentielles.Soit θ un parametre reel et X une variable aleatoire reelle ayant par rapport a unemesure µ une densite

h(x, θ) = C(θ)h(x)eQ(θ)T (x) (15)

ou Q(θ) est strictement monotone.Alors, si θ2 > θ1 ,

h(θ2, x)

h(θ1, x)=

C(θ2)

C(θ1)e[Q(θ2)−Q(θ1)]T (x) (16)

C.Huber III

Page 89: UFR des Sciences Fondamentales et Biomédicales

2 NEYMAN ET PEARSON:DEUX HYPOTHESES COMPOSEES Tests 22

est une fonction croissante de T (respectivement de −T ) si Q est croissante (respec-tivement decroissante).On verifiera par exemple que la loi binomiale B(n, θ) est du type precedent avecT (x) = x et Q(θ) = log θ

1−θ, ainsi que le produit de n lois de Poisson de parametre λ,

avec T (x) = Σxi et Q(λ) = log(λ).

ExerciceDemontrer qu’une condition necessaire et suffisante pour que la famille h(x, θ) = f(x−θ) des translatees d’une densite f soit a rapport de vraisemblance monotone en x estque f soit fortement unimodale. On pourra supposer que f(x) > 0 pour tout x reel.

Theoreme 2 Si une famille parametree ((h(x, θ))θ∈IR est a rapport de vraisemblance

monotone avec T (x) = x et si θ1 < θ2, alors le couple de lois (hθ1 , hθ2) est un couple lemoins favorable pour tester H0 : θ ≤ θ1 contre H1 : θ ≥ θ2.

C’est cette propriete qui est utilisee pour obtenir les tests uniformement les plus puis-sants (UPP) pour des hypotheses du type θ ≤ θ1 contre θ ≥ θ2 pour les familles delois exponentielles qui sont tres repandues. Ce test de deux hypotheses composees estainsi ramene a un test de deux hypotheses simples:

H0 : θ = θ1

H1 : θ = θ2

C.Huber III

Page 90: UFR des Sciences Fondamentales et Biomédicales

1 VRAISEMBLANCE ET INFORMATION Tests 23

Partie IV

Trois tests classiques:Score, Wald, RV

1 Vraisemblance et information

Supposons qu’une variable aleatoire X suive une loi de densite fθ(x) dependant d’unparametre θ. La fonction f est connue; Seul le parametre θ, qu’on supposera reel poursimplifier, est inconnu.

1.1 Cas d’une seule observation

On suppose pour l’instant, pour simplifier la notation, que l’on a une seule observationx. Par definition, la vraisemblance

V (θ|x) = fθ(x)

est une fonction du parametre inconnu θ, qui evolue dans Θ. L’observation x, elle, nebouge pas. Cela explique l’ecriture de V comme fonction de θ, conditionnelle a x. Onpeut d’ailleurs aussi l’ecrire:

Vx(θ) = fθ(x).

La vraisemblance etant une probabilite est toujours positive. On suppose que V estderivable, deux fois, par rapport a θ et on note V ′

x(θ) la derivee premiere et V ”x(θ) laderivee seconde. De plus, on note θ0 la vraie valeur, inconnue, de θ, et

Lx(θ)

le logarithme de la vraisemblance. Toutes les derivations qui ont lieu dans la suite sontpar rapport a θ: V ′,L′, L”.

Theoreme 3E[L′

x(θ0)|θ0] = 0. (17)

Demonstration:Comme

∫fθ(x)dx = 1, on a aussi

∫Vx(θ)dx = 1. En derivant par rapport a θ, on

obtient ∫V ′

x(θ)dx = 0 (18)

Cette equation peut s’ecrire en utilisant le logarithme de la vraisemblance, Lx(θ) =log(Vx(θ)), dont la derivee vaut

V ′x(θ)

Vx(θ),

C.Huber IV

Page 91: UFR des Sciences Fondamentales et Biomédicales

1 VRAISEMBLANCE ET INFORMATION Tests 24

et en y remplacant Vx(θ) par fθ(x):∫

L′x(θ)fθ(x)dx = 0. (19)

C’est donc vrai en particulier pour θ = θ0.

On peut definir l’information de Fisher a partir de la vraisemblance.

Definition 8 (Information de Fisher) On appelle information de Fisher la quan-tite

I(θ0) = Eθ0 [(f ′

θ0(x)

fθ0(x))2]

Theoreme 4I(θ0) = Eθ0[L

′x(θ0)

2] = −Eθ0 [L”x(θ0)] (20)

1.2 Cas d’un echantillon

Le logarithme de la vraisemblance de l’echantillon x = (x1, · · · , xn) vaut

Lx(θ) =

n∑

i=1

Lxi(θ) (21)

puisque les observations xi sont independantes. On notera dorenavant Lx(θ) : Ln(θ).De ce qui precede, il resulte que

Theoreme 5Eθ0 [L

′n(θ0)] = 0

In(θ0) = Eθ0[−L”n(θ0)]= Eθ0[(L

′n(θ0))

2]= nI(θ0)

L′n(θ0) est la somme de variables aleatoires independantes de moyenne 0 et de variance

I(θ0) d’apres les theoremes precedents. La loi des grands nombres et le theoreme centrallimite permettent donc d’ecrire

Theoreme 6L′

n(θ0)/n −→ 0 (22)

−L”n(θ0)/n −→ I(θ0) (23)

L′n(θ0)√(n)

−→ N (0, I(θ0)) (24)

Pour utiliser ce resultat, on l’ecrit plus volontiers de la maniere suivante, qui est moinsrigoureuse:

L′n(θ0) ∼ N (0, nI(θ0))

ou la loi normale est une approximation de la loi exacte de L′n(θ0).

C.Huber IV

Page 92: UFR des Sciences Fondamentales et Biomédicales

3 LES TROIS TESTS CLASSIQUES Tests 25

2 Estimateur du maximum de vraisemblance

On estime θ par la valeur θ du parametre qui rend maximum Vx(θ) et donc qui annuleV ′

x(θ). On demontre en utilisant le theoreme 6 que θ est consistant. Quand n estsuffisamment grand, θ est assez proche de θ0 pour que l’on puisse confondre la courbeV ′

n(θ) et sa tangente en θ0:

L′n(θ) = L′

n(θ0) + (θ − θ0)V ”n(θ0)

En particulier, en θ = θ:

0 = L′n(θ0) + (θ − θ0)L”n(θ0) (25)

d’ou l’on deduit

θ − θ0 = − L′n(θ0)

L”n(θ0)

Grace aux deux premieres equations du theoreme 6, quand n −→ ∞, on voit que

θ − θ0 −→ 0

D’autre part, l’equation (25) se re-ecrit:√

n(θ − θ0) = a/bou

a = +(1/√

n)L′n(θ0) ∼ N (0, I(θ0))

b = −(1/n)L”n(θ0) ∼ I(θ0)

Donc

Theoreme 7 √n(θ − θ0) ∼ N (0, 1/I(θ0)) (26)

On en deduit

Theoreme 82[Ln(θ) − Ln(θ0)] ∼ χ2(1) (27)

3 Les trois tests classiques

3.1 cas unidimensionnel

On veut testerH0 : θ = θ0

H1 : θ 6= θ0

Notons zu le u-quantile de la gaussienne, defini par

P (N (0, 1) ≤ zu) = u

Les plus connus sont z0.975 = 1.96 et z0.95 = 1.645.

C.Huber IV

Page 93: UFR des Sciences Fondamentales et Biomédicales

3 LES TROIS TESTS CLASSIQUES Tests 26

1. Test de Wald: Si H0 est vraie, le theoreme ( 7)) nous dit que

√nI(θ0)(θ − θ0) ∼ N (0, 1)).

Le test de niveau α s’ecrira: On rejette H0 si et seulement si

|√

nI(θ0)(θ − θ0)| > z1−α/2

2. Test du score: Si H0 est vraie, l’equation ( 24) nous dit que

L′n(θ0)√nI(θ0)

∼ N (0, 1).

Le test de niveau α s’ecrira: On rejette H0 si et seulement si

| L′n(θ0)√nI(θ0)

| > z1−α/2.

3. Test du rapport de vraisemblanceSi H0 est vraie, le theoreme ( 8) nous dit que

2[Ln(θ) − Ln(θ0)] ∼ χ2(1).

Le test de niveau α s’ecrira: On rejette H0 si et seulement si

2[Ln(θ) − Ln(θ0)] > tα.

ou tα est le α-quantile de la loi du χ2 a un degre de liberte. Cette valeur estdonnee par la table du χ2:

P (χ2(1) > tα) = α.

3.2 Cas multidimensionnel

On suppose maintenant queθ = (θ1, . . . , θd).

Le logarithme de la vraisemblance est une fonction des d variables, dont on regroupeles derivees partielles en un vecteur G de taille d, appele le vecteur des scores:

t(G) = (G1, . . . , Gd) = (∂/∂θ1Ln, . . . , ∂/∂θdLn)

et ses derivees secondes en une matrice d × d notee H . Le terme (i, j) de H vaut

Hij = ∂/∂θi(∂/∂θjLn)

C.Huber IV

Page 94: UFR des Sciences Fondamentales et Biomédicales

3 LES TROIS TESTS CLASSIQUES Tests 27

et on definit la matrice d’information de Fisher comme la matrice a d lignes et dcolonnes, I(θ0, de terme general:

Iij(θ0) = −Eθ0(∂/∂θi∂/∂θjLn).

Un theoreme analogue au theoreme ( 4) dit que

Iij(θ0) = +Eθ0∂/∂θiLn × ∂/∂θjLn.

L’equation ( 24) s’ecrit:G ∼ N (0, nI(θ0)). (28)

L’estimateur du maximum de vraisemblance de θ s’obtient en maximisant Ln doncen annulant toutes les composantes du vecteur des scores G. Les equations ( 26, 27))s’ecrivent:

θ − θ0 ∼ N (0, (1/n)I−1(θ0)) (29)

2[Ln(θ) − Ln(θ0)] ∼ χ2(d) (30)

Une facon de mener les trois tests classiques est fondee sur le

Lemme 3 En dimension d, si Y ∼ N (0, Σ), alors

t(Y )Σ−1Y ∼ χ2(d).

1. Test de WaldSous H0,d’apres l’equation ( 29),

θ − θ0 ∼ N (0, 1/nI−1(θ0)).

DoncW = n(θ − θ0)

′I(θ0)(θ − θ0) ∼ χ2(d).

On rejette H0 si et seulement si W > t1−α(d) ou t1−α(d), donne par la table esttel que

P (χ2(d) > t1−α(d)) = α.

2. Test du scoreSous H0,

G ∼ N (0, nI(θ0))),

(cf 28), doncS = (1/n)t(G)I(θ0)

−1G ∼ χ2(d).

On rejettera H0 si et seulement si S > tα(d).

3. Test du rapport de vraisemblanceSous H0 (cf 30)

R = 2[Ln(θ) − Ln(θ0)] ∼ χ2(d).

On rejette H0 si et seulement si R > t1−α(d).

C.Huber IV

Page 95: UFR des Sciences Fondamentales et Biomédicales

2 UN GRAND NOMBRE DE PARAMETRES NUISIBLES: Tests 28

Partie V

Tests avec parametres nuisibles.

1 Introduction

Il arrive tres souvent qu’on s’interesse a un parametre particulier alors que le modelestatistique en comporte un ou plusieurs autres. Ces derniers sont appeles des parametresnuisibles ou parasites. Plusieurs methodes sont possibles pour traiter ces parametres.On peut tout d’abord les estimer au meme titre que le parametre d’interet. Mais celapeut conduire a de graves ennuis comme l’illustre l’exemple ci-dessous, au paragraphe2. Aussi existe-t-il d’autres methodes pour se debarrasser de ces parametres, en parti-culier lorsque la famille de probabilites est exponentielle. C’est ce que nous verrons auparagraphe 3.

2 Un grand nombre de parametres nuisibles:

Cet exemple celebre est du a Le Cam. On observe n couples independants (Xi, Yi) devariables normales independantes, dont la moyenne commune µi depend de i et dontla variance σ2 est la meme pour tous les couples:

(Xi, Yi) Xi ∼ N(µi, σ2)

Yi ∼ N(µi, σ2)

Xi ⊥ Yi

i = 1, 2, · · · , n

Ce qu’on veut estimer, c’est la variance commune aux 2n observations, σ2. Lesmoyennes µi sont donc des parametres nuisibles. On peut remarquer de plus quele nombre de ces parametres tend vers l’infini en meme temps que le nombre des obser-vations. Si on estime simultanement σ2 et les n moyennes µi en utilisant la methodedu maximum de vraisemblance, on obtient le calcul suivant:

V (σ2, µ1, · · · , µn) = Πni=1

1

(√

2πσ)2exp −(xi − µi)

2

2σ2− (yi − µi)

2

2σ2

= (1

(2πσ)2)n exp −Σn

i=1

1

2σ2[(xi − µi)

2 + (yi − µi)2]

lnV = −n(ln (2π) + ln (σ2)) − 1

2σ2Σn

i=1[(xi − µi)2 + (yi − µi)

2]

C.Huber V

Page 96: UFR des Sciences Fondamentales et Biomédicales

2 UN GRAND NOMBRE DE PARAMETRES NUISIBLES: Tests 29

Il y a donc ici n + 1 equations du maximum de vraisemblance:

∂L∂σ2 = −n

σ2 + 12σ4 Σ

ni=1[(xi − µi)

2 + (yi − µi)2] = 0

∂L∂µi

= −1σ2 [4µi − 2(xi + yi)] = 0

i = 1, 2, · · · , n.

Par equivalences successives, on obtient les estimateurs du maximum de vraisemblance:

∂L∂µi

= 0 ⇐⇒ µi = xi+yi

2

∂L∂σ2 = 0 ⇐⇒ − n

σ2 + 12σ4 Σ(xi − yi)

2 = 0

⇐⇒ −n + 14σ2 Σ(xi − yi)

2 = 0

⇐⇒ σ2 = Σ(xi−yi)2

4n

est ce un bon estimateur de σ2 ? Comme Xi et Yi sont independants et normaux,leur difference suit une loi normale de moyenne la difference des moyennes, c’est a dire0, et de variance la somme des variances, soit 2σ2:

Xi − Yi ∼ N(0, 2σ2)

Donc

E((Xi − Yi)2) = 2σ2

Par suite,E(σ2) = σ2/2

ce qui signifie que σ2 est un tres mauvais estimateur de σ2: il n’est ni sans biais, niconvergent. Son biais est egal a −σ2/2 et il converge vers la moitie de la valeur qu’ilest cense estimer. Cela est du a un phenomene general: la methode du maximum devraisemblance n’a pas de bonnes proprietes si le nombre des parametres croıt a la memevitesse que le nombre des observations. En fait, pour se debarrasser des parametresparasites µi, on peut considerer l’echantillon des differences

Di = Xi − Yi

Les Di sont alors independantes de meme loi N(0, 2σ2). On a donc un estimateur sansbiais de variance minimum pour 2σ2, fonde sur le n-echantillon (D1, · · · , Dn) :

C.Huber V

Page 97: UFR des Sciences Fondamentales et Biomédicales

3 ELIMINATION PAR CONDITIONNEMENT Tests 30

2σ2 =Σn

i=1(di − d)2

n − 1

ce qui donne un estimateur sans biais et de variance minimum pour σ2:

σ2 =Σn

i=1(di − d)2

2(n − 1).

On peut cependant remarquer que cette solution est typique de notre exemple. Nousverrons aux paragraphes suivants une solution applicable de maniere plus generale.

3 Elimination par conditionnement

Supposons que l’on veuille tester

H0 : θ = θ0

H1 : θ = θ1

θ1 > θ0

grace a un echantillon (X1, X2, · · · , Xn) d’une variable aleatoire X obeissant a unefamille de lois de densite, au point x, f(x, θ, φ) qui depende de θ et d’un autre parametreφ. Dans ce cas, θ est le parametre d’interet et φ est un parametre parasite.Si la loi peut se mettre sous la forme exponentielle:

f(x, θ, φ) = C(θ, φ)h(x)eθU(x)+φT (x)

alors, d’apres le lemme de Neyman et Pearson, les tests les plus puissants de H0 contreH1 ont une zone de rejet de H0 de la forme:

x : U(x) > k

ou la valeur de la constante k doit etre choisie de telle sorte que le niveau du test soitegal a une valeur choisie α, soit:

α = PH0(U(X) > k)

Or cette probabilite depend de la valeur inconnue du parametre parasite φ. En effet,l’hypothese H0 n’est une hypothese ”simple” qu’en apparence. En realite, l’hypotheseH0 s’ecrit:

H0 : θ = θ0 , φ quelconque.

De meme, l’alternative H1 est aussi une hypothese composee:

H1 : θ = θ1 , φ quelconque.

C.Huber V

Page 98: UFR des Sciences Fondamentales et Biomédicales

4 COMPARAISON DE DEUX LOIS DE POISSON Tests 31

Mais on pourra montrer (voir le paragraphe 5) que, si l’on connaıt la valeur det, la loi de U , sachant θ = θ0 et T = t, ne depend pas de la valeur du parametreinconnu φ. Cette propriete entraıne que l’on peut determiner la region de rejet de H0

pour un niveau donne α, sans connaıtre φ, a condition toutefois que les observations(x1, x2, · · · , xn) aient ete faites, et que par consequent la valeur de la statistique T soitconnue, soit T = t. On ne peut donc pas determiner la zone de rejet du test avantd’avoir fait l’experimentation.

Principe de la methodeLe principe de la methode est le suivant:

1. Le parametre d’interet etant θ, reperer la presence d’un parametre parasite φ.

2. Mettre si possible sous la forme exponentielle suivante la loi des variables ob-servees:

f(x, θ, φ) = C(θ, φ)h(x)eθU(x)+φT (x).

3. Trouver la loi de U conditionnellement a T = t.

4. Obtenir la zone de rejet du test: elle depend de t observee et non de φ inconnu.

Cette methode sera illustree au paragraphe suivant par un exemple: la comparaisonde deux lois discretes, des lois de Poisson.

4 Comparaison de deux lois de Poisson

Deux types d’evenements se produisent selon deux lois de Poisson de parametres re-spectifs λ et µ

X ∼ Poisson (λ)Y ∼ Poisson (µ)

Et on se demande si les evenements du premier type sont plus frequents que ceux dusecond type. Autrement dit, sachant que

P (X = x) = e−λ λx

x!x = 0, 1, 2, · · ·

P (Y = y) = e−µ µy

y!y = 0, 1, 2, · · ·

On veut donc tester les deux hypotheses:

H0 : λ ≤ µ

H1 : λ > µ

Dans ce probleme de test, on peut se poser la question suivante: y a-t-il un parametred’interet et un parametre parasite ? Si oui, quels sont ils ?

C.Huber V

Page 99: UFR des Sciences Fondamentales et Biomédicales

4 COMPARAISON DE DEUX LOIS DE POISSON Tests 32

1. Parametre parasite :En fait, on peut reformuler ainsi les hypotheses:

H0 : λµ

≤ 1

H1 : λµ

> 1

Cette nouvelle formulation des hypotheses montre que λµ

peut etre considerecomme l’unique parametre d’interet, qu’on veut tester a 1. On peut alors choisircomme parametre complementaire du probleme soit λ, soit µ, qui devinet alorsun parametre parasite. Supposons que nous ayons seulement deux observations,une de X et une de Y . Alors la vraisemblance de (x, y) s’ecrit:

P (X = x, Y = y) = e−(λ+µ) 1x!y!

e(x ln λ+y ln µ)

= e−λµ(µ+1) 1

x!y!ex ln λ

µ+(x+y) lnµ

2. Reecriture de la loi sous la forme exponentielle:On est amene a poser:

θ = ln (λµ) , U = X

φ = ln(µ) , T = X + Y

ce qui donne pour vraisemblance:

P (X = x, Y = y) = e−eφ(eθ+1) 1

x!y!eθx+φ(x+y)

3. Il reste maintenant a calculer la loi de U , c’est a dire X, conditionnellement a T ,c’est a dire X + Y . Comme X et Y sont independantes, la loi de leur somme estune loi de Poisson de parametre la somme des parametres, soit:

P (X + Y = t) = e−(λ+µ)((λ + µ)t

t!).

D’autre part,

P (X = x⋂

X + Y = t) = P (X = x, Y = t − x) = e−(λ+µ) λxµt−x

x!(t − x)!

Par suite:

P (X = x | X + Y = t) =t!

x!(t − x)!(

λ

λ + µ)x(

µ

λ + µ)t−x

C.Huber V

Page 100: UFR des Sciences Fondamentales et Biomédicales

5 FAMILLE EXPONENTIELLE Tests 33

On reconnaıt la loi binomiale B(t, λλ+µ

) qui depend:

• de la somme t des deux observations x et y,

• et du parametre d’interet θ.

Nous allons voir au paragraphe suivant que ce resultat, obtenu pour la loi de Poisson,est vrai pour toute famille exponentielle.

5 Famille exponentielle

Soit une famille exponentielle, de parametres canoniques θ et φ, et dont les statistiquesexhaustives correspondantes sont U(x) et T (x):

f(x, θ, φ) = C(θ, φ)eθU(x)+φT (x)h(x). (31)

Proprietes:

1. Esperances des statistiques exhaustives:

E(U(X)) = −∂lnC(θ,φ)∂θ

E(T (X)) = −∂lnC(θ,φ)∂φ

2. Moments d’ordre deux des statistiques exhaustives:

V ar(U(X)) = −∂2lnC(θ,φ)∂θ2

V ar(T (X)) = −∂2lnC(θ,φ)∂φ2

Cov(U(X), T (X)) = −∂2lnC(θ,φ)∂θ∂φ

3. Loi de U conditionnellement a T = t: elle ne depend pas de φ: si la densite de(U, V ) secrit

gθ,φ(u, t) = C(θ, φ)H(u, t)eθu+φt

alors

gθ,φ(u|t) =H(u, t)

l(t)eθu

C.Huber V

Page 101: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 34

ou

l(t) =

∫H(u, t)eθudu.

Demonstration:

• Demontrons le resultat concernant les esperances:

∫f(x, θ, φ) = 1 ⇒

∫∂f∂θ

1ffdx = 0

=∫

∂∂θ

(ln f)fdx = 0

Or∂

∂θ(ln f) =

∂θ(ln C(θ, φ)) + U(X)

• Les resultats concernant les moments d’ordre deux s’obtiennent de maniere ana-logue.

• C’est cette derniere propriete qui est utile pour etablir des tests concernant θsans connaıtre φ, commencons par elle. Soit

gθ,φ(u, t) = C(θ, φ)H(u, t)eθu+φt

Calculons la densite de U conditionnellement a t:

gθ,φ(u|t) =gθ,φ(u,t)∫gθ,φ(u,t)du

= C(θ,φ)H(u,t)eθu+φt∫

C(θ,φ)H(u,t)eθu+φtdu

= H(u,t)l(t)

eθu

ce qui est le resultat annonce. Cela prouve bien que cette loi conditionnelle nedepend pas du parametre φ.

6 Exemples:

Nous allons voir quelques exemples de tests en presence de parametres nuisibles. Lestrois premiers ont trait a des lois continues, la loi normale et la loi exponentielle. Ledernier concerne une loi discrete, la loi de Poisson. Toutes ces lois appartiennent a lafamille dite ”exponentielle”, dont les proprietes sont rappelees au paragraphe 5.

C.Huber V

Page 102: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 35

• Exemple 1 :Soit X ∼ N(µ, σ2), ou µ et σ2 sont inconnus. µ0 etant une valeur connue fixee,on veut tester:

H0 : µ = µ0.

Puisqu’on ne la precise pas, l’alternative est bilaterale

H1 : µ 6= µ0.

et le parametre d’interet est µ et le parasite est σ2. Si on dispose d’un n-echantillon de X, x = (x1, · · · , xn), sa vraisemblance s’ecrit:

f(x) = 1(√

2πσ)n e−1

σ2 Σni=1(xi−µ)2

= 1(√

2πσ)n e−nµ2

2σ2 e−1

2σ2 Σni=1(x

2i )+ µ

σ2 Σni=1(xi)

On voit sur cette expression que les parametres canoniques et les statistiquesexhaustives correspondantes sont

θ = µσ2 U = Σxi

φ = − 1σ2 T = Σx2

i

Si au contraire on s’interessait a σ2 et non a µ, on intervertirait les roles de θ etde φ. Comme ici on veut tester

H0 : µ = µ0

on peut remplacer les xi par yi = xi−µ0 et tester la moyenne des yi, qu’on noteraaussi µ, a 0:

H0 : µ = 0

H1 : µ 6= 0

La zone de rejet de H0 est de la forme

X /∈ [k1k2]k1 , k2 : P (X /∈ [k1k2] | µ = 0, Σx2 = t) = α

Or la zone de rejet

x /∈ [k1k2] ⇔ x√Σx2−n(x)2

/∈ [k′1 k′

2]

⇔ x√1n

Σ(xi−x)2

n−1

/∈ [k”1 k”2]

C.Huber V

Page 103: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 36

car la fonction x 7→ x√Σx2−n(x)2

est croissante. De plus, la loi de la derniere

statistique est connue; c’est une loi de Student a n−1 degres de liberte. Cette loietant symetrique par rapport a 0, la region de rejet sera elle aussi symetrique parrapport a 0. Si Fn−1 est la fonction de repartition de la loi de Student a (n − 1)ddl, k”1 = F−1

n−1(α/2).

• Exemple 2 :Soient X et Y deux variables exponentielles, X ∼ Exp(θ1) et Y ∼ Exp(θ2) ou θ1

et θ2 sont inconnus. On veut tester

H0 : θ1 < θ2

Ici le parametre d’interet est θ2 − θ1 et le parasite est θ1 (ou θ2). Les densites deprobabilite f1 et f2 de X et Y et la vraisemblance V (x, y) de (x, y) s’ecrivent:

f1(x) = θ1e−θ1x

f2(y) = θ2e−θ2y

V (θ1, θ2) = θ1θ2e−θ1x−θ2y

Comme les parametres d’interet θ et nuisible φ sont respectivement

θ = θ1 − θ2 ⇒ θ2 = φ − θφ = θ1 ⇒ θ1 = φ

on peut reecrire la vraisemblance en fonction de ces nouveaux parametres:

V (θ, φ) = φ(φ − θ)e−φx−(φ−θ)y

= C(θ, φ)e−(x+y)φ+θy ⇒ T = X + Y⇒ U = Y

Si le parametre nuisible φ etait connu, en utilisant le lemme de Neyman et Pear-son, on rejetterait

H0 : θ ≤ θ2 ⇔ θ(= θ1 − θ2) ≤ 0

lorsquey > k ; k : P (Y > k | θ = 0, φ connu) = α

ou α est le niveau choisi pour le test. On aurait ainsi le test le plus puissant auniveau α. Mais comme φ est inconnu, on ne peut pas calculer k tel que

α = P (Y > k | θ = 0, φ inconnu).

En revanche, conditionnellement a T = t, la loi de la statistique du test, U , nedepend pas de φ. En effet, faisons le changement de variables qui fait passer de(x, y) a (u, t) et transforme la densite f(x, y) en ϕ(u, t). Pour cela, on a besoin

C.Huber V

Page 104: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 37

du jacobien J de la transformation. Le jacobien est la matrice des deriveesdes anciennes variables par rapport aux nouvelles. Le determinant |J | de cettematrice intervient dans ϕ:

u = y x = −(u + t)t = −(x + y) y = uJ = ⌈−1 − 1⌉

⌊1 0⌋|J | = 1

On obtient donc la densite de (u, t) et celle de u conditionnellement a t:

f(x, y)dxdy = φ(φ − θ)e−φ(x+y)+θydxdy

ϕ(u, t) = φ(φ − θ)e−φt+θu 0 ≤ u ≤ t

ϕ(u|t) = φ(φ−θ)e−φt+θu

∫ t

0φ(φ−θ)e−φt+θudu

= θ eθu

eθt−1

On verifie une fois encore que ϕ(u|t) ne depend pas de φ. En particulier, sous H0

( θ = 0) et conditionnellement a x + y = t, la loi de Y est uniforme sur [0 t]:

θeθu

eθt − 1≃ θ(1 + θu)

θt≃ 1/t.

On obtient donc la valeur de k qui definit le test de niveau α, en fonction de t :

k = t(1 − α).

En conclusion, on peut dire que, X et Y ayant deux lois exponentielles deparametres respectifs θ1 et θ2, pour tester H0 : θ1 < θ2, on rejette H0 au niveauα si

y > (1 − α)(x + y) ⇔ x

y<

α

1 − α.

Les proprietes de ce test sont les suivantes:

1. Le niveau du test est α, par construction.

2. Le test est sans biais. Pour le prouver, calculons sa fonction puissance β(θ),en fonction de θ et montrons que c’est une fonction croissante de θ a partirde 0.

β(θ) = P (U > k | θ, t)

= θeθt−1

∫ t

keθudu

= θeθt−1

1θ(eθt − eθk)

= eθt−eθk

eθt−1.

C.Huber V

Page 105: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 38

Cette fonction est croissante de θ car

β ′(θ) = (teθt−keθk)(eθt−1)−(eθt−eθk)teθt

(eθt−1)2

= eθ(k+t)(t−k)+keθk

(eθt−1)2

> 0.

RemarqueLe meme test peut s’ecrire:

X

Y<

α

1 − α

Sa puissance est

β(θ) = P (X

Y<

α

1 − α| θ1, θ2)

sans conditionnement par rapport a t. La loi de X/Y s’obtient en faisant lechangement de variables (x, y) ⇒ (u, v) de jacobien J :

f(x, y) = θ1θ2e−θ1x−θ2y

u = xy

x = uv

v = y y = vJ = ⌈vu⌉

⌊01⌋

On en deduit la densite ϕ au point (u, v) et la densite marginale g au pointu:

ϕ(u, v) = θ1θ2e−θ1uv−θ2vv

g(u) =∫ ∞0

ϕ(u, v)dv = θ1θ2

∫ ∞0

e−(θ1u+θ2)vvdv

et par integration par parties:

g(u) = − θ1θ2

(θ1u+θ2)[e−v(theta1u+θ2)v]∞0 −

∫ ∞0

e−v(θ1u+θ2)dv

= θ1θ2

(θ1u+θ2)2

Donc, la probabilite que X/Y soit inferieur ou egal a k vaut:

(P (XY≤ k) =

∫ k

0θ1θ2

(θ1u+θ2)2du

= [− θ1θ2

(θ1u+θ2)1θ1

]k0

= − θ2

θ1k+θ2+ 1

= θ1kθ1k+θ2

C.Huber V

Page 106: UFR des Sciences Fondamentales et Biomédicales

6 EXEMPLES: Tests 39

En y remplacant k par α(1 − α), on obtient la puissance du test:

P (XY≤ α

1−α) = θ1α

θ1α+θ2(1−α)

= α + (θ1 − θ2)α(1−α)

θ1α+θ2(1−α)

Cette approche prouve elle aussi, et de maniere encore plus convaincante,le fait que le test est sans biais:sa puissance est egale au niveau α plus unequantite qui est positive sous l’alternative ( θ1 − θ2 > 0). Il est facile de voirque cette quantite est une fonction croissante de la difference θ1 − θ2.

3. Ce test est le plus puissant des tests sans biais:Il est le plus puissant, comme test de Neyman et Pearson, parmi les testsfondes sur la loi de U conditionnelle a T = t.

• Exemple 3 :On essaiera de traiter l’exemple suivant. Soient X ∼ N(µ, σ2) et Y ∼ N(µ′, σ2),ou µ et µ′ sont inconnus et σ2 est connu. On veut tester:

H0 : µ = µ′.

Alors µ − µ′ est le parametre d’interet et µ est le parasite.

C.Huber V

Page 107: UFR des Sciences Fondamentales et Biomédicales

1 INTRODUCTION Tests 40

Partie VI

Comparaison de tests:efficacite relative

1 Introduction

Supposons que nous disposions d’un echantillon x = (x1, · · · , xn) d’une variable Xdont la loi depend d’un parametre θ. Si nous voulons tester H0 contre H1 :

H0 : θ = θ0

H1 : θ = θ1,

il arrive que l’on dispose de deux (familles de) tests. Etant donnee un niveau de αchoisi, l’un, fonde sur une statistique T (x), rejette H0 lorsque

T > t ; t tel que PH0(T > t) = α.

L’autre, fonde sur une autre statistique T ∗(x), rejette H0 lorsque

T ∗ > t∗ ; t∗ tel que PH0(T∗ > t∗) = α.

Si nous voulons comparer ces deux tests, on doit comparer leurs puissances. Or lapuissances d’un test depend a la fois de l’alternative et de la taille de l’echantillon.Nous allons le constater sur un exemple.

Exemple:On considere deux produits dermatologiques A et B. Sur un echantillon de n personnesatteintes d’une certaine pathologie dermique, on applique le produit A sur une partiedu corps et le produit B sur l’autre. On observe le temps x = (x1, · · · , xn) que met lepremier produit a faire disparaıtre la pathologie dermique en jeu et y = (y1, · · · , yn) letemps que met le produit B pour obtenir le meme resultat. On se demande quel est lemeilleur de ces deux produits. L’un des tests possibles est le test des signes, fonde, siS = sign(X − Y ), sur

T = Σni=1Si

Sous l’hypothese nulle, H0 qu’il n’y a aucune difference entre les deux produits, la loide S est analogue a une Bernoulli de parametre θ = 1/2, mais sur −1 1 au lieu de0 1. Si on veut tester H0 contre H1: le produit A est meilleur que B, par exemple,θ = 2/3, on est en presence du test de:

H0 : θ = θ0 = 1/2H1 : θ = θ1 = 2/3

La statistique du test des signes, Tn, qu’on appelle en genral simplement ”le test Tn”, adeux lois differentes selon que c’est H0 ou H1 qui est vraie. Dans les deux cas c’est une

C.Huber VI

Page 108: UFR des Sciences Fondamentales et Biomédicales

1 INTRODUCTION Tests 41

loi binomiale de parametres n et θ, avec deux valeurs differentes de θ. Dans les deuxcas, cette loi est approximativement normale quand la taille de l’echantillon augmente:

TnH0∼ B(n = 10, θ = θ0 = 1/2)

n→∞≈ N(nθ0, nθ0(1 − θ0))

TnH1∼ B(n = 10, θ = θ1 = 2/3)

n→∞≈ N(nθ1, nθ1(1 − θ1))

Nous disposons aussi d’autres tests possibles pour comparer ces deux produits: Letest de la mediane, le test de comparaison de moyennes. Si nous voulons comparerentre eux deux de ces tests pour savoir quel est le meilleur, nous devons comparer leurspuissances. Or cette puissance depend de deux quantites:

1. l’alternative,

2. La taille n de l’echantillon.

Que se passe-t-il quand la taille de l’echantillon tend vers l’infini? Si l’alternative θ1 estfixee, ainsi que le niveau α, la puissance tend vers sa valeur maximum: 1. Montrons lepour le test des signes. Il est clair que cela est vrai pour tous les tests admissibles.Notons Z la variable normale standard, Φ sa fonction de repartition et zα son α-quantile:

Z ∼ N(0, 1) Φ(z) = P (Z < t) ; Φ(zα) = α.

Pour maintenir le niveau α, quand n → ∞, on doit choisir pour zone de rejet de H0:

Tn > tn(α) ; tn(α)tel que PH0(Tn > tn(α)) = α

= P (nθ0 +√

nθ0(1 − θ0)Z > tn(α))

= P (Z > tn(α)−nθ0)√nθ0(1−θ0)

= 1 − Φ( tn(α)−nθ0)√nθ0(1−θ0)

⇒ tn(α) = nθ0 +√

nθ0(1 − θ0)z1−α

La puissance de ce test est donc:

βn(θ1) = PH1(Tn > tn(α))

= P (nθ1 +√

nθ1(1 − θ1)Z > tn(α))

= P (nθ1 +√

nθ1(1 − θ1)Z > nθ0 +√

nθ0(1 − θ0)z1−α)

= P (Z > n(θ0−θ1)√nθ1(1−θ1)

+ z1−α

√nθ0(1−θ0)√nθ1(1−θ1)

)

= 1 − Φ(z1−α

√nθ0(1−θ0)√nθ1(1−θ1)

− n(θ1−θ0)√nθ1(1−θ1)

)

−−−→n→∞

1

C.Huber VI

Page 109: UFR des Sciences Fondamentales et Biomédicales

2 EFFICACITE RELATIVE DE DEUX TESTS Tests 42

En revanche, si au lieu d’une alternative fixe, on considere une alternative qui serapproche de l’hypothese nulle au fur et a mesure que la taille de l’echantillon augmente,on peut obtenir une puissance limite qui caracterise le test: Soit a une constante positiveet

θ1n = θ0 +a√n

Alors la puissance du test vaut:

βn(θ1n) = PH1n(Tn > tn(α))

= βn(θ0 + a√n)

= 1 − Φ(z1−α

√θ0(1−θ0)

(θ0+ a√n

)(1−θ0− a√n

))− a√

(θ0+ a√n

)(1−θ0− a√n

))

−−−→n→∞

1 − Φ(z1−α −√

aθ0(1−θ0)

)

Nous allons voir au paragraphe suivant comment comparer deux tests sur cette base.

2 Efficacite relative de deux tests

Supposons que nous ayons deux tests T et T ∗, et supposons que Tn soit de niveau α etde puissance β(n). Le test T ∗

n de meme niveau α a une puissance egale a β∗(n). Pourobtenir la meme puissance que T , il faut une taille d’echantillon n∗ telle que

β∗n(T ∗

n∗) = β(Tn)

On appelle efficacite de T ∗ par rapport a T le rapport:

eT ∗ | T =n

n∗

Cependant cette quantite fluctue avec n et avec l’alternative consideree. Aussi definiton l’efficacite relative asymptotique lorsqu’on fait tendre l’alternative vers l’hypothesenulle comme dans l’exemple de l’introduction.

En general, les tests sont asymptotiquement normaux:

TnH0≈ µn(θ0) + σn(θ0)Z

TnH1≈ µn(θ1) + σn(θ1)Z

T ∗n

H0≈ µ∗n(θ0) + σ∗

n(θ0)Z

T ∗n

H1≈ µ∗n(θ1) + σ∗

n(θ1)Z

C.Huber VI

Page 110: UFR des Sciences Fondamentales et Biomédicales

2 EFFICACITE RELATIVE DE DEUX TESTS Tests 43

Pour maintenir le niveau α, quand n → ∞, on doit choisir pour zone de rejet deH0, Tn > tn(α), ou tn(α) est tel que :

α = PH0(Tn > tn(α))

= P (µn(θ0) + σn(θ0)Z > tn(α))

= P (Z > tn(α)−µn(θ0)σn(θ0)

)

= 1 − Φ( tn(α)−µn(θ0)σn(θ0)

)

⇒ tn(α) = µn(θ0) + σn(θ0)z1−α

De meme pour le test T ∗, on a:

T ∗n > t∗n(α) ; t∗n(α) tel que :

α = PH0(T∗n > t∗n(α))

= P (µ∗n(θ0) + σ∗

n(θ0)Z > t∗n(α))

= P (Z > t∗n(α)−µ∗n(θ0)

σn(θ0)

= 1 − Φ( t∗n(α)−µ∗n(θ0)

σn(θ0))

⇒ t∗n(α) = µ∗n(θ0) + σ∗

n(θ0)z1−α

Les puissances respectives de ces tests sont donc:

βn(θ1) = PH1(Tn > tn(α))

= P (µn(θ1) + σn(θ1)Z > tn(α))

= P (µn(θ1) + σn(θ1)Z > µn(θ0) + σn(θ0)z1−α)

= P (Z > µn(θ0)−µn(θ1)σn(θ1)

+ z1−ασn(θ0)σn(θ1)

)

= 1 − Φ(z1−ασn(θ0)σn(θ1)

− µn(θ1)−µn(θ0)σn(θ1)

)

−−−→n→∞

1

C.Huber VI

Page 111: UFR des Sciences Fondamentales et Biomédicales

3 ERA : THEORIE GENERALE Tests 44

β∗n(θ1) = PH1(T

∗n > t∗n(α))

= P (µ∗n(θ1) + σ∗

n(θ1)Z > t∗n(α))

= P (µ∗n(θ1) + σ∗

n(θ1)Z > µ∗n(θ0) + σ∗

n(θ0)z1−α

= P (Z > µ∗n(θ0)−µ∗

n(θ1)σ∗

n(θ1)+ z1−α

σ∗n(θ0)

σ∗n(θ1)

)

= 1 − Φ(z1−ασ∗

n(θ0)σ∗

n(θ1)− µ∗

n(θ1)−µ∗n(θ0)

σ∗n(θ1)

)

−−−→n→∞

1

En general, si le test T est convenablement norme, on a le comportement suivant poursa moyenne et sa variance:

µn(θ0) → µ(θ0)

σn(θ0) ≈ σ(θ0)√n

ou µ(θ0) et σ(θ0) sont des constantes. On a aussi, quand θ1n = θ0 + a√n→ θ0,

µn(θ1) − µn(θ0) = a√nµ′(θ0)

σn(θ0)σn(θ1)

→ 1

Verifions le sur l’exemple donne dans l’introduction: Le test T/n est de moyenne

µn(θ) = θ et d’ecart-type√

θ(1−θ)n

. Donc

µn(θ1n) − µn(θ0) = a√n

σn(θ0)σn(θ1n)

→√

θ0(1−θ0)θ1n(1−θ1n)

→ 1

L’efficacite relative asymptotique de T∗ par rapport a T est dans ce cas egale a

eT∗/T = nn∗ = a∗σ

aσ∗ 2

3 ERA : Theorie generale

Les notations sont celles du paragraphe precedent. On a deux familles de tests uni-lateraux fondes sur Tn et T ∗

n .

Theoreme 9 Sous les hypotheses suivantes sur les deux premiers moments des tests:

C.Huber VI

Page 112: UFR des Sciences Fondamentales et Biomédicales

3 ERA : THEORIE GENERALE Tests 45

1. Les moyennes sont derivables jusqu’a l’ordre m et la premiere derivee non nulleest celle d’ordre m:

µn(θ) ∈ Cm dans un voisinage de θ : V (θ)µ′

n(θ0) = µ′n(θ0) = · · · = µm−1

n (θ0) = 0µm

n (θ0) 6= 0

µ∗n(θ) ∈ Cm dans un voisinage de θ : V (θ)

µ′∗n (θ0) = µ”∗n(θ0) = · · · = µ∗m−1

n (θ0) = 0µ∗m

n (θ0) 6= 0

2. Les limites suivantes existent:

∃ δ > 0 , 0 < l < ∞ : µmn (θ0)

σn(θ0)nmδ∗ → l

∃ δ∗ > 0 , 0 < l∗ < ∞ : µ∗mn (θ0)

σ∗n(θ0)nmδ∗ → l∗

3. La derivee d’ordre m de la moyenne et la variance sont continues en θ0:

limθ→θ0

µmn (θ)

µmn (θ0)

= limθ→θ0

σn(θ)σn(θ0)

= 1

limθ→θ0 lim µ∗mn (θ)

µ∗mn (θ0)

= limθ→θ0

σ∗n(θ)

σ∗n(θ0)

= 1

Alors l’efficacite relative asymptotique de T ∗ par rapport a T vaut:

ERA (T ∗ | T ) = 0 si δ∗ < δ= ∞ si δ∗ > δ= ( l∗

l)1/mδ si δ∗ = δ

C.Huber VI

Page 113: UFR des Sciences Fondamentales et Biomédicales

1 DENSITES FORTEMENT UNIMODALES Tests 46

Partie VII

Proprietes des lois sur IR :

1 Densites fortement unimodales

Soit P une probabilite sur (IR, B) et F la fonction de repartition correspondante:

F (x) = P (] −∞ x]) x ∈ IR.

Si P (est absolument continue par rapport a la mesure de Lebesgue et) a f pour densite,on a

F (y) =

∫ y

−∞f(x)dx (32)

Les notions suivantes concernent des proprietes souvent utiles des familles de densitesde probabilite.

Dans toute la suite, une densite est une fonction positive ou nulle et telle que

∫ +∞

−∞f(x) = 1.

Definition 9 Une densite est unimodale s’il existe un reel c tel que f soit croissantesur ] −∞ c[ et decroissante sur [c + ∞[.

Une telle densite a, comme son nom l’indique, un seul mode.

Definition 10 Une densite est fortement unimodale s’il existe un intervalle ouvert(a, b) tel que −∞ ≤ a ≤ b ≤ +∞ ,

∫ b

af(x)dx = 1 et − log(f) est convexe sur (a, b).

Exemples de densites fortement unimodalesOn pourra montrer que les lois suivantes sont toutes fortement unimodales :

a) Loi normale : f(x) = 1√2π

e(− 12x2)

b) Loi double exponentielle : f(x) = 12e−|x|

c) Loi logistique : f(x) = e−x(1 + e−x)−2

d) Loi uniforme : f(x) = 1[0 1](x)

e) Loi triangulaire : f(x) = [1 − |x|]1[−1+1](x)

f) Loi exponentielle : f(x) = e−x1[0 +∞](x)

C.Huber VII

Page 114: UFR des Sciences Fondamentales et Biomédicales

2 DENSITES D’INFORMATION DE FISHER FINIE : Tests 47

RemarqueOn s’est limite au cas de lois definies par des densites par rapport a la mesure deLebesgue, mais on aurait aussi bien pu considerer des lois absolument continues parrapport a une mesure (sigma-finie) quelconque ν. Par exemple, la mesure qui compte:

ν = Σk∈ZZ δk.

La loi de Poisson de parametre λ positif, qui a, par rapport a ν la densite :

f(x) = e−λλx[Γ(x + 1)]−11[0+∞[(x)

est elle fortement unimodale ?

2 Densites d’information de Fisher finie :

Definition 11 (Information de Fisher d’une densite) On dit que la densite f estd’information de Fisher I(f) finie si f est absolument continue et si elle verifie :

I(f) =

∫ +∞

−∞[f ′(x)

f(x)]2f(x)dx < ∞ (33)

Definition 12 (Information de Fisher d’une famille de densites) Soit (h(x, θ))θ∈Θ∈IR

ou Θ est un intervalle ouvert de IR une famille parametree de densites, que l’on supposeabsolument continues en θ. Si on note

h(x, θ) =∂

∂θh(x, θ)dx (34)

L’information de Fisher de la famille est par definition

I(h, θ) =

∫ +∞

−∞[h(x, θ)

h(x, θ)]2h(x, θ)dx (35)

On verifie facilement que, dans le cas ou θ est un parametre de translation, c’est a diresi h(x, θ) = f(x − θ), I(h, θ) coıncide avec I(f).

C.Huber VII

Page 115: UFR des Sciences Fondamentales et Biomédicales

3 FONCTION DES QUANTILES : F−1 Tests 48

3 Fonction des quantiles : F−1

Si F est une fonction de repartition continue et strictement croissante, son inverse F−1

est une fonction bien definie de [01] dans IR. Si U est une variable aleatoire uniformesur [01], on peut construire une variable aleatoire X de loi F en posant :

X = F−1(U) (36)

Il est clair en effet que

P (X ≤ x) = P (F−1(U) ≤ x) = P [F (F−1(U)) ≤ F (x)] = F (x).

puisque F est croissante, FF−1 = I et P (U ≤ u) = u.C’est un moyen de se ramener a ne considerer que des variables uniformes.

C.Huber VII

Page 116: UFR des Sciences Fondamentales et Biomédicales

TABLE DES MATIERES Tests 49

Table des matieres

I Les tests comme cas particulier de la theoriede la decision. 1

1 Introduction 1

2 Notations et definitions 1

3 Exemple: un jeu 23.1 Jeu sans observation prealable . . . . . . . . . . . . . . . . . . . . . . . 23.2 Jeu avec observations prealables . . . . . . . . . . . . . . . . . . . . . . 4

4 Autres exemples 54.1 Estimation de moindre variance . . . . . . . . . . . . . . . . . . . . . . 54.2 Decision multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

5 Les tests comme cas particulier de decision 6

II Modele statistique associe a un test: parametrique,non-parametrique ou semi-parametrique. 8

1 Les quatre types de modeles 81.1 Modeles parametriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2 Modeles non parametriques . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Modeles robustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Modeles semi parametriques . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Exemples 10

3 Quelques remarques generales 15

III Tests optimaux:Neyman et Pearson 18

1 Neyman et Pearson: deux hypotheses simples 18

2 Neyman et Pearson:deux hypotheses composees 192.1 Ordre stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Couple le moins favorable . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Neyman et Pearson generalise . . . . . . . . . . . . . . . . . . . . . . . 202.4 Application aux familles de lois a rapport de vraisemblance monotone 21

C.Huber VII

Page 117: UFR des Sciences Fondamentales et Biomédicales

TABLE DES MATIERES Tests 50

IV Trois tests classiques:Score, Wald, RV 23

1 Vraisemblance et information 231.1 Cas d’une seule observation . . . . . . . . . . . . . . . . . . . . . . . . 231.2 Cas d’un echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 Estimateur du maximum de vraisemblance 25

3 Les trois tests classiques 253.1 cas unidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

V Tests avec parametres nuisibles. 28

1 Introduction 28

2 Un grand nombre de parametres nuisibles: 28

3 Elimination par conditionnement 30

4 Comparaison de deux lois de Poisson 31

5 Famille exponentielle 33

6 Exemples: 34

VI Comparaison de tests:efficacite relative 40

1 Introduction 40

2 Efficacite relative de deux tests 42

3 ERA : Theorie generale 44

VII Proprietes des lois sur IR : 46

1 Densites fortement unimodales 46

2 Densites d’information de Fisher finie : 47

3 Fonction des quantiles : F−1 48

C.Huber VII