une introduction aux statistiques inférentielles

54
1 Une introduction aux statistiques inférentielles Christophe Lalanne Sommaire 1 Quelques rappels utiles de probabilités .................................. 1 1.1 Les axiomes fondamentaux .......................................... 2 1.2 Indépendance, probabilités conditionnelles ............................ 3 1.3 Variables aléatoires ................................................. 3 1.4 Espérance mathématique et moments ................................. 6 1.5 Fonctions génératrices et fonctions caractéristiques ..................... 8 1.6 Lois de probabilités usuelles ......................................... 9 2 Méthode d’estimation de paramètres .................................. 16 2.1 Maximisation de la vraisemblance ................................... 16 2.2 Autres méthodes d’estimation ...................................... 19 2.3 Estimateurs de variance minimale ................................... 23 2.4 Exemple d’application : construction de différentes statistiques de test ... 25 3 La méthode Expectation-Maximization ................................ 28 3.1 Construction de l’algorithme ....................................... 28 3.2 Exemples d’application de l’algorithme EM ........................... 32 4 Tests statistiques ................................................... 37 5 Chaînes de Markov .................................................. 37 5.1 Matrice des probabilités de transition et graphe des transitions d’état .... 38 5.2 Évolution temporelle des distributions de probabilités d’états ........... 39 5.3 Classification des états ............................................. 40 5.4 Ergodicité ........................................................ 42 5.5 Distribution stationnaire ........................................... 42 5.6 Chaînes de Markov réversible ....................................... 43 5.7 Chaînes de Markov à temps continu ................................. 44 6 Méthodes de Monte Carlo par Chaînes de Markov (MCMC) .............. 45 6.1 Règle d’acceptation-rejet ........................................... 46 6.2 Applications de l’algorithme de Metropolis-Hastings ................... 47 6.3 Recuit simulé et MC3 ............................................. 47 7 Chaînes de Markov cachées ........................................... 48 7.1 Probabilité d’occurence d’une séquence de symboles ................... 48 7.2 Algorithme « backward » .......................................... 49 7.3 Algorithme « forward » ............................................ 49 7.4 Algorithme de Viterbi ............................................. 50 7.5 Algorithme de Baum–Welch ........................................ 51 8 Exercices .......................................................... 51

Upload: hoangkhuong

Post on 05-Jan-2017

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Une introduction aux statistiques inférentielles

1

Une introduction aux statistiques inférentiellesChristophe Lalanne

Sommaire

1 Quelques rappels utiles de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Les axiomes fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Indépendance, probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Espérance mathématique et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Fonctions génératrices et fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . 81.6 Lois de probabilités usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Méthode d’estimation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1 Maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Autres méthodes d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3 Estimateurs de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4 Exemple d’application : construction de différentes statistiques de test . . . 253 La méthode Expectation-Maximization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.1 Construction de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2 Exemples d’application de l’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 Chaînes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1 Matrice des probabilités de transition et graphe des transitions d’état . . . . 385.2 Évolution temporelle des distributions de probabilités d’états . . . . . . . . . . . 395.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.4 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.5 Distribution stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.6 Chaînes de Markov réversible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.7 Chaînes de Markov à temps continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 Méthodes de Monte Carlo par Chaînes de Markov (MCMC) . . . . . . . . . . . . . . 456.1 Règle d’acceptation-rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.2 Applications de l’algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . 476.3 Recuit simulé et MC3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 Chaînes de Markov cachées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.1 Probabilité d’occurence d’une séquence de symboles . . . . . . . . . . . . . . . . . . . 487.2 Algorithme « backward » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.3 Algorithme « forward » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.4 Algorithme de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.5 Algorithme de Baum–Welch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Page 2: Une introduction aux statistiques inférentielles

2

1 Quelques rappels utiles de probabilités

Quelques-uns des concepts fondamentaux en statistique théorique nécessitent pour le lec-teur de s’être bien approprié certains éléments de la Théorie des probabilités. Dans cetteperspective, on se contentera de rappeler les axiomes du calcul des probabilités, les notionsd’indépendance et de probabilités conditionnelles, celles-ci nous amenant directement àexposer le principe de Bayes. Enfin, nous définirons les variables aléatoires, à valeurs dansNm ou Rm, avec les lois de probabilité usuelles et les règles de manipulation qui leur sontassociées. Les distributions de probabilité les plus utiles en biologie sont présentées dansdes ouvrages généraux (Billingsley, 1995, Feller, 1968, Fisz, 1963, Johnson et al., 1994 andKendall et al., 2004).

1.1 Les axiomes fondamentaux

Une probabilité est une fonction qui associe un nombre appartenant à l’intervalle [0, 1] àun ensemble A. On dit que Pr(A) est la probabilité d’un ensemble, ou d’un événement,A. Généralement, on considère que les événements font partie d’une famille A de sous-ensembles d’un espace probabilisé, dénoté Ω. Si cette famille est close par rapport à lacomplémentation (A ∈ A ⇒ Ac ∈ A) ainsi qu’à la sommation dénombrable (Ai ∈ A, i =1, 2, . . .⇒ (

⋃∞i=1Ai) ∈ A), et si elle contient l’ensemble vide ∅ (et donc Ω = ∅c), on parle

d’une σ-algèbre de sous-ensembles de Ω.L’axiomatique de Kolmogorov conduit à définir les propriétés suivantes :

i. P (A) ∈ [0, 1], A ∈ Aii. P (Ω) = 1 (Ax. de normalisation)iii. P (

∑∞i=1Ai) =

∑∞i=1 P (Ai), Ai ∈ A, Ai ∩Aj = ∅, i, j = 1, 2, . . . (Ax. d’additivité)

L’additivité finie est une conséquence de (iii), et on retrouve le résultat bien connu :

P (A ∪B) = P (A) + P (B), A,B ∈ A, A ∩B = ∅.

La probabilité associée à la réunion de deux ensembles disjoints est la somme des proba-bilités associées à chacun de ces ensembles. On a également

P (Ω) = P (A) + P (Ac) = 1,

d’où également

P (Ac) = 1− P (A).

Enfin, dans le cas plus général, où les événements A et B ne sont pas nécessairementmutuellement exclusifs, on a

P (A ∪B) = P (A) + P (B)− P (A ∩B),

où A ∩B dénote l’intersection des ensembles A et B.

Page 3: Une introduction aux statistiques inférentielles

3

1.2 Indépendance, probabilités conditionnelles

À présent, les bases essentielles qui permettent de rendre une probabilité intuitivementconsistante ont été posées et l’on peut définir la notion d’indépendance et de probabilitéconditionnelle. Mathématiquement, deux événements A et B sont dits indépendants si etseulement si

P (A ∩B) = P (A)P (B).

La probabilité de A sachant B (i.e. conditionnellement à l’observation de l’événement B)est définie comme

P (A | B) = P (A ∩B)P (B) .

Si les événements B1, B2, . . . sont mutuellement exclusifs (Bi ∩ Bj = ∅) et sont collecti-vement exhaustifs (

⋃∞k=1Bk = Ω), alors on peut décomposer P (A) = P (A ∩ Ω) comme

suit :

P (A) =∞∑k=1P (A ∩Bk) =

∞∑k=1P (A | Bk)P (Bk). (1)

L’expression ci-dessus est appelée loi des probabilités totales. La propriété d’exhaustivitéde B1, B2, . . . n’est toutefois pas indispensable et l’on peut se contenter du fait que lesensembles sont tous disjoints, avec A ⊂

⋃∞k=1Bk.

La probabilité conditionnelle P (Bk | A) se calcule aisément, comme :

P (Bk | A) = P (A ∩Bk)P (A) = P (A | Bk)P (Bk)∑∞

i=1 P (A | Bk)P (Bk)

Dans ce cadre, P (Bk | A) est appelée probabilité a posteriori de Bk, et l’expression ci-dessus est connue comme étant la seconde formule de Bayes.

1.3 Variables aléatoires

Contrairement à un cadre purement déterministe dans lequel une variable se voit attribuerune valeur unique, l’univers probabiliste repose sur des variables aléatoires (v.a.) quipeuvent prendre différentes valeurs aléatoires. Plus formellement, on définira une variablealéatoire comme une application de l’espace Ω vers l’ensemble R des réels.

Page 4: Une introduction aux statistiques inférentielles

4

Considérons dans un premier temps une v.a. discrète, X, à valeurs dans un ensemble fini(ou infini) dénombrable de R. Une telle variable prend des valeurs x0, x1, . . . , xk, . . . avecprobabilité p0, p1, . . . , pk, . . ., sous la condition (de normalisation)

∞∑k=0pk = 1.

La série (finie ou infinie) p0, p1, . . . est appelée la distribution de X.Une v.a. continue, au contraire, prend ses valeurs dans un sous-intervalle de R, et c’estsa fonction de répartition, notée FX(x), qui joue le rôle de distribution de probabilité.Celle-ci se définit comme

FX(x) = P (X ≤ x),

et exprime, pour un x donné, la probabilité de l’événement X ≤ x. Les propriétés de FX(·)sont : (i) FX(·) est croissante, (ii) FX(−∞) = 0 et (iii) FX(+∞) = 1. Les intervalles surlesquels FX(x) est constante correspondent aux intervalles pour lesquels la probabilité deX n’est pas définie, tandis que les sauts de FX(x) coïncident avec les masses discrètes dela distribution de probabilité de X.Si FX(x) est différentiable, sa dérivée est appelée la fonction de densité de probabilité eton la note fX(x), avec

fX(x) = lim∆x→0

F (x < X ≤ x+ ∆x)∆x = dFX(x)

dx.

On notera que l’inégalité est stricte à gauche. On a également∫ x−∞fX(ξ)dξ = FX(x),

et comme FX(+∞) = 1, on obtient facilement la condition de normalisation pour ladistribution d’une v.a. continue X :∫ +∞

−∞fX(x)dx = lim

x→+∞FX(x) = 1.

Vecteurs aléatoires

Lorsque l’on est placé face à plusieurs distributions de v.a. et que l’on souhaite les analyserconjointement, on est amené à travailler avec des vecteurs aléatoires. Dans le cas discret,où X et Y prennent les valeurs x0, x1, . . . , xk, . . . et y0, y1, . . . , yk, . . ., respectivement, laloi de probabilité conjointe est donnée par

pij = P (X = xi, Y = yj),

sous la condition

Page 5: Une introduction aux statistiques inférentielles

5

∞∑i=0

∞∑j=0pij = 1.

Dans le cas continu, la fonction de répartition conjointe de (X,Y ) est

FX,Y (x, y) = P (X ≤ x, Y ≤ y),

et la densité de probabilité conjointe correspondante (FX,Y (x, y) est supposée uniformé-ment continue) est donnée par

fX,Y (x, y) = lim∆x→0,∆y→0

P (x < X ≤ x+ ∆x, y < Y ≤ y + ∆y)∆x∆y

= ∂2FX,Y (x, y)∂x∂y

sous la condition∫ +∞

−∞

∫ +∞

−∞fX,Y (x, y)dxdy = lim

x→+∞, y→+∞FX,Y (x, y) = 1

Distributions marginalesLes distributions bi-dimensionnelles, et plus généralement multi-dimensionnelles, peuventêtre réduites à des distributions uni-dimensionnelles en calculant leurs distributions mar-ginales. Pour une v.a. discrète X, distribuée de manière conjointe à Y , on a

pi = P (X = xi) =∞∑j=0pij,

tandis que pour une v.a. continue, la distribution marginale s’exprime sous la forme

FX(x) = FX,Y (x,∞),

avec pour fonction de densité

fX(x) =∫ +∞

−∞fX,Y (x, y)dx.

On généralisera aisément les formules ci-dessus aux dimensions supérieures.

Opérations sur les variables aléatoiresPour des v.a. X et Y indépendantes, leur loi de probabilité jointe satisfait

pij = pipj

dans le cas discret, et

Page 6: Une introduction aux statistiques inférentielles

6

FX,Y (x, y) = FX(x)FY (y) ou fX,Y (x, y) = fX(x)fY (y)

dans le cas continu.La distribution conditionnelle de X sachant Y = y est donnée par une formule identiqueà celle exposée précédemment,

fX|Y (x | y) = fX,Y (x, y)fY (y) .

Lorsque l’on travaille avec des distributions conditionnelles, la formule suivante (« règlede la chaîne ») se révèle très utile :

fX,Y |Z(x, y | z) = fX|Y,Z(x | y, z)fY |Z(y | z).

Les opérations algébriques les plus fréquemment rencontrées se résument souvent au calculde la distribution d’une v.a. définie par une relation sur d’autres v.a., indépendantes ounon, ou à laquelle on applique une transformation.Soient X et Y deux v.a. dont la distribution conjointe est donnée par fX,Y (x, y). On peutdéfinir une nouvelle v.a., Z, telle que

Z = X + Y,

et la distribution de Z peut être obtenue en intégrant sur la densité fX,Y (x, y), soit

fZ(z) =∫ ∫

x+y=zfX,Y (x, y) =

∫ +∞

−∞fX,Y (x, z − x)dx. (2)

Lorsque X et Y sont indépendants, l’intégrale 2 devient une simple intégrale de convo-lution :

fZ(z) =∫ +∞

−∞fX(x)fY (z − x)dx.

On peut également s’intéresser à la transformation d’une v.a. par une fonction g. Soit Xune v.a. dont la fonction de densité est donnée par fX(x), et Y = g(X). On se demandequelle est la loi de probabilité de Y ? Si l’on suppose que g(·) est strictement monotone,alors g(·) est inversible :

y = g(x)⇒ x = g−1(y).

À l’aide de cette fonction inverse, on peut représenter la fonction de répartition de Y ,FY (y), en fonction des réalisations de X, et par conséquent également en termes de lafonction de répartition de X, FX(x). On a alors

FY (y) = P (Y ≤ y) = P [g(X) ≤ y]

=P [X ≤ g−1(y)] = FX [g−1(y)] pour g(x) croissanteP [X ≥ g−1(y)] = 1− FX [g−1(y)] pour g(x) d«ecroissante.

En termes de densités, si elles existent, on a le résultat suivant :

Page 7: Une introduction aux statistiques inférentielles

7

fY (y) =∣∣∣∣ ddyg−1(y)

∣∣∣∣ fX [g−1(y)].

1.4 Espérance mathématique et moments

À partir de maintenant, on se permettra « d’alléger » la notation, en considérant que siX désigne une v.a., ses réalisations possibles seront dénotées x, et sa loi de probabilitéindexée par x, fX(x), sera notée simplement f(x) lorsque cela ne prête à aucune confusion.L’espérance d’une fonction g(x) par rapport à la distribution d’une v.a. X discrète, telleque définie à la page 3, est donnée par

E [g(X)] =∞∑k=1pkg(xk).

Dans le cas d’une v.a. x continue (i.e. par rapport à sa distribution fX(x)), on a

E [g(X)] =∫ +∞

−∞g(x)fX(x)dx. (3)

Lorsque g(x) = x, l’expression 3 devient l’espérance de X, encore appelée momentd’ordre 1 de la v.a. X. On a alors

E(X) =∞∑k=0pkxk (cas discret)

et

E(X) =∫ +∞

−∞xfX(x)dx (cas continu).

Les moments d’ordre supérieur de X se définissent de manière analogue, en prenantg(X) = Xn pour le moment d’ordre n et g(X) = [X − E(X)]n pour le moment cen-tré d’ordre n de la v.a. X. Le second moment centré figure parmi les plus intéressantspuisqu’il correspond à ce que l’on nomme la variance d’une v.a. :

V(X) =∞∑k=0pk [xk − E(X)]2 , dans le cas discret,

V(X) =∫ +∞

−∞[X − E(X)]2 fX(x)dx, dans le cas continu.

La variance permet de mesurer la dispersion de la v.a. autour de son espérance mathé-matique. La racine carrée de la variance s’appelle l’écart-type et on le note

σ(X) =√

V(X).

Il correspond au facteur d’échelle de la distribution de X − E(X).

Page 8: Une introduction aux statistiques inférentielles

8

L’espérance ou les moments d’une fonction d’une v.a. n’existent que si la série ou l’intégraleassociée est convergente. Par exemple, dans l’intégrale 3, si la fonction g(x) croît troprapidement par rapport à x, celle-ci ne sera pas finie. De même, si la distribution d’unev.a. possède des queues de distribution trop épaisses, certains moments ne peuvent êtredéfinis, comme c’est le cas avec les distributions de Cauchy ou du t de Student.Enfin, mentionnons les deux propriétés les plus importantes de ces opérateurs. L’espérancede la somme de deux v.a. est la somme de leurs espérances,

E(X + Y ) = E(X) + E(Y )

(quelles que soient les lois de X et Y !), et la variance de la somme de deux v.a. indépen-dantes est la somme de leur variance,

V(X + Y ) = V(X) + V(Y ).

Dans le cas où X et Y ne sont pas indépendantes, il faudra associer le terme (signé) decovariance à la somme précédente.

1.5 Fonctions génératrices et fonctions caractéristiques

Les transformations vues aux paragraphes précédents se révèlent souvent suffisantes pourla plupart des situations que l’on rencontre dans le domaine des sciences expérimentales(Ditkin and Prudnikov, 1965 and Wilf, 1990). Elles servent à calculer les lois de proba-bilités, les moments et les fonctions de répartition d’une vaste gamme de v.a.. Elles sontégalement utilisées pour démontrer des propriétés de convergence en loi. Toutefois, onpeut adopter une approche différente pour retrouver la distribution d’une v.a.À une v.a. discrète X prenant des valeurs (xi) avec probabilité pi, on associe une fonctionPX(z) d’un argument complexe z telle que

PX(z) =∞∑k=0zkpk. (4)

La fonction P (z) ci-dessus est appelée fonction génératrice de X. En utilisant la propriétéde normalisation des distributions de probabilité discrètes, on vérifie que P (z) est biendéfinie pour tout z dans le disque unité. De 4, on déduit P (1) = 1 et

d

dzPX(z)

∣∣∣∣z=1

=∞∑k=0kpk = E(X),

de sorte que la différentielle de PX(z) (évaluée au point z = 1) nous donne l’espérancede X. De même, les dérivées successives permettent de calculer les moments d’ordresupérieur. Si l’on se donne deux v.a. indépendantes, X et Y , alors la fonction génératricede leur somme est le produit de leurs fonctions génératrices :

PX+Y (z) = PX(z)PY (z). (5)

Page 9: Une introduction aux statistiques inférentielles

9

Pour une v.a. continueX, de fonction de densité f(x), on définit sa fonction caractéristiqueassociée F (jω) par

FX(ω) =∫ +∞

−∞f(x) exp(−jωx)dx,

où j est le nombre imaginaire√−1 et ω un réel. La fonction caractéristique de X n’est

autre que la transformée de Fourier de sa densité de probabilité et possède des propriétéssimilaires à celles démontrées plus haut, dans le cas des fonctions génératrices. Spécifique-ment, on a FX(j0) = 1 et

d

dωFX(ω)

∣∣∣∣ω=0

=∫ +∞

−∞jxf(x) = jE(X),

ainsi que

FX+Y (ω) = FX(ω)FY (ω),

pour X et Y indépendantes.En guise d’illustration, considérons deux v.a. discrètes indépendantes, X et Y suivanttoutes les deux une loi géométrique de paramètre p = 0.5 et p = 0.2, respectivement. Oncherche la loi suivie par la v.a. X + Y . On a

PX(z) = 0.51− 0.5z , PY (z) = 0.2

1− 0.8z(cf. section 1.6), et

PX+Y (z) = 0.1(1− 0.5z)(1− 0.8z)

d’après la propriété 5. Si l’on développe l’expression ci-dessus sous forme fractionnelle,on a

0.1(1− 0.5z)(1− 0.8z) = A

1− 0.5z + B

1− 0.8z ,

d’où l’on déduit que A = −1/6 et B = 4/15. Ceci amène à conclure que

P [(X = Y ) = k] = 4150.8k − 1

60.2k, k = 0, 1, 2, . . . .

1.6 Lois de probabilités usuelles

Schéma de Bernoulli et loi binomialeLe schéma de Bernoulli est sans doute l’un des schémas d’échantillonnage les plus cou-rants en statistique. Un essai de Bernoulli est une expérience aléatoire dans laquelle deux

Page 10: Une introduction aux statistiques inférentielles

10

issues sont possibles, et on les dénomme souvent succès/échec. La distribution binomiale(Figure 1, a) décrit les probabilités pk d’obtenir k succès sur un ensemble de K essaisindépendants, sans considération de l’ordre des tirages,

pk =(K

k

)pk(1− p)K−k, (6)

où p est la probabilité de succès d’un essai. Dans l’expression ci-dessus,(Kk

)désigne le

nombre de combinaisons que l’on peut former avec k éléments pris parmi K ; il s’agit dunombre binomial défini comme (

K

k

)= K!k!(K − k)! .

La v.a. X peut être représentée comme une somme d’événements élémentaires, tous indé-pendants :

X =K∑k=1Xk, (7)

oùXk sont des v.a. de Bernoulli, avec P (Xk = 1) = p et P (Xk = 0) = q = 1−p. Le nombrede succès dans une série d’expériences répétées (e.g. lancers d’une pièce ou d’un dé) estgénéralement modélisé par une distribution binomiale. Qui plus est, la loi binomiale sertde brique de base à la construction d’autres lois de probabilité discrète et possède despropriétés asymptotiques qui la relie aux distributions pour variables continues.Les moments associés à la distribution binomiale se définissent comme suit :

E(X) = Kp, V(X) = Kp(1− p),

et sa fonction génératrice est

P (z) = (q + pz)K (q = 1− p).

Loi géométrique

Une v.a. discrète suit une loi géométrique lorsqu’elle prend les valeurs 0, 1, . . . , k, . . . avecprobabilités

pk = (1− p)kp. (8)

La distribution géométrique correspond typiquement à une situation où l’on répète uneexpérience de Bernoulli jusqu’à observer le premier succès. L’événement X = k, dont laprobabilité est donnée en 8, peut être assimilé à la série de k échecs suivi d’un succès.Les moments d’une v.a. X distribuée géométriquement sont

E(X) = 1− pp, V(X) = 1− p

p2,

Page 11: Une introduction aux statistiques inférentielles

11

et la fonction génératrice correspondante est

P (z) = p

1− (1− p)z .

Loi binomiale négative

Comme pour la loi géométrique, on peut relier directement la loi binomiale négative(Figure 1, c) à la loi binomiale exposée plus haut. Ici, X vaut le nombre d’essais néces-saires pour observer r succès. La probabilité de l’événement X = k (le rième succès aukième essai) est alors

pk =(k − 1r − 1

)pr(1− p)k−r,

qui découle du fait que l’événement « le rième succès au kième essai » est l’intersection(ou le produit) de deux événements indépendants : (a) r − 1 succès en k − 1 essais, soit(k−1r−1)pr−1(1− p)k−r, et (b) un succès au kième essai.

Les moments d’une v.a. X distribuée selon cette loi sont

E(X) = r1− pp, V(X) = r1− p

p2,

et la fonction génératrice correspondante est

P (z) =(

pz

1− (1− p)z

)r.

Loi de Poisson

Les v.a. de Poisson sont souvent utilisées pour modéliser des expériences impliquantl’observation du nombre d’occurences d’un événement survenant aléatoirement sur unepériode donnée de temps. Par exemple, il peut s’agir du nombre de clics dans un comp-teur Geiger, du nombre d’appels aux services des urgences ou du nombre d’accidents devoitures. Il est possible de dériver des v.a. de Poisson à partir d’un mécanisme stochas-tique pur que l’on appelle le processus de Poisson (Kingman, 1993). Dans ce schéma, desévénements discrets interviennent sur un intervalle fini I tels que

1. les nombres d’événements survenant dans deux intervalles disjoints sont indépendants,

2. la probabilité qu’un événement survienne dans l’intervalle (t, t+∆t) vaut λ∆t+o(∆t),où λ est un paramètre d’intensité et lim∆t→0 o(∆t)/∆t = 0.

Une v.a. de Poisson prend les valeurs 0, 1, . . . , k, . . . avec probabilités

pk = P (X = k) = exp(−λ)λk

k! , (9)

Page 12: Une introduction aux statistiques inférentielles

12

où λ est le paramètre caractéristique de la loi, encore appelé cadence. Il existe une relationduale entre la loi de Poisson et la loi binomiale. Si (1) on a une séquence infinie de v.a.binomiales

X1, X2, . . . , Xn, . . . (10)

avec les paramètres pn et Kn qui décrivent les probabilités de succès et le nombre d’essaispour la distribution des Xn, et si (2) la séquence des paramètres obéit aux propriétéssuivantes : limn→∞ pn = 0, limn→∞Kn = ∞ et limn→∞ pnKn = λ, alors la séquence 10se comporte asymptotiquement comme une v.a. de Poisson. La distribution de Poissonest illustrée dans la Figure 1 (b).Les moments d’une v.a. X distribuée selon cette loi sont

E(X) = λ, V(X) = λ,

et la fonction génératrice correspondante est

P (z) = exp(λ(z − 1)

).

Loi multinomialeIl s’agit d’une généralisation de la loi binomiale dans laquelle chaque expérience aléatoire(indépendante) possède M issues possibles, avec les probabilités

pm = P (résultat de l’expérience = m), m = 1, 2, . . . ,M,

oùM∑m=1pm = 1. (11)

Un vecteur aléatoire X = [X1, . . . , XM ] suit une loi multinomiale avec les paramètresp1, . . . , pM et K répétitions si les v.a. Xm décrivent le nombre d’événements m en Kessais. La distribution multinomiale est de la forme

P (k1, k2, . . . , kM ) = K!k1!k2! . . . kM !p

k11 pk22 . . . p

kMM ,

où k1, k2, . . . , kM sont les nombres d’occurences et∑Mm=1 km = K.

Loi hypergéométriqueLa distribution hypergéométrique décrit le nombre de succès dans un schéma d’échantillon-nage aléatoire sans remise, à partir d’une population finie avec deux types d’individus,notés 1 et 0. Pour une v.a. X suivant la loi hypergéométrique de paramètres N , M , n,l’événement X = k est interprété comme k caractères de type 1 dans un échantillon detaille n, tirés aléatoirement dans une population de N individus, parmi lesquels M sont

Page 13: Une introduction aux statistiques inférentielles

13

de type 1 et N −M sont de type 0. La distribution hypergéométrique (Figure 1, d) a laforme

pk = P (X = k) =(Mk

)(N−Mn−k

)(Nn

) . (12)

L’équation 12 découle du fait que parmi l’ensemble des résultats observables (au total,il y en a

(Nn

)) ceux avec k succès sont obtenus en combinant k individus de type 1 tirés

d’un ensemble de M individus avec n − k individus de type 0 tirés parmi les N − Mindividus restants. La condition de normalisation pour la distribution hypergéométriquedevient ainsi

min(n,M)∑k=0

(Mk

)(N−Mn−k

)(Nn

) = 1.

Les moments d’une v.a. X décrit par une loi hypergéométrique sont

E(X) = nMN, V(X) = nM(N −M)(N − n)

N2(N − 1),

La fonction génératrice peut être obtenue à partir d’une série hypergéométrique.

Loi normale (Laplace-Gauss)

La loi « normale » est sans doute la loi continue la plus importante. Son rôle essentiel seretrouve dans le théorème central limite (TCL) qui permet d’affirmer que la somme deplusieurs composantes aléatoires indépendantes de variances finies se distribue approxi-mativement selon une loi gaussienne. En conséquence, les variables décrivant les erreursde mesure, de même que certains paramètres décrivant des individus d’une population,comme les tailles, les poids ou les surfaces, sont modélisés à l’aide de ce type de loi.De 7, on peut voir que la distribution binomiale, lorsque K est grand, converge vers la loinormale. Les sommes de v.a. normales indépendantes sont également gaussiennes.La distribution gaussienne (Figure 2, a) prend pour support la droite réelle, R, et lafonction de densité d’une v.a. X gaussienne est

f(x) = 1σ√

2πexp

(−1

2

(x− µσ

)2), (13)

où µ et σ sont les paramètres pour l’espérance et l’écart-type, respectivement.Les moments d’une v.a. X gaussienne sont

E(X) = µ, V(X) = σ2,

et la fonction caractéristique correspondante est

Page 14: Une introduction aux statistiques inférentielles

14

0

5

10

15

20

25

30

35

(a)

Binomial B(100,1/2)Event X=x

f(X

=x)

0 1 2 3 4 5 5 10 15 20

0.00

0.05

0.10

0.15

0.20

(b)

Poisson P(4)Event X=x

f(X

=x)

(c)

Negative Binomial NB(500,4)Event X=x

f(X

=x)

0 10 20 30 40 50

0

50

100

150

200

250

300

350

0 20 40 60 80 100

0.00

0.05

0.10

0.15

0.20

(d)

Hypergeometric H(30,70,15)Event X=x

f(X

=x)

Figure 1 Quelques distributions deprobabilités pour des v.a. discrètes

F (ω) = exp(jµω − ω2σ2

2 ).

Loi exponentielle

La distribution exponentielle est la loi duale de la distribution géométrique décrite pré-cédemment. On l’utilise généralement pour modéliser des intervalles de temps aléatoires,par exemple des temps d’attente, le temps entre deux échecs ou des durées de survie. Letemps entre l’occurence de deux événements successifs dans un processus poissonien sedistribue également selon une loi exponentielle. La distribution exonentielle est définie surl’intervalle [0,∞[ et la fonction de densité d’une v.a. exponentielle prend la forme :

f(t) = a exp(−at). (14)

Le paramètre a > 0 est appelé la paramètre de cadence.Les moments d’une v.a. T exponentielle sont

Page 15: Une introduction aux statistiques inférentielles

15

E(T ) = 1a, V(T ) = 1

a2,

et la fonction caractéristique correspondante est

F (ω) = a

a− jω.

Loi GammaLa distribution Gamma (Figure 2, b) est le pendant de la loi binomiale négative, dans lecas continu. Elle est définie sur l’intervalle [0,∞[ et peut être interprétée comme un tempsaléatoire avec une structure composite ; par exemple, la somme de K v.a. exponentielleindépendantes et identiquement distribuées (i.i.d.) est une v.a. dont la loi est une loiGamma. La densité de probabilité associée à une variable X qui suit une loi Gamma estdonnées par :

f(x) = xk−1 exp(−x/θ)θkΓ(k)

. (15)

Dans l’expression ci-dessus, Γ(k) est la fonction gamma eulérienne

Γ(z) =∫ ∞

0tz−1 exp(−t)dt, (16)

et k > 0, θ > 0 sont les paramètres de la distribution Gamma, appelés respectivementparamètres de forme et d’échelle. Lorsque k = 1, 15 représente une densité de probabilitéexponentielle. Si au contraire, k = n/2 et θ = 2, on obtient la fonction de desnité d’unedistribution du χ2 à n degrés de liberté.Les moments d’une v.a. X distribuée selon une loi Gamma sont

E(X) = kθ, V(X) = kθ2,

et la fonction caractéristique correspondante est

F (ω) = 1(1− jθω)k

.

Loi BetaLa loi Beta (Figure 2, c) est définie sur l’intervalle [0, 1]. La densité de probabilité cor-respondante est donnée par

f(x) = Γ(a+ b)Γ(a)Γ(b)x

a−1(1− x)b−1 (17)

où x ∈]0, 1[ et a > 0, b > 0 sont des paramètres, tandis que Γ est toujours la fonctioneulérienne introduite dans le cas de la loi Gamma (Eq. 16). En modifiant a et b, on faitvarier la forme du graphe de la fonction de densité ci-dessus. Lorsque a > 1, b > 1, la

Page 16: Une introduction aux statistiques inférentielles

16

densité de probabilité a une forme parabolique, alors que lorsque a < 1, b < 1, la fonctionde densité est en forme de U. Lorsque a = 1, b = 1, la densité de probabilité 17 décritune distribution uniforme sur l’intervalle [0, 1].Les moments d’une v.a. X distribuée selon une loi Beta sont

E(X) = a

a+ b , V(X) = ab

(a+ b)2(a+ b+ 1).

La fonction caractéristique associée à une loi Beta est donnée par une somme de sérieshypergéométriques.

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

(a)

Gaussian N(0,1)x

f(x)

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

(b)

Gammax

f(x)

G(1,1)G(2,1/2)G(3,4)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.5

1.0

1.5

(c)

Betax

f(x)

B(1,1)B(1/2,1/2)B(3,4)

Figure 2 Quelques fonctions de densitéde probabilités pour des v.a. continues

2 Méthode d’estimation de paramètres

2.1 Maximisation de la vraisemblanceIl est assez fréquent de chercher à déterminer de quelle distribution les observations dontnous disposons ont été échantillonnées. Il s’agit d’un problème d’estimation. La théorie

Page 17: Une introduction aux statistiques inférentielles

17

de l’estimation constitue une partie importante des statistiques, et plusieurs méthodespermettent d’estimer les paramètres d’une loi. En pratique, la méthode du maximum devraisemblance (MV) est celle qui est le plus souvent utilisée. Nous en présentons ici leprincipe général. Dans sa forme paramétrique, on suppose que les observations ont ététirées d’une distribution appartenant à une famille de lois paramétriques. En d’autrestermes, les observations x1, x2, . . . , xN sont des réalisations i.i.d. d’une variable aléatoireX de distribution f(x, p), où f(·, ·) peut être une loi discrète, continue ou une fonctionde répartition. Lorsque l’on traite la fonction f(xn, p) comme une fonction du paramètrep pour un xn fixé, elle est appelée la vraisemblance de l’observation xn. La fonctionnellef(·, ·) est connue mais pas la valeur du ou des paramètres p.Pour estimer les paramètres p d’une distribution de probabilité à partir des réalisationsobservées d’une v.a. ou d’un vecteur aléatoire X, on utilisera le principe du MV quirepose sur l’idée que puisque les événements avec une probabilité élevée surviennent plusfréquemment que ceux pour qui la probabilité de survenue est faible, alors il est naturelde considérer que ce qui est arrivé était le plus probable. Par conséquent, le meilleurestimateur de p est la valeur p qui maximise la vraisemblance de l’échantillon, i.e.

L(p, x) = L(p) = f(x1, x2, . . . , xN , p) =N∏n=1f(xn, p),

où x = x1, x2, . . . , xN et le produit des fonctions de densité individuelles découle del’indépendance des observations. Mathématiquement,

p = arg maxN∏n=1f(xn, p).

Il est plus facile de travailler avec le log de la fonction de vraisemblance, et on parle alorsde la log-vraisemblance `(x1, x2, . . . , xN , p),

`(x1, x2, . . . , xN , p) = ln(L(x1, x2, . . . , xN , p)

)=N∑n=1

ln(f(xn, p)

),

qui transforme les produits en sommes, et grâce à la monotonicité de la fonction logarithmedonne le même p que lorsqu’on travaille directement avec L(x1, x2, . . . , xN , p). Ce principed’applique dans le cas discret comme dans le cas continu.Les exemples suivants permettront sans doute de mieux comprendre le principe généralde l’estimation par MV.

Distribution binomiale

Pour une v.a. X distribuée selon une loi binomiale comme en 6, en supposant que laréalisation observée inclut k succès parmi K essais, on peut maximiser la vraisemblancepar rapport à p, on obtient l’EMV

Page 18: Une introduction aux statistiques inférentielles

18

p = kK.

De manière plus générale, on peut considérer une expérience avec K expériences de Ber-noulli, répétées N fois, sachant qu’on enregistre les nombres de succès k1, k2, . . . , kN . Celaamène à la log-vraisemblance suivante :

`(k1, k2, . . . , kN , p) =N∑n=1

[kn ln p+ (K − kn) ln(1− p) + ln

(K

kn

)]. (18)

En maximisant l’expression 18 par rapport à p, on obtient l’estimateur

p =∑Nn=1 knNK

.

Distribution multinomiale

On montre aisément que la log-vraisemblance correspondant à la distribution multinomialeprend la forme :

`(k1, k2, . . . , kM , p1, p2, . . . , pM ) = ln K!k1!k2! . . . kM ! +

M∑m=1km ln pm.

La maximisation de cette expression par rapport aux paramètres ne peut se faire qu’enprenant en considération la contrainte 11, ce qui amène à construire la fonction de La-grange suivante :

L = (k1, k2, . . . , kM , p1, p2, . . . , pM , λ)

= ln K!k1!, k2!, . . . , kM ! +

M∑m=1km ln pm − λ

(M∑m=1pm − 1

)

où λ désigne le coefficient de Lagrange, et l’EMV est alors :

pm = kmK.

Distribution de Poisson

Soit X une v.a. de Poisson dont la distribution est donnée en 9. Pour N réalisationsindépendantes k1, k2, . . . , kN de X, on a la fonction de log-vraisemblance suivante :

`(k1, k2, . . . , kN , λ) =N∑i=1

(− λ+ ki ln(λ)− ln(ki!)

),

qui prend son maximum en

Page 19: Une introduction aux statistiques inférentielles

19

λ =∑Ni=1 kiN.

Distribution géométrique

Si l’on considère une v.a. X suivant une loi géométrique, le paramètre à estimer est p ∈[0, 1]. SoientN réalisations indépendantes, k1, k2, . . . , kN , deX. Alors la log-vraisemblanceprend la forme :

`(k1, k2, . . . , kN , p) =N∑n=1

((kn − 1) ln(1− p) + ln p

),

et l’EMV, p, est

p =

N∑N

n=1 knsi∑Nn=1 kn ≥ 1

1 si∑Nn=1 kn = 0.

Distribution gaussienne

La fonction de densité de probabilité d’une loi normale est fournie en 13. La fonction delog-vraisemblance résultant de l’observation deN réalisations indépendantes x1, x2, . . . , xNde X est alors

`(x1, x2, . . . , xN , µ, σ) =N∑n=1

[−1

2 ln(2π)− ln θ − (xn − µ)2

2σ2

].

Le maximum de `(x1, x2, . . . , xN , µ, σ) est atteint pour les valeurs µ et σ données par lamoyenne et la variance empiriques, soient :

µ = 1N

N∑i=1xi et σ2 = 1

N

N∑i=1

(xi − µ)2. (19)

Distribution exponentielle

Soient N réalisations t1, t2, . . . , tN d’une v.a. exponentielle T . La log-vraismeblance cor-respondant à l’échantillon observé est

`(t1, t2, . . . , tN , a) =N∑n=1

(−atn + ln a),

qui donne, après maximisation, l’EMV suivant :

a =∑Nn=1 tnN

.

Page 20: Une introduction aux statistiques inférentielles

20

2.2 Autres méthodes d’estimationSi l’on considère souvent la méthode MV comme une méthode pratique et efficace, ilexiste d’autres méthodes d’estimation qui peuvent être employées, justement la méthodepar MV atteint ses limites (e.g. problèmes de grande complexité, coût en temps de calculélevé, existence de maxima locaux multiples). D’autre part, les estimateurs obtenus parla méthode MV, i.e. les EMV, ne sont qu’asymptotiquement sans biais.L’une des méthodes alternatives à l’EMV est la méthode des moments. Celle-ci reposesur la loi des grands nombres. Soit une v.a. X, dont la densité de probabilité est donnéepar fX(x, p) et dépend d’un paramètre p. L’espérance de X, E(X, p) =

∫xfX(x, p)dx,

dépend de la valeur de p et peut être estimée par la moyenne empirique. La loi desgrands nombres nous assure, sous certaines conditions de régularité, que pour de grandséchantillons la moyenne empirique sera proche de l’espérance de X. Par conséquent, lemoment de l’estimateur p peut être obtenu en résolvant l’équation suivante par rapportà p :

1N

N∑n=1xn =

∫ +∞

−∞xfX(x, p)dx.

Dans tous les eemples exposés précédement, l’estimateur obtenu par la méthode des mo-ments coïncide avec l’EMV. Toutefois, ce n’est pas toujours le cas. Les exemples suivantsdevraient permettre de mettre en évidence les différences entre ces deux approches.

Distribution uniformeOn considère une distribution uniforme, représentée dans la Figure ??. L’intervalle surlequel est définie la fonction de densité s’étend de 0 à a. On calcule dans un premier tempsl’EMV de a, que l’on notera aML. Dans la Figure ??, les valeurs x1, x2, . . . , xN (N = 6)sont indiquées par un trait coupant l’axe des abscisses, et on suppose 3 valeurs a1, a2 eta3 du paramètre a, avec a1 < max1≤n≤N xn, a2 = max1≤n≤N xn et a3 > max1≤n≤N xn.Les log-vraisemblances correspondantes sont dans chaque cas

`(x1, x2, . . . , xN , a1) = −∞

puisque deux observations sont impossibles dès lors que a = a1, et

`(x1, x2, . . . , xN , ai) = −N ln ai, i = 2, 3.

On en déduit que l’EMV de a est égal à a2, et donc

aML = max1≤n≤N

xn.

Puisque E(X) = a/2, l’estimateur par la méthode des moments est

amom = 2N

N∑n=1xn.

Page 21: Une introduction aux statistiques inférentielles

21

Si l’on souhaite comparer ces deux estimateurs, il est nécessaire de faire quelques caculd’espérance et de variance. Pour les espérances, on a

E(aML) = E(

max1≤n≤N

Xn

)= a NN + 1

et

E(amom) = E

(2N

N∑n=1Xn

)= a.

Pour les variances, les calculs donnent

V(aML) = V(

max1≤n≤N

Xn

)= Na2

(N + 1)2(N + 2)

et

V(amom) = V

(2N

N∑n=1Xn

)= a2

3N2 .

On en déduit que la variance de l’EMV est inférieure à celle de l’estimateur par la méthodedes moments. Leur rapport est approximativement proportionnel à la taille de l’échantillonN . Néanmoins, contrairement à l’estimateur des moments, l’EMV est biaisé puisque sonespérance n’est pas égale à a.On remarquera que l’on peut tout à fait baser l’estimation de a sur des moments d’ordre≥ 2. Pour le kième moment d’une v.a. X distribuée uniformément, on a

E(Xk) = ak+1

k + 1 ,

ce qui donne l’estimateur du kième moment de a :

amom,k =[k + 1N

N∑n=1xkn

] 1k+1

.

On pourra vérifier que la statistique ci-dessus converge vers l’EMV de a lorsque k →∞.

Distribution de Cauchy

On considère une v.a. X qui suit une loi de Cauchy, dont la fonction de densité est définiecomme

f(x, a) = 1π(1 + (x− a)2) ,

avec un paramètre inconnu de position, a, à estimer. La distribution de Cauchy diffère desautres distributions vues jusqu’alors dans la mesure où elle ne possède pas de moments

Page 22: Une introduction aux statistiques inférentielles

22

finis. Ceci résulte de ce que pour tout k ≥ 1, E(|Xk|) devient une intégrale impropre, nonconvergente : ∫ +∞

−∞

|x|π(1 + (x− a)2)dx =∞. (20)

Par conséquent, les estimateurs des moments n’ont aucun sens.

−2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

x

f(x,

a)

Figure 3 Graphe de la fonction de densité de probabilitéde la distribution de Cauchy de paramètre a = 2.

La fonction de densité est représentée dans la Figure 3. À la lecture de ce graphique, onpourrait penser que si N réalisations, x1, x2, . . . , xN d’une v.a. X tirée de cette loi étaientobservées, la moyenne empirique (1/N)

∑Ni=1 xi semble un bon estimateur de a. Cela n’est

toutefois pas le cas puisque, d’après 20, la variance de (1/N)∑Ni=1 xi est infinie pour tout

N .Si l’on dérive la log-vraisemblance par rapport à a et si l’on cherche à l’annuler, on a

`(x1, x2, . . . , xN , a) =N∑n=1− ln π − ln

(1 + (xn − a)2)

ce qui entraîne la relation suivante pour l’EMV de a :N∑n=1

xn − a1 + (xn − a)2 = 0.

Page 23: Une introduction aux statistiques inférentielles

23

Sauf pour N = 1 et N = 2, cette équation ne peut être résolue que numériquementpour obtenir a. Mais on peut montrer que, à partir de N = 3 (Hanson and Wolf, 1996),l’estimateur résultant est sans biais et de variance finie. Un autre estimateur de a, plussimple que l’EMV, est la médiane empirique (Hanson and Wolf, 1996), qui est égalementsans biais et de variance finie.

2.3 Estimateurs de variance minimale

On a vu que l’on peut construire des estimateurs de différentes manières (e.g. MV, mé-thode des moments). Une question que l’on peut se poser est naturellement : existe-t-il unestimateur de variance minimale, ou du moins de variance plus petite que celle de l’EMV ?On peut montrer que dans de nombreux cas, l’EMV est l’estimateur de variance minimalelorsque n → ∞. Toutefois, pour des échantillons de taille finie, il existe souvent des sta-tistiques possédant une variance plus petite. Par exemple, dans le cas de la distributionde Cauchy vue à la section précédente, on peut trouver numériquement un estimateur devariance minimale a (Hanson and Wolf, 1996). Nous présentons dans les lignes suivantesles outils techniques utiles pour dériver de tels estimateurs.

Information de Fisher

L’information de Fisher, I(p), où p est le paramètre d’une distribution de probabilitéf(x, p) se définit comme

I(p) = E(( ∂∂p

log f(x, p))2)

= −E(∂2

∂p2log f(x, p)

). (21)

Il s’agit donc de l’espérance de la dérivée de la log-vraisemblance, ou encore de l’espérance,au signe près, de la dérivée seconde (le hessien dans le cas où plusieurs paramètres entrenten jeu). De cette définition, on en déduit que l’information de Fisher est additive parrapport à des mesures indépendantes répétées, c’est-à-dire que

IX1,X2(p) = IX1(p) + IX2(p) = 2IX1(p), (22)

où les indices 1, 2 dénotent des mesures différentes. L’égalité 22 est valide pour deuxséries i.i.d..

Théorème de Cramer-Rao

Le théorème, ou la borne, de Cramer-Rao dit que tout estimateur sans biais a d’unparamètre a doit vérifier

V(p) ≥ 1I(p) . (23)

Avec 23, il est possible de calculer la limite inférieure de la variance de n’importe quelestimateur sans biais.

Page 24: Une introduction aux statistiques inférentielles

24

Concernant le paramètre de position d’une distribution normale, on obtient à partir de21 l’information de Fisher :

IX1,X2,...,XN (µ) = Nσ2 .

Pour l’estimateur µ donné en 19, on peut calculer V(µ) = σ2/N qui, en vertu du théorèmede Cramer-Rao, prouve que µ est de variance minimale et aucun estimateur de meilleurequalité ne peut être trouvé.Considérons de nouveau la distribution de Cauchy et son paramètre de position, a.L’expression 21 nous permet de calculer l’information de Fisher correspondant aux ob-servations X1, X2, . . . , XN ,

IX1,X2,...,XN (a) = N2 .

Ceci donne comme borne inférieure pour la variance de n’importe quel estimateur sansbiais a,

V(a) ≥ 2N.

On peut montrer numériquement que l’estimateur de a présenté page 21 n’atteint pascette borne.

La borne de Cramer-Rao comme estimateur de la variance

Si l’on considère que dans de nombreuses applications, l’expression 23 est assez précise,on l’utilise comme approximation pour les estimateurs de variance, soit

V(p) ' 1I(p) .

Les estimés des paramètres d’une distribution sont souvent obtenus en maximisant numéri-quement la fonction de vraisemblance de l’échantillon. Lorsqu’il n’existe aucune forme ana-lytique, l’information de Fisher, (∂/∂p) log f(x, p), peut être obtenue numériquement parré-échantillonnage. Par ré-échantillonnage on entend le moyennage de

((∂/∂p) log f(x, p)

)2

à partir de simulations numériques basées sur une variante de la méthode MCMC (voirplus loin).

Exhaustivité

Une statistique dite exhaustive possède la propriété de fournir la même information quel’échantillon complet. L’exhaustivité d’une statistique peut être vérifiée grâce au critère defactorisation de Fisher, selon lequel t(x1, x2, . . . , xN ) est une statistique exhaustive pourles observations x1, x2, . . . , xN si

f(x1, x2, . . . , xN , p) = g(t, p)h(x1, x2, . . . , xN ), (24)

Page 25: Une introduction aux statistiques inférentielles

25

pour g et h deux fonctions données. En introduisant 24 dans 21, on peut vérifier que

IX1,X2,...,XN (p) = It(X1,X2,...,XN )(p).

Théorème de Rao-Blackwell

Le théorème de Rao-Blackwell montre comment il est possible d’améliorer les estimateursd’un paramètre à l’aide du principe d’exhaustivité. Si l’on note p un estimateur de p,étant données les observations X1, X2, . . . , XN , on peut définir un nouvel estimateur pnewcomme l’espérance conditionnelle

pnew = E (p | t(X1, X2, . . . , XN ))

où t(X1, X2, . . . , XN ) est une statistique suffisante pour p. Le théorème de Rao-Blackwelldit alors que

E((pnew − p)2) ≤ E ((p− p)2) .

Si l’on considère à nouveau la distribution uniforme, sachant que t(x1, x2, . . . , xN ) =max(x1, x2, . . . , xN ) est une statistique suffisante pour le paramètre a, on peut améliorerl’estimateur du moment amom en définissant l’estimateur RB suivant :

aRB = E

(2N

N∑n=1Xn | max(X1, X2, . . . , XN )

).

2.4 Exemple d’application : construction de différentes statistiques de test

Pour illustrer les notions vues à la section précédente, on va s’intéresser à la mise en œuvredes trois statistiques de test les plus fréquemment rencontrées : le test de Wald, le testdu score et le test du rapport de vraisemblance. Pour cela, on considère une expériencealéatoire dans laquelle on lance successivement n fois la même pièce de monnaie. On noteθ = P (« face »). On observe

Yi = 1 si le ie lancer am„ene face ,Yi = 0 sinon,

de sorte que Yi ∼ B(1, θ).Dans un premier temps, on peut calculer l’information de Fisher et l’EMV θ de θ. Pourcela, nous avons besoin de développer la fonction de vraisemblance pour une observation.On a donc :

f(yi; θ) = θyi(1− θ)1−yi

d’où

Page 26: Une introduction aux statistiques inférentielles

26

log f(yi; θ) = yi log θ + (1− yi) log(1− θ)

∂ log f(yi; θ)∂θ

= yiθ− 1− yi

1− θ = yi − θθ(1− θ)

On notera que le vecteur score est centré car E(Yi) = 1×θ+0×(1−θ) = θ. L’informationde Fisher n’est autre que la variance du vecteur score :

I(θ) = V(∂ log f(yi; θ)∂θ

)

= V( Yi − θθ(1− θ))

= 1(θ(1− θ)

)2 V(Yi − θ)

= 1θ(1− θ) car V(Yi) = θ(1− θ)

À présent, on peut s’intéresser à θ. Pour cela, il nous faut l’expression de la log vraisem-blance sur l’ensemble des observations. Elle se déduit aisément de l’expression précédente :

Ln(θ) =n∑i=1

log f(yi; θ)

=n∑i=1yi log θ + (1− yi) log(1− θ)

On en déduit la dérivée première de la log vraisemblance :

∂Ln(θ)∂θ

=n∑i=1

∂θlog f(yi; θ)

=n∑i=1

yi − θθ(1− θ)

= (∑ni=1 yi)− nθθ(1− θ)

et on peut vérifier que∂Ln(θ)∂θ

∣∣∣∣θ

= 0

avec θ =∑ni=1 yi/n, qui est tout simplement la fréquence empirique des « pile ».

Si l’on pose l’hypothèse nulle H0 : θ = 12 , on peut calculer les trois statistiques de test

considérées plus haut. Notons que cette hypothèse est équivalente à H0 : θ − 12 = 0, et

l’on peut se donner une fonction g(θ) = θ − 12 , à valeurs dans R.

Page 27: Une introduction aux statistiques inférentielles

27

Le test de Wald est construit comme suit :

ξW = n(θ − 12)I−1(θ − 1

2),

d’où l’on en tire, après simplification,

ξW =

θ − 12√

θ(1−θ)n

2

. (?)

Sous H0, ξW →` χ2(1), et la région critique (à 5 %) est de la forme (à une approximationprès) :

W = ξW ≥ 4 = (?) ≥ 2

Pour le test du score, la statistique de test est de la forme :

ξS = 1n

∂θ′Ln(θo)I−1(θo) ∂

∂θLn(θo).

Ici θ′ signifie que l’on prend le vecteur transposé, pour d’évidentes contraintes de confor-mité dans le produit. On travaille également avec θo = 1

2 (cf. H0 précédente). On a donc

∂θLn =

n∑i=1

yi − θo

θo(1− θo) .

La statistique recherchée devient donc

ξS = 1n

((∑i yi)− nθo

θo(1− θo)

)2

θo(1− θo)

= n(∑i yi − θo)

2

θo(1− θo)

=

θ − 12√

1/2(1−1/2)n

2

.

Sous H0, on a comme précédemment ξS →` χ2(1). À la différence du test de Wald, danslequel l’évaluation se fait dans le modèle général, ici on se place directement sous H0 pourl’estimation.Enfin, le test du rapport de vraisemblance est peut-être plus simple à formuler puisquel’on a besoin que des log vraisemblances en θ et θo : ξR = 2

(Ln(θ)− Ln(θo)

). On a donc

Page 28: Une introduction aux statistiques inférentielles

28

ξR = 2[∑i

(yi) log θ +(n−

∑i

yi)

log(1− θ)

−(∑i

yi)

log 12 +

(n−

∑i

yi)

log(1− 1

2)]

= 2[(∑i

yi)

log(θ

1/2

)+(n−

∑i

yi)

log(

1− θ1− 1/2

)].

On a les mêmes propriétés de convergence asymptotique vers la loi du χ2.Une simple application numérique donne les résultats suivants :

ξW = 1.01, ξS = 1.00, ξR = 1.00.

Dans tous les cas, on ne rejette pas H0.

3 La méthode Expectation-Maximization

Dans la plupart des cas exposés plus haut, les estimateurs MV des paramètres étudiés pou-vaient être dérivés à partir d’une formule analytique. De même, on pouvait généralementmontrer directement qu’il n’existait qu’un unique maximum de la fonction de vraisem-blance considérée sur l’espace des paramètres. Cependant, dans de nombreux problèmesd’analyse de données, l’application du principe de maximum de vraisemblance conduit àdes problèmes numériques d’une grande complexité. De plus, la fonction de vraisemblanceétudiée possède souvent plusieurs extrêmums. Par conséquent, dans de nombreux cas, lesEMV sont calculés grâce à des techniques d’optimisation numérique, statique, dynamiqueou mêlant les deux approches.Un cas particulièrement remarquable de calcul récursif des EMV est la méthode appeléeExpectation-Maximisation (EM) (Dempster et al., 1977 and McLachan and Krishnan,1997). Cette approche est privilégiée lorsque la difficulté pour obtenir des EMV provientde la présence de valeurs manquantes (encore appelées variables cachées ou latentes). Siles variables manquantes avaient été observées, l’estimation MV en aurait été largementsimplifiée. Dans ce contexte, la méthode EM opère de manière récursive. Chaque récursionconsiste en une étape E dans laquelle on calcule l’espérance conditionnelle par rapport auxdonnées inconnues, étant données les variables observées, et une étape M dans laquelle onmaximise par rapport aux paramètres. La construction de l’algorithme est telle que l’onpeut garantir qu’à chaque itération la valeur de la fonction de vraisemblance augmente. Enraison de sa simplicité et de sa robustesse, la méthode EM est très largement employée,et bien qu’elle converge de manière relativement lente, de nouvelles améliorations sontpubliées régulièrement dans la littérature spécialisée.

Page 29: Une introduction aux statistiques inférentielles

29

3.1 Construction de l’algorithmeLe principe de l’algoritme EM repose sur une inégalité portant sur l’espérance condition-nelle de la log-vraisemblance de variables manquantes. Ci-après, on montre deux méthodespermettant d’établir cette inégalité : à partir de l’inégalité de Jensen, et en utilisant lamesure de distance de Kullback-Leibler. Avant cela, nous rappelons quelques élémentsnécesaires à la compréhension de l’algorithme EM.

f(x)

x1 p1x1+p2x2 x2

x

Figure 4

Illustration de la convexité de f(x). La fonction f(x) estdite convexe si, lorsque p1 ≥ 0, p2 ≥ 0 et p1 + p2 = 1,f(p1x1 + p2x2) ≤ p1f(x1) + p2f(x2).

Inégalité de JensenLa définition de la convexité d’une fonction g(x), comme illustré dans la figure 4, est lasuivante :

g(p1x1 + p2x2) ≤ p1g(x1) + p2g(x2), p1 ≥ 0, p2 ≥ 0, p1 + p2 = 1.

Par induction, on peut montrer que cela implique une inégalité analogue pour tout n ≥ 2,

g(p1x1 + p2x2 + . . .+ pnxn) ≤ p1g(x1) + p2g(x2) + . . .+ png(xn), (25)

pi ≥ 0, i = 1, 2, . . . , n, p1 + p2 + . . . + pn = 1. On peut également passer d’un espace deparamètres x ∈ R à une dimension à un espace m-dimensionnel plus général, x ∈ Rm,et cette inégalité reste vérifiée. Toute fonction convexe g(x), Rm → R satisfait 25, etl’inégalité 25 est appelée l’inégalité finie et discrète de Jensen. On notera que l’on peutautoriser n→∞ et 25 est toujours vérifiée.On peut également remplacer la distribution discrète de probabilité contenant les massesp1, p2, . . . , pn apparaissant dans l’expression 25 par une distribution continue f(x), où∫ +∞−∞ f(x)dx = 1, et on a une inégalité analogue :

g

(∫ +∞

−∞xf(x)

)≤∫ +∞

−∞g(x)f(x)dx,

qui peut également s’exprimer, l’aide de l’opérateur espérance, comme

Page 30: Une introduction aux statistiques inférentielles

30

g(E(X)

)≤ E

(g(X)

).

Dans l’expression ci-dessus, X désigne une v.a. dont la densité de probabilité est f(x).Les deux ingéalités précédentes restent valables pour toute fonction convexe g(x), et onparle de l’inégalité de Jensen. Plus généralement, celle-ci peut être formulée comme suit :

g

(∫ +∞

−∞h(x)f(x)

)≤∫ +∞

−∞g(h(x)

)f(x)dx,

ou

g(E(h(X)

))≤ E

(g(h(X)

)),

où g(x) est convexe et h(x) désigne n’importe quelle fonction mesurable. Si l’on utilise latransformation Y = h(X), on retrouve naturellement les deux expressions précédentes.

Distance de Kullback-LeiblerConsidérons deux v.a. finies discrètes X et Y , chacune prenant les valeurs 1, 2, . . . , n avecprobabilités p1, p2, . . . , pn, p1+p2+. . .+pn = 1, pourX et q1, q2, . . . , qn, q1+q2+. . .+qn = 1,pour Y . La distance de Kullback-Leibler KX,Y entre les distributions de X et de Y sedéfinit comme

KX,Y = −n∑i=1qi lnpiqi.

On peut vérifier que KX,Y ≥ 0 et que

KX,Y = 0⇔ pi = qi, i = 1, 2, . . . , n.

La distance de Kullback-Leibler est encore appelée entropie de la distribution p1, p2, . . . , pnpar rapport à celle de q1, q2, . . . , qn.Pour des v.a. continues X et Y , de densités de probabilités fX(z) et fY (z), leur distancede Kullback-Leibler est définie comme

KX,Y = −∫ +∞

−∞fY (z) ln fX(z)

fY (z)dz,

et on a toujours

KX,Y ≥ 0 (26)

et KX,Y = 0 ⇔ fX(z) = fY (z) (à l’exception éventuellement d’un ensemble de mesuresnulles).

Itérations EMOn supposera dans les paragraphes qui suivent que les observations disponibles peuventêtre modélisées par une v.a. (ou un vecteur aléatoire) X et que l’objectif est d’estimer

Page 31: Une introduction aux statistiques inférentielles

31

un paramètre (ou un vecteur de paramètres) p. Par ailleurs, on supposera qu’il existeun certain nombre de valeurs manquantes Xm. En aggrégeant les deux séries de données(observées et manquantes), on obtient un vecteur d’observations complètes

Xc = (Xm, X).

On va essayer de montrer comment l’estimation de p à partir de la fonction de log-vraisemblance pour une observation x,

ln(f(x, p)

),

entraîne des problèmes computationnels alors que la maximisation de la log-vraisemblancedes observations complètes, ln

(f(xc, p)

), est relativement directe.

Dans un premier temps, on cherche à exprimer la distribution conditionnelle des obser-vations manquantes étant donnés les observations disponibles et les paramètres d’intérêt,f(xm | x, p), à partir de la formule de Bayes :

f(xm | x, p) = f(xm, x, p)f(x, p) = f(x

c, p)f(x, p) .

Par simple substitution dans l’expression ci-dessus, on obtient

f(x, p) = f(xc, p)f(xm | x, p) .

En passant au logarithme des deux côtés de l’équation, on a alors

ln f(x, p) = ln f(xc, p)− ln f(xm | x, p). (27)

On a besoin de fournir une première estimation a priori pour les paramètres, que l’onnotera pold, et on rappelle que x est connu et fixé. La distribution de xm (inconnu) étantdonné les observations disponibles x est f(xm | x, pold). On moyenne 27 sur la distributiondes données inconnues, ou en d’autres termes, on calcule l’espérance des deux membresde l’équation 27 par rapport à f(xm | x, pold). Puisque E

(h(X) | X

)= h(X) quelle que

soit h(X), on peut écrire

ln f(x, p) = E(

ln f(Xc, p) | x, pold)− E

(ln f(Xm, p) | x, pold

).

Si l’on introduuit la notation suivante :

Q(p, pold) = E(

ln f(Xc, p) | x, pold)

=∫f(xm | x, pold) ln f(xc, p)dxm (28)

et

H(p, pold) = E(

ln f(Xm, p) | x, pold)

=∫f(xm | x, pold) ln f(xm | x, p)dxm,

on a alors

ln f(x, p) = Q(p, pold)−H(p, pold). (29)

Page 32: Une introduction aux statistiques inférentielles

32

On en déduit que

H(pold, pold)−H(p, pold) = −∫f(xm | x, pold) ln f(x

m | x, p)f(xm | x, pold)

dxm.

On peut appliquer l’inégalité de Jensen au membre droit de l’équation 29, en prenantcomme fonction convexe g(xm) = − ln(xm) ainsi que h(xm) = f(xm | x, p)/f(xm | x, pold)ou l’inégalité 26 pour la distance de Kullback-Leibler. Dans les deux cas, on arrive à laconclusion que

H(pold, pold)−H(p, pold) ≥ 0. (30)

Si l’on est capable un nouvel estimé pnew qui vérifie Q(pnew, pold) > Q(pold, pold), alors de29 et 30 on peut conclure que

ln f(x, pnew) > ln f(x, pold),

et donc on a réussi à augmenter la log-vraisemblance. Typiquement, pnew sera choisi enmaximisant Q(p, pold) par rapport à p.En résumant l’ensemble de la démarche exposée ci-dessus, on en arrive à définir la construc-tion de l’algorithme EM comme suit :

• Étape E. Calculer Q(p, pold) comme défini en 28.

• Étape M. Calculer pnew = arg maxpQ(p, pold).

En répétant les étapes E et M, en mettant à jour à chaque fois pold = pnew, on augmente,itérativement, la valeur de la log-vraisemblance ln f(x, pold). Dans la plupart des cas, cetteapproche itérative donne un maximum global unique. Toutefois, les itérations EM peuventégalement se terminer sur des maxima locaux, voire ne pas converger du tout.Avant de fournir des exemples d’applications concrets de l’algorithme sur des distributionssimples ou un peu plus complexes, une illustration de l’algorithme EM appliqué à un lancerde pièces est proposée dans la figure 5. L’exemple est tiré de REF.

3.2 Exemples d’application de l’algorithme EM

Les exemples suivants ont pour but d’illustrer le principe de base de l’algorithme EMexposé à la section précédente, ainsi que d’étudier sa convergence.

Distribution exponentielle avec données censurées

Les données censurées se rencontrent fréquemment en épidémiologie, et plus particulière-ment dans les études de survie (Cox and Oakes, 1984). On les retrouve également avecdes instruments de mesure pour lesquels la gamme de mesure observables est trop limi-tée. Ici, on considèrera une v.a. T exponentielle. L’objectif est d’estimer le paramètre a à

Page 33: Une introduction aux statistiques inférentielles

33

Figure 5 Principe de l’algorithme EM. Tiré de ? ?

partir d’un ensemble de N observations, en tenant compte du fait qu’il existe un méca-nisme de censure de seuil constant C : si une mesure T est plus grande que C alors on neconnaît pas sa vraie valeur, mais on sait seulement que le seuil a été dépassé. Supposonsque les observations t1, t2, . . . , tk n’ont pas excédé le seuil et que tk+1, . . . , tN sont au-dessus du seuil. Les informations disponibles sont donc t1, t2, . . . , tk et [tk+1, . . . , tN ≥ C].L’information complète est constituée par le vecteur tc = t1, t2, . . . , tk, tk+1, . . . , tN . Afind’initier l’algorithme EM, on démarre avec des valeurs a priori pour le paramètre, aold.L’expression de Q(a, aold) avec f(t, a) définie en 14 devient alors

Q(a, aold) = E(

ln f(T c, a) | t1, t2, . . . , tk, [tk+1, . . . , tN ≥ C], aold)

=k∑i=1

ln(a exp(−ati)

)+

N∑i=k+1

E(

ln(a exp(−ati)

)| ti ≥ C, aold

)

Page 34: Une introduction aux statistiques inférentielles

34

= N ln a− ak∑i=1ti − a(N − k)

∫ +∞C taold exp(aoldt)dt∫ +∞C aold exp(aoldt)dt

= N ln a− a[k∑i=1ti + (N − k)

(C + 1aold

)].

Dans la transformation ci-dessus, on a utilisé le fait que

E(−ati | ti ≥ C, aold) = −a∫ +∞C taold exp(aoldt)dt∫ +∞C aold exp(aoldt)dt

= −a(C + 1aold

).

D’après la relation précédente, la valeur anew qui maximise Q(a, aold) par rapport à a est

anew = N∑ki=1 ti + (N − k)(C + 1/aold)

. (31)

On peut indexer les itérations des estimations EM du paramètre a par une suite 1, 2, . . . ,m, . . .,et on peut ainsi écrire am = aold et am+1 = anew. En passant à la limite dans larelation 31, on obtient

a = limm→∞

am = k∑ki=1 ti + (N − k)C

.

La limite limm→∞ am peut être calculée analytiquement et on obtient ainsi l’EMV de a.On pourrait également arriver au même résultat en écrivant directement la fonction delog-vraisemblance d’une distribution exponentielle incluant des données censurées.

Modèle de mélange

Les mélanges de lois sont souvent utilisés pour étudier la structure des données expéri-mentales (McLachan and Peel, 2000). Les mélanges de distributions prennent la forme :

fmix(x, α1, . . . , αK , p1, . . . , pK) =K∑k=1αkfk(x, pk), (32)

où α1, . . . , αK , p1, . . . , pK sont les paramètres de la loi composée. Les poids (probabilités)α1, . . . , αK sont non négatifs et somment à 1, i.e.

K∑k=1αk = 1, (33)

et les fk(x, pk) sont des fonctions de densité de probabilités. On dira qu’une v.a. X suitce type de distribution si elle est générée de la manière suivante :

1. on génère un nombre entier k dans l’intervalle 1, . . . ,K avec probabilité α1, . . . , αK ,2. on génère un nombre (ou un vecteur) x à partir de la distribution fk(x, pk).

Page 35: Une introduction aux statistiques inférentielles

35

La plupart du temps, les fk(x, pk) sont des distributions du même type, par exemplegaussienne ou poissonienne, avec des paramètres différents, mais il est également possiblede mélanger des distributions de différent type. On appelle fk(x, pk), k = 1, 2, . . . ,K lacomposante de la distribution de mélange.Supposons qu’un échantillon aléatoire de taille N soit tiré de la distribution 32. Le cal-cul des EMV des paramètres α1, . . . , αK , p1, . . . , pK pose typiquement des problèmesd’optimisation numérique. Toutefois, l’algorithme EM fournit une approche naturelleà ce problème. En effet, on suppose que l’information complète est donnée par xc =k1, k2, . . . , kN , x1, x2, . . . , xN ; en d’autres termes, on fait l’hypothèse que l’on connaîtl’indice kn de la composante fk(x, pk) qui a permis de générer l’observation xn. Avec cetteinformation complète, le problème de l’estimation par MV peut être divisé en différentssous-problèmes :

a. estimation des paramètres p1, . . . , pM des composantes de distribution,b. estimation par MV des poids α1, . . . , αK .

La dernière étape de calcul peut être effectuée à partir des indices kn. Grâce à cettedécomposition, la log-vraisemblance des données complètes est de la forme :

ln(f(xc, p)

)=N∑n=1

lnαkn +N∑n=1

ln fkn(xn, pkn),

avec xc = k1, k2, . . . , kN , x1, x2, . . . , xN et p = α1, . . . , αK , p1, . . . , pK .

Étape E. On postule des valeurs a priori pour les paramètres pold = αold1 , . . . , αoldK ,

pold1 , . . . , poldK et on écrit l’expression de Q(p, pold) en considérant l’information disponible

x = x1, x2, . . . , xN et l’information manquante xm = k1, k2, . . . , kN :

Q(p, pold) = E(

ln f(Xc, p) | x, pold)

= E

(N∑n=1

lnαkn | x, pold)

+ E

[N∑n=1

ln fkn(xn, pkn) | x, pold]

=N∑n=1

E(lnαkn | x, pold) +N∑n=1

E(

ln fkn(xn, pkn) | x, pold)

=N∑n=1

K∑k=1p(k | xn, pold) lnαkn +

N∑n=1

K∑k=1p(k | xn, pold) ln fk(xn, pk) (34)

.

La distribution p(k | xn, pold) des données manquantes conditionnellement aux donnéesobservées et les paramètres spécifiés a priori sont obtenus en utilisant la formule de Bayes :

p(k | xn, pold) = αoldk fk(xn, pold)∑Kκ=1 α

oldκ fκ(xn, pold)

. (35)

Page 36: Une introduction aux statistiques inférentielles

36

Étape M. L’expression de Q(p, pold) peut être directement optimisée par rapport auxpoids α1, . . . , αK . En considérant la contrainte 33 et en utilisant un schéma similare àcelui exposé pour la distribution multinomiale, on obtient ainsi :

αnewk =∑Nn=1 p(k | xn, pold)

N.

Les itérations ci-dessus pour les poids restent valides quelle que soit la forme des compo-santes de la distribution de mélange. Afin de dériver les itérations EM pour les estimationsdes paramètres des composantes de la distribution pnew1 , . . . , p

newK , on peut se pencher sur

deux cas particuliers.

Distribution de mélange de Poisson

Supposons que la kième composante de la distribution de mélange dans la nième expé-rience, fk(xn, pk), soit une distribution de Poisson avec un paramètre d’intensité pk = λk :

fk(xn, λk) = exp(−λk)λxnkxn!. (36)

À présent, p(k | xn, pold) est donné par 35 en remplaçant la fonction de répartitionfk(xn, pold) par une distribution de Poisson avec comme paramètre fourni a priori λoldk ,k = 1, 2, . . . ,K :

p(k | xn, λold) = αoldk exp(−λoldk )(λoldk )xn∑Kκ=1

[αoldκ exp(−λoldκ )(λoldκ )xn

]Dans l’expression ci-dessus, λold = λold1 , . . . , λ

oldK . En remplaçant 36 dans 34 et en maxi-

misant par rapport à λk, on obtient la valeur mise à jour λnewk :

λnewk =∑Nn=1 xnp(k | xn, λold)∑Nn=1 p(k | xn, λold)

, k = 1, 2, . . . ,K.

Distribution de mélange gaussienne

Ici, toutes les composantes de distribution sont gaussienne de paramètres µk, σk, k =1, 2, . . . ,K. Pour la nième observation, on a

fk(xn, µk, σk) = 1σ√

2πexp

[−(xn − µk)2

2σ2k

]. (37)

En supposant initialement µoldk , σoldk , k = 1, 2, . . . ,K, l’expression pour les données man-quantes conditionnellement aux données observées et aux paramètres initiaux est de laforme :

p(k | xn, pold) =αoldk exp

[−(xn − µoldk )2/

(2(σoldk )2)]∑K

κ=1 αoldκ exp

[−(xn − µoldκ )2/

(2(σoldκ )2)] .

Page 37: Une introduction aux statistiques inférentielles

37

Dans l’expression ci-dessus, on a utilisé les notations pold = αold1 , . . . , αoldK , µ

old1 , . . . , µ

oldK ,

σold1 , . . . , σoldK pour désigner le vecteur composé de l’ensemble des paramètres estimés.

Lorsque 37 est substitué dans 34, la maximisation par rapport à µk, σk donne la règle demise à jour suivante pour la moyenne et le paramètre de dispersion :

µnewk =∑Nn=1 xnp(k | xn, pold)∑Nn=1 p(k | xn, pold)

, k = 1, 2, . . . ,K,

et

(σnewk )2 =∑Nn=1(xn − µnewk )2p(k | xn, pold)∑N

n=1 p(k | xn, pold), k = 1, 2, . . . ,K.

4 Tests statistiques

5 Chaînes de Markov

Avant de présenter le formalisme des chaînes de Markov, on rappellera brièvement quelquesnotions sur les processus stochastiques.Un processus stochastique est en fait une famille de fonctions d’une variable t, X(t, ω), t ∈T, ω ∈ Ω (t sera généralement assimilé au temps), paramétrée par des réalisations aléa-toires ω. Quel que soit ω, X(·, ω) est une fonction ; quel que soit un instant fixé t, X(t, ·)est une variable aléatoire.Les processus de Markov constituent l’une des classes les plus utilisées et les mieux connuesdes processus stochastiques (Feller, 1968, Iosifescu, 1980 and Gikhman and Skorokhod,1996). Un processus de Markov est un cas particulier d’un processus stochastique dans lamesure où il s’agit d’un processus à mémoire limitée. Ceci signifie que pour un processusX(t, ω) qui s’est déroulé dans le passé (t ≤ t0), le futur X(t, ω), t > t0 est caractérisé parle présent uniquement, i.e. X(t0, ω). Cette propriété est connue sous le nom de propriétéde Markov.Une chaîne de Markov est un processus markovien pour lequel X(t, ω) ∈ S, où S estun ensemble discret. Habituellement, l’espace d’état S est un sous-ensemble de N. End’autres termes, une chaîne de Markov (CM) présente des transitions aléatoires entredifférents états discrets. La théorie présentée dans cette section se concentre sur le casd’un nombre de fini d’états N , indexés 1, 2, . . . , N . De même, nous n’aborderons que lecas des intervalles de temps discrets, 0, 1, 2, . . . , k, . . .. Toutefois, on évoquera quelquesgénéralités sur le cas continu. La plupart du temps, on notera la CM X(t, ω) Xk(ω) ousimplement Xk.Comme on vient de l’énoncer, la propriété fondamentale d’une CM est que les états futursne sont déterminés que par le présent, Xk, ce que l’on peut exprimer de la manièresuivante :

P (Xk+1 = j | Xk = i,Xk−1 = i1, Xk−2 = i2, . . .) = P (Xk+1 = j | Xk = i). (38)

Page 38: Une introduction aux statistiques inférentielles

38

La probabilité conditionnelle P (Xk+1 = j | Xk = i) est appelée la probabilité de transitionde Xk = i à Xk+1 = j, et on la dénote pij , avec donc

pij = P (Xk+1 = j | Xk = i). (39)

Une propriété importante des CM considérée ici est l’homogénéité dans le temps, quisignifie que les probabilités de transition pij ne dépendent pas du temps.La propriété 38 entraîne les conséquences les plus fondamentales pour l’analyse desCM et permet de dériver des relations de récurrence pour les probabilités liées à Xk. Enparticulier, la probabilité d’observer la séquence d’états i0, i1, . . . , iK est donnée par leproduit des probabilités de transition

P (i0, i1, . . . , iK) = πi0pi0i1 . . . piK−1iK , (40)

où πi0 = P (X0 = i0). L’équation ci-dessus peut être retrouvée en utilisant la règle de lachaîne et la propriété 38.

5.1 Matrice des probabilités de transition et graphe des transitions d’état

Les probabilités de transition pij données en 39 peuvent se représenter sous la forme d’unematrice N ×N , notée P , que l’on appelle la matrice des probabilités de transition de lachaîne considérée :

P =

p11 p12 . . . p1Np21 p22 . . . p2N. . . . . . . . . . . .pN1 pN2 . . . pNN

.Les transitions d’état et leurs probabilités associées peuvent également se représenter sousla forme d’un graphe de transition d’états, comme celui illustré dans la figure 6. Dansce schéma, les cercles représentent les états et les arcs représentent les transitions d’état.Chaque arc est associé à une probabilité de transition, et un arc n’est représenté que sipij 6= 0. Les représentations graphiques et matricielles sont strictement équivalentes. Lamatrice des probabilités de transition illustré dans la figure 6 est :

P =

0.5 0.5 0 00 0 0.8 0.20 0 0.1 0.90 0 0 1

. (41)

On pourra vérifier que les probabilités de transition de l’état i à tous les autres étatssomment à 1, i.e.

N∑j=1pij = 1. (42)

Page 39: Une introduction aux statistiques inférentielles

39

1

0.5

20.5

30.8

40.2

0.1

0.91

Figure 6 Graphe de transitions d’états pour la chaînede Markov décrite en 41.

Une matrice P qui possède la propriété 42 est appelée une matrice stochastique. Lapropriété du graphe de transition correspondant est alors : « Les poids associés aux arcsde transition sortant d’un état i somment à 1 ».Il arrive fréquemment que la matrice des probabilités de transition soit une matrice creuse,dans laquelle de nombreuses transitions possèdent des probabilités nulles, auquel cas legraphe devient une représentation plus économique et surtout plus lisible.

5.2 Évolution temporelle des distributions de probabilités d’états

Une fois que l’on a spécifié la matrice ou le graphe des probabilités de transition ainsi quela distribution initiale des états, il est possible de calculer l’évolution de cette distributionde probabilité avec le temps. Si l’on considère qu’au temps 0, la distribution de probabilitédes états est

P (X0 = i) = πi(0),

on a bien∑Ni=1 πi(0) = 1. En utilisant la loi des probabilités totales (1), on peut calculer

la distribution de probabilité des états au temps suivant :

P (X1 = j) = πj(1) =N∑i=1πi(0)pij . (43)

Si l’on introduit une notation vectorielle pour les probabilités de transition à l’état k,

π(k) = [π1(k), π2(k), . . . , πN (k)],

on peut alors représenter 43 à l’aide du produit matriciel par

π(1) = π(0)P. (44)

En appliquant récursivement 44, on a finalement

π(k) = π(0)P k.

Page 40: Une introduction aux statistiques inférentielles

40

5.3 Classification des états

La classification des états d’une CM et plus généralement des CM est importante pourbien comprendre la théorie et les applications des CM. Nous présentons ci-dessous cetteclassification, illustrée par quelques propriétés des graphes de transition d’état.

Irréductibilité

Une CM est dite irréductible si et seulement si le graphe des transitions d’états possèdela propriété que tous les états peuvent être atteints depuis n’importe quel état. La CMdont le graphe associé est représenté dans la figure 7 (gauche) est en ce sens irréductible.Si une CM n’est pas irréductible, comme c’est le cas dans la figure 7 (droite), alors enrenumérotant ses états, sa matrice de probabilités de transition peut être réarrangée sousla forme d’une matrice en blocs

P =[Q 0U V

],

où le bloc supérieur droit ne contient que des 0 et Q est une matrice carrée correspondantà une sous-chaîne de Markov irréductible.La matrice de probabilités de transition P d’une CM irréductible possède la propriété queP k > 0 (toutes les entrées sont strictement positives) pour un k.

1

2

3

4

5

1

2

4

3

5

Figure 7 Gauche. un graphe des transitionsd’état d’une chaîne de Markov irréductible.Droite. La chaîne de Markov représentée parce graphe n’est pas irréductible. Dans les deuxgraphes, les arcs représentent des transitions avecpij 6= 0.

Page 41: Une introduction aux statistiques inférentielles

41

États persistents et transients

Un état i est persistent si une CM partant de l’état i retourne à ce même état avec laprobabilité 1. En d’autres termes, parmi la séquence infinie des états d’une CM démarranten i, l’état i apparaît un nombre infini de fois. Un état qui n’est pas persistent est dittransient. Il n’apparaît qu’un nombre fini de fois. Dans la CM illustrée dans la figure 7(gauche), tous les états sont persistents, alors que pour celle illustrée dans la même figureà droite, les états 3 et 5 sont transients et les états 1, 2 et 4 sont persistents.On définit

f(k)i = Pr(La chaîne débutant en i retourne en i pour la première fois après k étapes),

avec, par convention, f (0)i = 0, et

fi =∞∑k=1f

(k)i .

Puisque les événements f (k)i sont exclusifs, la somme de leurs probabilités ne peut excéder

1, i.e. fi ≤ 1. À partir de fi, on peut donner une autre condition pour la caractérisationdes états transients et persistents : un état i est transient si fi < 1 et persistent si fi = 1.Les probabilités fi peuvent être calculées à partir des entrées des matrices P, P 2, . . . , P k, . . ..On définit

p(k)ii = Pr(La chaîne débutant en i retourne en i après k étapes)

et on fixe par convention p(0)ii = 1. Les événements ci-dessus ne sont pas exclusifs. On

peut voir également que p(k)ii est la (i, i)ème entrée de la matrice P k. À partir de la loi desprobabilités totales 1, on a

p(k)ii = f (1)

i p(k−1)ii + f (2)

i p(k−2)ii + . . .+ f (k)

i p(0)ii .

En écrivant l’expression ci-dessus pour k = 1, 2, . . ., on obtient un système d’équationslinéaires qui permet de trouver f (k)

i .

En utilisant les probabilités p(k)ii , on peut donc ajouter une condition supplémentaire. Si∑∞k=0 p

(k)ii <∞, alors l’état i est transient. Cette dichotomie peut se démontrer en utilisant

la méthode des fonctions génératrices à l’équation précédente.Si l’état i est persistent, on peut se demander quel est le temps d’attente espéré µi pourla récurrence de i. À partir de la définition de f (k)

i , µi peut être estimé comme

µi =∞∑k=1kf

(k)i .

Page 42: Une introduction aux statistiques inférentielles

42

États périodiques

Dans la figure 8, on peut voir un exemple d’un graphe de transition correspondant àdes états péridioques. Les états 1, 2 et 3 sont périodiques de période 3. Généralement, unétat i d’une CM est périodique si p(k)ii 6= 0 seuement pour k = νt, t = 0, 1, . . . et ν > 1entier. Le plus grand ν vérifiant la relation précédente est appelé la période de l’état i.On rencontre rarement des phénomènes de périodicité dans les applications des CM. Ils’agit plutôt d’une possibilité théorique, dont on doit tenr compte dans les définitions etles démonstrations de théorème. Un état i est apériodique si aucun ν > 1 ne peut êtretrouvé.

12

3

Figure 8 Graphe de transitions d’étatscorrespondant à des états périodiques.

5.4 Ergodicité

Un état i est dit ergodique s’il est apériodique et persistent. Une CM est dite ergodiquesi tous ses états sont ergodiques. Pour les CM avec un nombre fini d’états, l’ergodicité estinduite par l’irréductibilité et l’apériodicité.

5.5 Distribution stationnaire

La distribution stationnaire (ou invariante) d’une CM est définie comme les πS (un vecteurligne) tels que

πS = πSP,

lorsqu’ils existent. En général, les πS ne sont pas nécessairement uniques. Par exemple, si

P =[P1 00 P2

]et πS1 = πS1P1, πS2 = πS2P2, alors pour tout α ∈ [0, 1], πS = α[0 πS1] + (1−α)[πS2 0] estune distribution stationnaire. Les distributions stationnaires sont liées aux distributionslimites, définies par π(∞) = limk→∞ π(k). Si la distribution existe à la limite, alors elleest stationnaire. Si une CM est ergodique, alors la limite de π(k) existe et ne dépend pasde la distribution initiale π(0), i.e.

Page 43: Une introduction aux statistiques inférentielles

43

limk→∞π(k) = πS .

Dans ce cas, la distribution stationnaire est unique. De plus, la limite de P k existe égale-ment et

limk→∞P k = IπS . (45)

Dans l’expression ci-dessus, I est un vecteur colonne de taille N ne contenant que des 1.La ième colonne de la matrice limite définie en 45 consiste en éléments tous identiques etégaux à πSi, le ième élement du vecteur πS . On peut également démontrer que

πSi = 1µi.

On appelle stationaire une CM si sa distribution initiale est une distribution stationnaire :

π(0) = πS . (46)

Dans une telle chaîne, par définition de πS , π(k) = πS pour chaque k. En d’autres termes,la CM évolue selon sa distribution stationnaire.

5.6 Chaînes de Markov réversibleDans cette section, on considère une CM en ordre inverse, Xk, Xk−1, Xk−2, . . .. On peutmontrer que le processus Xk, Xk−1, Xk−2, . . . possède lui aussi la propriété de Markov. Enutilisant la règle de Bayes, on peut calculer la probabilité de transition i → j en tempsinverse,

previj = P (Xk−1 = j | Xk = i)

= P (Xk−1 = j)P (Xk = i | Xk−1 = j)P (Xk = i) = πj(k − 1)pji

πi(k). (47)

Il y a toutefois une inconsistence dans la notation ci-dessus car previj dépend de l’instantk. Par simplicité de notation, on supprime l’indice k. On retiendra qu’une CM en tempsinversé devient inhomogène.Dans la plupart des applications, il est important d’analyser la CM inversée sous l’hypothèseadditionnelle de stationnarité 46. Dans ce cas la CM en temps inversé devient homogène.On a P (Xk−1 = j) = πSj et P (Xk = i) = πSi, et 47 devient

previj = πSjpjiπSi. (48)

Une CM est dite inversible si elle satisfait la relation

previj = pij . (49)

Il est intéressant de remarquer que l’inversibilité implique la stationnarité de la CM directeet inversée. En effet, si

Page 44: Une introduction aux statistiques inférentielles

44

pij = πj(k − 1)pjiπi(k)

pour tout i, j, alors si on pose i = j on a πi(k − 1)/πi(k) = 1.De la définition 49, on voit que lorsque l’on observe les états d’une CM inversée, onne peut dire si elle progresse de manière directe ou inversée. En combinant 48 et 49, onobtient la condition suivante pour l’inversibilité d’une CM :

pijπSi = πSjpji. (50)

On appelle également cette condition la condition d’équilibre local, en raison de l’interpré-tation que l’on en fait. Supposons que l’on enregistre les événements d’une CM. Le nombremoyen de transitions i → j, pour chaque événement enregistré, est pijπSi. De manièreanalogue, pour les transitions j → i, le nombre moyen de transitions est πSjpji. Lacondition 50 stipule que ces deux quantités sont égales.

5.7 Chaînes de Markov à temps continu

Dans les sections précédentes, on a considéré que les transitions entre états ne pouvaientintervenir qu’à des instants discrets 0, 1, 2, . . . , k, . . .. À présent, on considère que les tran-sitions entre les états discrets 1, 2, . . . , N peuvent survenir à n’importe quel instant t ∈ R.On dénote par X(t) le processus stochastique qui en résulte et on introduit la matrice detransition P (t− s), de taille N ×N et dont les éléments sont donnés par

pij(t− s) = P (X(t) = j | X(s) = i).

La propriété de Markov de X(t) est équivalente à l’équation de Chapman-Kolmogorov

pij(s+ t) =N∑n=1pin(s)pnj(t).

En utilisant la notation matricielle P (t), on peut réécrire cette expression comme

P (s+ t) = P (s)P (t). (51)

Dans ce cas, s ≥ 0, t ≥ 0 et

P (O) = I, (52)

où I désigne la matrice identité. P (t) est différentiable, et en calculant sa dérivée, à partirde 51 on a

d

dtP (t) = P ′(t) = QP (t), (53)

où la matrice Q, appelée matrice d’intensité de la CM en temps continu X(t), est donnéeen prenant la limite de la dérivée en 0,

Page 45: Une introduction aux statistiques inférentielles

45

Q = limt→0+

dP (t)dt.

La construction de processus markovien X(t) utilisés dans les applications pratiques,comme par exemple les modèles de substitution de nucléotides, se fait en définissant toutd’abord la matrice d’intensité Q. Il s’agit de l’approche la plus naturelle. Une fois donnéesla matrice Q, la matrice de transitions P (t) s’obtient en résolvant 53 en prenant 52 commeconditions initiales. La solution est

P (t) = exp(Qt) =∞∑m=1

(Qt)mm! .

Pour chaque t ≥ 0, P (t) est une matrice stochastique, et si l’on se donne une distributionde probabilités initiale π(0) pour les états 1, 2, . . . , N , on peut calculer la distribution autemps t, à partir de la relation

P(X(t+ ∆t) = j | X(t) = i

)= qij∆t+ o(∆t).

Les éléments diagonaux de la matrice d’intensité Q sont définis comme suit :

qii = −∑j 6=iqij .

6 Méthodes de Monte Carlo par Chaînes de Markov (MCMC)

Les méthodes de Monte Carlo, reposant sur les générateurs de nombres aléatoires, per-mettent de réaliser une grande variété de tâches, incluant les simulations stochastiques,le calcul d’intégrales dans des dimensions élevées, ou l’optimisation de fonctions et defonctionnelles. L’approche de Monte Carlo par Chaînes de Markov (MCMC) utilise lesCM pour réaliser ce genre de tâches. Un outil important dans les méthodes MCMC estl’algorithme de Metropolis-Hastings (Metropolis et al., 1953 and Hastings, 1970). Celui-cia été initialement conçu pour calculer des intégrales en plusieurs dimensions en physiquemoléculaire, mais a depuis trouvé de nombreux autres domaines d’application.La méthode de Metropolis-Hastings permet de proposer une solution au problème suivant :construire une CM ergodique avec les états 1, 2, . . . , N et une distribution stationnaireprédéfinie par un vecteur πS . Par construire une CM, on entend définir ses probabilités detransition d’état. Il existe clairement une infinité de CM avec une distribution stationnaireπS . Si l’on connaît les probabilités de transition d’état, on peut calculer la distributionstationnaire πS , mais il n’existe pas de formule explicite pour la relation inverse. Laméthode de Metropolis-Hastings offre une solution à ce problème en partant d’une CMergodique avec les états 1, 2, . . . , N et en modifiant ses probabilités de transition de sorteque la condition d’équilibre local 50 soit renforcée. Par conséquent, la CM modifiée devientinversible et possède bien la distribution stationnaire désirée πS .En utilisant cette idée, supposons que l’on a définit une CM irréductible et apériodiqueavec les états 1, 2, . . . , N et les probabilités de transition qij . L’étape suivante consiste

Page 46: Une introduction aux statistiques inférentielles

46

à modifier ces probabilités en les multipliant par des facteurs aij , ce qui amène à unenouvelle CM de probabilités de transition

pij = aijqij . (54)

On cherche les aij tels que les probabilités de transition pij satisfassent la conditiond’équilibre local 50. En substituant 54 dans 50, on obtient

aijqijπSi = ajiqjiπSj .

On a ici deux variables et une seule équation, donc une infinité de solutions possibles. Lasolution la plus simple consiste à supposer que l’un des facteurs aij et aji est égal à 1. Ilexiste deux possibilités. Néanmoins, on doit tenir compte de la condition que les facteursmultiplicatifs doivent satisfaire aij ≤ 1 pour tout i, j. Cette condition découle du fait quela mise à l’échelle 54 ne doit pas produire des probabilités en dehors de l’intervalle ]0, 1].Cela amène finalement à la solution

aij = min(

1, qjiπSjqijπSi

). (55)

L’équation 54 avec les aij définis ci-dessus permet de calculer les probabilités de transi-tion pij pour tout i 6= j. Pour les probabilités pii, on utilise la formule

pii = 1−∑j 6=ipij ,

qui résulte de la propriété 42.Comme on le voit dans la règle 55, l’expression des aij ne dépend pas de la valeur absoluedes πSi mais seulement de leur rapport. Cela signifie qu’il suffit de connaître πS à uneconstante près. Il s’agit d’un résultat important qui permet de simuler des distributionspour lesquelles il est difficile de trouver une constante de normalisation.

6.1 Règle d’acceptation-rejet

La méthode de Metropolis-Hastings permettant de modifier les probabilités de transition(54 et suivantes) peut être formulée sous la forme de la rège d’acceptation-rejet, trèsutilisée dans les applications pratiques. Supposons que l’on ait défini une CM irréductibleet apériodique avec les états 1, 2, . . . , N et les probabilités de transition qij , et par ailleursque l’on dispose d’un programme permettant de simuler les transitions entre les états.La modification des probabilités de transition qij décrite dans les paragraphes précédentsrevient à ajouter la règle d’acceptation-rejet suivante au programme de simulation destransitions d’états. Lorsqu’une transition i→ j est rencontrée, on calcule aij selon 55. Siaij = 1, on change rien (on passe à l’état j). Si aij < 1, alors, avec probabilité aij on passeà l’état j et avec probabilité 1− aij , on supprime la transition i→ j (on reste dans l’étati).

Page 47: Une introduction aux statistiques inférentielles

47

6.2 Applications de l’algorithme de Metropolis-HastingsEn utilisant l’algorithme de Metropolis-Hastings, on peut effectuer de l’échantillonnagealéatoire dans n’importe quelle distribution. Cela se révèle très utile, par exemple pourestimer la forme ou les paramètres de distributions a posteriori compliquées. Une autreapplication importante de l’algorithme de Metropolis-Hastings est l’optimisation stochas-tique. Un exemple de ce type de problématique est la recherche de l’arbre le plus probableen fonction des données. Pour chaque arbre, on calcule la probabilité correspondante (vrai-semblance), mais en raison du nombre important d’arbres possibles, on ne peut pas tousles évaluer et sélectionner celui qui possède la probabilité la plus élevée. Au contraire,on peut construire une CM telle que les différents arbres corerspondent à ses états. Enappliquant l’algorithme de Metropolis-Hastings, on visite (échantillonne) les arbres avecune fréquence correspondant à leurs probabilités. Les arbres avec une probabilité élevéesont ainsi visités plus fréquemment, alors que ceux possédant une probabilité plus faiblene seront vraisembablement pas visités du tout. Par la suite, on peut limiter la recherchedes arbres les plus vraisemblables à ceux visités lors de la procédure d’échantillonnage parl’algorithme de Metropolis-Hastings.

6.3 Recuit simulé et MC3Est-il également possible d’utiliser le principe de l’algorithme de Metropolis-Hastings pouroptimiser n’importe quelle fonction f(x), sur l’espace des arguments ? Le challenge estalors que f(x) peut prendre des valeurs à la fois positives et négatives et ne possède doncpas d’interprétation probabiliste.Considérons la transformation

p(x) = exp(f(x)T

), (56)

reposant sur l’idée de la distribution d’énergie de Boltzmann. La fonction p(x) est tou-jours strictement positive et prend son maximum à la même valeur xmax que f(x). Cettefonction ne correspond pas nécessairement à une distribution de probabilité puisque sonintégrale ne vaut généralement pas 1. Toutefois, seules la positivité stricte est importantedans notre cas puisque, comme on l’a déjà mentionné, les relations 54 et suivantes nedépendent que du rapport des éléments du vecteur πS . Il est donc possible de construireun algorithme de recherche du maximum de p(x) à l’aide de la technique de Metropolis-Hastings. Si l’espace des arguments x est continu, on le discrétisera avant d’appliquerl’algorithme.L’équation 56 contient un paramètre libre T . Par analogie avec la distribution d’énergiede Boltzmann, ce paramètre peut être interprété comme la « température ». Le change-ment de sa valeur influence les propriétés de l’algorithme d’échantillonnage. L’augmen-tation de la température entraîne une recherche plus intensive dans l’espace des arguments,puisque les transitions d’un p(x) élevé à un p(x) plus bas deviennent plus probables. Ladiminution de la température revient au contraire à rendre les transitions moins probables.Dans la méthode du recuit simulé (Kirkpatrick et al., 1983), la température est modifiée

Page 48: Une introduction aux statistiques inférentielles

48

en fonction d’un certain échéancier tout en se promenant dans l’espace des arguments.Les algorithmes de recuit simulé débute la recherche avec une température élevée, puigraduellement la température est diminuée lorsque les itérations approchent du voisinagedu maximum.Une autre idée assez intéressante, dénommée MC3, consiste à effectuer la recherche dansl’espace des arguments en utilisant plusieurs (généralement 3) échantillonneurs de Metro-polis-Hastings à différentes températures (Madigan and York, 1995). Les algorithmesopèrent donc en parallèle et peuvent échanger leurs états en fonction de la valeur desvraisemblances.

7 Chaînes de Markov cachées

Dans la section précédente, lorsque nous avons présenté les propriétés des CM, on aimplicitement considéré que les états étaient observables. Cependant, cette hypothèsen’est souvent pas satisfaite dans les applications des modèles de CM. Les chaînes deMarkov cachées (CMC) sont alors fréquemment utilisées dans ce contexte (Durbin et al.,1999, Rabiner, 1989 and Koski and Koskinen, 2001). Un modèle de Markov caché est uneCM dont les états ne sont pas observables. Seule une séquence de symboles émis par lesétats est enregistrée.Plus spécifiquement, considérons une CM avec les états 1, 2, . . . , N sur un intervalle detemps discret 0, 1, 2, . . . , k, k+1, . . . ,K. Par ailleurs, on considèreM symboles possible dé-notés o1, o2, . . . , om, om+1, . . . , oM et que l’on appelera des émissions. Chaque état possèdeune distribution de probabilité d’émissions

bim = Pr(l’état i émet om). (57)

7.1 Probabilité d’occurence d’une séquence de symboles

De 40 et 57, on conclut que la probabilité d’occurence des états i0, i1, . . . , iK et dessymboles oj0 , oj1 , . . . , ojK est

P (i0, oj0 , i1, oj1 , . . . , iK , ojK ) = πi0bi0j0pi0i1bi1j1 . . . piK−1iKbiKjK . (58)

La probabilité d’enregistrer une séquence de symboles oj0 , oj1 , . . . , ojK est obtenue ensommant 58 sur l’ensemble des séquences i0, i1, . . . , iK possibles, ce qui donne

P (oj0 , oj1 , . . . , ojK ) =N∑i0=1πi0bi0j0

N∑i1=1pi0i1bi1j1 . . .

N∑iK=1piK−1iKbiKjK . (59)

En pratique, lorsque l’on utilise l’expression ci-dessus, on arrange la sommation de ma-nière récursive. Il y a alors deux possibilités auxquelles correspondent deux algorithmesdifférents : l’agorithme dit « backward » et l’algorithme « forward ».

Page 49: Une introduction aux statistiques inférentielles

49

7.2 Algorithme « backward »On peut organiser le calcul récursif de 59 en partant de la dernière somme. On dénotecelle-ci par

BK−1(iK−1) =N∑iK=1piK−1iKbiKjK

et on voit que pour Bk(ik), défini comme

Bk(ik) =N∑

ik+1=1pikik+1bik+1jk+1 . . .

N∑iK=1piK−1iKbiKjK ,

il existe une relation de récurrence

Bk(ik) =N∑

ik+1=1pikik+1bik+1jk+1Bk+1(ik+1),

valide pour k = 0, 1, . . . ,K − 2. Finalement,

P (oj0 , oj1 , . . . , ojK ) =N∑i0=1πi0bi0j0B0(i0).

La récurrence définie ci-dessus implique de stocker des tableaux de taille N et des opéra-tions de sommation sur un index.

7.3 Algorithme « forward »Une autre possibilité consiste à partir de la première somme de l’expression 59. Endéfinissant

Fk(ik) =N∑i0=1πi0bi0j0 . . .

N∑ik−1=1

pik−2ik−1bik−1jk−1pik−1ik ,

on constate que Fk(ik), k = 1, . . . ,K−1 peut être calculé en utilisant la récursion suivante :

Fk+1(ik+1) =N∑ik=1Fk(ik)bikjkpikik+1 .

À présent, P (oj0 , oj1 , . . . , ojK ) est donné par

P (oj0 , oj1 , . . . , ojK ) =N∑ik=1FK(iK)biKjK .

Comme pour l’algorithme « backward », cet algorithme nécessite le stockage de tableauxde dimension N et des sommations sur un index.

Page 50: Une introduction aux statistiques inférentielles

50

7.4 Algorithme de Viterbi

L’algorithme de Viterbi permet de résoudre le problème suivant : étant donnée une sé-quence de symboles oj0 , oj1 , . . . , ojK , trouver la séquence la plus probable pour les étatsi0, i1, . . . , iK . En d’autres termes, on cherche à calculer la séquence des états qui maximisela probabilité conditionnelle

P (i0, i1, . . . , iK | oj0 , oj1 , . . . , ojK ) = P (i0, oj0 , i1, oj1 , . . . , iK , ojK )P (oj0 , oj1 , . . . , ojK ) .

Puisque P (oj0 , oj1 , . . . , ojK ) n’est qu’un facteur de normalisation dans ce cas, maximiser laprobabilité conditionnelle revient à maximiser la probabilité conjointe 58 sur l’ensembledes séquences des états i0, i1, . . . , iK . En prenant le logarithme (naturel) de chaque membrede 58 et en définissant

L(i0, i1, . . . , iK) = lnP (i0, oj0 , i1, oj1 , . . . , iK , ojK ),

on obtient

L(i0, i1, . . . , iK) = ln π0 +K−1∑k=0

(ln bikjk + ln pikik+1)

et le problème de maximisation devient

maxi0,i1,...,iK

L(i0, i1, . . . , iK).

Ce problème de maximisation peut être résolu en utilisant les techniques de program-mation dynamique puisque les décisions devant être prises à chaque étape intervienneséquentiellement et il est possible de définir des scores partiels pour chaque étape de ceprocessus, plus précisément

L0(i0, i1, . . . , iK) = L(i0, i1, . . . , iK) = ln π0 +K−1∑k=0

(ln bikjk + ln pikik+1)

et

Lm(im, im+1, . . . , iK) =K−1∑k=m

(ln bikjk + ln pikik+1).

À partir de ces deux expressions, on peut dériver une équation de Bellman pour la miseà jour des matrices des scores partiels oprimaux,

LK−1(iK−1) = maxiK

(ln biK−1jK−1 + ln piK−1iK )

et

Lm(im) = maxim+1

(ln bimjm + ln pimim+1 + Lm+1(im+1)

).

Page 51: Une introduction aux statistiques inférentielles

51

En résolvant la récursion de Bellman ci-dessus, on peut calculer la solution à ce problèmede maximisation.

7.5 Algorithme de Baum–WelchUn autre problème souvent rencontré dans le domaine des CMC consiste en l’estimationdes probabilités de transition d’une CM, lorsque l’on connaît une séquence de symbolesoj0 , oj1 , . . . , ojK . La solution par maximum de vraisemblance consiste à maximiser la pro-babilité donnée en 59 sur les entrées pij de la matrice des probabilités de transition dela CM considérée. Cependant, comme il s’agit d’un problème d’optimisation de grandedimension, il est nécessaire d’adopter une approche spécifique. L’une de ces approchesconsiste à utiliser l’algorithme de Baum–Welch qui repose sur l’idée des itérations EMprésentées plus haut (section 3). Les paramètres à estimer sont les probabilités initialesdes états, πi, et les probabilités de transition, pij . Les variables observées sont les symbolesoj0 , oj1 , . . . , ojK . Les variables cachées sont les états i0, i1, . . . , iK . Avec ces hypothèses et ennotant le vecteur incluant l’ensemble des paramètres estimés p, on peut spécifier Q(p, pold)défini en 28 comme suit :

Q(p, pold) =N∑i0=1. . .

N∑iK=1

[ln πi0 +

K−1∑k=0

(ln bikjk + ln pikik+1

)]× πoldi0 bi0j0p

oldi0i1bi1j1 . . . p

oldiK−1iKbiKjK .

L’expression ci-dessus constitue l’étape E. L’étape M consiste en la maximisation deQ(p, pold) sur les paramètres πi, pij , i, j = 1, . . . , N . Ce faisant, on néglige bien sûr quelquesdétails de calcul. Le lecteur intéressé pourra se référer à (Koski and Koskinen, 2001).

8 ExercicesLes exercices qui suivent sont tirés de (Härdle and Hlávka, 2007). Certains dépassentle cadre des notions évoquées dans ce document, en particulier en ce qui concerne lesapplications du modèle linéaire. Les solutions aux exercices proposées sont disponiblessur le site hébergeant le présent doucument.

• It is well known that for two normal random variables, zero covariance implies indepen-dence. Why does this not apply to the following situation :X ∼ N (0, 1), Cov(X,X2) =EX3 − EXEX2 = 0− 0 = 0 but obviously X2 is totally independent on X ?

• Trouver les valeurs α et β qui minimisent la somme des carrésn∑i=1

(yi − α− βxi)2.

• Soit X∗ = HXD−1/2, avec X une matrice (n × p), H une matrice de centrage etD−1/2 = diag(s−1/2

11 , . . . , s−1/2pp ). Montrer que X∗ est une matrice standardisée, où x∗ =

0p et SX∗ = RX , la matrice de corrélation de X .

Page 52: Une introduction aux statistiques inférentielles

52

• Un modèle linéaire peut s’exprimer sous la forme

Y = Xβ + ε,

où X est de plein rang et ε symbolise les erreurs aléatoires. Montrer que la solutiondes moindres carrés

β = arg minβ

(Y −Xβ)T (Y −Xβ) = arg minβεT ε,

peut s’exprimer sous la forme β = (X TX )−1X TY . (voir aussi exercice 8)

• Supposons un vecteur aléatoire Y de distribution Y ∼ Np(0, I). Le transformer pour

créer le vecteur X ∼ N (µ,Σ) avec µ = (3, 2)T et Σ =(

1 −1.5−1.5 4

). Comment

peut-on implémenter la formule résultante sur un ordinateur ?

• Montrer que si X ∼ Np(0,Σ), alors la variable U = (X − µ)TΣ−1(X − µ) suit une loiχ2p.

• Supposons que X soit de moyenne nulle et de covariance Σ =(

1 00 2

). Soit Y =

X1 +X2. Écrire Y comme une transformation linéaire, c’est-à-dire trouver la matricede transformation A. Calculer ensuite V(Y ).

• Calculer la moyenne et la variance de l’estimateur β = (X TX )−1X TY dans le modèlelinéaire Y = Xβ + ε, où E(ε) = 0n et V(ε) = σ2In.

• Calculer les moments conditionnels E(X2 | x1) et E(X1 | x2) pour la fonction dedensité bi-dimensionnelle suivante :

f(x1, x2) =

12x1 + 3

2x2 0 ≤ x1, x2 ≤ 10 sinon

• Montrer que E(X2) = EE(X2 | X1), où E(X2 | X1) désigne l’espérance conditionnellede X2 connaissant X1.

• Trouver la fonction de densité de probabilité associée au vecteur aléatoire Y = AX où

A =(

1 11 −1

), sachant que X possède la fonction de densité définie à l’exercice 9.

• Montrer que la fonction

fY (y) =

12y1 + 1

4y2 0 ≤ y1 ≤ 2, |y2| ≤ 1− |1− y1|0 sinon

est bien une densité de probabilité.

• Déterminer la distribution du vecteur aléatoire Y = AX avec A =(

1 11 −1

), où

X = (X1, X2)T possède une distribution bi-normale.

Page 53: Une introduction aux statistiques inférentielles

53

BibliographieBillingsley, P. (1995). Probability and Measure. Wiley.Feller, W. (1968). An Introduction to Probability Theory and its Applications, volume 1

and 2. Wiley.Fisz, M. (1963). Probability Theory and Mathematical Statistics. Wiley.Johnson, N. L., Kotz, S. and Balakrishnan, N. (1994). Continuous Univariate Distribu-

tions. Wiley.Kendall, M. G., Stuart, A., Ord, J. K., Arnold, S. and O’Hagan, A. et al. (1991, 1999,

2004). Kendall’s Advanced Theory of Statistics, volume 1, 2A, 2B. Oxford UniversityPress.

Ditkin, V. A. and Prudnikov, A. P. (1965). Integral Transforms and Operational Calculus.Pergamon Press.

Wilf, H. S. (1990). Generating Functionology. Academic Press.Kingman, J. F. C. (1993). Poisson Processes. Oxford University Press.Hanson, K. M. and Wolf, D. R. (1996). In Heidbreder, G. R., editor, Maximum Entropy

and Bayesian Methods, chapter Estimators for the Cauchy distribution, pages 255-263. Kluwer.

Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from in-complete data via the em algorithm (with discussion). J. R. Statist. Soc., Ser. B,39:1-38. http://www.aliquote.org/pub/EM.pdf.

McLachan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions. Wiley.Cox, D. R. and Oakes, D. (1984). Analysis of Survival Data. Chapman and Hall, London.McLachan, G. J. and Peel, W. (2000). Finite Mixture Distributions. Wiley.Iosifescu, M. (1980). Finite Markov Processes and Their Applications. Wiley.Gikhman, I. I. and Skorokhod, A. V. (1996). Introduction to the Theory of Random Pro-

cesses. Dover.Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N. and Teller, A. H. (1953). Equations

of state calculations by fast computing machines. J. Chem. Phys., 21:1087-1092. http://www.aliquote.org/pub/metropolis-et-al-1953.pdf.

Hastings, W. K. (1970). Monte carlo sampling method using markoc chains and theirapplications. Biometrica, 57:1317-1340. http://www.aliquote.org/pub/Hastings1970.pdf.

Kirkpatrick, S., Gelatt, C. D. and Vecchi, M. P. (1983). Optimization by simulated an-nealing. Science, 220:671-680. http://www.aliquote.org/pub/kirkpatrick83SA.pdf.

Madigan, D. and York, J. (1995). Bayesian graphical models for discrete data. Internat.Statist. Rev., 63:215-232. http://www.aliquote.org/pub/10.1.1.9.1911.pdf.

Durbin, R., Eddy, S. R., Krogh, A. and Mitchison, G. (1999). Biological Sequence Analy-sis : Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press.

Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applicationsin speech recognition. Proc IEEE, 77:257-286. http://www.aliquote.org/pub/rabiner.pdf.

Koski, T. and Koskinen, T. (2001). Hidden Markov Models for Bioinformatics. KluwerAcademic.

Page 54: Une introduction aux statistiques inférentielles

54

Härdle, W. and Hlávka, Z. (2007). Multivariate Statistics : Exercices and Solutions.Springer.