statistique et analyse des données -...
TRANSCRIPT
Statistique et analyse des données
J. M. MONNEZLe processus d’approximation stochastique de Robbins-Monro : résultats théoriques ; estimation séquentielled’une espérance conditionnelleStatistique et analyse des données, tome 4, no 2 (1979), p. 11-29<http://www.numdam.org/item?id=SAD_1979__4_2_11_0>
© Association pour la statistique et ses utilisations, 1979, tous droits réservés.
L’accès aux archives de la revue « Statistique et analyse des données » implique l’accord avecles conditions générales d’utilisation (http://www.numdam.org/conditions). Toute utilisation commer-ciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impres-sion de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programmeNumérisation de documents anciens mathématiques
http://www.numdam.org/
11
Statistique et Analyse des Données
2 - 1979 pp. 11, 29
LE PROCESSUS D'APPROXIMATION STOCHASTIQUE
DE ROBBINS-MONRO : RESULTATS THEORIQUES ;
ESTIMATION SEQUENTIELLE D'UNE
ESPERANCE CONDITIONNELLE
J.M. MONNEZ
Laboratoire de Statistique - Université de Nancy I
IUT Informatique - Université de Nancy II
Nous donnons dans la première partie de cet article une généralisation d'un théorème de
Blum [2] sur la convergence presque sure du processus de Robbins-Monro dans R ; le résultat
obtenu a pour corollaire le théorème classique de Gladyshev [7] ; il est en fait appliquable
à une généralisation du processus de Robbins-Monro [3]- La démonstration repose sur l'utilisa
tion du lemme de Robbins et Siegmund [17], qui fait intervenir la théorie des martingales ;
c'est donc une démonstration classique, par rapport aux techniques introduites récemment d'une
part par Kushner [11], [12], d'autre part par Ljung [13], [14], pour des processus stochasti
ques recursifs généraux ; nous indiquons dans la suite la différence entre les hypothèses de ces
auteurs et celles faites ici.
Nous donnons également un théorème de rapidité de convergence, qui a pour cas particuliers
les résultats énoncés dans [15] pour le processus de Robbins-Monro.
Dans la deuxième partie de l'article, nous faisons une présentation générale de l'estima
tion séquentielle d'une espérance conditionnelle par utilisation d'un processus d'approximation
stochastique faisant intervenir plusieurs observations à chaque étape. Des applications de cette
technique ont été étudiées par différents auteurs9 qui ne font intervenir, à notre connaissance,
qu'une observation à chaque étape du processus. Nous donnons un résultat de convergence presque
sûre par application du résultat de la première partie, et un résultat de normalité asymptoti-
que, obtenu à partir d'un théorème établi par Fabian [5] pour un processus général d'approxima
tion stochastique.
PARTIE A : RESULTATS THEORIQUES
A. 1. INTRODUCTION
A.1.1. Présentation du processus de Robbins-Monro
Soit {Y(x), X € R} une famille de variables aléatoires réelles observables pour toute va
leur du paramètre réel x ; Y(x) a pour moyenne M(x) , inconnue. On cherche à estimer la solu-
12
tion 9, supposée unique, de l'équation M(x) - 0.
Pour cela, Robbins et Monro [16] ont construit le processus stochastique (X ) défini par
X j * X -a Y , où Y est pour n fixé une variable aléatoire réelle dont la loi de probabi
lité conditionnelle lorsque X. * x1(...,X - x , est la loi de Y(x ) (en pratique, la réalisa-i 1 n n n
tion de Y est une observation de Y(x )), et (a ) une suite de nombres réels positifs telle « n « n n
que E a = », Z a* < «. Sous certaines hypothèses portant sur la famille {Y(x), x € R}, le 1 " 1
processus (X ) converge presque sûrement vers 0. n k k
Le problème a été étendu au cas où x € R , et où Y(x) est à valeurs dans R , puis au
cas où x € H, espace de Hilbert réel séparable, et où Y(x) est à valeurs dans H.
A.1.2. Théorème de Blum
Dans cet article, (•,•) désigne le produit scalaire euclidien usuel dans R , et || *[| la
norme associée.
Nous rappelons le théorème de convergence du processus de Robbins-Monro dans R , établi
par Blum dans [2].
u
ThzoA.zmz 1. - Soit & unz fonction KZQJULZ non ne.gcubi.vQ. dz^ûiiz dan* të , contLnûmznt dLfâzn.zn-tiablz jusqu'à VondKz Z. Soit V Iz gtiadlznt, À la mcuCAA.cz deA d&U.vzz6 pantlztlzb d'ondxz 1 dz i.
u
On a, d'aptâ* la. fanmjJLe. de. Tayloti : va e IR, vx e /R ,
iix-*Vlx)) = iix)-a.Mx),Yix)] * *£• [V[X),AU-VCLVU)MX)), CLVZC 0 < M < 1.
SoU l/aU) - jEUV[x).A[x-vay[x))V[x))]. On tuppo&z 1<U> ionctcoru M eX V meAunableA. On ^ait LZA kypothè&eA : 1.1 Ve > 0, <>M$| | x_ e | |> £U(*) - |$(e l | > 0 ;
1.1 3V < « : va,VX, (/a(x) § V ;
1.2' 36 > 0, il/-< » : va, iuP\\x.Q\\<ôVa{K] < v '
1.3 VE > 0, <ùi<jx_ei>e(fl(x).MU)] > 0 ;
1.3' 3X > 0 : ve > 0, va, ^ , | x _ e | . > e ( Wx) ,M(x) )-Al/*(x) ) > 0 ; 00 00
1.4 a > 0 ; L CL = oo ; Z CL2 < oo ; n J n 7 n
1.4' vn > 1, an ç 2\.
SOUA lz& hypoth&>z& Kl, 1.2, 1.3, 1.4, X? étant une. vcvuablz aJLzcutolAz tzJULz que
E[(J(Xj)] < », la buJLtz dz vaAÂjxbliU aJLzatoviQA (X ) zonvvigz pizbquz àuJiwznt vz/u> e.
SOUA IdM hypothz&zà 1.1, 1.V, 1.3', 1.4, 1.4', X. étant unz vcuUablz aJizatoln.z toÂlz
quz E[|{(XJ] < », la 6ultz dz vaAsLablzà alzatoln.z& (X ) convzngz pK2Mquz AÛAzmznt ueAA 9.
A . 1 . 3 . Théorème de Daubeze
Daubèze a g é n é r a l i s é dans [ 4 ] l e théorème de Blum sous l e s hypothèses 1 .1 , 1 . 2 ' , 1 . 3 ' , 1.4,
13
k n
aléatoires {Y(x), x €(R }, Daubèze démontre la convergence presque sure du processus de Robbins-
1.4', en introduisant à la place de la fonction f une suite de fonctions (f ) ; pour n
fixé, la fonction f atteint son minimum en un point 9 , et la suite (9 ) converge vers 9.
Sous certaines hypothèses concernant la suite de fonctions (f^) et la famille de variables
aléatoires {\
Monro vers 9.
A.1.4. Présentation du processus de Burkholder
Soit une famille de variables aléatoires réelles observables {Y (x) , n € N, x € fR}, et
E[Y (x) ] » M (x). On suppose maintenant qu'il existe un nombre réel 9 tel que :
Ve > 0, 3N(e) : Vn > N(e), (|x-9| > e) •+ ((x-9)M (x) > 0). 1 • n
Pour estimer 9, Burkholder [3] propose le processus (X ) défini par X . = X -a Y , Y n n+1 n n n n
étant pour n fixé une variable aléatoire réelle dont la loi de probabilité conditionnelle lorsque X. • x., X- - xov...,X = x , est la loi de Y (x ), et (a ) une suite de nombres réels n 1 1 2 2 ' n n n n n
positifs. Ce processus a pour cas particuliers celui de Robbins-Monro et le processus d'optimisa
tion stochastique de Kiefer-Wolfowitz [10]. Burkholder énonce le résultat suivant :
Th&otâme. 2.- SoÂJt 1/ U) * Van[V {*)]. On 4appo4e lu ^onctionA M e£ V muuAablu.
On fflJJt lu hypothl&u :
2.Î 31/ < « : VH,VX, l/ tx) « 1/ ;
2.2 3A < « : W,VX, \Mn[x)\ 4 A[I+ |x | ) ;
2.3 WO < a, <jt < - . | an « < 6 j < | x . e | < a f l«n«x) I - - ;
2.4 an > 0 ; Z a* < ».
Soaô lu kypo£hZ&u 2.7, 2.2, 2.3, 2.4, X? ztant unz vaAlablz alzcutolnz tâoMe,, la àtuXe. du
vaAAJiblu aJULatoïAU KzzJUiu (X ) convtAgt pKUqua 4>ÛA<wznt VZAA 9.
À.1.5. Présentation des résultats démontrés
k k
Nous nous plaçons dans le cas où x appartient à (R et où Y (x) est à valeurs dans IR .
Dans cette présentation, nous supposons que chaque fonction M a un zéro unique 9 (en fait,
nous verrons que l'hypothèse demandée, 3.3.i, est moins forte) et que la suite (9 ) converge k n
vers un élément 9 de IR .
Nous donnons pour le processus (X ) une généralisation du théorème de Blum sous les hypo
thèses 1.1, 1.2, 1.3, 1.4, en introduisant à la place de la fonction f une suite de fonctions (f ), comme dans [4]. n
Nous donnons un corollaire de ce théorème, pour un choix particulier de la suite de fonc
tions (f ), puis un deuxième corollaire dans le cas particulier du processus de Robbins-Monro, n
qui est le théorème établi par Gladyshev [7].
Sous le même type d'hypothèses, nous donnons un théorème de rapidité de convergence, qui a
pour cas particuliers les théorèmes de rapidité de convergence du processus de Robbins-Monro énon
cés dans [15].
14
On peut écrire pour le processus étudié ici la relation de récurrence sous la forme
X = X -a (M (X )+Z ), avec Z = Y -M (X ) ; il entre dans le cadre des processus récursifs n+1 n n n n n n n n n généraux (X ) étudiés par Kushner [11], [12] et Ljung [13], [14], soit
n X . = X -a Q (X £J, où a est un nombre positif, Q (X ,£ ) une fonction de X et de Ç , bruit n+1 n nxn n^n n r n n n n n
aléatoire pouvant dépendre de X Q (ici, £ n = Z R ; on a E U J = 0). Cependant, ces auteurs font
l'hypothèse que E[Q (x,£ )] converge vers f(x), et étudient la convergence en probabilité et
presque sure du processus (X ) vers l'ensemble des zéros de f, sous certaines hypothèses (en
particulier sur f ). Dans cet article, si l'on reste dans toute la généralité du problème, on ne
suppose pas que M (x) converge vers une fonction dont 9 serait le zéro ; on fait seulement
l'hypothèse que M a pour zéro 9 , et que la suite (9n) converge vers 9.
A.2. THEOREMES
A.2.1. Théorème de convergence
Ihlotâmz. 3 . - SoU (j$ ) unz &ILUZ do. ioncXlom nlzllz* non-nlgaXÀMZA, dliinizA dam, /R , conti-nûmznt di.iiVizniUa.blzA jusqu'à Votvdxz 1. SoiX A la mcuùiicz dz* dVUvtzA panXA.zU.ZM d'ofidxz l
dz <n. On a, d'apnè* la &onmulz dz Tayloi, vn, vx,
Soit VnU) = giad &nU), Vn(x) - \ E[ (^(x) ^ U n ^ V n 1 * 1 )Vnix) ) ] . On 6uppo6Z lz& fonction* Mn zt Vn mzt>uAablz&. Soit (9 ) une hvJLtz d'zlzmznt* dz (R qui convoAgz vzu 9.
On faut lu hypothl6z& :
3.1 l Ve > 0, vx, 3n(e,x) > 0 : (||x-t/|| <n(e,x)J * (v*t » 1 ,\ ^ (x) -^(t /) | $ e) ;
3.1 U vn >. I , U t t + î ( x ) - g x ) | « * f t < n , x , + V ™ZC 6n » °^n > °> l6n « °°'EYn < °° ;
3.1 Hl Ve > 0, 3vle) > 0 : Vn 5, 7, ^ | | x . 9 |>c l ^ ( x ) "^n{en' I * v ( e l ;
3.2 3cf > 0 : Vn > 7, vx, l/^U) « dH + l x ) ) ;
3.3 *t vn > 7, ( t ^ U l ^ l x ) ) > 0 ;
3.3 ^ V0 < e < J, Ê V ^ x : e < U n ( x ) - ^ ( 9 K l ) | 4 } (V*>'Mn (*>' ' °° '
3.4 an > 0 ; Z a2n < ».
Sou& 1<U hypothz6Z6 3.1, 3.1, 3.3, 3.4, X? liant unz vcuUablz alzatoÂAz tzUz quz
E[tf7(Xj]] < «>, la *ultz dz vasilableA alzcuùolnz& (X J converge p^e^que AÛAMznt vzte 9.
La s u i t e de f o n c t i o n s (f ) , t e l l e que f (x) = || x-9 | | 2 , s a t i s f a i t à l 'hypothèse 3 . 1 , à » n n n
c o n d i t i o n que Z | | 9 n - ôn + 1 l l < °° ( v ° i r [*]>•
n=l 00 .
Remarque : Les hypothèses 3 .2 e t S a2 < » ne sont pas s t r i c tement n é c e s s a i r e s . I l s u f f i t que, • * — 1 n »
pour tout n, V (X ) s o i t i n t é g r a b l e e t que Z an < 1 + < 5
n ) vn ( x
n > < °° P * s *
15
A.2.2. Corollaires
En faisant Y (x) = Y(x), f ~ f, pour tout n, on se trouve dans les conditions du théorè
me de Blum, dont les hypothèses 1.2 et 1.3 sont alors affaiblies. oo
En prenant f (x) = Il x—0 II 2, à condition que E II 0 —0 .11 < », on a le théorème suivant de n " n" . ' n n+P
convergence presque sure du processus de Burkholder :
ZoKolZaÀJiz 1,- On &uppo*z l u honcAlonA M (x) zt E[||y (x)|[2] muunablu. n» n
Soit (9 J une bultz d'$.lzmznt& dz /R qui convzngz vz>u> 9 .
On h&Lt lu hypothÎAU : C7.7 3d > 0 : Vn, Vx, E [ | | y x ] || 2 ] $ d( J+||x-9n | | 2) ;
C7.2 l Vn > 1, (x-ew,Mn(x)J > 0 ;
C7.2 U V0 < e < 1, Z an « * e < | x _ e „<! ( x - e ^ l x l ) - « ; oo " e
CJ.3 W=7 ™
C7.4 a^ > 0 ; Z a 2 < » .
Sou* lu hypothlàu C1.1, CI.2, CI.3, CI.4, X- ztxmJL unz vaniablz aléatolnz toJULz quz
E[||Xj||2] < », la &ultz dz vanlablu alzatolnu (X J zonvzngz pKUquz AÛAzmznt vzn* 9.
En f a i s a n t Yn(x) » Y(x ) , f (x) - f ( x ) = | | x - 9 | 2 pour tout n, on o b t i e n t l e théorème c l a s
sique de convergence presque sure du processus de Robbins-Monro, é t a b l i par Gladyshev [ 7 ] :
CoKoUaùiz 2,- On 6uppo6Z lu fonction* M(x) zt E[ | |y(x) | |2] muunablu.
On iaÀX lu hypothlAU :
C2.Î 3d > 0 : Vx,E[||y(x]||2] « d( 7 + ||x-9|| 2) ;
C2.2 V0 < e < 1, ^ ^ i ^ . Q i ^ l t x - ^ M t x ) ) > 0 ;
Cl.3 an > 0 ; Jan = » ; S a 2 < ».
Soaô lu hypothèAU C1.1, Cl.l, C2.3, X? ztant unz vaAÀablz cJLzatoÂJiz tzlZz quz
E[||X?||2] < co, la àultz dz vanlablu aJLzatoltiu (X J convzngz pKUquz AuAzmznt vzte 9.
A . 2 . 3 . Théorème de r a p i d i t é de convergence
ThzoKzmz 4 . - On n.zpn.znd l'Introduction zt lu notations du th.zon.zmz 3. On faJUL Vhypotkz&z
3.111 ; ceoc zntAalnz l'zxÂAtzncz d'unz fonction tf toÂJLz quz, Vx, ^(x) - Hm tf„(x).
sou 1-°^! , ^ ,
n+1 On &ouut l u hypothJUu :
4.7 Vn, Vx, tfn(x) » (5(9) ;
16
4.2 3K > 0 : Vn, Vx, IV^x) ,Mn(x) ) > 2K|*nlx) - ^ ( 9 ^ ) | ;
4.3 E[^(X,J] < »
4.4 an > 0 ; Z a^ - » ; L a2 < » ;
4.5 40>c£ 2Kn a * a,, ; n n
4.5 ^ e n -v n = Yan+o(an) , avec 2K-y > 0 ; e ^ = o(awJ ;
4.5 H u + u > 0 ; 30 < p $ 1, 3a > 0 : Vu, c < - r £ - ;
4.5 ^cc a -»• a ou Z J . < » . n 1 J
SOUA l u hypoth&AU 3.111, 3.2, 4.1, 4 .2 , 4.3, 4.4, 4.51, on a
a
zn
SouA lu hypothzAU 3.111, 3.2, 4.1, 4.2, 4.3, 4.4, 4.SU, pouK u > p, on a
^ V - F 1 Et<BlxB)-rf(e|] <».
^"n-. n E t^ (V^ ( 9 , ] <0° '
Soaô IZA hypothlAZA 3.1U, 3.1, 4.1, 4.1, 4.3, 4.4, 4.SU., 4.5UL, pouA u. - p, on a
Lan — 2 — E U (X )-,5(9)] < », zX pouA u. < p n Log n n n
En faisant Y (x) - Y(x) , f (x) = f(x) = || x-9||2, pour tout n, ce théorème a pour cas parti
culiers les théorèmes de rapidité de convergence du processus de Robbins-Monro énoncés dans [15] :
on obtient alors le comportement asymptotique de E[|| X -9| 2].
A.3. DEMONSTRATIONS
A.3.1. Lemmes
lommz 1." Soit [Çl,Cb,?) un upacz pKobabULuz, [F ) unz bultz cA0ÂA6antz dz 6ouA-t/tlbuA dz CL.
SolX pouK tout n, z . B , £ zt ç du vanlablu aJLzatoln.u Kzzllu FM - muunablu, lw&-nw n ^n ^n w gnablu, non-nzgatlvu, tzUlu quz E[z j | F ] ^ z
n ' 7 + 6 „ ' + ^ n " C K l inouA appdZlznjonA Iz pKozuàuA
(z ) une p*zudo-6uA-maAtlngalz) ; on AuppoAZ quz ZQn < », ZE>n < », p.6.. MOHA, la 6ultz dz
vaKuxblu aZzatolnu ( z ) zonvvugz ptiuquz Ausizmznt vzhA unz vasilablz atzatolnz z ptiuquz n oo
AÛAemznt filnlz, zt l'on a Zçn < » p.6. .
Ce r é s u l t a t a é t é é t a b l i par Robbins e t Siegmund dans [ 1 7 ] .
Le/rime 2 . - SOUA l'kypothoAZ 3.111, 3i : Vx, &ÛTI ^ j L ( * ) " ^(x) • SI l'on ^alt zn outKZ l'hypotkèAz n-*» n
3.11, aiofu,, ( e n -. 9) -» (iJw(9w) - ne)).
17
Ce lemme e s t démontré dans [ 4 ] .
A . 3 . 2 . Démonstration du théorème 3 de convergence
1) So i t T = f (X ) . Nous a l l o n s appl iquer l e lemme 1 à la s u i t e (T ) .
n n n r r n D'après 3 . . i i , T n + 1 = f n + , ( X n + , ) .< ( l + « n ) f n ( X n + 1 ) + Y n =
2
" (,+ôn)fn(VanV+^n = <1+V(fn<Xn>-an(Dn<V >\} T (V V W n V Y n ) H '
Donc, E[T n + 1 |X rX 2 XB] .< ( 1+V ( T ^ V V ' V V )"
+ a n V n ( X n>VY n « < 1 + 6„> ( T „ - ^ ( D n <Xn>'Mn <X„> V n n n / n n \ ^ n n \ n n n n y
+ da 2 ( l+T ) V Y (d'après 3 .2) = T (1 + 6 +da2+d6 a 2 ) -n n / n n n n n n
- a (1 + 6 )(D (X ),M (X ) V Y +da2+da26 p.s. . n n \ nx n ' nx n ) 'n n n n v
D'après 3.1ii, 3.3i, 3.4, les hypothèses du lemme 1 sont vérifiées. Donc, 3T < » p.s. :
T P'S'> T, et n
Z a (1+6 )(û (X ),M (X ) ) < » p.s. . . n n'\ n v n' * n n7 ) v
Remarque : On a E[T |X ,X , . .. ,X 1 4 ( l + <$n)T+a2( 1+6) V (X)+Y -a( 1+6)( D (X) ,M(Xn)Y *—— n+ l ' i z n n n n n n n n n n \ n n n n y
p • s * On constate que, pour obtenir la conclusion T ™ — — ï T, il suffit que pour tout n, V (X ) oo n oo n n
soit intégrable et que Z a2(1+6 )V (X ) < » p.s. ; les hypothèses 3.2 et Z a2 < » ne sont pas I n n n n i n
strictement nécessaires ; ceci rejoint une préoccupation de L.Ljung [13], [14], qui affaiblit 00
1'hypothèse Z a 2 < ». 1 n
2) Nous allons montrer que T = f(9) p.s. .
Soit C = {w : T (w) -+ T(a))} ; soit n
C. = U : Z a (1+5 )(Dn(Xn<w)),Mn(Xn<w)) ) < »} ; P(C n C. ) = 1. i . n n \ n n n n y 1
Soit a) € C fi C ; supposons T((JJ) * f(9).
T (w) *+ T(CJ) ; d'après le lemme 2, f (9 ) + f(9). n n n
Donc, I V ^ ' W I - |T(u)-f(8)| > 0 ; 3e, > 0,
311((0,6,) : Vn > N(u),e,),e, < I V ^ ' W ' < j - .
18
On a, avec N = N ( o j , e . ) ,
1 ^ < , + a j ( M M w ) > » M « < M w > 0 > * a„fDr,(x«(w)),Mn(Xn(U)))>) = », d'après 3.3. N+1 n n \ n n n n / N + J n\ n n n n J
Or, w Ç Cj ; il y a donc contradiction ; Vu € C n C., T(o0 - f(9).
3) Nous allons montrer que X -9 P's ' > 0. n n
Soit 03 € C fl C. ; supposons que X (o>)-9 —/—» 0. i n n
Alors, 3e2 > 0, 3(n^) : VS,, 11^ (u)-en || > e r
D'après 3.îiii, V£, |T (w)-f (9 ) | ï v(e0) > 0.
Comme f (9n ) •+ f(9), 36 > 0, 3L : V£ > L, |T (u>)-f(6)| > 6.
Or, T (03) -»• f(9) ; il y a contradiction.
Donc, VOJ € C n C. , X (o3)-9 •+ 0 ; comme 9 -*- 9, on en déduit que X -9 P'S* > 0. l n n n n
A.3.3. Démonstration du théorème 4 de rapidité de convergence
Nous citons simplement ici les étapes de la démonstration, qui est parallèle à celles don
nées dans [15 ].
Soit Tn = ffl(X ). En utilisant 3.1ii, 3.2, 4.2, on montre que
E[Tn+1-f(9)] $ E[Tn-f(9)](l-2K an"2K a
n Vd a n ( ! + 6n ) ) +
+ ÔE[T ]+ 2K a (1+6 ) | f (9 ) - f ( 9 ) | + d ( l + f ( 9 ) ) ( l + ô ) a 2 + Y . n n n n ' n n • n n n
En utilisant 3.1ii, 3.2, 4.3, 4.4, on montre que :
3A : Vn,E[T ] < A. On en déduit que : 3F > 0 :
E[T - f ( 9 ) ] « E[T - f ( 9 ) ] ( l - 2 K a ) + F ( ô +Y„+a2( l+«„)+an ( 1+6 ) | f (9 ) - f (9) | ) . n+1 n n n n n n n n ' n n '
Pour obtenir les conclusions du théorème, on utilise les lemmes III-2 et III-3 de [15], dus
respectivement à Schmetterer [18] et Venter [19].
PARTIE B : ESTIMATION SEQUENTIELLE D'UNE
ESPERANCE CONDITIONNELLE
B.l. INTRODUCTION
B. 1 . 1 . Présentation de la méthode
Soit une variable aléatoire réelle observable Y. Soit une variable aléatoire observable X,
à valeurs dans (R .
Soit tpl ,ip2,... ,(fr p fonctions réelles de m variables réelles, mesurables, connues.
On pose le problème suivant : trouver une combinaison linéaire des variables aléatoires
réelles tp1 (X) ,ip2(X) ,... ,<fP(X) ,9 V (X)+92cp2(X)+.. .+9PtfP(X), qui approche E[Y/X] au sens des
moindres carrés.
Soit 9 et ip deux matrices-colonnes, avec 9T =8 (91,92> - • • »9 ) » tp1 =* (tp1 tp2». .. ,<pp) . On
cherche 9 qui rende minimal E[(E[Y/X]-9'tp(X))2 ], ou de façon équivalente' E[(Y-9f <p(X)) 2 ].
Comme gradQ E[(Y-9'<p(X))2 ] * -2E[(Y-9!tp(X))tp(X) ], on est conduit à introduire la famille de va-
riables aléatoires Z(9) a (Y-9'(p(X))<p(X) . Le problème posé revient à résoudre l'équation
E[Z(9)] = 0, dont on suppose la solution 9 unique.
Pour estimer 9 > on construit le processus de Burkholder (0 ), o n
Q„+1 = Qn
- an ~ir * ip(x .)((p'(x . ) 0 - Y n . ) ,
n+l n n m . — . nj n j n nj
où les (X . ,Y . ), n * l,2,...,j = 1,2,...,m , constituent un échantillon de (X»Y) obtenu à nj nj n
l'aide d'expériences indépendantes ; à l'étape n, on fait donc m observations indépendantes
de la variable aléatoire (X,Y).
B.1.2. Présentation des résultats démontrés
Nous donnons un théorème de convergence presque sure de ce processus, et un théorème de nor
malité asymptotique ; dans ce dernier résultat, si l'on prend a du type — , il apparaît que
la matrice de covariances asymptotique est en ; dans le cas où m ne dépend pas de n, nm^ n
elle dépend donc du nombre total d'individus observés au cours des n étapes, et non pas du
nombre n d'étapes ; ceci justifie que l'on fasse plusieurs observations de la variable (X,Y)
à chaque étape.
B.1.3. Quelques applications
1) Régression linéaire
Y est la variable expliquée ; les m variables aléatoires réelles explicatives
X^X2,...,* constituent la variable X. On peut approcher l'espérance conditionnelle
EtY/X1 ,X2, . .. ,Xm] par une combinaison linéaire des p variables ^(X 1 ,X2 , ... ,Xm) ,
i = l,2,...,p, en utilisant cette méthode séquentielle.
2) Détermination d'une fonction discriminante bayesienne
On dispose de r classes d'individus C.,C7,...»C ; pour classer un nouvel individu, on
mesure m variables X X,X 2,...,A .
Soit, pour i = l,2,...,r, Z. la variable indicatrice de la classe C.. Soit P(C./X) la
probabilité a posteriori de la classe C. lorsque l'on observe X = (X1 ,X2, .. . ,A ) ; on a
P(C./X) » E[Z./X]. Pour approcher P(C./X), pour i = l,2,...,r, et obtenir ainsi des estima
tions des fonctions discriminantes bayesiennes, on peut utiliser cette méthode séquentielle,
avec Y = Z£ et X = (X1,X2,...,Xm).
20
3) Estimation d'une fonction
Soit h une fonction réelle de m variables réelles. Soit une variable aléatoire X à
valeurs dans (R ; on suppose que l'on peut observer la variable aléatoire h(X) .
On peut approcher h(X) par une combinaison linéaire des tp (X), i - l,2,...,p, et estimer
ainsi la fonction h, en utilisant cette méthode séquentielle avec Y = h(X).
4) Estimation d'une fonction h(x) =• E[Z(x)]
Soit une famille de variables aléatoires réelles {Z(x), x € (R } ; soit E[Z(x)] * h(x) .
Soit une variable aléatoire X à valeurs dans R ; on suppose que l'on peut observer la varia
ble aléatoire Z(X). Pour estimer la fonction h, on procède comme en 3, en prenant Y • Z(X).
Ceci peut s'appliquer en particulier à l'estimation de la fonction de répartition d'une va
riable aléatoire à valeurs dans R , en prenant pour Z(x) la fonction de répartition empirique.
Le problème I, dans le cas d'une variable explicative, est étudié dans [7] ; le problème 2,
dans le cas de deux classes, les problèmes 3 et 4, ainsi que d'autres applications, sont étudiés
dans [9] et [l] ; les auteurs y ont utilisé un processus de Robbins-Monro avec une observation
à chaque étape. Nous faisons ici une présentation de ces applications dans le cadre général de
l'estimation d'une espérance conditionnelle, en utilisant un processus faisant intervenir plu
sieurs observations à chaque étape.
B.2. THEOREMES
B.2.1. Théorème de convergence
Thzotizmz 5 .- On &<Ut lu hypotkzAU :
5.1 II n'zxlAtz paA dz izlatlon HnzaJjiz znt/iz tp1 (X),tp2(X),.. . ,tpr (X) ;
5.2 lu momzwtA d'onÀxz 4 dz la va/uablz aJLzatoÀJiz (tp1 (X) ,tp2(X],.. . ,tpP(X),V) ZXÀA-
tznt ;
5.3. an> 0 ; ï ^ - • ; S a* < - .
SOUA lu hypotkzAU 5.1, 5.2, 5.3, 0, ztant unz vanÀablz alzatolnz tzllz quz
E[||0j||2]< », la. 4>ultz dz vanlablu aZzatolnu (0 ) zonvzngz pKUquz bvjvmznt VQAA 9 .
B.2.2. Théorème de normalité asymptotique
On considère dans ce théorème des suites (a ) particulières, qui vérifient l'hypothèse n
5.3.
ikzoKQmz 6.- Soit z i e ) « tp(x) (tp1 ixje-y) ,M(e) = E [ Z ( e ) ] . Soit E[tp(X)tp' (X) ] = B ; Aolt A la. kzdxiÂtz dlagonaZz dz B, P la matAlcz onthogonalz dz
paAàagz : A = P'BP ; &olt X la pluA pztltz valzun p/iopiz dz B.
21
On ffiJit lu hypothoAU :
6.1 H zxlAtz K > 0 tzl quz la vaxlablz alzatolAZ ((p1(X),(p2(XJ,.. .,if[X) ,V) admzt-
tz du momzntA d'oKdxz 4+K ;
6.2 m : t û n E[ (Z(9) -M(6) ) (Z(e ) -M(e) ) ' ] - ir ; 9+90
6.3 3n : lÀm m = m ; n-x» n
6.4 3 y < B < / , 3 û > 0 : n$an + c ;
/OOOt g = J, C > JJ .
f [r*?)li On dJLilnJUt la mcuùilcz M = c2 ( -^-^
fi poun. B - ï avzc y - <
[O pouK B * /. SOUA lu hypothoAU 5.1, 6.1, 6.2, 6.3, 6.4, on a :
I # srn nz (0n-eo) — ^ - » ^°(fl,PMP»j.
B.3. DEMONSTRATIONS
B.3. 1 . Lemmes
Leffime 3 . - So^C a > J. So-ct Xj,X„,...,X n vcvûablu alzatoln.u danA !RP, dzfilnlu 6UA un mê
me upa.cz pKobabllÀAz, tztlu quz E[||X.||a] zxÀAtz, pouK l = 1,2,...,n. ManA,
X7+*2+" * + \ iia
^ ( E [ | | X , | | a ] ^ . . ^ [ | | X J a ] ) .
Lejnmz 4.- On zonAldViz Iz plocUAuA dz Burdzholdzn danA IRP. On KzpKznd lu notatlonA dz^lnlu
znA.1.4. zt A. 1.5. .Soit i (xi-M^CxJ = Zn(x), ^-M^fX^) = Z^. On àuppotz lu fonctions* Mn(x) e* E[||y (x)||2] me^u/Lab£e*. So^t (ew) une -ôuXte d'zlëmzntA dz (Rp qui zonvzngz vznA 9-
On icuct lu hypothëAU :
/HZ„U)| |2dP= 0 ; 14.1 Lm^lm^wp^ x . e | <£
A«Zn(x)|| ï R } 14.Z 4upn4upKE[lZnU)l2] < - .
Soai IZA hypothliZA L4.1, 14.1, C1.1, CI.2, CI.3, CI.4, on a :
^ v - ^ p * f nzJ2rfp-°-
Ce lemme est une extension au cas du processus de Burkholder du lemme II.2 de [15] pour le
processus de Robbins-Monro ; nous n'en reprendrons pas la démonstration.
22
Lzmmz 5.- Soit unz &amUJLz dz vcvdablu alzatoln.u dayiA (Rp, {Z^U), n e W, x €.RP}. On hait
Vhypothzàz :
L5.1 39, 3e0 > 0, 3J > 0 : P^"P||x_e||<e E[|lZnl
X,H ] < °°-
Sou6 Vhypothl&z. L5.1, on a :
J{«ZwU)|| >R).
La démonstration de ce lemme ne présente pas de difficulté.
B.3.2. Théorème de Fabian
Soit (Œ,a,P) un espace probabilisé ; toutes les variables aléatoires intervenant dans la
suite sont définies sur (fi,a,P) - Soit (Vn> et (TJ deux suites de variables aléatoires dans
Rp, (T ) et ($ ) deux suites de variables aléatoires dans RP*P. Soit 8 et y d e u x nombres
n n p réels. Fabian définit dans [5] le processus (U ) dans R par :
Thzotâmz 7.- Soit ( 7 ) unz àulXz non-dzcnoJA&antz dz 6ouA-tAÂbuA dz CL. On £alt lu hypothz-
4Z6 :
7.7 vu > 2, Tn, * n _ j , Vn_, *ont Tn-muuAablu ;
7.2 3r dz^lnlz potÂXlvz €/Rpxp : Tn P**' > T ; 4o>W: A £a KzdixÀXz dlagonalz dz r,
P la matnlzz oAthogonalz dz paAAogz : A * PTP ; &olt X la pluA pvtltz du
valeuAA pKopKU dz r ;
7.3 3* €<RPXP : *nJB2±^> « J
7.4 3T €fl?P : ^ -P-^-> T ou E[||Tn-7]|] * 0 ;
7.5 vu, E[Vnl T f t] = 0 ;
7.6 3E e/RPKP : | E [ V ; i Tn^l " ^ ^ ° ;
7.7 3C > 0 : VU, | |E[ lMg ^ J " ^ < C P'4 ' '
7.8 VA. > 0, Lun^ f \\Vj\\2dP = 0
ou g = 1, V* > 0, J U m ^ i ï f / ||Vy||'dP - 0 ;
'" i C|| Vy| * >*/}
7.9 0 < B $ ' »
7.10 y ï 0 ;
40-cC y+ " Y Pou/L 3 = Uy+S° PouA 3 * ' ; Y < 2X ;
23
SOUA lu hypothoAU 7.7 a 7.70, on a
-> oP( ( r - \ I) T , PMP'l avzz M = [ :¾. ) Y/2 «£ to/ v+ -7 \ / ( P ' ^ ' P )
nY / ^ U y ,j°ftr- I Tl ' T DUO» \ „ . . « „ u - f A
formé de variables indëpen-
ables aléatoires
B.3.3. Démonstration du théorème de convergence
1) Soit, pour tout n, f(X .-Ynj)» J - l,2,...,mn} un échantillon f
dantes de la variable aléatoire (X,Y). On définit la famille de vari
{Z (9), n €(N, 0 €RP>, telle que Z (0) = — Z tp(X .)(tp'(X .)9-Y À n j-l n j \ n j n j/
On a E[Zn(9)] = M(9) = E[ip(X)(p! (X) ]0-E[tp(X)Y]. D'après 5-1, la matrice E ^ X ) ^ ' (X) ] est
définie positive ; l'équation M(6) - 0 admet pour solution unique 9 o = ( E W X j t p ' t X l l V ' E W y Y ] , e t on a M(9) = E[<p(X)<p' (X) ] (9 -0 Q ) •
Pour montrer la convergence presque sure du processus (0 ) vers 0 , nous allons véri-n o
fier les hypothèses du corollaire 1. On a ici : Vh,9 =* 0 ; l'hypothèse Cl.3 est vérifiée : n o * r '
d'après 5 . 3 , l 'hypothèse Cl .4 e s t v é r i f i é e .
2) Montrons que : 3d > 0 : Vn, V8, E[ | |Z n (9) | | 2 ] ^ d(I+ | | e -0 | | 2 ) .
D'après l e lemme 3 , on a
E [ | | Z n ( 9 ) | | 2 ] « E[||cp(X)(cpf (X)0-Y)||2] = 0'E[(<p(X)<p'(X))2]0-
-2E[Ycp' (X)(p(X)cp' (X) ]0+E[tp' (X)<p(X)Y2] ;
d'après 5 . 2 , l e s matrices i n t r o d u i t e s e x i s t e n t . Donc,
E r | l V e ) | | 2 ] s ||E[(<p(x)<p'(x))2]|| ||9||2 +
+ 2||E[Y(p'(X)<p(XV(X)]|| ||e|| + ||E[<pf(X)<p(X>Y2]|| ;
on en déduit la p r o p o s i t i o n . L'hypothèse C l . l e s t v é r i f i é e .
3) Montrons que : Ve > 0, i n f . | e _ Q »\_ ( 0 -0 o ,M(0) ) > 0 .
So i t X l a plus p e t i t e valeur propre de l a matr ice d é f i n i e p o s i t i v e E[cp(X)cpr (X) ] .
On a (0 -9 o ,M(9) ) = (0-0o,E[(p(X)<p' (X) ] ( 9 - 9 Q ) ) > X| 0 - 0 J 2 .
On en déduit la proposition.
L hypothèse C1.2i est vérifiée ; comme Z an = <*>, l'hypothèse C1.2U est également véri
fiée. !
24
B.3.4 . Démonstration du théorème de normalité asymptotique
1) Le processus s ' é c r i t : 0 A l - 0 -a Z , avec n+1 n n n
- — E tp(X , ) ( V (X . )0 -Y .V n mn j = l v nj \* nj y n n j J
On a : E[Z 10 1 = M(0J - B(0 -9 ) . n* n n n o
Soit W(9) = Z(9)-M(9) = lp(X)LI(X)e-YVM(e),
Wnj(9) =«P(Xnj)(cp'(Xnj)9-Ynj)-M(9),
V 9 ) " S " . \ V 9 ) ' Wnj = W nj( 0 n>' n j»l J J J
"n = WnOn) - Z - M ( 0 ) . n n n n n
On peut écrire le processus sous la forme :
n+1 o n n o n n
Nous allons vérifier pour ce processus les hypothèses du théorème de Fabian, en posant
0-0 = U , n8a B = T , Y = B, -n(6+Y^/2a I - $ , W = V , T - 0, et en prenant pour T la n o n* n n ' * n n* n n' n * r r n tribu engendrée par 0.,02,...,0 .
2) Les hypothèses 7.1 à 7.5 sont vérifiées, avec T - cB, $ = -cl (d'après 6.4), T - 0.
3) Montrons que : 3E € (RPXP : Il E [W W'IT ]-E|| P'S' > 0. 11 n n ' n "
E [ 5 i J ' | 7 ] = - E ZE[W . H ' . I T ] - - — ZE[W . W ' . l T ] , n n n (mn)2 i j L m n j l nJ ^ . ai ni I aJ»
car pour i * j, les variables W .(9) et W .(9) sont indépendantes et E[W .(0)] = 0.
Sous les hypothèses 5.1, 6.1 et 6.4, 0 — ^ ¾ 0 ; d'après 6.2, E[WniWni17^] P' ' > TT.
D'après 6.3, 3m : m < m ; donc, K o n o *
(m ) ' i=l x ' (m ) i=l
comme m + m, E[W W' I T ] P'S' > n L n n1 nJ
n p.s. fc 7[
m
L'hypothèse 7.6 est vérifiée avec E - — -m
4) Nous supposons provisoirement (voir la fin de la démonstration) que supJ|E[W(9)W' (9) ]—nj| < <»
(1). En faisant des majoratic
L'hypothèse 7.7 est vérifiée.
(1). En faisant des majorations, on en déduit facilement que 3C > 0 : Vn,||E[W W'IT" ] Il < C " n n n m "
2:
5) Pour vérif ier que, Vr > 0, lim. / I I W J | 2 Q P a °»
A|Wj|2 >.r j6}
on utilise le lemme 4. D'après 5.1, 6.1, 6.4, les hypothèses Cl.l, Cl.2, Cl .3, Cl.4 sont véri
fiées.
Vérifions l'hypothèse L4.2. Supposons provisoirement (voir la fin de la démonstration) que
supeE[||w(9)||2]< °° (2). Alors, d'après le lemme 3, Vn, V0, E[||Wn(9)||
2]4 E[||W(9)||2] $
$ supeE[|w(9)|2] < ~.
Vérifions l'hypothèse L4.1. Pour cela, nous appliquons le lemme 5 et vérifions que :
3e > 0, 3v > 0 : o *
suVuP||9-9 |<6 Et«Ve>ll2+v] < - .
11 o" o
D'après le lemme 3, on a
Et|vJn(8)||2+V] S E[||W(8)||2+V].
On a W(8) = <p(X)U' ( X ) 8 - Y J - B ( 9 - 9 O > ; donc, pour | | 9 - 9 j | < EQ,
E[|W(8)|2 + V] S E[( |k(X) tp'(X)| |( | |8o | |+ e o)+ |k(X)Y|+ | |B| | e o)2 + V] <
pour un v > 0 d'après 6 .1 .
Toutes les hypothèses du lemme 4 sont v é r i f i é e s . On a donc
limR^00supn / ||WQ||2dP - 0. Comme
MllwJI >*h
/ IliîjPdP* iupn / llwJ'dP,
' {|W.||* >. r j 8 } ' {||wj* M j 5 }
on en déduit la proposition cherchée.
6) Vérifions que, pour g = 1, Vr > 0,
" v - i j , f ii*jH2dP = 0-{«Wjl2 ^ r j )
D'après le résultat de S,
Ve > 0, 3nQ : Vj > nQ, f HWjl'dP < f .
MHWjll2 » r j }
26
D'autre p a r t , supnsup eE[| |Wn(9) | | 2 ] < « , d 'après l 'hypothèse ( 2 ) , sup e E[| |w(0) | | 2 ] < «>, e t
d 'après l e lemme 3 ; donc, sup.E[| | W.||2 ] < °° ; par conséquent,
. n° 3n. : Vn > n. , — E i i n . j - l
i n / ± r / HTJ.112,
{«WjH2 > r j}
la proposition est vérifiée.
7) Nous allons montrer dans cette partie que l'on peut supprimer les hypothèses (1) et (2) :
(1) : sup0||E[W(0)W'(0)]-Tr] < « ;
(2) : sup0E[||W(0)||2] < oo.
Pour cela, nous allons appliquer la méthode de troncature introduite par Hodges et
Lehmann [8].
On déduit les hypothèses 5.1, 6.1 et 6.2 qu'il existe un voisinage de QQ9 défini par
[| 0-0 || < A, dans lequel (1) et (2) sont vérifiées ; si elles ne le sont pas pour tout 0, défi
nissons la famille de variables aléatoires {Z1 (0) , 0 € R P } , telle que Z*(0) = Z(9) pour
|| 0-0 || < A et telle que Z*(0) soit une variable aléatoire de loi c/P(B(0-0o) ,1) pour
||9-9 || > A ; (1) et (2) sont vérifiées quel que soit 9 pour cette famille.
Le processus (0 ) converge presque sûrement vers 9 . Donc, VO < e < 1, 3N(e) :
P( O -Cil0 -9 II < A}) > l-e(3). Définissons alors le processus (0l) » dépendant de e, par n>N(£)
n ° n
0î ~ °N(e) + r 0n+l = °n " aN(e)+nZl N(e)+n'
construit à partir de la famille {Z1 (Q)} comme (0n) l'est à partir de la famille {Z(0)}.
En reprenant la démonstration, on constate que toutes les hypothèses du théorème de Fabian sont
vérifiées pour ce processus (nous aurions pu l'introduire au début de la démonstration ; nous
ne l'avons pas fait pour ne pas alourdir les notations). On conclut donc, d'après Fabian, que
*/m n^2(0x-0 ) — ^ - » ^(0,PMP'), M étant défini dans l'énoncé du présent théorème, n o
Pour || 0-0 || < A, Zx(0) = Z(0) ; donc d'après (3), on a Il Qll
P(vn* l , O n = 0 N ( e ) + n ) > 1-e.
Notons F (t) = P(X < t) la fonction de répartition d'une variable aléatoire X ; on a
A
27
v». ve, |F (9)-F01(e)| = |p(oN(e)+n < e)*(e» < e)|
' N(e)+n n » ' x ' x /]
* \*(?He)*n < 8 h > , ' e i " 6 H ( e ) + n ) "
-p(ei < e|vn > î. e» - 9N(e)+n)|p(v* > "• ®i - 0N ( e ) + n) +
+ P(an : 0^ * 0 N ( £ ) + n ) < 0 + e .
Donc, VO < e < 1, 3N( e ) : Vh, V9. Fe <e)-Fe,(e) N( e )+n n
< e ;
d'autre part, VO < e < 1, fif n (0x-9 ) —-^-» i>^(0,PMPf) ; on en déduit que n o
(l „ , n o v f fn 2 (0 - 0 ) > ^ ( 0 , P M P ' ) ,
Comme m •+ m, on p e u t a u s s i é c r i r e
& * J5 n 2 (0 -6 ) °° > ^ ( O . P M P 1 ) . n n o
BIBLIOGRAPHIE
1 - C.C. BLAYDON, R.L. KASHYAP, K.S. FU
Applications of the stochastic approximation methods.
Adaptive, learning and pattern récognition Systems ; theory and applications,
edited by J.M. Mendel, K.S. Fu, Académie Press 1970, 357-392.
2 - J.R. BLUM
Multidimensional stochastic approximation methods.
Ann. Math. Stat., 1954, Vol. 25, 737-744.
3 - D.L. BURKHOLDER
On a class of stochastic approximation processes.
Ann. Math. Stat., 1956, Vol. 27, 1044-1059.
4 - P. DAUBEZE
Une extension d'un théorème de C. MACCHI.
Annales Scientifiques de l'Université de Clermont, 1975, Mathématiques, 12
fascicule, 64-93.
5 - V. FABIAN
On asymptotic normality in stochastic approximation.
Ann. Math. Stat., 1968, Vol. 39, 1327-1332.
eme
28
6 - B. FICHET
Sur l'approximation et l'optimisation stochastiques.
Thèse de docteur-ingénieur, Université Paul Sabatier de Toulouse» 1970.
7 - E.G. GLADYSHEV
On stochastic approximation.
Theory of Probability and its applications, 1965, Vol. 10, 275-278.
8 - J.L. HODGES, E.L. LEHMANN
Two approximations to the Robbins-Monro process.
Proceedings of the Third Berkeley Symposium on Mathematical Statistics and
Probability, University of California Press, 1956, Vol. 1, 95-104.
9 - R.L. KASHYAP, C.C. BLAYDON, K.S. FU
Stochastic approximation.
Adaptive, learning and pattern récognition Systems ; theory and applications,
edited by J.M. Mendel, K.S. Fu, Académie Press, 1970, 329-355.
10 - J. KIEFER, J. WOLFOWITZ
Stochastic estimation of the maximum of a régression function.
Ann. Math. Stat., 1952, Vol. 23, 462-466.
11 - H.J. KUSHNER
General convergence results for stochastic approximations via weak convergence
theory.
Journ. Math. Anal, and applic, 1977, 61, 490-503.
12 - H.J. KUSHNER
Convergence of recursive adaptive and identification procédures via weak conver
gence theory.
IEEE Trans. Autom. Contr., dec. 1977, Vol. AC-22, N° 6, 921-930.
13 - L. LJUNG
Analysis of recursive stochastic algorithms.
IEEE Trans. Autom. Contr., aug. 1977, Vol. AC-22, N° 4, 551-575.
14 - L.LJUNG
Strong convergence of a stochastic approximation algorithm.
Ann. Stat., 1978, Vol. 6, N° 3, 680-696.
29
15 - J.M. MONNEZ
Approximation stochastique : le processus de Robbins-Monro ; mise à jour
des résultats et quelques compléments.
Thèse de 3 - cycle, Université de Nancy I, 1975.
16 - H. ROBBINS, S. MONRO
A stochastic approximation method.
Ann. Math. Stat., 1951, Vol. 22, 400-407.
17 - H. ROBBINS, D. SIEGMUND
A convergence theorem for non-negative almost supermartingales and some appli
cations.
Optimizing methods in Statistics, J.S. Rustagi éd., Académie Press, 1971,
233-257.
18 - L. SCHMETTERER
Multidimensional stochastic approximation.
Multivariate Analysis, II, Proc. 2nd Int. Symp., Dayton, Ohio, Académie Press,
1969, 443-460.
19 - J.H. VENTER
On Dvoretzky stochastic approximation theorems.
Ann. Math. Stat., 1966, Vol. 37, 1534-1544.