et en - hydrologie.orghydrologie.org/bib/roche/introduction.pdf · c'est pourquoi, si nous...

37
INTRODUCTION ET EN Le but de cette introduction est de foumir au lecteur, qui ne serait pas familiarisé avec ces disciplines mathématiques, des indications suffisantes pour comprendre les applications qui en seront faites au cours du présent ouvrage. C'est également d'en permettre l'applica- tion par le lecteur lui-même et notamment la conduite des calcu1s jusqu'au résultat numérique. C'est pourquoi, si nous nous sommes contentés d 'une simple esquissedes principes de base,si nous n'avons donné aucune démonstration d'aucun théoreme fondamental, nous avons par contre insisté, souvent lourdem~nt. sur certains détails de Ia pratique des calculs. Nous introduirons également quelques tables pouvant être contenues dans le cadre de cet ouvrage : aucunene sera cjtée sansque soient données les références précises permettant de se Ia procurer. QUELQUES DÉFINITIONS GÉNÉRALES I. A) Notion d'événement (symbole a, h...: Le mot est employé dans son sens trivial: telle chose s'est produite (événementréalisé), peut se produire (événement possible), etc. On.note que l'événement. a ne s'est pas produit par le symbole ã (événement contraire). Un certain nombre d' opérations dites « logiques» peuvent être définies sur les événements, notamment : Somme logique ou réunion : symbole a + b, signifie que a ou bien b s'est produit. C'est également un événement. Produit logique ou intersection : symbole a.b, signifie que a et b se sont produits. C'est également un événement, etc., nous n'insisterons pas.

Upload: phungliem

Post on 13-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

INTRODUCTION

ET

EN

Le but de cette introduction est de foumir au lecteur, qui ne serait pas familiarisé avecces disciplines mathématiques, des indications suffisantes pour comprendre les applicationsqui en seront faites au cours du présent ouvrage. C'est également d'en permettre l'applica-tion par le lecteur lui-même et notamment la conduite des calcu1s jusqu'au résultat

numérique.C'est pourquoi, si nous nous sommes contentés d 'une simple esquisse des principes de

base, si nous n'avons donné aucune démonstration d'aucun théoreme fondamental, nous avonspar contre insisté, souvent lourdem~nt. sur certains détails de Ia pratique des calculs. Nousintroduirons également quelques tables pouvant être contenues dans le cadre de cet ouvrage :aucune ne sera cjtée sans que soient données les références précises permettant de se Ia procurer.

QUELQUES DÉFINITIONS GÉNÉRALESI.

A) Notion d'événement (symbole a, h...:

Le mot est employé dans son sens trivial: telle chose s'est produite (événement réalisé),peut se produire (événement possible), etc. On.note que l'événement. a ne s'est pas produit

par le symbole ã (événement contraire).Un certain nombre d' opérations dites « logiques» peuvent être définies sur les événements,

notamment :Somme logique ou réunion : symbole a + b, signifie que a ou bien b s'est produit. C'est

également un événement.Produit logique ou intersection : symbole a.b, signifie que a et b se sont produits. C'est

également un événement, etc., nous n'insisterons pas.

HYDROL()(1IE DE SURFACE

B) Notion de probabilité

Épreuve. -Soit une collection d'événements possibles a, b... l'épreuve est l'opérationélémentaire qui permet de réaliser un de ces événements, ou plusieurs d'entre eux simultanément.

Probabj/jté d'un événement élémentaire : nombre positif compris entre O et 1 attribuéà un événement donné, soit par la structure même du probleme étudié, soit par l'étude statistiqued'une collection expérimentale d'événements.

C) Variable aléatoire

On appelle ainsi une variable X qui peut prendre des valeurs XIdes probabilités PI Pi Pn (symbole v.a.).

Xi . Xn avec

Cas discret -cas continu :

Une v.a. est dite discrete lorsqu'elle ne peut prendre qu'un nombre dénombrable(fini ou infini) de valeurs.

Une v.a. est dite continue lorsqu'elle peut prendre n'importe quelle valeur dansun intervalle fini ou indéfini.

Pour Ia v .a. continue, on définit Ia probabi1ité élémentaire : probabilité pour que X soitcompris entre x et x + dx, que 1 'on note f(x) dx. f(x) est appelée densité de probabilité.

La probabi1ité pour que x soit compris dans l'intervalle (Xl' x2) est donnée parJ x, f(x) dx.

x.

Pour que f(x) représente vraiment une densité de probabi1ité, il faut que Ia valeur de 1 'intégrale

étendue à tout l'intervalle des variations possibles de x soit égale à 1. Nous supposerons dansce qui suit que la v.a. peut prendre toutes les valeurs possibles de -00 à+ 00, sans consi-dérer ce fait comme une condition restrictive.

D) Moments

On appelle moment d'ordre k la valeur de l'intégrale

,.-1-m

Xk f(x) dx(I)...,

En particulier, le moment de premier ordre (k = 1) s'appelle Ia moyenne, on Ie note x

ou ml'On appelle moment centré d'ordre k Ia vaIeur de I'intégraIe :

4+~

(x -X)k f(x) dx. (2)--

EQparticulier, le moment centré de second ordre (k = 2) s'appelle lavariance, on le noteIJ.2 ou O"x2. Sa racine carrée est l'écart-type O"x. On appelle écart réduit, ou parfois variable

x-xréduite de Gauss. Ia v.a-, -O"x

Signalons enfin l'existence des parametres statistiques suivants

STATISTTQUE ET CALCUL DES PROBABILTTÉS EN HYDROLOGIE 19

-La médiane Xm définie par

(3)

f xm f + ~ _~f(x) dx = f(x) dx

x",

-Le mode ou valeur Ia plus fréquente corr;:spond au maximum de Ia densité de probabiIité.

On I'obtient donc en faisant df(x} = 0.dx

-La moyenne harmonique X h définie par

I f +- --I Xh- x !(X) dx

(4)

-La moyenne géométrique Xg définie par

log x f(x} dx (5)

E) Fréquence -Échantillonnage

On dit qu'un événement est favorable lorsqu'il répond à l'attente que l'on s'étaitfixée, arbitrairement ou non, avant l'épreuve. Par exemple, dans le jeu de pile ou face onpeut décider avant la partie que pile sera l'événement favorable. Dans une analyse des débitsd'une riviere, si on s'intéresse aux débits supérieurs à 1000 m3/s, tout débit répondant à cettecondition sera .un événement favorable.

Si l'on dispose d'un échantillon de N événements, obtenus soit par des épreuvesrépétées, soit par l'ob3ervation à intervalle,s de temps réguliers d'un phénomene naturel, ilpeut contenir n événem~nts favorables, c'est-à-dire coIncidant avec l'événement attendu. Parexemple, sur un échantillon de 30 débits moyens annuels, on en trouve 5 supérieurs à 1 000 m3/s.

1 . 1 F n ...1On appe le fréquence, ou fréquence expénmentale, e rapport = N' SOlt lC16.

Supposons maintenant que nous ayons un autre échantillon de 30 débits observés à Iamêm~ station : on dit, en statistique, tiré de Ia même population. On trouvera pour 1 000 m3/sune fréquence expérimentale probablement différente. I1 en sera de même pour d'autres échan-tillons. La fréquence ainsi définie est donc également une variable aléatoire : sa Ioi de probabilitéest dite loi d'échantillonnage.

On .montre (théoreme de Bernouilly ou Ioi des grands nombres) que la fréquence calculéesur un échantillon tend vers Ia probabilité Iorsque N augmente indéfiniment (convergencedans Ie sens des probabilités).

Dans Ie cas continu, nous calculerons soit Ia fréquence de non dépassement (n correspondantau numéro de classement des valeurs contenues dans I 'échantillon par ordre croissant), soit Iafréquence de dépassement (n : numéro de classement par ordre décroissant). La premiere estnotée Fx 'ou F(x) : elle correspond pour la population infinie à Ia probabilité de non dépas-

sement f~~f(x) dx. La seconde est notée F1(x) : elle correspond à Ia probabilité de dépasse-

ment r~ ~ f(x) dx. On désigne souvent, dans Ia pratique cies calcuIs, Ies probabilités elles-mêmes

20 HYDROLOOm DE SURFACE

par les symboles F(x) et F1(x) .que l'on appelle alors fréquences théoriques; F(x) est égalementdésigné sous le nom de fonction de répartition.

On remarquera que la somme des fréquences F et Fl ainsi calculées est supérieure à 1,ce qui est illogique. Soit 10 valeurs, pour fixer les idées, classées par ordre décroissant. La

fréquence expérimenta1e de dépassement attribuée au nO 3 est ~ .Dans le classement inverse,

8Ia fréquence de non dépassement est íõ et la fréquence de 1 'événement : Ia valeur en question

Fig 1 -Fonction de répartition

est dépassée, égalée ou non dépassée se trouve égale à 1,1 alors que, manifestement, elledoit être égale à l'unité. Nous ne nous étendrons pas sur ce point; signalons seulement qu'on

n-.:2

N .peut Iever cette anomalie soit en adoptant pour Ia fréquence expérimentaIe Ia valeur

ainsi que nous l'avons admis, soit en prenant N~ soit en calculant les deux fréquences

F et avec Ia formule de définition ~ et en traçant des courbes en marches d'escalier.N

2. PROPOSITIONS ESSENTIEI..I.ESnu CALCUL nES PROBABILITÉS

Probabilités totalesA)

Si plusieurs événements s'excluent mutue1lement, la probabilité pour que l'un ou l'autrede ces événements se produise est égale à la somme des probabilités relatives à chacun d'eux(opération d'union sur des ensembles di~iflint,,)

21STATISnQUB ET CALCUL DES PROBABILrrÉs EN HYDROLOGIE

B) Probabilités composées

La probabilité pour que deux événements a et b soient réalisés simultanément est égaleà la probabilité del'un d'eux multipliée par la probabilité de l'autre, sachant que le premier

est réalisé. On écrit :

(6)Pr Ca.b) = Pr (a).Pr (b/a)

Le 2e facteur du second membre s'énonce elliptiquement : probabilité de b sachant que a ;on l'appelle probabilité conditionnelle. La proposition s'étend au cas "de plusieurs

événements.

Êvênement E 2Evenement E 1""'

/

1..- Opération union ; 1 point de I'ensemble est dans E1 ou dans E2(somme logique) -

Opération d'intersection :1 point de I'ensemble est dans E1 ~ E2

(produit logique)

Fig 2 .l 'Evenement vu sous I' angle de Ia Théorie des ensembles

On dit que les événements a et b sont indépendants si la probabilité de b n 'est pas influencéeparceIledeac'est-à-diresi Pr (b/a) = Pr b. On a alors : Pr (a.b) = Pr (a).Pr (b). Le théoremedes probabilités composées demande à être appliqué avec discernement : si son applicationform~IIe est toujours correcte, un opérateur insuffisamment averti peut lui faire introduiredes conditions restrictives que lui-même n'a jamais envisagées. Prenons le cas de la synthesed'une crue à partir d'une précipitation donnée; nous supposerons que l'opération de synthese,l'hydrogramme unitaire type du bassin étant connu, est entierement déterminée par la hauteurde précipitation H cet par les conditions préalab~es de saturation définies par exemple par Iacapacité apparente moyenne d'absorption Cam. Si H1o représente une averse décennale, commedans 1 'étude des crues on s 'intéresse aux probabilités de dépassem(nt, 1 'événement correspondantest H> H1o : sa probabilité est égale à 1/10 (rapportée à l'année). A l'aide de cette pluie,on fait la synthese de l'hydrogramme pour une valrur médiane de Cam : probabilité 1/2. Onsait que Cam et H sont pratiquement des v.a. indép::ndantes; l'opérateur applique Ie théoremedes probabilités composées et annonce fierement que l'on doit attribuer à la cl"Ue trouvée laprobabilité 1/20. Or, ce résultat est faux. En effet, il existe des crues de même importancefournies par des pluies supérieures à H]o et Cam inférieures à la valeur médiane et invers(ment.En réalité, le résultat dépend de Ia maniere dont les deux variables élémentaires se composentnmlr rlnnnPT 1:1 v:1rj:1hlp rP.~lllt:1ntp (jl'i 1:1 ~nIP) C:e nnint ~eTH nrécisé nHT Ia suite.

22 HYDROLOGIE DE SURFACE

C) Loi à deux variables -Dépendance stochastique

Nous ne nous occuperons que du cas continu, seul.intéressant en climatologie et en

hydrologie.Considérons deux v.a. X et Y suivant, chacune pour son propre compte, des lois de pro-

babilité définies par des densités de probabilité f(x) et g(y) .f(x) dx est Ia probabilité pour quex < X < x + dx et g(y) dy Ia probabilité pour que y < Y < y + dy. La probabilité d'avoirsimultanément x < X < x + dx et y < Y < y + dy est définie par une probabilité élémentairep(x, y) dx dy, p(x, y) étant appelée densité de probabilité pour Ia loi du couple (x, y). Les lois

y

1f- Masse p(x, y) dx dy

(probabilité élémentaire du couple)/1.II! I

~ II I.I :. -: :::. ..:::. :- ..:: .

---I! 1---

IIII.I

IIi

L-d';-::y

Loide

, -loi conditionnelle (de Y sachant que X)Courbe de densité de probabilité

-Loi marginale de X

'íi lI. I

,.:)y

xFig 3 -Loi à 2 variables

définies par f(x) et g(y) sont dites lois marginales du couple. On montre que la condition néces-saire et suffisante pour que x et y soient indépendantes est que :

p(x, y) = f(x) g(y) (7)

produit d'une fonction de x seul par une fonction de y seul.S'il n'en est pas ainsi, on dit qu'il y a dépendance stochastique. La force de cette dépen-

dance, ou liaison, peut être mesuréepar le coefficient de corrélation :

! !(x-X)(y-y)p(x,y)dxdyr= (8)O"x O"y

dans lequel figure au numérateur la covariance de x et de y (x et 1 : valeurs moyennesde x et de y) et au dénominateur le produit des écarts-types de x et de y. Ce coefficient peutvarier en valeur absolue de O, pour des variables indépendantes, à 1 pour des variables liéespar une relation fonctionnelle. Les valeurs positives correspondent à des covariations demême sens et les valeurs négatives à ces covariations de sens contraire.

Lorsqu'il y a dépendance. stochastique (r significativement différent de zéro), Ia loi de pro-babilité de l'une des variables, sachant que l'autre a une valeur donnée, dépend de la valeurde cette autre variable : c'est la loi de probabilité liée. Exemple Fy(x) : probabilité inté-

23STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE

grale de x liée par y; iIlui correspond une densité de probabilité liée fy(x) différente de Iadensité marginalef(x). On définit de même une moyenne conditionnelle :

,,+~-\"fy(x) dy (9)x,,=

J-~

qui est une fonction de y. La courbe qui représente cette fonction est appelée courbe de régressiún

dex liée par y. I\ existeévidemment une régression dey liée par x.

La notion de corrélation sera précisée ultérieurement.

xFig 4 -Courbes de régression

3. LOIS DE PROBABn..ITÉ A UNE V ARIABLE

D'apres la définition axiomatique de la probabilité (répartition d'une masse unité sur unensemble de points, fini ou infini, discrft ou continu), toute fonction monotone croissantevariant de O à 1 pour les limites assignées à Ia variable peut être considérée comme représentantune loi de probabilité : une telle fonction est dite fonction de répartition et nous avons vu quedans le cas continu, si Ia dérivée existe en chaque point, la fonction dérivée est appeléedensifé de pr()babilifé.

En fait, dans l'application, la notion de probabilité est plus ou moins liée à celle de tirageau sort et les lois qui prétendent rendre compte de l'observation ou de l'expérimentation nesont pas construites n 'importe comment.

Le tirage au sort le plus simple se rapporte au jeu de pile ou face dans lequel on considereune variable aléatoire pouvant prendre les valeurs O ou 1 avec la même probabilité 1/2.

Toutes les autres lois de probabilités se déduisent de ce modele tressimple en le compliquantprogressivement :

-Par généralisation (ex. : de pile ou face à variables de Bernouilly en remplaçant .les pro-babilités 1/2, 1/2 par p et q);

-Par addition (loi binomiale : somme de variables de Bernouilly);-Par passage à la limite (convergence en loi);-Par changements de variables.

Il n'est pas dans notre propos d'énumérer ne fut-ce que les .Iois les plus usuelles, maisseulement celles qui seront utilisées dans cet ouvrage.

24 HYDROLOOm DE SURFACE

A) Loi de Gauss ou loi normale

On peut i 'introduire comme ioi limite de Ia loi binomale pour un nombre infini d 'épreuves.

Elle est de ia forme :

-!.(~ )2

2 "dxe (10)

FiQ 5 -Loi de Gauss (Variable de moyenne nulle e! d'écar!- !ype 1)

x étant lamoyenne de lav.a., x etO'son écart-type, ~ désigne donc l'écart d'une valeurO'

x à la moyenne, mesuré en écart-type. On l'appelle écart réduit ou variable normale réduite.Par la suite, "nous utiliserons généralement la loi de Gauss sous sa forme réduite, avec les

notations :_lu' x-x

u=--0"

(11)duF(x) = e avecl f "

~ -~

Les valeurs de F (x) ~ont fournies par la table de l'intégrale de Gauss, en fonction de

l'écart-réduit u (tableau I).

25STAT.IST.IQUE ET CALCUL DES PROBAB.IL.ITÉS EN HYDROLOG.IE

TABLEAU I

Valeurs de /'intégrale de Gauss pour u > O

(Probabilités pour que u soit supérieur ou égal à...)

o 2 1 4 8 911

4681242858389743519731561

28096248252l7701894316354

1400711900100278379369437

5705346479375383005423852

1876314629113048656365691

4940036811271791988414412

1035073638519043624325071

l7l8011662784145222834458

2251814575934475934037322

23249143448764853043

.31792

4880344828409053707033360

2980626435232702032717619

1515112924109359175976359

63Q{)851551418153362526803

2117816586128749903175494

57Q3142692316672327416948

1222887403618954342330179

2077814171957406407242473

2788818138116857455547117

2949218283112266826741115

4840544433405173669332997

2946026109229652004517361

1491712714107499012374934

6178050503409303288426190

2067516177125459641973436

5542641453307202255716411

11829844745976541889.29086

200061363292010615174()741

26726173651117671241449'79

2812717420106866492039061

4800644038401293631732636

2911625785226631976617106

14686l2507105658850873529

6057149471400593215725588

2018215778122249386771428

5386140246297982186015889

1144281635577034040628029

19262131l2884175905939076

2560916624106896806942935

2682316597101716173137107

0,00,10,20,30,4

0,50,60,70,80,9

1,01,11,21,31,4

1,51,61,71,81,9

2,02,12,22,32,4

2,52,62,72,82,9

3,031.3:23,33,4

3,53,63,73,83,9

4,04,14,24,34,4

4,54,64,74,84.9

26 HYDROLOGIE DE SURFACE

La loi de Gauss offre une répartition symétrique de part et d.autre de la moyenne, qui esten même temps la médiane et le mode. Son emploi est tres répandu en hydrologie et en climato-Iogie pour représenter Ia répartition statistique de valeurs moyennes (par exémple : pluíesannuelles ou débits moyens annueIs). Cette propriété de Ia Ioi de Gauss n'est pas fortuite; eIledécoule du THÉOREME CENTRAL LIMITE dont I'application est si importante pour I.hydrologueet que nous énoncerons :

Si Zn est une combinaison Iinéaire de n v .a. Xj indépendantes, queIle que soit la Ioi suivie parchacun des X.la loi derépartitionde Zntend vers uneloinormalelorsque n augmente indéfiniment.

LOI DE GAL TON

On peut généra1iser Ia loi de Gauss et Ia rendre dissymétrique, par des changements devariable appropriés. Le plus connu de ces changements de variable consiste à prendre commevariable gaussienne le logarithme ou une fonction linéaire du logarithme de Ia variable étudiée.On obtient ainsi la loi de Galton, dite aussi loi de Gibrat-Gauss. On la présente traditionnelle-ment sous la forme

(12)~f z e-z' dz

~ -~

avec z = a log (x -Xo) + bCeci ne va pas sans quelque inconvénient car les tables de l'intégrale écrite ci-dessus sont

de moins en moins usitées. I1 faut multiplier Ia variable z par v2 avant de l'introduire dansles tables a.ctuel1ement classiques.

Nous préférons donc adopter une représentation de Ia forme :

u.1 ." ---

e 2 du (13)

~J~~

u = a log (x Xo) + bavec

Nous avons introduit pour certains besoins un changement de variable tout à fait analoguemais comportant un parametre de moins. Dans cette loi, le logarithme népérien de Ia variable :log x, suit une loi de Gauss. On Ia note :

.-2

1./y-y

)-2\0;- dye (14)..1 f Y

~ ~~

avec y = Log x

R) Loi exponentielle

La fonction de répartition est de ia forme

F(x) = (15)e-PX

Cette loi est parfois utilisée en hydrologie avec adjonction d 'un parametre supplémentaire :

F(x) = 1- e-p(x -x.) (16)

27STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE

c'est ]a loi dite de Fiiller-Coutagne. On Ia donne engénéral sous la forme :

x(T) = xJ1 + (31og T) (17)

T étant la période de retour (inverse de la fréquence). Avec ces notations, la densité de pro-babi]ité s 'écrit : -

(18)

1 1 (X-XI

)f(x) = ~ e~ -x;:- (M = 0,434...)M[3x,

Loi de GoodrichC)

C'est une généralisation de la loi de Filller par introduction d'un parametre suppIémentaire,

on Ia présente souvent sous Ia forme :

x(T) = x1[l + ~ (Iog T)"] (19)

T étant Ia période de retour =F.

La fonction de répartition correspondante est doncI

-2.3026(~1 ) ;;

x.B (20)F(x) = 1 e

Iet Ia densité de probabiIité pfUt s'écrire, fn posant A = 2,3026(xl ~)- ;;

I

1 ~ --A(x -xJn

f(x) = -A(x xJnn

(21)e

Loi de GumbelD)

Elle a été créée pour l'étude de Ia distribution des fréquences de valeurs extrêmes(maximums ou minimums annuels par exemple ).. On considere que sur les N' observations d 'unedonnée météorologique ou hydrologiquc que comporte une année, N peuvent être considéréescomme indépendantes. Si l'on désigne par h(x) le nombre moyen annuel de valeurs journalieressupérieures à x, Ia probabilité pour que toutes les valeurs journalieres soient inférieures à x.c.est-à-dire pour que le maximum annuel soit ínférieur à x. est égal, d'apres le théoreme des

probabilités composées, à:

P = exp [- h{x)J

1 -~ lN

L N

N étant assez grand, on peut écrire avec une bonne approximationGumbel pose en outre h(x) .= e-- y et y = a(x -xo).

D'ou Ia fonction de répartition (avec nos notationshabituelles) :

F(x) = exp [- e- a(x -x.)] (22)

(23)

et ia densité de probabiiité :

f(x) = ae- a(x -x,) exp [- e- a(x -Xo)]

HYDROLOGIE DE SURFACE

E) Loi de Jenkinson

La loi de Gumbel représente souvent assez malla distribution des valeurs extrêmes. Ellea été assouplie par Jenkinson. avec introduction d'un parametre supplémentaire. Cet auteurpropose de prendre x = Xo + a(l -ekJ'). y est liée à la fréquence de dépassement par la

relationy =-LogLog ~ (T étant la période de retour = ~). La fonction de répar-

tition (fréquence de non dépassement) est alors de la forme :

-(1-~)kF" = e

avec une densité de probabilitéI

-9)kfx = ~ ( 1

ak

(25)

Elle définit 3 types de fonctions suivant le signe de k (ak devant être toujours > O)

type Ik > o <=> a > o

x varie de -00 à a + Xo (borne supérieure)dy/dx est croissant : Ia courbe y(x) asa concavité tournée vers le haut

type IIk-*°

1dy/dx -+ ~' y(x) est une droite : on retombe sur Ia Ioi de GumbeI

k <O <=> 0<0

x varie ,de a + Xo à 1+ 00 (borne inférieure) .

dy/dx est décroissant : Ia courbe y(x) asa concavité tournée vers Ie bas.

F) Lois de Pearson

On appelle intégrale eulérienne de seconde espece, oufonctipn gamma la fonction de a

,,00 -x a-l

e X dx

qui répond à Ia reIation fondamentaIe :

r(a) = (a-i) r(a I)

1) !~i n p~t ,,~trpint " Âtr~ Im nomhre entier (m. on voit aisément Que r(n) = (n

STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGm 29

dy x +d-=ydx ax2+hx+c

La loí III de Pearson, t.res ut.ílísée en hydrologie, Ia :pour fonct.íon de répart.it.íon

~

(29)dxp-QX xYF(x) = m I:

ou r (y) est la fonction eulériel1ne de seconde espece.

1 y ( ) . d .

En!posant ax = 1', on a dx = -dy, x = -et F x I evJent

,, a (1

r y(y)dy = fMy y-l

v (:fo)F(x)

r y(y) est l'intégrale d'Euler incomplete et le rapport

1)=~r(y)

I (Y, y

est donné par les ta.bles de Pearson, moyennant du reste un changement de variable (voirréférence en fin de chapitre).

La loi V de Pearson est parfois utilisée en hydrologie. C'est également une loi r. La densj.téde probabilité est de Ia forme :

'Y-l 1"."\~ ef(x) = a-r r(y) x

Lois de HalphenG)

Ce sont des" généralisations des lois de Pearson étudiées spécialement pour rendre comptede Ia rcpartition statistique des débits de rivieres. On distingue deux types :

(33)b

tlX-- y-lXf(x) = Ketyp::A x

(34)XI

T+13xtype B f(x) = Ke

Les calculs relatifs à ces lois sont particulierement I.aborieux et il ne semble pas qu'ellesaicnt bcaucoup retenu l'attention des praticiens de l'hydrologie.

30 HYDROLOGIE DE SURFACE

H) Lois tronquées

Supposons qu'une variable aléatoire prenne avec une probabilité F(a) la valeur constante aet que le reste du temps elle obéisse à une loi de distribution <D(x). On peut supposer égalementque l'on ne s'intéresse pas aux valeurs inférieures à a. <D(x) est la fonction de répartition d'une

loi tronquée et l'on a:

(35)

F(x) est Ia fonction de répartition pour toutes Ies vaIeurs possibIes de Ia variable. On a:

F(x) = F(a) + [1 -F(a)] clI(x) (36)

MÉTHODE D'ESTlMATION DES PARAMETRES

DANS LES LOIS A UNE V ARIABLE4.

Il n'est pas dans notre intention de traiter, même sommairement, le probleme général del'estimation. Nous nous contenterons d'exposer trois recettes couramment utilisées par lesstatisticiens pour l'estimation des parametres, puis de donner le détail des calculs pour quelqueslois classiques afin d'entrainer le lecteur à l'application de ces méthodes.

A) Méthode du maximum de vraisemblance

Supposons qu 'un échantillon, tiré d 'un~ population-mere représentant la totalité desvaleurs d'une variable aléatoire X, comporte N valeurs Xi pouvant se produire chacune avecprobabilité P,. La probabilité pour qu'un échantillon de N valeurs obtenues par tirages indé-pendants soit précisément l'échantillon obtenu, est :

XPNPl X Ps

On appelle cette probabilité )lraisemblance de l' échantillon.La méthode du maximum de vraisemblance consiste à déterminer les parametres de la loi

choisie de façon à rendre l'échantillon le plus )lraisemblable possible.Si la v .a. est continue, chacun des termes ci-dessus, et à priori le produit lui-même, sont

infiniment petits. On définit alors la vraisemblance de l'échantillon comme une quantité pro-portionnelle au produit des densités de probabilités, c'est-à-dire à:

9 = h.f2 ...j~ (37)

avec prob (X < XI) = J:oof(XI, a, b, ...k) dx

li = I(xi, a, h, k)et

Xi étant une valeur queIconque de I 'échantillon, a; h, ...k les parametres de Ia loi de probabilité

STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE 31

dont les valeurs sont inconnues. Le but cherché est de maximiser ./l" donc d'annuler les dérivéespartielles par t:apport aux différents parametres, ce qui donne un systeme de k équations :

õgõa

~=o

~k(38)

II est souvent plus simple d'écrire ~ et le sys-7\n

teme ci-dessus peut être remplacé par

*!.~=oLJi ()Q

1

(39)

*~.~=oL., r, ;)k

Dans la pratiquedes calculs, on prend les dérivées partielles de Lf x par rapport à chacundes parametres, puis on fait les sommations que l'onannu1e.

Cette méthode fournit toujours une estimation correcte des parametres, mais il peutexister, pour un probleme déterminé, une estimation mei11eure, c'est-à-dire mettant en jeu descaractéristiques t.irées de l'échantillon moins dispersées. Nous n'insisterons pas. D'autre part,la résolution du systeme d'équations auquel on about.it peut poser de sérieuses difficultés.

R) Estimation des parametres par le calcul des moments

Nous avons donné précédemment Ia définition d'un certain nombre de moments à partir

des Iois théoriques. Par exemple, Ie moment de niême ordre :

,.+~

xn f(x} dx

-~

est évidemmentunefonctiondesparametres a; b ...k. Si I'on parvient à résoudre l'intégraIeprécédente, on aura donc une reIation entre Ies parametres. Pour avoir un systeme permettantde caIcuIer Ies parametres, i.l faudra déterminer autant de reIations qu'iI y a de parametres,c'est-à-dire caIcuIer à partir de Ia loi théorique a~tant de moments qu'iI y a de parametres.li faudra d'autre part que ces moinents puissent ~tre estimés à partir de I'échantiIIon. On peutmontrer, en se Iimitant aux trois premiers moments, que I'on obtient des estimations absoIu-ment correctes (convergence forte) à partir des formules suivantes :

.-l~estlm. X = -""' Xi

N(40)Moyenne

(41)Variance -}:;(Xi1X)2estim. ~ = ;:T

HYDROLOGm DE SURFACE32

Moment centré de troisieme ordre

(42)y\3N1) (N -2) ~(XIestiro. [J.a = ~

(NCertaines lois peuverit se mieux prêter au calcul théorique avec d 'autres estimateurs, tels

que la moyenne géométrique ou la moyenne harmonique. Mais l'estimation de ces carac-téristiques à partir de l'échantillon souleve parfois des difficultés, notamment pour la moyennegéométrique lorsque certaines valeurs expérimentales sont inférieures à l'unité ou que le

classement est fait par groupement dans des intervalles de classe donnés.Il faut enfin noter que la recherche du meilleur estimateur, c'est-à-dire présentant la plus

faible dispersion d'échantillonnage, est un travail délicat demandant l'intervention d'unstatisticien averti. Faute de mieux, on se contentera donc des indications ci-dessus, d'autantplus que le gain de confiance par 1 'estimation la plus correcte est souvent iaible.

Ajustement graphique des fonctions de répartitionC)

US

e-2 du<II(x) =~1 -

(43)-F(O) 1 .

f=-F(õ)=~

Logx-Logxu =O"Logx

on calcule d'apres l'échantillon des valeurs de F(x); en se donnant une valeur de F(O), oncalcule les valeurs correspondantes de cII(x) que l'on porte en abscisses gaussiques sur ungraphique, les valeurs de Log x étant portées en ordorinées. L 'ajustement de Fo consiste à

faire varier les valeurs de ce parametre de façon à aligner les points expérimentaux.

"Vi"'

évidemment); a et b se calculent alors d'apres la droite obtenue.C'est le cas également de certaines lois tronquées pour lesquelles F(a) est mal estimée à

partir de l'échanti1lon lui-même. On la considere alors comme un simple parametre d'ajustement.

Si l'on prend par exemple la loi tronquée :

STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE

Le test do X2D)

k

x.2=2~ 1 Vi

(44)

(45)f(x) dxv/=N

-On fait pour chaque classe Ia différence ni -Ví, on l'éleve au carré et on divise le

résultat par Vi. La somme des k quantités ainsi obtenues donne la valeur du X2.-On calcule le nombre de degrés de liberté égal à k- 1- p et ondétermine, d'apres les

tables, Ia probabilité de dépassement correspondante.-L 'interprétation des résu1tats est une question d'appréciation. En premiere analyse, on

peut admettre avec Ia plupart des statisticiens que :-Si la probabilité trouvée est supérieure à 5 %, l'ajustement est satisfaisant.

-Si elle est inférieure à 1 %, la loi choisie doit être rejetée.

Quelques définitions :

Nombre de degrés de liberté.On app~1le ainsi le nombre de parametres que l'on peut fixer librement dans le phénomene

étudié. Si l'échanti1lon de N valeurs a été divisé en k classes, on peut choisir arbitrairementle nombre d'observations ni que l'on mettra dans chacune des classes, mais, k- 1 classesétant choisies, la k ieme est fixée par la condition };::nl = N. Il y a donc k- 1 degrés defiberté dans l'opération de cloisonnement. Si, par ai1leurs, la loi comporte p parametre estimésà partir des données expérimentales, on ap nouve1les liaisons entre les ni, et le nombre de degrésde liberté est en définitive égal à k -1 -p. .

Définition du X2.L 'échanti1lon étant divisé en un certain nombre 1( de classes, si ni est le nombre de valeurs

expérimentales contenues dans la classe i et vlle nombre de valeurs qui, sur un échanti1lon degrandeur N, est affecté par la loi théorique proposée à la classe i, le X2 est défini par la relation :

pour le phénomene étudié.Le processus du calcul est le suivant :-Les N données expérimentales étant classées par ordre croissant ou décroissant, on les

divise en k classes de façon que chacune des classes contienne au minimum 5 données expéri-mentales. La classe i est bornée par les valeurs XI-I, XI choisies arbitrairement.

-On compte le nombre de points nl contenu dans chacune des classes.-On calcule, à partir de la loi théorique choisie, les valeurs théoriques VI. Si f(x) est la

densité de probabilité correspondant à la loi théorique, on a:

"x

34 HYDROLOGIE DE SURFACE

-Si elle est comprise entre 1 et S %, on ne peut pas conclure. Il faut poursuivre les

observations.Il peut être parfois intéressant d'ajuster les parametres d'une loi en minimisant le X2, ce qui

a pour avantage de fournir directement un contrôle de l'ajustement. On notera toutefois queles calculs sont en général assez laborieux.

On trouvera ci-dessous une table des valeurs du X2 (Tableau II).

TABLEAU II

Table de distribution de x.2 (Loi de K. Pearson)

Valeurs de x.2 ayant Ia probabilité P d'être dépassées

Lorsque v> 30 on peut admettre que Ia quantité viii -v2V=1 ~uit Ia Ioi normale réduite

35STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE

E) Exemples d'application pour quelques lois classiques

a) LOI DE GAUSS

L' estimation des parametres est particulierement simple puisque 1 'un d ' eux est la moyenne,

l'autre l'écart-type. Nous avons vu que la moyenne s'exprime correctement à partir des données/'- 1 /'- 1 -

de l'échantillon par x = N ~Xi et que l'écart-type est donné par (j2 = ~ ~(Xi -X)2.

Lorsque les calculs se font à la machine, il est plus commode de mettre cette expression sous la

forme: ;;-2 = ~ [ ~ Xi2 -N -fi: ] (le signe /'- est souvent utilisé pour désigner une valeur

estimée d'apres un échantillon par opposition aux valeurs vraies inconnues (j et x).Certaines machines de bureau, relativement peu onéreuses, telles que la Trétactys

(Olivetti) permettent de faire simultanément ~Xi2 et ~Xi en introduisant une seu1e fois

chacun des Xi.

h) LOI DE GALTON

Nous avons vu que cette loi est susceptible d'un ajustement graphique. li est toutefoispossible d'en déterminer les parametres, soit par le maximum de vraisemblance, soit par le

calcul des moments.

Ajusfemenf par [e calcul des momenfs.

La fonction de répartition est

1.-i%

dze1

f z

F(x) = ~ -~

z = alQg (x -Xo) + bavec

x = Xo + eA(z-b) .en posant A= ~ ~ad'ou

La loi comportant 3 parametres, il est nécessaire de faire intervenir 3 moments. 11 est

commode de calculer d'abord les intégrales suivantes :

I -1f +~ _!Zl

0-- 2

V2; _~edz =1

dz = eA(~-b)

'1-+ ~ 2A(z-b) --z 22A(A-b)1

dz =eee4

12=~ -~

3A(~-b )1

+ ~ 3A(z-b) --z'2

dz =e.

13 = e e~f-

36 HYDROLOGIE DE SURFACE

Moyenne

1A<Z-b) } --z' e 2 (A

)-A --hdz -Xo Jo + II = XII + e 2

~-"-~

x= Xo +e (51

1 J ' -

[":;T~ -00

Variance

0"2 = (m2 moment de second ordre)-+- mJ

A<Z-b)] 2 e I.-z2Xo+ e dz = X20JO + 2xuIl + !2 (52)

A(~-b)2A(A-h\

(12 =d'ou X2 + XO2 + 2xo e +e (53)

Moment centré de troisieme ordre

(Ja = -xa -JX0"2 + ma (ma moment de troisieme ordre)

1A(Z-b) ] 3 --z'

2

eXo + e dz = xo3Io + 3XO2Il + 3xoI2 + Ia (54)m =3

On trouve en définitive

3A(~A-b ) (,,"\(x XO)3 3(i Xo) 0"2 + e(.La =

Le systeme qui permettra d.évaluer les parametres à partir des 3 premiers moments

estimés d.apres l.échantillon est donc le suivant (on a supprimé les signes distinctifs des valeurs

estimées pour ne pas alourdir l.écriture) :

A'--Ab2 ~=x -xDe

2A' -2Ab = (x XO)2 + 0"2 (57)

~A.2

Xo) 0"2 + !la= (x XO)3 + 3(x (58)e

En éliminant successivement A et b entre ces équations, on trouve une équation en Xo seul

0"4 -(X -XO)3

~ -0-1 + 3(x -XO)2

que l'on peut résoudre en Xo soit graphiquement, soit par approximations successives.

Xo étant ainsi estimé, on peut évaluer A et b par les relations :

A2 = Log [ 1 + .517ou a=

1,1513n

et h= -a log (x (61)xn)

STATISnQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE

Ajustement par le maximum de vraisemblance.

Avec les notations précédentes, Ia densité de probabiIité rapportée à x peut s'écrire

.1[ 1 ] 1

] ] ---L(x-X.) + bf(x) ~ e 2 A (62)

~.Ã:<;;=-;;-;)

1 [ 1

Xo) ---L(x2 A

(63)L v]:-;; A L(xd'ou L/=

On dérive cette expression par rapport à A, b et xo' on som me et on annule; d'ou le

systerne résolutif :

A2N -Ab~L(Xi

~L(Xi-

Xo) = o-xo) _}:::L2(Xi-

XO) + NAb = O

+ ~L(XI-X )

0=0

1A2~-3- + Ab~ .

x/-xo x/-xo XI-Xo

Les deux premieres équations permettent d'obtenir A2 et Ab en fonction de Xo. Les valeurs,reportées dans la troisieme équation, donnent une relation ou seul figure Xo; nous l'écrivons

ci-dessous en revenant auk ]ogarithmes décimaux :

La détermination de Xo est assez laborieuse. Il faut tracer la courbe tp(xo) dont 1 'inter-

section avec l'abcisse donne la valeur cherchée. Xo étant connu, A et b se calculent aisément

avec les formules déduites des deux premieres équations du systeme :

A2 = ~L2(Xi -xJ ~2L(Xi -Xo) (68)N2N

2,30259

a

ou, en rappelant que A=

(69)

et

(70)

3R HYDROLOGIE DE SURFACE

c) LOI EXPONENTIELLE OU LOI DE FULLER-COUTAGNE

Nous avons vu que Ia densité de probabilité peut s'écrire :

1 -~ (~ )f(x) = e M~ XI (XI < X<+ (X)

M(j XI

On calcule três facilement les deux prerniers moments

x = xl(l + O,434~)

0"2 = (0,434(3xJ2

(71)

(72)

d'ou estimation des parametres

(73)"' --::- "' 1xl=x-a=-Lxt

NX)2

-,a

(3' = ~1 (74)

d) LOI DE GOODRICH

Elle est définie par une densité de probabilité

1

-

-I -A(x-xJn

xJ".J

f(x) =-A(xn

e (XI < X < + CX) )

Nous ferons l'estimation des parametres par l'intermédiaire des 3 premiers moments

Moyenne1

-A(x-x,)n-~oo Ax-(x (15)

xJnx= dxej -T

X,1

L'intégration s'etfectue en faisant le changement de variable u =A(x-xJn, d'ou :

.X = (i)n+"Xl (76)

1--IX,)n

, Adu = -(.l:

n(77)dxet

I"+ ._~[ (~) n + x] ] e-u du = Xn Jun e-" du + XI p-udu (78)x=

I:I:L 'intégra.le du second terme est égale à 1 'unité. On reconnait dans celle du premier terme

l'intégrale eu.lérienne de seconde espece : r(n + 1). La moyenne est donc égale à:

(79)-1rX = -(n + I)

AnXI

1QSTATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGm

Variance

0'2=~_X2

(80)ar

Moment de troisieme ordre

ma =f:~ [{i)"+Xl)3e-udU

En développant le terme au cube et en intég~ant, on obtient :

1 x X2ma =Ã3ii r(3n + 1) + 3 ~ r(2n + 1) + 3fn r(n + 1) +x13 (82)

et Ie moment centré correspondant est donné par Ia reIation

!la = ma -3X0'2 + ;X;3

En combinant et en simplifiant les trois équations précédentes, on obtient le systeme

1(XI -X) + Aií r I = O

1-(X l -X)2 + -r = a2

A2n 2

-1(XI -X)3 + ~ r 3 = I; + 3a2(XI -X)

r. = r(3n + I)r 1 = r(n + I) r, = r(2n + I) etou

~ cst le coefficient d'assymétrie de Pear~on. On voit que, pour Ia loi de Goodrich, il(J

ne dépend que de n.

~ peut être estimé à partir des données expérimentales, au moyen des formules précé-(J

demment citées. La méthode de résolution consiste à tracer Ia courbe cp(n), ce qui peut êtrefait une fois pour toutes. On peut également établir une tabulation sommaire qui permettrade circonvenir le champ des approximations successives : une tel1e table est donnée ci-apres(tableau III).

Les deux premieres équations permettent d'exprimer A et XI en fonction de n seul. En

reportant les valeurs trouvées dans Ia 3e équation, on trouve l'équation en n seul :

40 HYDROLOGrn DE SURFACE

TABLEAU III

Loi de Goodrich

_1[ ra i 2 -

(ri-r1) ri

r 18~-3rTabIe sommaire de Ia fonction : cp(n)

rl = r(n + I)

r. = r(2n + I)

r. = r(3n + I)

avec

L 'interpolation linéaire donne des valeurs exactes jusqu 'à Ia troisiême décimale.

Les deux autres parametres se calculent facilement au moyen des relations

-r1(jXI =x -.-

,,/f'A- f'.1

(87)I-2ii[ ai A= r;=r;

e) LOI DE GUMBEL

On a vu que Ia densité de probabiIité s'exprime par :

f(x} = ae--a(x-x,> e-e-a(x-x.>.

~),L 'intervalle de variation est

Application du maximum de vraisemblance.

On a:L/(x) = La a(x -Xo) -e-a(x-x.>

d'ou

f'Q(x)

f(x)

Le systeme résolutif est donc le suivant :

N--~(XI-XJ + (xi-xo) e-a(Xf-X,> = Oa

41ST A TJSnQUE ET CALCUL DES PROBABJLJTÉS EN HYDROLOGIE

N -}:; e-a(xl-x.)= O

ou

eaxox + N },:: Xi e-ax. = O-

a

eOXo

N~ e-ax,

La seconde équatÍon donneeOX. 1

---N -}:; e-ox,

(O,)

et Ia premiete peut s'écrire

y~ XI e-ax.

~ e-ax. +

On a d'autre partaxo = LN-L~ e

et on obtient en définitive le systeme :

~ XI e-aXfx (98)

L e-ax.

(99)

La premiere relation est une équation implicite en a qui ne peut être résolue que parapproximations successives. Les calculs sont Iongs du fait que I'on doit reprendre, à chaquetentative, tous Ies termes des sommations. C'est pourquoi nous préfererons Ia méthode suivante,basée sur Ie calcuI des deux premiers moments : eIle présente de tels avantages de simplicitéqu'on Iui sacrifiera volontiers Ia rigueur un peu plus grande de Ia méthode du maximum devraisernhlance.

E.\'fimation par Te caTcuT des moments.

Movenne,.+~

-a(x-x,) dxx ae-a(x-x,) e -ex=

-~

posons

e-a(x-x.) u

L 'intervalle de variation devient ( + 00, O). On a

1

dx =--du""

(101)

1-L -}:; e-ax,

NXo = a

42 HYDROLOGIE DE SURFACE

~+~ .+~x = - f o

( xo

+~

d'ou ~ LU) e-udu = Xo e-udu Lu e-u dua

Jo

,,+~ ~+~e-u du =or et Lue-udu

o o

est Ia constante d'EuIer dont une vaIeur approchée est 0,577.

On a donc :

x = x + 0,571

0-

a

Variance

-a(x-x.)dxm12=-x2+tl2 = m2 X2 ae-a(X-X,) e-eI::

En utiIisant Ie même changement de variable que pour le calcul de Ia moyenne, on obtient

+~Lu e-u du )(LU)2 e-u du

f1.2=0"2=~[J+~ O .fo

1

O,780aet (1=

On p~ut donc estimer tres simplement les parametres au moyen des deux premiers moments

d'apres te systeme :

Xo=X-~a

(108): = 0,7800"a

Notons enfin que Xo est Ie mode de Ia Ioi de áumbeI.

i) LOI DE PEARSON III

RappeIons que Ia densité de probabiIité est de Ia forme

nYf(x) = ~e-ax xy-l

r(y) .

Le caIcuI des parametres se fait tres aisément par Ia méthode du maximum de vraisemblance.Ona :

ax + (r I) Lx (109)

d'ou 1) + Lx (110)

.[i=If h

(111)x

STATISTIQUE BT CALCUL DES PROBABILITÉS BN HYDROLOGIE 43

\j!(y- 1) est Ia dérivée logarithmique de r(y). C'est ul1e fol1ction classique, tabulée.

Les tables dol1nent en généralles valeurs de \j! pour y compris entre 1 et 2. Le calcul pour les

autres valeurs se fait au moyen de Ia formule de récurrence :

(112)1 1 1 +

IjI(X +n) =1jI(X).+~ +X+2+~ +~x+nx+]

On obtient donc le systeme

~Lxt

N(113)-La + lJi(y -1) =

r -)::Xja-N=x

-La = r..x -Lyou

d'ou l'équation en y

~ log XI

Ncp(y) = Iog y -0,4343 ljI(y- I) = Iog x -

TABLEAU IV

Loi de Pearsonet Ia vaIeur de a :

Tabie de ia fonction : 'f!(Y) = Log y -0,4343 tjI(y -I)

I a = ~ (116)

Le tabIeau IV donne

une tabuIation sommaire deIa fonction {p(y).

44 HYDROLOGIE DE SURFACE

F) La confiance statistique

Nous ayons YU qu'il existe des méthodes permettant de tester si telle hypothese sur Iadistribution statistiq~e d'une Y. a. peut être retenue ayec une probabilité raisonnable d'êtreexacte. On se gardera bien de dire qlle, si le test est fayorable, I'hypothese est confirmée, cequi impliquerait 'qu'elle est Ia seule possible au YU de l'échantillon analysé. Eh fait, nombreuxsont les cas ou plusieurs distributions théoriques peuyent raisonnablement s'appliquer à unmême échantillon; le bon sens yeut alors que les différentes hypotheses enyisagées conduisentà des courbes yoisines.

Une loi de distribution théorique, ou hypothese, dépend, nous l'ayons YU, d'un certainnombre de parametres et nous ayons indiqué le moyen d'estimer ces parametres à partir desdonnées expérimentales. Le probleme qui se pose maintenant est de déterminer dans quellem~sure les yaleurs trouyées peuyent yarier suivant 1 'échantillon utilisé. autrement dit, d 'étudierpour chaque parametre sa loi de distribution d'échantillonnage.

Prenons comme exemple une Y. a. gaussienne : sa loi de distribution est eritierement déter-minée par Ia moyenne x et l'écart-type O'x. Mais ce que nous connaissons de ces deux parametresse limite à des estimations faites à partir d 'un certain échantillon comportant n yaleurs de laY. a. que l'on note nm_" et ).-Sn. Si l'on ayait opéré sur un autre échanti1l0n de même dimension,tiré de la même population-mere (par exemple deux périodes consécutiyes d'observations dedébits de 25 années chacune), on aurait eu toutes les chances du monde de trouyer comme esti-mations de x et de O' des yaleurs différentes. On yoit donc se dessiner de nouyelles lois statistiquesintéressant non plus la distribution de la Y. a. x, mais sa moyenne x ou son écart-type O'x pourun grand nombre d'échantillons comportant chacun n yaleurs de x. L 'étude théorique dedistributions d'échantillonnage sort du cadre de cet exposé; dans le cas de la loi normale,disons seulement q1ie nmx se comporte comme une Y. a. normale de moyenne x et d'écart-typeO'x . é 1 1 .O'x~, et que '.Sx SUlt ga ement une 01 normale de moyenne O'x et d'écart-type --=. Ces

vn ' V2n

résultats ne sont du reste yalables que si les conditions du théoreme central limite sont res-pectées; il faut en particulier que n soit grand.

D'une façon générale, que Ia loi de x soit normale ou non, un moment empirique mkd'ordre k, estimation d'un moment théorique fl.k, est distribué normalement ayec une moyenne

1fl.k et une yariance -[(l2k -fl.k2], pour autant que les conditions du théoreme central

n

limite sont respectées. On peut également déterminer la covariance de deux moments empi-riques d'ordres différents par la formule :

fLh fLk] (117)

1cov (mk, mh) = : (fLh + k

Si enfin le parametre qui nous intéresse n'est pas un moment, mais une fonction de plusieursmoments, par ex:,:mple À(!1.k, !1.h) estimé par l(mk, mh), on peut ayoir une yaleur approchée desa yariance en écriyant :

( "I )2 ( "I )2 "I "Ivar I = -var mk + -var mh + 2- .-

"mk "mh "mk "mh(118)cov (mk, mh)

On est donc ramené, si on possede un échantilIon de taille suffisante, à étudier Ia variationd'une v.a. normaIe, c'est-à-dire Ia marge d'incertitude que I'on peut s'attendre à trouver.

STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE 45

autour de Ia valeur centrale déterminée empiriquement, avec une probabilité donnée. C'est làqu'intervient Ia notion de seuil de confiance et d'intervalle de confiance. Supposons que I'opé-rateur ne veuille pas prendre un risque supérieur à une probabilité de 5 % d'avoir, pour Ieparametre étudié, une valeur théorique située en dehors de I 'intervalle de variation qu 'iI vaIui assigner. En fonction de Ia moyenne empirique du parametre et de son écart-type d'échan-tiIlonnage estimé colnme il est dit plus haut, iI va construire une variabIe réduite de GaussPuis iI déterminera, au moyen de ia table de I 'intégrale de Gauss, Ia valeur absolue de ia variable.réduite qui a une probabilité 0,025 d'être dépassée. Ceci Iui donne deux vaIeurs du parametre,symétriques par rapport à Ia valeur moyenne, entre Iesquelles ii y a 95 % de chances que setrouve Ia valeur théorique. L 'intervalle séparant Ies deux vaIeurs extrêmes est dit : infervalfede confiance à 95 %.

RETOUR SUR LA NOnON DE RÉGRESSION5.

Loi de Gauss à deux variables -Régression linéaireA)

Soit deux v. a. norma.les x et y de moyennes x et y, d'écarts-types O'x et O'y et p .leur

coefficient de corré.lation. On montre que Ia loi du couple (x, y) est définie par .la densité de

probabilité :

2 .if- ] ~ (119)X)2 .x)(y.

ax a...

1 [ <X 2(1 -p2) - (x )i) (v=exp\p2 I

-2pO'x'

I.f(x, y) = ~:a-:v

On en déduit Ia distribution de y Iié par x

':;}12 ~

1[ y-

2(1 -p2) a;

fx(Y) = (120)-p

à laquelle est associée ia moyenn~ conditionnelle

O"y -

p -(x -x)

O"x

(121)I -

Yx =y

On détermine de même Ia moyenne conditionneIle de x lié par y

ji) (122)x'y

Les deux courbes d.estimation de y par x et.de x par Y. ou courbes de régression, sontdonc des droites.

On notera qu'elles se coupent au point (x = x, y = y).et different par leurs coefficientsangulaires. Une telle régression est dite finéaire et p est un coefficient de corréfationlinéaire.

Il est aisé de voir Que dans un plan (x, y) probabilisé suivant cette loi, c'est-à-dire dont

46 HYDROLOGIE DE SURFACE

chaque surface élémentaire dx dy est affectée d'un poids f(x, y)dx dy, les courbes d'égalesdensités de probabilité sont des ellipses d'équation :

p2 D]2XY+Y1I)= (123)Log [27t O'x O'y V

y-y

a"ou , D : densité de"probabilité.

O"x

Fig 6 -Allure des éllipses d'égale densilé de probabililé (0,01)dans Ia 10i de Gauss à deux dimensions pour différenlesvaleurs du coefficienl de corrélalion (x = V= o, O" x= O" y)

La considération d 'une loi de Gauss à deux yariables permet de résoudre au mieux le

probleme suiyant, d'application fréquente en h):'drologie et en climatologie :Soit une yariable y dont on possede k observations (par exemple débit moyen annuel à une

station observée depuis k années) et une variable x dont on possede n > k observations (parexemple n années d'observations du débit moyen annuel à une autre station de la même riviereou d'un bassin voisin). On suppose qu'il existe une certaine cQrrélation entre xet y et on s'in-téresse à la moyenne de y.

Cette moyenne peut être estimée à partir des k valeurs fournies par l'observation directe(kmy). Est-il possible d'améliorer cette estimation par la connaissance des n-k va1eurs observéespour x? Si oui, quelle valeur convient-il d'adopter comme moyenne de y, de préférenceà kmy?

Désignons par :

x Ia moyenne de x ;

y Ia moyenne de y;

(jx I'écart-type de x;

(jy I'écart-type de y;pIe coefficient de corréIation entre x et v.

1

2ií=PiJ<X

47STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE

Les valeurs empiriques de ces parametres, calculés d'apres l'échantillon sont, en désignant

par i une des k observations communes à x et à y et par j une des n -k observations supplé-

mentaires effectuées sur x :

1 k

=k ~XiXk

= ~ ( ~ Xi + ~I XJ) = ~ 6, x (125)Xn

1 k

k LyVk (126)=

Xk)2

2 1 ~nS x = -L, (x .

n i+J

k

kS2y = ~ L (Yi

I

k1 ~ (Xi

krxy = k L, -

1

-) 2

Xn (128)

Yk)2 (129)

-Xk) (Y/

kSY kSx

Yk)

On constitue alors un échantillon comportant k valeurs de y et n valeurs de x, on déterminesa densité de probabilité et on lui applique la méthode du maximum de vraisemblance. Cecipermet d'évaluer les valeurs les plus probables des parametres statistiques précédents, soit :

-"x =x" (12x = "s2x

ce qui est normal pour les parametres ne dépendent que de x, puisque c'est pour cette variableque la période d'observation est la plus longue : on n'a donc rien à attendre des observationsfaites sur v. Par contre :

kSy ( -

krrv -Xk(111)

"'Y = Yk xJ

kS",

22 kSy ( 2

kr xy ~ kSx

kSx

nSx2)â2" = kS2"

"kSy O'x

--;:; = krxy-~,r' kSx rr" (133)

Il s'agit maintenant de savoir si ces nouvelles estimations de y et de (Jy améliorent Iaconnaissance de ces Darametres Dar raDDort aux estimations par Yk et kSv. Pour ce faire, iI faut

48 HYDROLOGIE DE SURFACE

étudier les lois de distribution des estimations y etâ2y. Le probleme a été traité par R. VÉRON

( Direction des Études et Recherches d' É/ectricité de France -Hydr%gie) .On trouve :

"' "'moyenne de y = E(y) = y (134)

var (j,) = E(j;- ) 2 (12 I

y =~J

p2) (135)1.- )\

2moyenne 0"2y = E(0"\) = ~ ~ k

k I

k-l(comprise entre -0"2y ct 0"2y)

k4

var ;;:2 = E (â2 -a2 ) =a -L [ A' + B' ( 1y y y In2 p2) + C'(1 p2)21

avec

k

k.2-

k.

43 [4k + (nC' = k(n k) ~ (k 2) (n k +4) k) (k 2)] +

k (k-6) (k-8)+ 2) <k=3)---rk=55k(n

(138)

Pour l'étude de la moyenne, y, on dispose de deux estimateurs Yk et Y. Le probleme desavoir si la prise en com1Jte des n -k observations supplémentaires de x améliore la connaissance

"'de y se ramene à l'étude de l'efficacité relative deyk et de -:ydéfinie par E= ~, soit, d'apres

.var Ykles calculs effectués ci-dessus :

~ ) [ 1- (k-2) e~

]n k-3+ ( 1E=

2a y "

~

Pour que Ia moyenne Yk' dériyée de k' ob3eryations ait une yariance éga1e à 0,415 -, 11102 2

faudrait que ~ = 0,415 ~ d'ou k' = 24,1. Autrement dit, la prise en compte des 40 yaleurs

de x permet de déterminer y ayec Ia même précision que si l'on ayait eu 24 yaleurs de cetteyariable obseryées directement au lieu de 10. L 'interyalle de confiance à 95% s'en trouye nota-b1ement resserré.

Pour Ia yariance, Ia comparaison en efficacité des estimateurs ~2y et kS2y est plus difficiledu fait des distorsions qu'ils comportent et à cause de Ia complexité de l'expression de Iayariance aléatoire de ~y2. On se contentera en général de conserver l'estimation non biaisée :

k -"-1 kS2y, sauf si O"\ se trouyait être supérieur à cette expression. Cette erreur systématiQue

kl

49STAnSnQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE

sur l'estimation de Ia variance -;:2y est due à Ia méthode même d'extrapolation : en remplaçantles n- k valeurs non observées de y par des expressions tirées de l'équation de régression enx de y, on i~troduit en fait des moyennes conditionnel1es qui, étant des moyennes, sont à priorimoins dispersées que les valeurs naturel1es. Il est donc normal que, si la véritable structure del'échantillon le plus grand est Ia même que celle de l'échantil1on restreint, on arrive pour

1 'écart-type à une valeur plus faible.

Régression quelconque à deux ou plusieurs variablesE)

Xl' X2' ...Xn étant des variables indépendantes, on peut envisager entre ces variableset une variable Y, une relation stochastique que l'on écrira Y = F(Xl' X2' ...Xn). Cette

relation ne sera pas exacte, c'est-à-dire que pour Xl' Xn données, une valeur expérimentaleYi de Y sera différente de la valeur F(X1, ...Xn) fournie par l'expression analytique ou par la

courbe traduisant la relation.Les causes des écarts entre valeurs calculées et valeurs observées peuvent être de natures

diverses :-erreurs de mesures (systématiques ou fortuites). On s'efforcera de corriger les prernieres

lors de l'étude critique. Les secondes se répartissent en général assez bien suivant une loi de

Gauss;non intégration de tous Ies facteurs conditionneIs de Y dans Ia forme F(Xl .

s'iI s'agit d'une forme F anaIytique, imperfection de Ia représentation adoptée.

Xn)

a) Méthode des moindres carrés.

Cette méthode est théoriquement Ia meilleure Iorsqu'on peut affirmer queles écarts alé-atoires des points empiriques à Ia courbe moyenne suivent une Ioi de Gauss. En fait, on I'utilisegénéralement comme donnant une bonne approximation sans se préoccuper de Ia Ioi de distri-bution des écarts. Elle consiste à rendre minimale Ia somme des carrés des différences entre

va1eurs empiriques et valeurs théoriques.EIle suppose que I'on connait Ia forme analytique de Ia relation 1iant Ia variable étudiée y

aux variables indépendantes Xl' ...Xn.Si I'on croit pouvoir exprimer une grandeur physique Y en fonction d'autres grandeurs

X1., X2, ...Xn par une relation :

Y = F(X1, X2' ...Xn; ~, C2' Ck)

C1' C2' ...Ck, étant des parametres d'ajustement, dimensionneIs ou non, le maximum de vrai-semblance sera obtenu si, en posant e:i = Yi -Fi,les dérivées de ~e:i2 par rapport aux diffé-rents parametres son( toutes nulles. On obtient en. définitive un systeme de Ic équations à kinconnues permettant de calculer Ies valeurs de ~, ...Ck.

y i désignant Ie chiffre trouvé pour une valeur quelconque:de Y, Xli' ...X2;, Xni les valeurscorrespondantes trouvées pour les facteurs conditionneIs, on ale systeme :

~113~e:i2

=o~Ci

~

1[1 "F/ "F/

.~Y/~=~F/~

50 HYDROLOGm DE SURFACE

les sommes s'étendant à l'ensemble des valeurs expérimentales trouvées pour chacun des Y,

Xl' X2' ...Xn etj variant de 1 à.k. (142)représente doncunsystemedekéquations àkinconnues

permettant en principe de calcu1er ~, C2' ...Ck.

Appliquons Ia formule (142) à un cas tres simple : relation linéaire à une variable :

V=aX+h

On a immédiatement

}::;x,y ~(aXI + h) XI

}:;y/ = }:;(aXl + h) (144)

d'ou, N étant le nombre de couples (Xi, Y;) :

N~XiYI.a = N~XI2

~Xi2~yi-b = N}::Xf

-~Xi~Yi

-(~Xi)2

~Xi~XiY,

-(~X;)2

(145)

Dans le cas général d'une relation polynôrnale de d(gré n, à un stul fact(ur conditionn{}on peut écrire :

v=a+bx+cx2+ + kx" (147)

et les coefficients sont donnés par le systeme linéaire

+ (~Xjn) k = ~yj

+ (~X,n+l) k =~Xjyj+ (~Xin+2) k = ~Xj2yi

Na + (~Xi) b

(~Xi) a + (~Xj2) b

(~Xi2) a + (~Xj3) b

(~Xj2) C +

(~Xj3) C +

(~X;4) C -1-

[(~Xjn) a + (~Xjn+l) b + (~Xjn+2) C + (~Xj2n) k = ~Xjnyj

L 'expression analytique est donc fort sirnple, mais Ies calcuIs nurnériques dcvienn(nt viteirnpraticables Iorsque n croit. On ne peut pra.tiquern(nt dépasser Ie 4e d(gré (n calculant à Iarnain sur une rnachine électrique d 'usage courant. Au-delà, iI faut faire appel à Ia mécanographie .

Au cours de nos travaux, nous rencontrerons bien d'autr(s foIrnes analytiques dont Iarésolution aIgébrique est tres cornpliquée, parfois rnêrne irnpossible. On peut alors toujours s'(ntirer par une rnéthode d'approxirnations, parfois Iongue à appliquer, mais toujours sirnple.

Reprenons en effet I'expression générale (140) :

Y = F(X1, X2' , Xn, C1, Ck)

-On se donne une valeur pour chacun des coefficients C.-On calcule }::;e:i2 = (Yi- F;)2

-En gardant C2. ...Ck constants. on fait vaI.ier ~. en calculant chaque fois: le }:e:i2

correspondant.-On porte sur un graphique }:;e:i2 en fonction 'de C1, et en déterrnine le minimurn auquel

correspond une valeur de ~ que I.on adopte provisoirement.-On fait la même chose pour, C2. C/I. Puis on revient à C1. ...jusqu .à ce que les

valeurs trouvées pour les }:; e:i2 soient pratiquernent constantes.

51STATISTIQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE

Pourvu que la fonction soit continue, les valeurs de ~ Ei2 convergent nécessairement versune limite inférieure. Même pour des cas parfaitement solubles algébriquement, il peut êtreavantageux de procéder ainsi.

Si 1;: systeme résolutif se présente sous forme de deux équations implicites à deux inconnues,on utilisera une méthode graphique.

b) Méthodes des déviotion.'i résiduelles.

Considérons une variable Y dépendant de n variables Xl' ...Xn. On supposera, ce qui estsouvent réalisé en pratiqu~, que l'on peut classer les X par ordre d'importance, c'est-à-diresuivant leur influence plus ou moins grande sur la variable dépendante Y, et que cet ordrecorrespond précisément aux indices 1, 2, ...n. Pour simplifier les écritures, nous suppo-serons que Y dépend de 3 variables seulement. On peut exprimer Y par Xi, facteur conditionnelle plus important, au moyen d'une relation :

f}.1 yy = f(XJ

Ll1 Y représente l'écart résiduel subsistant apres l'ajustement graphique d'une courbeY = f(XJ, fait à partir d~ n couples observés (Yi, X1;). Comme on sait qu'il existe d'autresfacteurs conditionn~ls de la grandeur physique Y, il est raisonnable supposer qu'une partieau moins deLl1 est due à l'influence de X2 et Xs' et d'écrire :

Ll2Y~1 y = f(X2)

Ll2Y !(Xa) + ÂY

D'apre31'hypothese de départ, l'écart résiduel ~y ne peut être imputé à l'existence d'unautre facteur conditionnel. Il provient donc, soit d'un mauvais tracé de Ia premiere courbe.y = f(XJ soit d'erreurs de mesures à caractere aléatoire, soit de facteurs conditionnels nonenvisag~3; il est po3sible d~ remédier à Ia premiere de ces causes de dispersion en retouchantIa courbe y = f(XJ, puis ~1 y = f(X2) etc. On se contente en général' de deux approxi-

mations. En pratique, on opere de Ia façon suivante :

Premiere approximation

On porte sur un graphique tous les couples (Yi, X1Í) : Yen ordonnées et X1 en absciss(s.Une courbe est adaptée graphiquement au nuage de points : c'est Ia courbe de premiere appro-ximation représentant Y = f(XJ. Pour chaque point d .observation on observe une déviation~1Í Y = Y i -f(X1Í) qui est reportée en ordonnées sur une autre graphique d 'abscisses X2.

On ajuste graphiquement une courb~ au nouveau nuage obtenu et on note Ies nouvellesdéviations Ll2i Y qui font I.objet d'un troisieme graphi:Jue d.abscisses ~. On obtient alors Iesdéviations ~Y.

Deuxie111e approxi111afion :

Les déviations L\i Y du troisieme graphique sont considérées comme provenant en grandepartie d'un ajustement déficient de Ia courb~ Y =f(XJ t.racée en premiere app..oximation.On porte donc pour chaque point, dans un plan (Y, XJ, les déviations L\i Y à i)artir de Iapremiere courb~ Y = f(XJ. Une nouve1le courbe Y = f(XJ est. alors ajustée gra"hiquementau nouveau nuage de points ainsi obtenu. Les déviations résidue1les observées servent à corrigerIa Ire courb~ L\l Y = f(X2), etc.

52 HYDROLOGIE DE SURFACB

Finalement, Ia grandeur physique Y est estimée par la relation

Y = r(xJ + f' (X2) + f' (X3)

les valeurs des différçntes fonctions F étant prises sur les graphiques correspondant respec-tivement aux variables indépendantes Xl' X2 et X3.

On notera que l'app1ication de cette méthode n'exige aucune hypothese sur la formeanalytique de la régression. Elle:est de ce fait beaucoup plus générale que Ia méthode des

moindres carrés.Il existe d'autres méthodes pour l'étude des corrélations multiples; citons en particu1ier

la méthode coaxiale, purement graphique. Lorsque les régressions sont linéaires, par exemp.ledans .le cas de distributions marginales gaussiennes, on a parfois intérêt à calculer directementles parametres de ces régressions, surtout si l'on s'intéresse à l'intensité des liaisons.

NOTIONS D'ÉCHANTILLONNAGE AV HASARD6.

L 'échantillonnage au hasard est en quelque sorte l'opération inverse de l'analyse sta-tistique. Il consiste à construire un échantillon dont la structure correspond à une loi de pro-babilité donnée. C'est une technique parfois utilisée dans les applications de l'hydrologie,notamment pour rendre compte de l'exploitation d'un aménagement au cours d'une périodede durée nettement supérieure à celle des observations. Pour la mettre en pratique, on peutprocéder par tirages au sort sur un échantillon type constitué à partir de la loi théorique

proposée.On préfere en général utiliser les tables de nombres au hasard, établies d'apres des tech-

niques fort difiêrentes suivant les auteurs. Ces tables fournissent des collections de nombresdont la structure statistique correspond à une distribution uniforme, c'est-à-dire à une densitéde probabilité constante, pour une v .a. variant. de O à 1 : les chiffres consignés dans les tables.représentent donc des décimales de la v .a. et on en retient le nombre suffisant à la précision

désirée.L'utilisation des tables de nombre~ au hasard fait appel à Ia notion d'anamorphose :

transformation d 'une loi de répartition F(x) en une autre loi quelconque G(x) par un changementde variable approprié. Dans le cas qui nous intéresse l'anamorphose est rectangulaire, c'est-à-dire que l'on prend pour variable auxiliaire (à introduire dans les tables), y = F(x); on vérifie

aisément que y varie bien de O à 1 avec une densité de probabilité constante.La constitution d 'un échantillon au hasard est donc tres simple. On se fixe arbitrairement

un point de départ sur la table et on lit les chiffres en suivant dans un ordre quelconque. Sion désire, par exemple, retenir 4 décimales, qn découpe dans la suite obtenue des groupes de4 chiffres. Pour chaque nombre y ainsi obtenu, on détermine la valeur de x d 'apres la relationy = F(x).

Bibliographie

EZEK{EL Mordxai. -Methods of Correlation and Regression Analysis. -Londres.

KENDALL M.G. -The advenced theory of statistics. -Ch. Griffin. -Londres.

MORICE E. et CHARTIER F. -Méthode statistique. Publication de l'I.N.S.E.E. -Imprimerie

N"tinn"l.. P"ri~

53STATISTIQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE

BARLOW. -Tables des carrés, cubes, racines carrées, racines cubiques et inverses de tous lesnombres entiers de 1 jusqu'à10 000. -Librairie Polytechnique Ch. Béranger, Paris et Liege.

BOLL Marcel. -Tables numériques universelles. -Dunod, Paris.On y trouvera notamment des tables assez completes concemant la fonction r et sa dérivéelogarithmique, les logarithmes naturels, etc.

Centre de formation aux applications industrielles de la statistique. -Tables statistiques. -Institut de statistique de l'Université de Paris.Donnent, sous une forme condensée, dans un manuel particulierement. maniable, Ia plu-part des tables correspondant aux fonctions de répartition usuelles et aux tests les pluscourants.

FlSCHER and Y ATES. -Statistical Tables for biological agricultural and medical research. -Oliver and Boyd, Londres.Ces tables comportent entre autres une série importante de nombres au hasard.

HAYASHI Keiichi. -Fiinfstellige Tafeln der Kreis-und Hyperbelfunktionen. -Walter deGruyter & Co, Berlin.Tres utiles pour les fonctions exponentielles.

PEARSON K. -Tables of the incomplete r function. University Press, Carnbridge.Indispensables pour l'application de la loi III dePearson.