h:/enseignement/spatial/cours/cours stat … · 2.3.4 etude cas-con trôle. 25 2.4 mo délisation....

50

Upload: trancong

Post on 02-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

Statistique spatiale - UE STA 2316Notes de coursP. Ailliot & V. MonbetUniversité de Bretagne Sud20 novembre 2007

Page 2: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2

Page 3: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

Table des matières1 Introduction 51.1 Qu'est-ce que la statistique spatiale ? . . . . . . . . . . . . . . . . . . . . . . 51.2 Quelles données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Quelques problèmes typiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Quelles méthodes ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5 Les logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.6 Stationarité, isotropie et ergodicité . . . . . . . . . . . . . . . . . . . . . . . 82 Processus ponctuels spatiaux 132.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.1.1 Dé�nition d'un processus ponctuel spatial . . . . . . . . . . . . . . . 132.1.2 Quelques processus ponctuels . . . . . . . . . . . . . . . . . . . . . . 142.1.3 Propriétés d'ordre un et deux . . . . . . . . . . . . . . . . . . . . . . 162.2 Propriétés d'ordre un . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.1 Dé�nition de l'intensité . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.2 Estimation de l'intensité . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.3 Méthode des quadrats . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.4 Test d'adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Propriétés d'ordre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.1 Fonctions d'intensité d'ordre deux . . . . . . . . . . . . . . . . . . . . 212.3.2 Fonction K de Ripley . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.3 Test 'complètement aléatoire' . . . . . . . . . . . . . . . . . . . . . . 242.3.4 Etude Cas-Contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.4 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.1 Exemple de modèle pour l'intensité . . . . . . . . . . . . . . . . . . . 272.4.2 Modèle de Neyman Scott . . . . . . . . . . . . . . . . . . . . . . . . . 283 Geostatistique 333.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Interpolation par la méthode des distances inverses . . . . . . . . . . . . . . 363.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3.1 Processus stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3.2 Analyse variographique . . . . . . . . . . . . . . . . . . . . . . . . . . 403.3.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443

Page 4: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

4 TABLE DES MATIÈRES3.3.4 krigeage sur les données minières . . . . . . . . . . . . . . . . . . . . 463.3.5 Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 5: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

Chapitre 1Introduction1.1 Qu'est-ce que la statistique spatiale ?La statistique spatiale est l'ensemble des outils et methodes statistiques qui permettent dedécrire et d'interpréter des données spatialisées pour l'aide à la décision. Il s'agit de prendreen compte la variation du caractère d'intérêt dans plusieurs dimensions simultanément etde mettre en évidence des structures spatiales. Dans le cadre de la statistique spatiale, onconsidère en e�et que la localisation peut avoir une valeur explicative. Par exemple, deuxvaleurs dans deux localités voisines ont plus de chance d'être proches que deux valeurs dansdeux localités éloignées.On retrouve ce type d'idées en séries chronologiques. Cependant, dans les séries chronolo-giques, le processus est indexé par le temps qui est en général unidimensionel et ordonné.On ne retrouve pas cette notion d'ordre dans les séries temporelle. La notion de voisinagedevient plus complexe.Dans le cadre de la statistique spatiale, on voit souvent revenir le terme géomatique. Selon leJournal O�ciel, 14 février 1994, "La géomatique est l'ensemble des techniques de traitementinformatique des données géographiques".Le développement des capacités des ordinateurs puis des logiciels permettant de développeret gérer des Sytèmes d'Informaion géographique (SIG) ont largement démocratisé l'usage dela statistique spatiale ces dernières années. Auparavant, elle était essentiellement utilisée parles géographes et quelques chercheurs. Aujourd'hui, de nombreuses disciplines utilisent destechniques géodécisionnelles. Quelques exemples de domaines d'application et de problèmes :� géographie : cartographie� géologie : estimation de réserves de pétrole, de minerais, ...� épidémiologie : estimation des risques pour la santé liés au voisinage d'incinérateurs, ex-pansion d'une épidémie, ...� archéologie : répartition de silex taillés� CRM : recherche d'iris à fort taux de client potentiels� écologie : répartition d'espèces dans une zone déterminéeChaque champ disciplinaire dispose de données spéci�ques (de nature di�érente) et chacunedes disciplines a tendance à développer ses méthodes propres. Un des roles du statisticien estde mettre en place un formalisme standardisé et des techniques de validation des méthodes.5

Page 6: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

6 CHAPITRE 1. INTRODUCTION1.2 Quelles données ?La caractérisation de la structure spatiale dépend de la nature des données. Comme en statis-tique non spatiale, les données spatialisées peuvent être de nature très di�érentes : binaire,qualitatives, discrètes, continues. Et elles peuvent avoir di�érents 'modes' d'implantation(continu, discret, en réseaux). Les méthodes d'analyse et de modélisation dépendent à la foisde ces deux éléments.Notons Z : s ∈ S ⊂ R2 7→ Z(s) ∈ R

p un processus spatial. La position s peut êtrealéatoire ou non. Pour une observation i, si est la position de l'observation i et zi la variableéventuellement associée.On peut regrouper les données spatiales en 5 types di�érents1. Semis de points (données de type processus ponctuel) - utilisé par exemple en écologie,en criminologie, en épidémiologie.La variable d'intérêt est la position si des points, ie les positions {s1, ...sn} sont desvariables aléatoires. Les si peuvent éventuellement être accompagnés d'une variable Z(ex : position d'une espèce d'arbre et diamètre des arbres).2. Données géostatitiques : mesures de pollution atmosphérique, forage minier, altitude.Les points de mesure si sont choisis par l'expérimentateur (forage) ou �xes par nature(station météo). Le processus Z est dé�ni partout, mais observé en des points quipeuvent être irrégulièrement espacés.3. Données sur un réseau régulier (lattice) : image, maillage arti�ciel, ...Le processus Z est dé�ni partout mais il est observé sur un réseaux discret et régulier.Les si forment une grille régulière déterministe.4. Données aggrégées sur un maillage : par exemple une valeur par commune, par pays,... (ex : Nombre de SIDS, votes)Dans ce cas, s est un sous-ensemble et non plus un point et Z peut être une variablesynthétique tel qu'une valeur moyenne par exemple.5. Données de �ux qui sont bilocalisées : transport, domicile-lieu de travail, �ux dans unréseau informatique, ...Dans le cadre de ce cours, nous nous intéresserons en particulier aux processus ponctuels (cas1.) et aux données géostatistiques (cas 2.). Le cas des données sur un réseaux régulier peutêtre vu comme un cas particulier du cas 2. Mais la régularité du réseau permet généralementde développer des modèles spéci�ques comme des modèles markoviens.1.3 Quelques problèmes typiquesImages

Page 7: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

1.4. QUELLES MÉTHODES? 7� détection et suivi d'objets (voir par exemple,http ://www.irisa.fr/vista/Themes/Demos/Mouvement/NuagesBas/detection_nuages_bas.html)� reconnaissance de formes, de visages� débruitageDonnées géostatistiques� interpolation → cartes (bathymétrie, voir �gure 1.1)� détection de dépassement de seuils (pollution)Processus ponctuel� Détection de tendances, de singularitéPar exemple, la �gure 2.14 montre la répartition de malades atteints de cancer du foie :on remarque une intensité plus forte de malades au Sud Est de la zone.� Répartition d'espèces, occupationLa �gure 1.3 montre la répartition de Toupelos des forêts de di�érents diamètres dans uneparcelle de 50×50. On observe par exemple que les arbres les plus gros sont situés au Nordde la zone.1.4 Quelles méthodes ?Comme en statistique appliquée, une étude en statistique spatiale voit se succéder plusieursapproches. Dans un premier temps, il s'agit de décrire les données étudiées pour en dégagerles principales caractéristiques et en particulier de mettre en évidence une structure spatiale.Les propriétés d'ordre un, telles que la moyenne pour un processus continu ou l'intensitépour un processus ponctuel, donnent des informations locales.Les propriétés d'ordre supérieur permettent de caractériser la dépendance spatiale. Parexemple, on se pose la question de savoir si la mesure en un point s apporte de l'infor-mation sur ce qui se passe dans un voisinage de s. Pour les données géostatistiques, si siet sj sont proches on peut s'attendre à ce que zi apporte de l'information sur zj . Pour lesprocessus ponctuels, si on a observé un point en s, on s'attend à ce que ça nous informe surl'existence d'autres points dans un voisinage de s. Le plus souvent, on ne caractérise queles propriétés d'ordre un et deux, car les propriétés d'ordre supérieur sont plus di�ciles àestimer. Pour les données géostatistiques, , les propriétés du second ordre sont caractériséespar le variogramme et pour les processus ponctuels par l'intensité d'ordre deux.On peut chercher ensuite à modéliser cette structure pour répondre à di�érents problèmes :simulation, interprétation, prévision.

Page 8: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

8 CHAPITRE 1. INTRODUCTION1.5 Les logicielsOn donne ci-dessous une liste non exhaustive des logiciels disponibles sur le marché. carto-graphieMapInfo, ArcGis, Grass (freeware), Philcarto (freeware)Traitement statistiqueSplus, R (Splancs, Statspat), matlab (EasyKrig, DACE), SAS Macro1.6 Stationarité, isotropie et ergodicitéAvant d'introduire les outils qui vont permettre d'estimer les caractéristiques des processusspatiaux, il est nécessaire de dé�nir les notions de stationnarité, d'isotropie et d'ergodicité.(voir Cressie).Dé�nition 1 On dit qu'un processus est stationnaire s'il est invariant par translation,c'est à dire si ses propriétés ne varient pas d'un point à l'autre de l'espace.� Cas des processus ponctuelsPour tout sous-ensemble A du domaine d'étude D, on dé�nit N(A) qui est le nombre depoints attendus dans A. Le processus est stationnaire si pour tout entier k et toutes régionsAi, i = 1, · · · , k la distribution jointe de N(A1), · · · , N(Ak) est invariante par translation.� Cas des données géostatistiquesLe processus Z est stationnaire si pour tout entier k et tout ensemble de positions si, i =1, · · · , k la distribution jointe de Z(s1), · · · , Z(sk) est invariante par translation.Dé�nition 2 On dit qu'un processus est isotrope s'il est invariant par rotation, c'est àdire si ses propriétés ne varient pas avec l'orientation de l'espace.L'isotropie signi�e qu'on a pas d'e�et directionnel.� Cas des processus ponctuelsLe processus est isotrope si pour tout entier k et toutes régions Ai, i = 1, · · · , k la distri-bution jointe de N(A1), · · · , N(Ak) est invariante par rotation.� Cas des données géostatistiquesLe processus Z est isotrope si pour tout entier k et tout ensemble de positions si, i =1, · · · , k la distribution jointe de Z(s1), · · · , Z(sk) est invariante par rotation c'est à direque la distribution jointe ne dépend que des distances entre les points et pas de la directiondes vecteurs.Les hypothèses de stationarité et d'isotropie assurent que le processus présente les mêmespropriétés partout dans le domaine d'étude. Cependant, en théorie, elles ne su�sent pas àestimer des statistiques générales à partir d'une réalisation sans la propriété d'ergodicité.

Page 9: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 9Pour une série temporelle, l'hypothèse d'ergodicité consiste à admettre que l'évolution d'unprocessus aléatoire au cours du temps apporte la même information qu'un ensemble deréalisations. Pour toute fonction intégrable h,1

N

N∑

i

h(zi) =

h(z)dF (z)Pour les processus spatiaux, l'ergodicité est mal dé�nie. On peut cependant montrer que desproprités de stationnarité et d'isotropie su�sent pour estimer les statistiques d'ordre deux(voir Cressie).

Page 10: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

10 CHAPITRE 1. INTRODUCTION

−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.747.52

47.54

47.56

47.58

47.6

47.62

47.64

47.66

47.68

−11

1

13

25

−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.747.52

47.54

47.56

47.58

47.6

47.62

47.64

47.66

47.68

−12

2

15

28

Fig. 1.1 � Bathymétrie du Golfe du Morbihan - Haut : points de mesure, Bas : carte interpolée

Page 11: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 11

3.5 4 4.5

x 104

5

5.2

5.4

5.6

5.8

6

6.2

6.4

6.6

6.8x 10

4 Malades

3.5 4 4.5

x 104

5

5.2

5.4

5.6

5.8

6

6.2

6.4

6.6

6.8x 10

4 Echantillon de la population

Fig. 1.2 � Malades atteints de cancer du foie (à gauche) et échantillon de la populationtotale (à droite)

0 5 10 15 20 25 30 35 40 45 50 550

5

10

15

20

25

30

35

40

45

50

55

Fig. 1.3 � Répartition spatiale de Toupelos des forêts (nom latin Nyssa sylvatica) dans uncarré ; les cercles sont proportionnels aux diamètres des arbres0 0.5 1 1.5

−3

−2

−1

0

1

2

3

4

5

−1.5 −1 −0.5 0 0.5 1 1.5−0.5

0

0.5

1

1.5

2

Fig. 1.4 � Exemple de réalisations de processus non stationaires, non isotropes

Page 12: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

12 CHAPITRE 1. INTRODUCTION

Page 13: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

Chapitre 2Processus ponctuels spatiaux2.1 GénéralitésEn statistique spatiale, les processus ponctuels sont introduits pour modéliser des individuslocalisés et caractériser leur distribution (répartition) dans l'espace. Chaque individu est re-présenté par un point dans la zone étudiée. La représentation graphique correspondante estparfois appelée semis de points. Les points peuvent éventuellement être marqués ie qu'onleur associe des informations supplémentaires (hauteur et diamètre d'un arbre par exemple).On veut caractériser le semis par sa structure et non par la position des points, ie déduireles propriétés de la population à partir de la réalisation observée. Par exemple, on va tes-ter l'existence de contraintes sur les positions relatives (cluster, régularité, complètementaléatoire).Exemples de phénomèmes modélisés par des processus ponctuels : positions d'une certaineespèce d'arbres (points), positions de 2 sous espèces (points marqués).

0 5 10 15 20 25 30 35 40 45 50 550

5

10

15

20

25

30

35

40

45

50

55

Fig. 2.1 � Toupelos des forêt, rouge : males, noir : femelles.2.1.1 Dé�nition d'un processus ponctuel spatialNous donnons tout d'abord une dé�nition générale des processus ponctuels.Dé�nition 3 Un processus ponctuel spatial est un sous ensemble aléatoire dénombrable d'unespace S ⊂ Rd. 13

Page 14: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

14 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUXEn pratique, on observe les points dans une fenêtre bornée D ⊂ S (par exemple un rectangle)et le plus souvent on se place dans R2 ie d = 2.On suppose que le semis de points observé {Si}i=1,...,n est une réalisation d'un processus {s}dé�ni sur un domaine S ⊂ R

2 (faire l'analogie avec les séries temporelles où {xt} est uneréalisation de {Xt}.Dé�nition 4 On dit qu'une réalisation S d'un processus ponctuel spatial S est localement�nie si le cardinal de s noté n(sD) est �ni, où sD = s ∩ D.Pour un processus S, on dé�nit aussi la fonction de comptage N telle queN(B) = n(SB) (2.1.1)Un processus ponctuel est caractérisé par la façon dont les points se répartissent dans l'espace.Et on remarque qu'il est naturel de caractériser un processus ponctuel par la loi jointe de tout

k-uplet (N(A1), · · · , N(Ak)) avec A1, · · · , Ak des sous ensembles bornés de D. Cependant,dans la plupart des cas, il est di�cile de caractériser ou modéliser la loi jointe et on serestreint aux propriétés d'ordre deux.2.1.2 Quelques processus ponctuelsIl existe di�érents processus ponctuels. Nous donnons quelques exemples :� le processus de Poisson qui permet notamment de modéliser les répartitions uniformes depoints� le processus de Neyman-Scott qui permet de modéliser des répartitions aggrégées� le processus de Strauss qui permet de modéliser des répartitions répulsives� le processus de Gibbs qui permet de modéliser des structures régulières, agrégées ou pluscomplexes (plusieurs échelles) et qui est beaucoup utlisé dans les algorithmes d'esitmationpar MCMC−0.5 0 0.5 1 1.5

−0.5

0

0.5

1

1.5(a)

−0.5 0 0.5 1 1.5−0.5

0

0.5

1

1.5(b)

−1 0 1 2−0.5

0

0.5

1

1.5(c)

Fig. 2.2 � Di�érentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire uniforme,(b) : regulière, (c) : aggrégée

Page 15: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.1. GÉNÉRALITÉS 15Le processus de PoissonLe processus de Poisson joue un role particulier car c'est le modèle généralement utilisé pourtester l'hypothèse de répartition uniforme d'un semis de points.Nous considérons un procesus de Poisson dé�ni sur un espace S ⊂ Rd et spéci�é par unefonction d'intensité λ : S → [0,∞[ telle que ∫

Bλ(ξ)dξ < ∞ pour tout B ⊂ S. On dé�nit lamesure d'intensité µ par µ(B) =

Bλ(ξ)dξ.Dé�nition 5 On dit qu'un processus ponctuel est un processus de Poisson, s'il est inté-grable et si pour tout système de boréliens bornés disjoints A1, · · · , An, les variables aléa-toires N(A1), · · · , N(An) sont indépendantes et suivent des lois de Poisson de paramètres

µ(Bk),k = 1 · · · , n. La famille des lois conjointes est donc complètement déterminée par ladonnée de l'intensité λ.Le processus de Poisson est caractérisé par ses deux premiers moments� moment d'ordre 1 : la densité λ

P (un point dans dS en s) = λ(s)dS� moment d'ordre 2 : la corrélation spatiale qui caractérise la position relative de plusieurspoints.Nous reviendrons sur ces notions un peu plus loin. Dans le cas général, λ dépend de laposition.Dé�nition 6 On dit que le processus de Poisson est homogène si sa densité λ(.) estconstante.Remarque : Un processus de Poisson homogène est stationnaire et isotrope.

0 0.5 10

0.2

0.4

0.6

0.8

1

0 0.5 10

0.2

0.4

0.6

0.8

1

Fig. 2.3 � Réalisation d'un processus de Poisson homogène - à gauche : 50 points, à droite :500 points

Page 16: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

16 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX2.1.3 Propriétés d'ordre un et deuxQuand on dispose d'un semis de points, on se pose la question de savoir si sa répartitionest complètement aléatoire, aggrégée, régulière, ... Bien qu'on puisse parfois répondre parl'observation à la question, il est important de pouvoir quanti�er le degré d'aggrégation oud'aléa (voir �gure 2.10). D'autre part, il est généralement di�cile de dé�nir la loi jointe de(N(A1), · · · , N(Ak)) pour tout k. Dans le cadre des processus spatiaux dé�nis sur des réseauxou sur un espace continu (processus ponctuels marqués aussi ?), on décrit le processus parsa moyenne et sa covariance spatiale (structure d'ordre 2 du processus). Pour les processusponctuels les notions de moyenne et de covariance n'ont pas de sens et on propose d'autresindices dans la suite de ce chapitre.2.2 Propriétés d'ordre unComment dé�nir l'analogue de la moyenne pour un processus spatial ponctuel ? L'idée na-turelle est de dé�nir le nombre de points par unité de volume, c'est à dire l'intensité.2.2.1 Dé�nition de l'intensitéNotons ∆s une petite région contenant le point s, on a les dé�nitions suivantes.Dé�nition 7 La fonction d'intensité (d'ordre un) d'un processus ponctuel spatial est dé�niepar

λ(s) = lim|∆s|→0

E[N(∆s)]

|∆s|On peut interpréter λ comme le nombre moyen d'évènements par unité de volume. Onremarque de plus que si le processus est stationnaire et isotrope,λ(s) = λ = cte2.2.2 Estimation de l'intensitéSoit {s1, · · · , sn} une réalisation d'un processus S dé�ni sur S, stationnaire et isotrope.Estimation globaleLorsque le processus S est homogène, son intensité λ(s) est constante pour tout s ∈ S etdans ce cas, le meilleur estimateur de λ est

λ =n

|S|où on note |S| le volume de S.Estimation localeLorsque l'intensité λ n'est pas constante sur tout le domaine ou si on veut mettre en évidence

Page 17: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.2. PROPRIÉTÉS D'ORDRE UN 17des phénomènes locaux, il est naturel d'utiliser des estimateurs de densité pour estimer λ,comme par exemple des histogramme ou des estimateurs à noyau. En e�et, d'après la dé�ni-tion, on déduit facilement que pour toute observation {s1, · · · , sn} d'un processus ponctuelS, si A est un carré de côté a contenant s alors

1

na2

n∑

i=1

1A(si) tend vers λ(s)quand a tend vers 0. Autrement dit, l'histogramme bivarié construit à partir de l'échantillon{s1, · · · , sn} est un estimateur de la fonction λ.On obtient une version lissée de l'histogramme en utilisant un estimateur à noyau λh :

λh(s) =1

ρh

n∑

i=1

κh(s − si)où� κh est le noyau, c'est à dire une fonction de densité symétrique autour de l'origine.� ρh est une constante de normalisation qui dépend de h et de n. Par exemple, dans R2,

ρh = nh2.� h est la largeur de fenêtre, correspond à la largeur des bandes dans un histogramme. Plus hest grand et plus l'estimation de la densité est lisse, et plus h est petite et plus l'estimationprend en compte la variation dans les données.Exemples de noyaux� fonction indicatrice (cas de l'histogramme)κh(s) = 1[−h/2,+h/2]2(s)� noyau gaussien : densité gaussienne de matrice de variance identité.� noyau polynomial, quartic

κh(s) = 1[0,h](s)(1 − s2

h2))2Choix de h (voir Silverman, 1986) - On dé�nit la largeur de fenêtre optimale h∗ par le h quiminimise l'erreur en moyenne quadratique entre l'intensité estimée et l'intensité théorique.En pratique, on ne connait pas l'intensité théorique, mais pour toute largeur de fenêtre h,on peut utiliser des techniques de bootstrap (ou de validation croisée) pour estimer l'erreuren moyenne quadratique (cf Berman et Diggle, 1989).Propriétés de convergence On peut montrer que la vitesse de convergence d'un estimateurà noyau dans R est en n−ξ/(2ξ+d) où ξ dépend de la régularité de la densité à estimer. Parexemple si λ est 2 fois continument dérivable, ξ = 2.A voir : pb des bords → Transformation en Gaussien (scores normaux ?)Plus proches voisins ? ? ? !

Page 18: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

18 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUXRemarque - Visualiser la fonction d'intensité est une façon parmi d'autres de synthétiserl'information liée au processus ponctuel.Attention - Deux processus ponctuels peuvent avoir la même fonction d'intensité et des pro-priétés d'ordre 2 di�érentes : processus inhomogène + indépendance ou processus homogène+ dépendance.(a)

0 20 40

020

40

0.04

0.1

0.16

(b)

0 20 400

2040

00.

20.

5

(c)

0 20 40

020

40

0.06

0.1

(d)

0 20 40

020

40

0.04

0.1

0.16

Fig. 2.4 � Estimation à noyau de l'intensité des toupelos des forêts - R package - (a) h pardéfaut (' 5), (b) h=1, (c) h=10, (d) h par défaut et edge correction2.2.3 Méthode des quadratsLe principe de la méthode des quadrats consiste à découper la zone d'intérêt en Q quadratsde même dismension. Les quadrats sont souvent des rectangles ou des carrés, mais il peuventaussi être des disques. Si la répartition est complètement aléatoire, on doit retrouver enmoyenne le même nombre de points dans chaque quadrat. Plus précisement, le nombre de

Page 19: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.2. PROPRIÉTÉS D'ORDRE UN 190

1020

3040

50

0

10

20

30

40

50

600

0.5

1

1.5

x 10−3

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

35

40

45

50

Fig. 2.5 � Estimation à moyau de l'intensité des toupelos des forêts - pas de correction debord, h=50

1020

3040

50

0

10

20

30

40

50

600

0.5

1

1.5

x 10−3

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

35

40

45

50

Fig. 2.6 � Estimation à moyau de l'intensité des toupelos des forêts - correction de bord,h=5points dans un quadrat A d'aire |A| doit suivre une distribution de Poisson de moyenne λ|A|où λ est l'intensité du processus de Poisson.Ainsi pour tester l'hypothèse selon laquelle la répartition est complètement aléatoire, onutilise un test du chi 2. Prenons comme exemple, le premier comptage des tupelos. La table2.1 reporte le nombre de quadrats comportant 0, 1, ..., 15 arbres, ainsi que les e�ectifsattendus pour un processus de Poisson homogène de paramètre 2.25. Pour mettre en oeuvrele test du chi 2, on regroupe les classes 5 à 13 de façon à avoir au moins 5 réalisations danschaque classe.Nombre d'arbrespar quadrat 0 1 2 3 4 5 6 7 8 9 10 11 12E�ectif observé 31 23 14 9 7 8 5 1 1 1 0 0 1E�ectif attendu 9 32 16 18 12 2 1 0 0 0 0 0 0Tab. 2.1 � Méthode des quadrats pour l'échantillon tupelo 1 - E�ectif espéré estimé selonune loi de Poisson de paramètre 2.25La statistique du khi 2 obtenue est D = 66 ; à comparer au seuil du test du chi 2 à 5 degrés deliberté : 11. On rejette, au risque 5%, l'hypothèse selon laquelle les toupelos sont distribués

Page 20: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

20 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX0

1020

3040

50

0

10

20

30

40

50

600

0.2

0.4

0.6

0.8

1

x 10−3

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

35

40

45

50

Fig. 2.7 � Estimation à noyau de l'intensité des toupelos des forêts - correction de bord,h=100

1020

3040

5060

0

10

20

30

40

50

600

0.5

1

1.5

x 10−3

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

35

40

45

50

Fig. 2.8 � Estimation à noyau de l'intensité d'un processus de Poisson homogène - correctionde bord, h=10de façon complètement aléatoire.2.2.4 Test d'adéquationUne alternative consiste à ajuster au semis de point un processus de Poisson homogène etde réaliser un test de Kolmogorov pour valider le modèle.2.3 Propriétés d'ordre 2L'intensité ne su�t pas à caractériser un processus ponctuel spatial. En e�et l'intensité per-met de décrire ce qu'il se passe au voisinage d'un point, mais pas les relations de dépendancequ'il peut exister entre di�érents sous dommaines. En d'autres termes, on a besoin d'outilspour décider si la répartition est complètement aléatoire et si non pour quanti�er le degréd'aggrégation ou d'aléa (voir �gure 2.10).Dans le cadre des processus spatiaux dé�nis sur des réseaux ou sur un espace continu, lanotion correspondante au degré d'aggrégation ou d'aléa est la covariance spatiale (structured'ordre 2 du processus).

Page 21: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.3. PROPRIÉTÉS D'ORDRE 2 21(a) (b)

22 25 13 9

13 6 7 5

29 12 14 16

11 13 10 19

Fig. 2.9 � Comptage dnas les quadrats des toupelos des forêts - R package - Résultat dutest du chi 2 : X-squared = 49.2857, df = 15, p-value = 1.574e-05−0.5 0 0.5 1 1.5

−0.5

0

0.5

1

1.5(a)

−0.5 0 0.5 1 1.5−0.5

0

0.5

1

1.5(b)

−1 0 1 2−0.5

0

0.5

1

1.5(c)

Fig. 2.10 � Di�érentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire, (b) :regulière, (c) : aggrégée2.3.1 Fonctions d'intensité d'ordre deuxPour les processus ponctuels la notion de covariance n'a pas de sens et on propose d'autresindices dans la littérature.Dé�nitions et propriétésUne question naturelle, quand on veut caractériser la structure de dépendance d'un processusponctuel, est de se demander comment dé�nir l'analogue de la structure de covariance pourun processus ponctuel.Dé�nition 8 La fonction d'intensité d'ordre deux d'un processus ponctuel spatial est dé�nie

Page 22: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

22 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUXparλ2(s1, s2) = lim

|∆s1|→0,|∆s2|→0

E[N(∆s1)N(∆s2)]

|∆s1||∆s1|La fonction λ2 est délicate à interpréter. Cependant, on observe que si N(∆s1) est indépen-dant de N(∆s2), alors λ2(s1, s2) = λ(s1)λ(s2).Dé�nition 9 Le densité de covariance d'un processus ponctuel spatial est donnée parγ(s1, s2) = λ2(s1, s2) − λ(z1)λ(s2)Exercice : Montrer que si le processus Z est stationnaire et isotrope, alors� λ(s) = E[N(A)]

|A|pour tout A ⊂ D� λ2(s1, s2) = λ2(||s1 − s2||), ie que λ2(s1, s2) ne dépend que de la distance entre s1 et s2� γ(s) = f2(s) − λ22.3.2 Fonction K de RipleyIl est rare qu'on utilise directement la fonction λ2, on lui préfère généralement la fonction Kde Ripley qui est plus facile à manipuler et à interpréter.Dé�nitions et généralitésIl est plus facile d'interpréter la fonction moment d'ordre 2 réduit que la fonction λ2.Dé�nition 10 La fonction K de Ripley d'un processus ponctuel spatial stationnaire et iso-trope est dé�nie par

K(r0) =2π

λ2

∫ r0

0

λ2(r)rdrLa fonction K de Ripley est aussi connue sous le nom fonction de moment d'ordre 2 réduit.Certains auteurs donnent une dé�nition alternative :K(r) = λ−1E (nombre d'évènements dans une boule de rayon ret centrée sur un évènement arbitraire)

K est une fonction de distance qui décrit la structure d'ordre deux à di�érentes échelles. Onobserve que� si le semis de point est aggrégé, chaque évenement est vraisemblablement entouré d'autrespoints du même groupe et K(r) va être grand pour de petites valeurs de r ;� alors que si les points sont répartis régulièrement, chacun va être entouré par un espacevide et K(r) va être plutôt faible pour de petites valeurs de r.

Page 23: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.3. PROPRIÉTÉS D'ORDRE 2 23Remarque : on peut montrer que la fonction K de Ripley ne varie pas si des points sontretirés ou ajoutés selon un tirage complètement aléatoire.Processus de PoissonExercice : Montrer que pour un processus de Poisson spatial homogène,K(r) = πr2Processus de Neymann ScottLe Processus de Neyman-Scott est introduit par Neymann en 1939 dans le domaine de labactériologie. C'est un modèle de clusters. On peut le décrire rapidement de la façon suivante :1. Envènement 'parent' invisible : Poisson de paramètre ρ.2. Nombre d'enfants Ne pour chaque parent est tiré selon une loi de Poisson de moyenne

m.3. Les positions des enfants sont distribuées selon une loi de Gauss centrée sur le parentet de variance σI2.K(r) = πr2 + (1 − e−r2/4σ2

)/ρLe processus de Neymann-Scott ainsi dé�ni est isotrope et stationnaire. L'intensité du pro-cessus est λ = ρm. On remarque que si s1 et s2 sont deux évènements du même cluster decoordonnées (x1, y1) et (x2, y2), alors(x1 − x2, y1 − y2)

′/√

2σ2 ∼ Gau(0, I)et ainsiz =

1

2σ2

(

(x1 − x2)2 + (y1 − y2)

2)

∼ χ22Si r =

√2σ2s est la distance entre 2 évènements arbitraires du même cluster, alors la densité

f2(r) est une densité de Rayleighf2(r) =

r

2σ2exp(−r2/4σ2) (2.3.1)Or, d'après Cressie (1993),

λ2(r) = λ2 + ρE(Ne(Ne − 1))f2(r)etK(r) = πr2 +

E(Ne(Ne − 1))F2(r)

ρm2On remarque que, Ne étant un processus de Poisson de moyenne m, on a E(Ne(Ne−1)) = m2.Et en intégrant la densité de Rayleigh donnée par l'équation (2.3.1), on obtientF2(r) = 1 − exp(−r2/4σ2)

Page 24: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

24 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUXet �nalementK(r) = πr2 +

1

ρ(1 − exp(−r2/4σ2))Processus de Strauss(cf Dixon, p 38)En général, on ne trace pas la fonction K mais la fonction L(r) =

K(r)/π − r a�n demieux mettre en évidence l'écart à la repartition complètement aléatoire. La fonction L estaussi appelée fonction de Besag.EstimationComme nous l'avons indiqué plus haut, on exhibe naturellement un estimateur empirique dela fonction K. Pour une observation {s1, · · · , sn}, en notant dij la distance entre si et sj,K(r) =

1

n∑

i=1

i6=j

1dij≤rCependant cet estimateur est biaisé négativement. En e�et, on observe le processus sur unefenètre bornée, et on ne voit donc qu'une partie des voisins des points proches du bord. Unesolution usuelle pour palier à ce problème est d'introduire des poids ωij :K(r) =

1

n∑

i=1

i6=j

ω−1ij 1dij≤rLe poids ωij est choisi égal à la proportion du périmètre du cercle de centre si et de rayon

dij inclut dans D. Faire un dessin et donner un exemple de calcul (en exercice ?).Remarques� La correction du biais est seulement approximative. Elle marche en général assez bien pourles rayons r petits mais se dégrade pour les r grands.� La correction du biais à en général pour conséquence d'augmenter la variance de l'estima-teur. Elle n'est donc pas toujours opportune.� En général, on calcule K pour r variant de 0 à 1/2 de la dimension la plus courte.� On construit un estimateur L(r) =

K(r)/π− r. La variance de L(r) est approximative-ment constante.2.3.3 Test 'complètement aléatoire'Pour tester si la répartition d'un semis de points est complètement aléatoire, on peutconstruire des tests par simulation. L'hypothèse nulle est donnée parH0 : Le semis de point observé est une réalisation d'un processus de Poisson homogène

Page 25: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.3. PROPRIÉTÉS D'ORDRE 2 25On suppose donc que l'intensité λ est constante et qu'on peut l'estimer de façon globale.Sous H0 on peut simuler autant de réalisations du processus de Poisson que l'on veut et endéduire des IC, un degré de signi�cation (pvalue).Attention pour faire un test il est peut-être préférable de caculer la stat de test D : pb dedépendance ? !.1. Choisir le processus de référence (par ex, un processus de Poisson homogène sur ledomaine d'observation)2. Simuler une réalisation de ce processus3. Estimer K(s) (resp. L(s) pour cette réalisation4. Répéter 2. et 3. un grand nombre de fois (si possible environ 500 fois)5. A partir des estimations de K(s) (resp. L(s), déduire la moyenne, l'écart-type de K(resp. L) et des quantiles de la loi de K (resp. L) ou la pvalue pour la réalisation testée.0 2 4 6 8 10 12

010

020

030

040

050

0

K

r

K(r

)

0 2 4 6 8 10 12

02

46

810

12

L

r

sqrt

(cbi

nd(is

o, th

eo)/

pi)

Fig. 2.11 � Fonctions K et L pour les toupelos - R package0 2 4 6 8 10 12 14 16 18 20

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

0 2 4 6 8 10 12 14 16 18 20

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

Fig. 2.12 � Quantiles [2.5%,5%,25%,50%,75%,95%,97.5%] de la loi de l'estimateur de L sousl'hypothèse H0 (lignes) et estimation de L pour les toupelos (points, �gure de gauche) etpour un processus de Poisson homogène dé�ni sur le même domaine que les toupelos (points,�gure de droite)2.3.4 Etude Cas-ContrôleLes études cas-contrôle sont courantes en épidémiologie. Dans le contexte des processus ponc-tuels, il s'agit de comparer la répartition des cas (des malades par exemple) à une répartition

Page 26: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

26 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUXde référence (échantillon aléatoire de la population par exemple). Dans l'exemple des maladesatteints d'un cancer du foie (�g. 2.14), on observe une concentration de malades au sud ouestde la zone. Mais cette concentration correspond aussi à une concentration de population. Onpeut alors se poser la question de savoir s'il y a des di�érences signi�catives de répartitionentre la population (contrôle) et celle des malades (cas).Diggle propose de comparer les structures d'ordre 2 des deux nuages de points. Il utilisela fonction K. Il ne su�t pas, bien sûr, de comparer les estimations K0 pour l'échantillonde la population et K1 pour les malades. Il faut mettre en oeuvre un test pour prendre encompte l'incertitude liée à l'estimation. L'hypothèse H0 est Il n'y a pas de clustering spatial,le groupe des malades et le groupe de témoins sont deux échantillons indépendants issus dela même population.Ainsi, sous H0, on a K0 = K1 et on peut faire un test de permutation aléatoire des étiquettes'cas' et 'contrôle'. La statistique de test naturelle est D(r) = K0(r) − K1(r) ou une fonc-tion de D(r). En particulier, pour s'a�ranchir de la dépendance en r et donc du caractèremultivarié de D(r), on peut préférer utiliser maxr |D(r)| ou ∫r|D(r)|dr (à voir statistique deCramer-von Mises). Certains auteurs proposent une approximation gaussienne de la loi de

D(r). Mais, on peut aussi utiliser un test de Monte Carlo.Supposons qu'on dispose d'un échantillon de malades s(m) = {s(m)1 , · · · , s

(m)m } et un échan-tillon témoin s(t) = {s(t)

1 , · · · , s(t)n }1. Tirer avec remise n individus dans l'ensemble des observations {s(m), s(t)} pour consti-tuer un échantillon témoins : s(t) = {s(t)

1 , · · · , s(t)n }2. Tirer avec remise m individus dans l'ensemble des observations {s(m), s(t)} pour consti-tuer un échantillon malade : s(m) = {s(m)

1 , · · · , s(m)m }3. Estimer ˆK0(r) correspondant à s(t) et ˆK1(r) correspondant à s(m).4. Calculer ˆD(r) =ˆK0(r) −ˆK1(r)5. Répéter 1. à 4. un grand nombre de fois (si possible environ 500 fois)6. A partir des estimations de ˆD(r) des quantiles de la loi de K (resp. L) ou la pvaluepour la réalisation testée (ie D(r)).La �gure 2.15 montre que la statistique de test D estimée sur les observations cas et contrôlesort de l'intervale des quantiles correspondant à un risque de 5% (pour un test bilatéral).On peut en déduire que la di�érence entre les fonctions K de Ripley du groupe maladeet du groupe témoins est signi�cative. La courbe des degrés de signi�cation con�rme cetteconclusion.2.4 ModélisationDans la section précédente, nous avons proposé des méthodes a�n de détecter si un semisde point est issu d'un processus ponctuel réparti de façon complètement aléatoire dans un

Page 27: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.4. MODÉLISATION 27sous ensmble de R2. Si ce n'est pas le cas, on ne peut pas utiliser le modèle de processus dePoisson homogène et il faut donc proposer des modèles alternatifs.Nous donnons ci-dessous quelques exemples pour prendre en compte� la non homogénéité (intensité)� la présence de clusters dans un processus homogène (structure d'ordre deux)2.4.1 Exemple de modèle pour l'intensitéConsidérons la répartition de nids de canards dans un quadrat (�gure 2.17). La �gure 2.17suggère que l'intensité n'est pas constante. On se pose alors la quesiton de savoir si il y a unerelation entre l'intensité et des covariables (ici par exemple la distance au bord du domaine).Considérons qu'on modélise l'intensité par une fonction λ(x; θ) où θ est un vecteur de para-mètres à estimer et x un vecteur de covariables. On a alors plusieurs méthodes d'estimationspossibles :� Poisson regression� maximum de vraisemblancePoisson regressionLe principe de cette méthode est de discrétiser le domaine en quadrats et d'écrire un modèlede régression pour prédire le nombre d'observation dans chaque quadrat. On peut alorsutiliser le formalisme des modèles linéaires généralisés.L'avantage de cette approche est qu'elle est facile à mettre en oeuvre : on dispose d'outilslogiciels, de test d'adéquation, ...L'inconvénient est qu'on suppose que l'intensité est constante dans les quadrat et que lesestimateurs dépendent donc fortement de la taille des boites.Maximum de vraisemblanceOn suppose que les points sont indépendants et d'intensité variable et on cherche le paramètrequi maximise la log vraisemblance d'un processus de Poisson inhomogène.Soit λ(si; θ) l'intensité à la position si. Soit s = {s1, · · · , sn} un échantillon. La log vraisem-blance du processus de Poisson correspondant s'écrit :

log L(θ, s) =

n∑

i=1

log λ(si; θ) −∫

R

λ(u; θ)du (2.4.1)Le premier terme est facile à calculer. Le second est l'intégrale de l'intensité sur tout ledomaine. Son calcul nécessite de connaitre la valeur des covariables en tout point du domaineet il se fait le plus souvent numériquement.On maximise la log vraisemblance en utilisant un algorithme d'optimisation non linéaire.L'estimateur ainsi construit a les propriétés des estimateurs du maximum de vraisemblance :� normalité asymptotique

Page 28: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

28 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX� asymptotiquement sans biais� variance (covariance) donnée par l'inverse de la matrice hessienne� tests d'hypothèses en utilisantD = −2(log(L0)−log(L1)) avec log(L0) la log vraisemblancedu modèle réduit (avec uniquement une constante) et log(L1) la log vraisembloance dumodèle complet. Sous H0, D suit une loi du chi2 à p1 − p0 degrés de liberté avec p0 et p1le nombre de paramètres dans les modèles 0 et 1.Pour valider le modèle, on peut par exemple simuler un processus de Poisson hétérogène puiscomparer les fonctions K de Ripley.Simulation d'un processus de Poisson non homogèneNous détaillons ci-dessous l'algorithme de Lewis et Shedler : le principe consiste à simulerune processus de Poisson homogène avec l'intensité maximum puis de retirer des points dansles zones ou l'intensité est plus faible :1. Supposons que l'intensité est λ(s; θ)2. Choisir m = maxs∈R λ(s; θ)3. Simuler un point si selon un processus de Poisson homogène d'intensité m4. Calculer l = λ(si; θ)5. Garder si avec la probabilité l/m6. Répéter 3. à 5. jusqu'à obtenir le bon nombre de points.2.4.2 Modèle de Neyman ScottFonction K de Ripley.

Page 29: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.4.MODÉLISATION29

02

46

810

12

0 100 200 300 400 500

Kr

K(r)

46

810

12

Lr

Fig.2.13�FonctionsKetLpourlestoupelos-Rpackage

Page 30: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

30 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

3.5 4 4.5

x 104

5

5.2

5.4

5.6

5.8

6

6.2

6.4

6.6

6.8x 10

4 Malades

3.5 4 4.5

x 104

5

5.2

5.4

5.6

5.8

6

6.2

6.4

6.6

6.8x 10

4 Echantillon de la population

Fig. 2.14 � Malades atteints de cancer du foie (à gauche) et échantillon de la populationtotale (à droite)0 200 400 600 800 1000 1200 1400 1600 1800 2000

−3.5

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

x 107

200 400 600 800 1000 1200 1400 1600 1800 20000

0.05

0.1

0.15

0.2

Fig. 2.15 � A gauche :Statistique de test D (points) et quantiles[2.5%,5%,25%,50%,75%,95%,97.5%] de la loi de D sous H0 - A droite : degré de si-gni�cation (pvalue).

0 5 10 15 20 25 30

05

1015

20

0.1

0.2

0.3

0.4

0.5

0.6

Fig. 2.16 � Répartition des nids de canards (à gauche), estimation de l'intensité (à droite)

Page 31: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

2.4. MODÉLISATION 31

−5 0 5 10 150

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

0.01

Distance au bordFig. 2.17 � In�uence de la distance au bord du domaine sur l'intensité des nids

Page 32: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

32 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX

Page 33: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

Chapitre 3Geostatistique3.1 IntroductionDans cette partie du cours, on se consacre aux données geostatistique. On oberve alors unevariable en di�érents sites expérimentaux �xés, et on cherche à en déduire une informationen d'autres point de l'espace. Dans la suite de ce cours, on notera s1, s2, ..., sn les coordonnéesdes sites où les mesures sont e�ectuées et z = (z1, ..., zn) la valeur de la variable considéréeen ces sites (on considérera uniquement des variables numériques). L'objectif principal estde prédire la valeur de la variable en un point arbitraire s0.La géostatistique a tout d'abord été développée pour la prospection minière (d'où le terme"geostatistique"). Des carrotages sont alors e�ectués en di�érents sites pour mesurer cer-taines propriétés d'un minerai (hauteur ou épaisseur du �lon par exemple), et on cherche àestimer à partir de ces mesures certaines caractéristiques du �lon (volume/masse totale parexemple). Ces méthodes ont été développées au début des années 1960 (Matheron).Dans ce cours, on considérera un jeu de données issues de carrotages, relatif à une nappefréatique située à cheval entre les états du Nevada, Texas et Washington. Ces données sontétudiées dans Cressie (1993) dans le cadre d'une étude sur le choix d'un site d'enfouissagepour des déchets radioactifs. Le but est de caractériser la manière dont se propagerait unepollution de la nappe fréatique autour du site choisi en cas de fuite. Pour cela, on dispose demesures de la profondeur (en feet au dessus du niveau de la mer) de la nappe fréatique enn = 85 sites. Les données sont montrées sur les �gures 3.1 (2D) et 3.2 (3D). A partir de cesdonnées, on cherche à réaliser une carte permettant de mieux visualiser la surface de cettenappe fréatique. Pour cela, on cherche à interpoler les données sur une grille régulière pourobtenir des �gures du type 3.3 et 3.4.Ces méthodes sont utilisées dans de nombreux domaines d'application. Dans certains cas,les données sont disponibles sur une grille régulière (données satellitaires par exemple). Lesméthodes introduites dans ce cours peuvent être utilisées pour ce type de données, mais destechniques spéci�ques ("traitement d'images") existent.La plupart des méthodes d'interpolation spatiale consistent à utiliser des combinaisons li-33

Page 34: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

34 CHAPITRE 3. GEOSTATISTIQUE

−150 −100 −50 0 50 1000

50

100

150

Est−Ouest

Nor

d−S

ud

1024

1873

2722

3571

Fig. 3.1 � Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Donnéesbrutes.

−1000

100

050

100150

0

1000

2000

3000

4000

Est−OuestNord−Sud

prof

onde

ur (

feet

)

1024

1873

2722

3571

Fig. 3.2 � Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Donnéesbrutes, 3Dnéaires pondérées des oservations. La valeur interpolée au site s0 est alors dé�nie parz(s0) =

n∑

i=1

wi(s0)zioù wi(s0) est le poids a�ecté à l'obervation si : plus ce poids est grand, plus la valeur inter-

Page 35: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.1. INTRODUCTION 35

−150 −100 −50 0 50 1000

50

100

150

Est−Ouest

Nor

d−S

ud

1030

1873

2716

3559

Fig. 3.3 � Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Donnéesinterpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),visualisation 3D.

−100 −50 0 50 100

20

40

60

80

100

120

140

160

180

Est−Ouest

Nor

d−S

ud

1500

1500

1700

1700

1900

1900

2100

2100

2300

2300

2500

2500

2700

2700

2900

Fig. 3.4 � Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Donnéesinterpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),visualisation des lignes de niveau.polée dépendra de l'obervation au site si.Les méthodes d'interpolation di�érent alors par la manière dont sont choisis ces poids. Cer-

Page 36: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

36 CHAPITRE 3. GEOSTATISTIQUEtaines reposent sur des constructions géomètriques (distance entre les points, etc), alors qued'autres reposent sur des méthodes probabilistes.Dans le paragraphe suivant, nous allons rapidement illustrer le premier type de méthode enintroduisant la méthode des distances inverses. Les paragraphes suivants seront consacrésaux méthodes probabilistes ("krigeage").3.2 Interpolation par la méthode des distances inversesLa méthode des distances inverses est sans doute la méthode de type "géométrique" la plusrépandue. Elle est en particulier proposée dans Mapinfo (cf TP). Elle consiste à associer aupoint si un poids inversement proportionnel à la distance d(si, s0) entre ce point et le pointoù l'on cherche à réaliser l'interpolation s0.Plus précisément, la surface interpolée z en un point s0 est dé�nie par :z(s0) =

∑ni=1

zi

d(si,s0)∑n

i=11

d(si,s0)Cette formule est dé�nie seulement lorsque s0 6= si pour i ∈ {1...n}, mais il est possible devéri�er que lim(z(s)) = zi lorsque s → si et on posera z(si) = zi pour i ∈ {1...n}.Les poids sont choisis de tel manière que ∑ni=1 wi(s0) = 1, et on verra dans le paragraphesuivant que cela garantit, sous des conditions de stationarité, le caractère "non biaisé" de laprédiction.Exercice On considère les 4 points suivants s1 = (0, 0), s2 = (0, 2), s3 = (2, 0) et s4 = (2, 2)avec les valeurs z1 = 0, z2 = 3, z3 = 1 et z4 = 5. Calculer z(s0) avec s0 = (0, 1) et représentergraphiquement le résultat obtenu.Exemple Résultats obtenus sur les données relatives à la nappe fréatique.On peut généraliser cette formule en choisissant des poids qui décroissent comme une fonctionpuissance de la distance, et en mettant des poids nuls aux points qui sont trop éloignés (i.e.à une distance supérieure à R) du point s0 :

z(s0) =

i|dist(si,s0)≤Rzi

d(si,s0)p

i|dist(si,s0)≤R1

d(si,s0)pComme précédemment, on adopte la convention z(si) = zi pour i ∈ {1...n}. Avec cetteconvention, on obtient une surface interpolée continue et qui interpole exactement les don-nées (ie z(si) = zi pour i ∈ {1...n}). Par contre, la surface n'est pas dé�nie en s0 lorsque Rest su�samment petit pour que {i|dist(si, s0) ≤ R} = �.Quelques remarques

Page 37: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.2. INTERPOLATION PAR LA MÉTHODE DES DISTANCES INVERSES 37� Quand p tend vers 0, les poids deviennent tous égaux, et z(s0) converge vers la moyennearithmétique des valeurs aux points situés à une distance inférieure à R de s0, i.e.z(s0)→

i|dist(si,s0)≤R zi

card{i|dist(si, s0) ≤ R} quand p → 0En particulier, lorsque R = +∞,z(s0)→

1

n

n∑

i=1

zi quand p → 0Montrer �gure� Au contraire, lorsque p tend vers l'in�ni, alors tous les poids tendent vers 0, excepté celuiassocié au point le plus proche de s0 (si ce point est unique...). La surface prédite convergealors vers celle obtenue en utilisant la méthode des polynomes de Thiessen, qui consiste àattribuer à s0 la valeur observée au point le plus proche de s0 (cf �gure 3.5).

−150 −100 −50 0 50 1000

50

100

150

Est−Ouest

Nor

d−S

ud

1024

1873

2722

3571

Fig. 3.5 � Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Donnéesinterpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=50),visualisation 3DMontrer �gure+vu dessus� Comme les poids sont positifs et de somme 1, il est facile de véri�er que les valeursinterpolées sont toujours comprises entre les valeurs minimales et maximales des données,i.e.min

i∈{1...n}(zi) ≤ z(s0) ≤ max

i∈{1...n}(zi)La méthode des distances inverses a plusieurs inconvénients :

Page 38: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

38 CHAPITRE 3. GEOSTATISTIQUE� Il n'existe pas de critère (statistique) permettant de choisir les paramètres p et R demanière optimale. En général, on teste di�erentes valeurs et on prend celles qui donnentles meilleurs résultats "visuellement". En pratique, on prend généralement p = 1 ou p = 2...� Elle a tendance à produire des cartes avec des extrema locaux au voisinage des observations(cf �gure 3.3 et TP).� Elle est indi�érente à la con�guration géomètrique des sites entre eux (seule la distancepar rapport à s0 compte), et en conséquence a tendance à donner un poids trop importantaux groupements de données alors que celles-ci sont partiellement redondantes.� Elle ne permet pas d'estimer l'erreur de prédiction.Nous allons voir que les méthodes de krigeage présentées dans la section suivante permettentde résoudre certains de ces problèmes.3.3 krigeage ordinaireLes méthodes proposées dans ce paragraphe reposent sur une modélisation probabiliste. Onsuppose alors qu'il existe un processus aléatoire, noté Z(s), qui est dé�ni pour s ∈ D avecD ⊂ R

d (généralement d = 2). On suppose ensuite que les observations (z1, ..., zn) formentune réalisation de la variable aléatoire multivariée (Z(s1), ..., Z(sn)). En toute généralité,la loi du processus Z est dé�nie par la loi jointe de (Z(x1), ..., Z(xN)) pour tout N-uplet(x1, ..., xN), mais en pratique on est amené à faire des hypothèses simpli�catrices sur leprocessus a�n de pouvoir inférer sa distribution à partir des données disponibles. Ici on nepeut généralement pas supposer que les observations sont indépendantes, et une hypothèsealternative usuelle consiste alors à supposer que le processus possède une forme d'invariancepar translation dans l'espace : la stationnarité.3.3.1 Processus stationnairePar dé�nition, si le processus Z est stationnaire, alors pour tout n-uplet {x1, ..., xn} et vecteurh, on a

L[Z(x1), ..., Z(xn)] = L[Z(x1 + h), ..., Z(xn + h)]où L[Z(x1), ..., Z(xn)] désigne la loi jointe des variables aléatoires Z(x1), ..., Z(xn)Lorsque n = 1, on obtient que les lois de Z(s) et Z(s′) sont identiques pour tout s, s′ ∈ D.En particulier, si les moments d'ordre 1 et 2 de Z(s) existent, alorsE[Z(s)] = E[Z(s′)]et

var(Z(s)) = var(Z(s′))Lorsque n = 2, on obtient que les lois L[Z(s), Z(s′)] et L[Z(s+h), Z(s′ +h)] sont identiquespour tout s, s′ ∈ D, et donc quecov(Z(s), Z(s′)) = cov(Z(s + h), Z(s′ + h))

Page 39: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 39Dans ce cas, la fonction C(h) = cov(Z(s), Z(s + h) ne dépend pas de s. La stationarité duprocessus induit donc une forme de stationnarité plus faible dont la dé�nition repose sur uneforme d'invariance par translation des moments d'ordre 1 et 2 du processus.Dé�nition 11 On dit que le processus Z est stationnaire à l'ordre 2 si les deux conditionssuivantes sont véri�ées :� il existe µ ∈ R tel que, pour tout s ∈ D, E[Z(s)] = µ (i.e. l'espérance mathématique estla même en tout point de l'espace)� il existe une fonction C telle que, pour tout s, s′ ∈ D, cov(Z(s), Z(s′)) = C(s− s′) (i.e. lacovariance entre deux points est invariante par translation)µ est appelé la "moyenne" du processus Z et C la fonction d'autocovariance du processus Z.Cette forme de stationarité généralise directement la dé�nition de la stationarité d'ordre 2pour les processus temporels (ou séries temporelles), mais en géostatistique on utilise souventune autre forme de stationarité : la stationnarité intrinsèque.Dé�nition 12 On dit que le processus Z est intrinsèque lorsque les accroissements Z(s +h)−Z(s) sont stationnaire à l'ordre 2, c'est à dire lorsque les deux conditions suivantes sontvéri�ées :� E[Z(s) − Z(s′)] = 0� il existe une fonction γ telle que var(Z(s) − Z(s′)) = E[(Z(s) − Z(s′))2] = 2γ(s − s′)La fonction γ est appelée variogramme du processus Z.Si le processus Z est stationnaire de fonction de covariance C, il est clair que

E[Z(s) − Z(s′)] = E[Z(s)] − E[Z(s′)] = 0

var(Z(s) − Z(s′)) = var(Z(s)) + var(Z(s′)) − 2cov(Z(s), Z(s′)) = 2C(0) − 2C(s′ − s)Donc le processus Z est intrinsèque et γ(h) = C(0) − C(h).Par contre, la réciproque est fausse et il existe des processus intrinsèques qui ne sont passtationnaires d'ordre 2.Exercice :On considère la marche aléatoire dé�nie pour n ∈ N par Z0 = 0 et la formule de récurrence,pour n > 0, Zn = Zn−1 + εn avec εn i.i.d. N (0, 1).1. Calculer E[Zn] et var(Zn). Le processus Zn est-il stationnaire ?2. Calculer E[Zn − Zn′] et var(Zn − Zn′). Le processus Zn est-il intrinsèque ?blabla

Page 40: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

40 CHAPITRE 3. GEOSTATISTIQUEEn particulier, un processus intrinsèque peut être tel que var(Z(s)) = +∞. Par exemple,considérons le processus (marche aléatoire) dé�ni pour t ∈ N par la relation de récurrenceZ(t + 1) = Z(t) + ε(t + 1)avec {ε(t)}t∈N} une suite de v.a. iid de loi N (0, 1) et Z0 ∈ R �xé. On a

E[Z(t + k) − Z(t)] = E[ε(t + 1) + ... + ε(t + k)] = 0etvar[Z(t + k) − Z(t)] = var[ε(t + 1) + ... + ε(t + k)] = kLe processus est donc intrinsèque. Par contre, var(Z(t)) = var(Z(0) + ε(1) + ... + ε(t)) = t,donc le processus n'est pas stationnaire à l'ordre 2 !Une hypothèse supplémentaire est souvent faite pour simpli�er l'estimation des fonctions Cet γ : il s'agit de l'hypothèse d'isotropie. On suppose alors que la structure des champs estinvariante par rotation, c'est à dire, selon le cas, que

C(h) = C(|h|)

γ(h) = γ(|h|)3.3.2 Analyse variographiqueOn suppose dans ce paragraphe que le processus est intrinsèque et stationnaire, et on chercheà estimer le variogramme. Ceci sera utile par la suite pour calculer les poids qui correspondentà l'interpolation optimale au sens des moindres carrés.Variogramme expérimentalD'après la dé�nition du variogramme γ(h) = 12E[(Z(s + h)−Z(s))2], un estimateur naturelest le variogramme expérimental dé�ni pour h > 0 par

γ(h) =1

2card(N(h))

(i,j)∈N(h)

(z(si) − z(sj))2avec N(h) = {(i, j)||si − sj| = h}.En pratique, cet estimateur n'est pas dé�ni pour toutes les valeurs de h, mais seulement pourles valeurs de h pour lesquelles N(h) est non vide. De plus, lorsque les données sont espacéesirrégulièrement dans l'espace, le varioramme expérimental est généralement erratique (deforte variance) car peu de paires interviennent dans le calcul de γ(h).Pour réduire le caractère erratique du variogramme expérimental, on utilise généralementun estimateur lissé du type :

γ(h) =1

2card(N(h))

(i,j)∈N(h)

(z(si) − z(sj))2

Page 41: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 41avec N(h) = {(i, j)|h − ∆h2

≤ |si − sj| ≤ h + ∆h2} pour h = ∆h

2, 3∆h

2, ....En pratique, on commence généralement par tracer la "nuée variographique", c'est à direle nuage de points (|si − sj |, (z(si) − z(sj))

2). Ensuite, on fait croitre progressivement ∆ha�n d'éliminer le comportement erratique. ∆h doit être su�samment grand pour que N(h)contienne un nombre su�sant de couples de points (au moins une trentaine ?) et éliminerle comportement erratique, mais pas trop grand pour que le biais reste raisonnable. Cecomportement est illustré sur les �gures 3.7 et 3.8 qui montrent, sur les données minières,respectivement l'estimation obtenue et le nombre de couples de points pour di�érentes valeursde ∆h.

0 50 100 150 200 250 3000

1

2

3

4

5

6

7nuee variographique

Fig. 3.6 � Nuée variographique (|si − sj|, (z(si) − z(sj))2) pour les données relatives à laprofondeur de la nappe fréatiqueVariogramme paramétriqueLe variogramme expérimental n'est pas directement utilisable pour le krigeage. En e�et, ona besoin de connaitre le variogramme pour toutes les distances et que ce soit une fonction detype négatif. Une solution consiste alors à utiliser des formes paramètriques qui dé�nissentbien des fonctions de type négatif. Di�érents modèles paramétriques usuels pour les proces-sus intrinsèques stationnaires sont dé�nis ci-dessous.� Modèle pépitique de palier COn suppose que

γ(h) =

{

0 si h = 0C si h > 0

(3.3.1)

Page 42: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

42 CHAPITRE 3. GEOSTATISTIQUE0 100 200 300

0

1

2

3

h=1

0 100 200 3000

1

2

3

h=5

0 100 200 3000

1

2

3

h=10

0 100 200 3000

1

2

3

h=20

Fig. 3.7 � Variogramme estimé N(h) pour les données relatives à la profondeur de la nappefréatique et h=1, 5, 10 ,20, respectivement0 100 200 300

0

500

1000

h=1

0 100 200 3000

500

1000

h=5

0 100 200 3000

500

1000

h=10

0 100 200 3000

500

1000

h=20

Fig. 3.8 � Nombre de points ayant servi à estimer les variogrammes empiriques de la �gure3.7Exemple : si Z est un processus stationnaire tel que cov(Z(si), Z(sj)) = 0 pour si 6= sj,alors Z admet un variogramme de cette forme avec C = var(Z(si)).En général, ce modèle n'est pas adapté pour décrire des processus dans lesquels une struc-ture spatiale est présente. Par contre, il est souvent combiné avec d'autres modèles pa-ramétriques a�n de décrire soit des structures à petites échelles par rapport à l'échelle

Page 43: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 43d'observation, soit des erreurs de mesures.Plus précisemment, supposons que Z = Z1 + Z2 avec Z1 et Z2 des processus stationnairestels que cov(Z(si), Z(sj)) = 0 pour i 6= j, alors Z est stationnaire et γ = γ1 + γ2. Si onsuppose maintenant que Z1 représente une erreur de mesure et que les erreurs commisesà deux points de mesure sont indépendantes, alors il est naturel d'utiliser un modèle pé-pitique pour décrire γ1.Tous les modèles décrits ci-dessous incluent un e�et pépite.� Modèle linéaireγ(h) =

{

0 si h = 0C0 + bh si h > 0

(3.3.2)avec c0 ≥ 0 la pépite et b ≥ 0.� Modèle puissanceγ(h) =

{

0 si h = 0C0 + bhλ si h > 0

(3.3.3)avec c0 ≥ 0 la pépite, b ≥ 0 et 0 ≤ λ < 2.� Modèle rationnel quadratiqueγ(h) =

{

0 si h = 0

c0 + b h2

1+h2/asi h > 0

(3.3.4)avec c0 ≥ 0 la pépite, a > 0 et b ≥ 0� Modèle exponentielγ(h) =

{

0 si h = 0c0 + c(1 − exp(−h

a)) si h > 0

(3.3.5)avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0� Modèle gaussienγ(h) =

{

0 si h = 0

c0 + c(1 − exp(−h2

a)) si h > 0

(3.3.6)avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0Le choix d'un modèle approprié est une étape subjective qui se base sur la forme du vario-gramme empirique. Faire �gure main levee variogramme théorique.A�n d'ajuster le modèle sélectionné, on utilise généralement la méthode des moindres carrés.Notons θ l'ensemble des paramètres à estimer et γ(h; θ) le modèle paramétrique choisi. Onminimise alors par rapport au paramètre inconnu θ la fonction

Page 44: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

44 CHAPITRE 3. GEOSTATISTIQUEModèle pépitique Modèle linéaire Modèle Puissance

Modèle rationnel quadratiqueModèle exponentiel Modèle Gaussien

Fig. 3.9 � (a) Modèle péptitique, (b) modèle linéaire, (c) modèle puissance (d) Modèlerationnel quadratique (e) modèle exponentiel (f) modèle gaussien∑

h

(γ(h) − γ(h; θ))2L'inconvénient de cette méthode est qu'elle attribue le même poids à toutes les classes dedistance, même quand un faible nombre de points a servi à réaliser l'estimation. On luipréfère généralement l'estimateur des moindres carrés pondérés qui minimise la fonction∑

h

w(h)(γ(h) − γ(h; θ))2avec w(h) = card(N(h))γ(h;θ)2

les poids d'interpolation.3.3.3 krigeage ordinaireSi le processus Z est stationnaire à l'ordre 2, de moyenne µ et de fonction d'autocovarianceC, alors

E

[

i

wiZ(si)

]

=∑

i

wiE[Z(si)] = µ∑

i

wi

var

[

i

wiZ(si)

]

=∑

i

wiwjcov[Z(si), Z(sj)] =∑

i

wiwjC(sj − si)On en déduit la proposition suivante.

Page 45: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 45Proposition 1 Si Z est un processus stationnaire de moyenne µ et de fonction d'autocova-riance C, alors on a les propriétés suivantes :� C(h) = C(−h) (symétrie)� Pour tout (w1, ..., wn) ∈ Rn et (s1, ..., sn) ∈ Dn, ∑i∈{1...n} wiwjC(sj − si) ≥ 0. On dit que

C est une fonction de type positif.Lorsque le processus est seulement intrinsèque, alors les moments d'ordre 1 et 2 du processusn'existent pas forcement, et seules les combinaisons linéaires des accroissements sont biendé�nies, et on doit alors travailler avec des combinaisons linéaires dont la somme des poidsest nulle. Plus précisemment, si le processus Z est intrinsèque avec un variogramme γ et∑n

i=1 wi = 0, alorsE

[

i

wiZ(si)

]

= 0

var

[

i

wiZ(si)

]

= −∑

i

wiwjγ(sj − si)A fortiori, ces relations sont également valables lorsque le processus est stationnaire à l'ordre2.Proposition 2 Si Z est un processus intrinsèque de variogramme γ alors� γ(0) = 0� γ(h) = γ(−h) (symétrie)� Pour tout n-uplet (w1, ..., wn), ∑i∈{1...n} wiwjγ(sj − si) ≤ 0 (fonction de type négatif)Les modèles parametriques du paragraphe précédent sont de type negatif.La technique du krigeage consiste à réaliser une interpolation linéaire optimale au sens del'erreur quadratique moyenne. Plus précisemment, on va utiliser une interpolation de la formez(s0) =

n∑

i=1

wiz(si)dans laquelle les poids wi sont choisis de telle manière qu'ils minimisent la variance :var(Z(s0) −

n∑

i=1

wiZ(si))Dans le cas intrinsèque, pour que cette variance soit bien dé�nie, il faut que ∑ni=1 wi = 1.Cette contrainte garantit en outre que l'estimateur soit non biaisé, i.e.

E[Z(s0) −n∑

i=1

wiZ(si)] = 0et est également imposée lorsque le processus est stationnaire à l'ordre 2.

Page 46: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

46 CHAPITRE 3. GEOSTATISTIQUEFinalement, les poids correspondant au krigeage ordinaire sont dé�nis comme les poids mi-nimisant la fonctionvar

(

Z(s0) −n∑

i=1

wiZ(si)

)

= C(0) +n∑

i=1

n∑

j=1

wiwjC(si − sj) − 2n∑

i=1

wiC(si − s0) (3.3.7)= −

n∑

i=1

n∑

j=1

wiwjγ(si − sj) + 2

n∑

i=1

wiγ(si − s0) (3.3.8)avec la contrainte de non-biais∑ni=1 wi = 1.La solution à ce problème d'optimisation sous contrainte est solution du système d'équations :

−n∑

j=1

wjγ(si − sj) + γ(si − s0) − m = 0 pour i ∈ {1...n} (3.3.9)n∑

j=1

wi = 1 (3.3.10)avec m une inconnue (appelée "multiplicateur de Lagrange") introduite pour que la conditionde non-biais soit satisfaite. Cela se réécrit sous la forme matricielle Ax = b avec b = (γ(s1 −s0), ..., γ(sn − s0), 1)′, x = (w1, ..., wn, m)′ et A = (ai,j)i,j∈{1,...,n+1} dé�nis par

ai,j =

γ(si − sj) pour i ∈ {1...n}, j ∈ {1...n}1 pour i = n + 1, j ∈ {1...n}0 pour i = n + 1, j = n + 1

(3.3.11)La variance de krigeage au point s0, σ2K(s0) = var(Z(s0) −

∑ni=1 wiZ(si)) avec w1, ..., wnsolution du système précédent, s'écrit

σ2K(s0) = 2

n∑

i=1

wiγ(s0 − si) −n∑

i=1

n∑

j=1

wiwjγ(si − sj)Interprétation ?Remarque : La matrice A ne depend pas de s0. Lorsque l'on veut réaliser la prédiction enplusieurs points s0, il su�t de calculer la matrice A−1 une seule fois.3.3.4 krigeage sur les données minièresLa visualisation des données indique que le processus n'est pas stationnaire (forte tendance)et une tendance linéaire semble appropriée. On suppose alors queZ(s) = ax + by + c + E(s)

Page 47: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 47avec s = (x, y) et ε un processus stationnaire. On estime ensuite a, b et c par la méthodedes moindres carrés, i.e. tels qu'ils minimisent la fonctionn∑

i=1

(zi − axi − byi − c).2On note ei = .... ?Graphiquement, on obtient des données qui semblent sans tendance, et on suppose qu'ellessont stationnaires. L'analyse variographique montre qu'un modèle puissance semble appro-prié. On réalise ensuite le krigeage sur une grille régulière en utilisant le variogramme puis-sance ajusté. On peut aussi regarder l'erreur de krigeeage : plus importante dans les zonesoù on a peu d'observations. Finalement, si on rajoute la tendance, on obtient une surfaceinterpolée correspondant aux valeurs initiales.

−150 −100 −50 0 50 1000

50

100

150

Est−Ouest

Nor

d−S

ud

−1

−1

0

0

Fig. 3.10 � Profondeur d'une nappe fréatique après extraction de la tendance linéaire3.3.5 Validation croiseePour valider les di�érentes hypothèses faites dans le krigeage ordinaire, et en particulierpour choisir parmi di�érents modèles paramétriques possibles pour le variogramme, on peututiliser la méthode de validation croisée :� On fait l'analyse variographique en utilisant toutes les données.� On prédit ensuite la valeur en si à partir des observations aux autres points (sj)j 6=i, notéezi, ainsi que la variance de l'erreur de krigeage σi.� Si les di�érentes hypothèses sont véri�ées, alors les erreurs standardisées εi = zi−zi

σisontapproximativement centrées réduites. On calcule donc la moyenne et la variance empirique,et on véri�e que...

Page 48: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

48 CHAPITRE 3. GEOSTATISTIQUE

0 50 100 150 200 250 3000

0.2

0.4

0.6

0.8

1

Fig. 3.11 � Profondeur d'une nappe fréatique - Variogramme des données sans tendance

−1000

100

050

100150

−500

0

500

1000

Est−OuestNord−Sud

prof

onde

ur (

feet

)

−367

Fig. 3.12 � Profondeur d'une nappe fréatique - Interpolation par krigeage données sanstendanceRéférencesN. CressieP. DigglePh. DixonRipley

Page 49: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

3.3. KRIGEAGE ORDINAIRE 49

−150 −100 −50 0 50 100 150

0

50

100

150

200

Est−Ouest

Nor

d−S

ud

15

20

25

30

35

40

45

50

Fig. 3.13 � Profondeur d'une nappe fréatique - Estimation de l'erreur de krigeage ; donnéessans tendance

−1000

100

050

100150

0

1000

2000

3000

4000

Est−OuestNord−Sud

prof

onde

ur (

feet

)

Fig. 3.14 � Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de latendance

Page 50: H:/ENSEIGNEMENT/SPATIAL/COURS/cours stat … · 2.3.4 Etude Cas-Con trôle. 25 2.4 Mo délisation. 26 2.4.1 Exemple de mo dèle p our l'in tensit

50 CHAPITRE 3. GEOSTATISTIQUE

−150 −100 −50 0 50 1000

50

100

150

Est−Ouest

Nor

d−S

ud

1500

1700

1700

1900

1900

2100

2100

2300

2300

2500

2500

2700

2900

731

1659

2587

3515

Fig. 3.15 � Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de latendance