robustesse......en analyse spatiale didier josselin espace, umr 6012, cnrs, avignon, france...
TRANSCRIPT
Robustesse...
...en Analyse Spatiale
Didier JOSSELINESPACE, UMR 6012, CNRS, Avignon, France
[email protected]él.: 04 90 16 26 93
PLAN
-Qu’est-ce que la robustesse ?
-La qualité dans les données
-La robustesse des méthodes statistiques : appréhension empirique avec la Médienne
-La robustesse de la décision
-Conclusions à travers quelques applications
Le processus d’analyse (spatiale)
EXPERTOUTILS
STATISTIQUESDonnées
(Spatiales)
Décision, RèglesConnaissance...
Approche Analyse
Qu’est-ce que la robustesse (au sens large) ?
Tronc
Racine
Branches
Feuilles
La robustesse
augmente...
Avoir ou montrer une force, une vigueurEtre résistant aux maladies et aux
perturbations
Besoin de robustesse ?
...à différents niveaux du processus d’analyse :
1- Données : « Qualité »2- Méthodes statistiques : « Robustesse, résistance »
3- Aide à la décision « ? »
Plusd’interventionDe l’expert
ZAPP
ER
1 – Robustesse des données : qualité
(Goodchild, Gopal, 1989, Goodchild, Jeansoulin, 1998)
Structure de donnéesBase de donnéesMétadonnées
DonnéesComplétudePrécisionFiabilitéAdéquationetc.
“Bruit” ?
Qualité des données : notre proposition
Fournir à l’expert desindicateurs et des cartesduals pour évaluer la qualité de l’information
Question :la moyenne est-elle robuste ?
Question :la médiane est-elle robuste ?
Manipulation de la robustesse,de la moyenne, de la
médiane…
2 – Robustesse des outils statistiques
Fouille de données :Capacité de généralisationDétection des dépendances statistiquesConservation de toutes les données Elimination du bruit
Outils statistiques :Résistance aux outliers“Adéquation”“Justesse”Hypothèses...
Robustesse d’un outil statistique / estimateur : définition
(Andrews et al., 1972, Huber, 1981, Hoaglin, Mosteller, Tukey, 1983, Hampel et al., 1986, Lecoutre et Tassi, 1987)
Un estimateur est dit Un estimateur est dit resistantresistant s’il est peu affectés’il est peu affectépar un petit nombre de grosses erreurs par un petit nombre de grosses erreurs
ou par un grand nombre de petites erreurs ou par un grand nombre de petites erreurs
Un estimateur est dit Un estimateur est dit robusterobuste s’il est peu affecté s’il est peu affectépar un écart aux hypothèses sous-jacentes du modèlepar un écart aux hypothèses sous-jacentes du modèle
Exemple d’indice robuste : construction empirique
de la médienne
Un problème concret posé :Conserver les zones homogènes et les zones hétérogènes ou de gradients (écotones) ….
Différentes distributions de groupes de pixels
Données : vignes en Languedoc-Roussillon, France, INRA, Jean-Marc Robbez-Masson
ZAPP
ER
Quels filtres sont couramment utilisés ?
Données brutes Filtre médian
Filtre moyen Filtre moyen pondéré
Données : pullulation des campagnols, DRAF-SRPV Franche-Comté
)()2()1( ,...,, nxxx : un échantillon de données ordonnées
n
iix
nx
1
1
2 if2
12 if)1()(
)1(
pnxx
pnxM
pp
p
: sa médiane
: sa moyenne
Associer la moyenne et la médianepour définir la médienne ...
Comportement de la moyenne et de la médiane face aux outliers et « inliers »
Outlier
« Inlier »
Définition de la médienne
Une mesure de centralité qui s'adapte aux distributions
locales
Une combinaison linéaire des normes L1 et L2
(Dodge, 1987, 2000)
... combinaison liée aux résistances de la moyenne
et la médiane
Les résistances étant estimées par un bootstrap
But et principe de la médienne(Josselin, 2000, Josselin et Ladiray, 2001)
Calcul de la médienne (simple)
Quand la médiane est plus résistante que la moyennela médienne tend vers la médiane
vers la moyenne dans le cas inverse
)()(
)( )(
)(
1
)(
1)()(
MVxV
MxVxMV
MVxV
MV
M
xV
x
M
V/1 Mesure la résistance d'un estimateur
)()(
)(
MVxV
xVC
CMxCM )1(
with
L’idée : une métrique qui s’adapte à la distribution locale en combinant les normes L1 et L2
Formulation de la médienne de Laplace( Laplace 1818, Stigler, 1973, 1986, Josselin et Ladiray, 2001,
2002)
avec
CMxCM )1(
),(2)()(
),()(
MxCovMVxV
MxCovxVC
Comment estimer les variances de la moyenne et de la médiane ?
la voie du bootstrap (Efron, Tibshirani, 1993, Shao, Tu, 1995)
Le Bootstrap pour estimer la résistance
X=(x1,x2,…,xN)
X*1 X*2 X*b…
Soit un échantillon de données
Un ensemble de B échantillons« bootstrappés » (tirage avec remise)
F (X*1) F (X*2) F (X*b)…Un ensemble de B estimateurs
pour chaque « fonction F » appliquée (moyenne, médiane…)
Estimation de la variance de chaque estimateur F
21
**2
)()()(
1
1ˆ *
B
b
bb
XFXFXF
Bs b
Bootstrap : application à la médienne
2
1
**2
1
1ˆ
B
bX
bX
mXB
s
B
b
bX
XB
m1
** 1
2
1
*)(
*2 )(1
1ˆ
B
bXmed
bmed mXmed
Bs
B
b
bXmed Xmed
Bm
1
**)( )(
1
Estimateur :Estimateur : Variance de l’estimateur : Variance de l’estimateur : avec :avec :
Et covariance moyenne-médiane (pour médienne de Laplace) :Et covariance moyenne-médiane (pour médienne de Laplace) :
B
bXmed
bX
bXmed mXmedmX
B 1
*)(
***, )(
1
1ovc
Application de la médienne au filtrage spatial :
le cas de la pullulation du campagnol (Josselin, Ladiray, 2002)
Degré de Contiguïté 1
Application de la médienne au filtrage spatial :
le cas de la pullulation du campagnol
Degré de Contiguïté 2
Application de la médienne au filtrage spatial :
comparaison aux M estimateurs ZAPP
E 2
ZAPPE 1
Propriétés de la médienne
La médienne confrontée à 4 distributions typiques
Panel 1: Moyenne, médiane et médienne sont presque identiques
Panel 2: Médiane et médienne sont plus résistantes aux outliers
Panel 3: Distribution asymétrique où la médienne est proche de la médiane
Panel 4: Distribution bimodale où moyenne et médienne sont plus robustes
Mean
MeadiansMedian
Comportement spécifique de la médienne de Laplace
DN
MxCovMVxV
MxCovxVC
),(2)()(
),()(
Résultats :simulations et filtrage spatial
on choisit un ensemble de lois statistiques
pour chaque distribution, on calcule son Efficacité Relative : le rapport entre la variance du meilleur estimateur testé et la variance de l'estimateur considéré (permutations de type Monte-Carlo)
le meilleur estimateur est celui qui possède :
Le plus petit Ecart-type d'efficacité relative pour les diverses distributions
Le plus grand Minimum d'efficacité relative (Robustesse)
Evaluation de l'efficacité de la médienne (Hoaglin, Tukey, Mosteller, 1983 )
Efficacité relative et robustesse de la moyenne, la médiane et des médiennes selon différentes lois et l'effectif de la distribution.
Estimateur n Gauss One-out One-wild Cont5 Cont10 Dexp Logistic Slash Cauchy MIN ECT
Moyenne 10 100 71,9 11,8 85,6 75,7 70,1 94 0 0 0 40,8 Médiane 10 72,3 81,1 76,6 80,1 84 96,7 83,9 90,1 91,8 72,3 7,7 Médienne 10 93,7 87,1 66,5 92,3 90,3 94,6 97,8 90,1 91,9 66,5 9,1 Médienne L 10 100 87,5 77,6 92,4 90,7 98,1 98,4 90,1 91,9 77,6 6,9
Moyenne 20 100 82,5 19,2 84 73,8 63,8 92,8 0 0 0 39,9 Médiane 20 68,1 73,4 70,9 74,5 78 95,7 79,8 85,8 89,5 68,1 9,2 Médienne 20 92,9 88,3 64,4 89,7 87,3 92,6 96,4 85,8 89,4 64,4 9,2 Médienne L 20 100 88,7 71 90,1 87,4 97,1 97,3 85,8 89,4 71 8,6
Moyenne 50 100 92,1 35,6 82,5 72,2 58,5 92 0 0 0 38,9 Médiane 50 65,5 68,1 67 70,5 73,7 96 77,2 82,1 87,3 65,5 10,3 Médienne 50 92,3 90,5 67,1 87,5 84,6 91 95,4 82,2 87,3 67,1 8,3 Médienne L 50 99,9 93,7 69,9 88,2 84,6 96,7 96,5 82,2 87,3 69,9 9,3
Moyenne 100 100 96,1 52,2 82,3 71,4 55,9 92 0 0 0 38,4 Médiane 100 64,6 66,1 65,8 69,4 72,2 96,8 76,4 80,5 86,4 64,6 10,9 Médienne 100 92,2 91,5 73 86,8 83,5 90,5 95,2 80,3 86,4 73 6,9 Médienne L 100 100 96,7 73,6 87,6 83,5 97,3 96,4 80,3 86,4 73,6 9
Moyenne 1000 100 100 91,8 82,2 71,1 51,7 91,8 0 0 0 40,1 Médiane 1000 63,6 64,2 64,3 68,7 71 98,5 75,5 79,3 85,6 63,6 11,7 Médienne 1000 91,9 92,3 89 86,6 82,8 90 95,4 79,3 85,6 79,3 5,1 Médienne L 1000 99,9 100 93,1 87,5 82,8 98,7 96,7 79,3 85,6 79,3 7,9
Réflexions autour de la médienne et des normes
Lp
Les normes Lp et leurs méthodes de minimisation découlent du
modèle général de régression :
(Dodge and Jurecková, 2000)(Dodge and Jurecková, 2000)Modèle de régression
Où Y est une variable à expliquer
par X1, X
2, ...,X
j, ..., X
k variables explicatives
Pour n données observées (i=1,2,...,n), le modèle est :
ZXXXY kk ...2211
iikkiiizxxxy ...2211
k ,...,, 21Où les coefficients sont inconnus ,
Z un terme d'erreur avec z1, z2, ..., zn les résidus.
Norme L1 :
p=1 ; objectif : minimiser les écarts absolus
Métrique de Minkowsky ou Norme Lp
Avec pp
iZ1
1p
iZ
Norme L2 :
p=2 ; méthodes des moindres carrés 2
12 iZ
Norme L :
p= ; minimiser le résidu absolu maximum (minmax)
Transcription graphique
Norme L1 : distance de Manhattan : H
1+H
3
Norme L2 : distance euclidienne :
H2 = (H
12 + H
32 )1/2
Norme L : H
1 = max ( H
1 ; H
3 )
A
BC
H 1 H
2
H 3
La médiane minimise la norme L1
La moyenne minimise la norme L2
La moyenne des deux valeurs extrêmes
minimise la norme L
ZAPP
ER
Y aurait-il un couple robuste (p, valeur centrale) ?Et pourrait-il correspondre à la médienne ?
Médiane
Moyenne
Exposant p
Médiennes ?
Valeur centrale
Norme Lp
Distribution gaussienne
Cas où médiane < médienne < moyenne et 1 < pmédienne< 2
Médiane (p=1)
Moyenne (p=2)
Valeur de P de la norme Lp
Médienne ( p 1,8 )
Valeur centrale minimisant la norme Lp
Cas où médienne > moyenne et pmédienne > 2
Valeur de P de la norme Lp
Valeur centrale minimisant la norme Lp
Médienne ( p )
La médienne est très proche du couple (p,valeur centrale) le plus robuste
Cas où médienne < médiane et pmédienne ??
Valeur de P de la norme Lp
Valeur centrale minimisant la norme Lp
Médienne (p?)
La médienne est différente du couple (p,valeur centrale) le plus robuste : p=6
Robustesse des outils statistiques : notre proposition exploratoire
Ne jamais accepter “par défaut”la méthode la plus utilisée,
mais rechercher la plus pertinente.
Trouver des méthodes robustescapables de généraliser
et qui s’adaptent aux configurationslocales des distributions statistiques et spatiales,
tout conservant tous les individus...
3 – Robustesse dans l’aide à la décision
Objectivité :La part de la connaissancequi est indépendante de l’expert ?
Subjectivité : La pensée et la vision de l’expert ?
EfficiencePertinenceDurabilité« Incontestabilité »« Consensualité »« Généricité »Transposabilité ….. ?« Emergenciabilité »« Adaptabilité » dans le temps« Souplesse »
Aide à la décision et modélisation :quelques mots-clés et quelques pistes...
Déductive
InductiveAbductive Individus Résidus
La tendance
Micro-modèles Hypothético
déductifExploratoire
Confirmatoire
Aide à la décision, notre proposition :
Une modélisation locale instruiteinsérée dans une analyse globale
Avec l’E(S)DA
CONCLUSION
et exemples d’application
Quand on a des objectifs à atteindre et des données à
traiter ...
... à l’aide d’outils et de méthodes statistiques plus
ou moins appropriés...
La voie de l’EDA...
On porte un regard critique sur les outils et les
méthodes ...
… que nous choisissons les plus robustes possible pour
analyser les données ...
... sur lesquelles nous formulons des hypothèses
sans a priori.
On souhaite maîtriser le temps de l’analyse spatiale et faire partie intégrante du
processus ...
Le Distogramme
DoubleDistributions et Discontinuités
statistiques et spatialesDynamiqueDistorsion de Données
… tout en restant en permanence proche
des données ... en considérant que les individus ne sont pas interchangeables ...
... que nous éclairons par des représentations multiples ...
Lavstat(Josselin, Chatonnay, Guerre, Dancuo, 1999)
... grâce aux liens dynamiques et à
l’interactivité.
On recherche la tendance comme la marge … et l’on regarde de plus près les écarts au modèle,
les résidus
Modèle gravitaire des échanges commerciaux (Josselin, Nicot, 2001)
… et les relations entre les objets géographiques.
ARPEGE’ (Josselin, 2000)
L’analyse doit être globale etlocale ...à travers les
échelles.
Analyse exploratoire multiscalaire (Foltête, Josselin, 2001)
… la validation des résultats mathématique
etempirique. dxxxf .)(
On cherche aussi à appréhender le qualitatif et
le quantitatif en même temps ...Q
… la sémantique, la géométrie et la topologie ...
… en considérant bien que la “densité” de la mesure n’est
pas constante.
…Si vous faites de l’explo, attention à …
sion l ’explo toirera combina