question 1 chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu...

12
QUESTION 1 Chercher à expliquer le nombre d’incendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés, notamment dans le sud de la France où un incendie peu concerner des surfaces très importantes. Nous privilégions donc d’expliquer la surface incendiée (Y’ = variable à expliquer) par le nombre d’incendie (X = variable explicative).

Upload: blaise-andre

Post on 04-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 1

Chercher à expliquer le nombre d’incendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés, notamment dans le sud de la France où un incendie peu concerner des surfaces très importantes.

Nous privilégions donc d’expliquer la surface incendiée (Y’ = variable à expliquer) par le nombre d’incendie (X = variable explicative).

Page 2: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

Y’= a X + b ==> Surf_incendiées = a (nombre incendies) + b

1/ calcul de a et b

= 28,35

= -2496,47

QUESTION 2

( , )12

2

1

1( )( )

cov

1( )

n

i iX Yi

nx

ii

x x y yn

ax x

n

b y ax

Page 3: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

Y X

DEPT TOT SURF INCENDIEES NB TOT INCENDIES yi-<y> xi-<x> (yi-<y>)(xi-<x>) (xi-<x>)²

4 879 57 -3221.4 -175.666667 565892.6 30858.7778

5 388 15 -3712.4 -217.666667 808065.7333 47378.7778

6 2747 388 -1353.4 155.333333 -210228.1333 24128.4444

7 2284 341 -1816.4 108.333333 -196776.6667 11736.1111

11 480 104 -3620.4 -128.666667 465824.8 16555.1111

13 2308 350 -1792.4 117.333333 -210308.2667 13767.1111

26 326 98 -3774.4 -134.666667 508285.8667 18135.1111

2A 6451 407 2350.6 174.333333 409787.9333 30392.1111

2B 20904 677 16803.6 444.333333 7466399.6 197432.111

30 336 94 -3764.4 -138.666667 521996.8 19228.4444

34 1285 203 -2815.4 -29.6666667 83523.53333 880.111111

48 3507 181 -593.4 -51.6666667 30659 2669.44444

66 566 72 -3534.4 -160.666667 567860.2667 25813.7778

83 18813 380 14712.6 147.333333 2167656.4 21707.1111

84 232 123 -3868.4 -109.666667 424234.5333 12026.7778

<y> <x> somme1 somme2

4100.4 232.6666667 13402874 472709.333 a b

cov sigma² 28.3533094 -2496.46999

893524.9333 31513.9556

QUESTION 2 (détail des calculs)

b = 4100,4 – (28,35*232,66) = -2496,47

Page 4: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

Y’=aX + b +/- Résidus (X = nombre d’incendies !)Y’ = 28,35X -2496,47 +/- Résidus

QUESTION 3

Page 5: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 4

2

2 1

1( )( )

n

i ii

x y

x x y yn

R

Le F de Fisher-Snedecor est une des métriques permettant de tester la robustesse du modèle obtenu. En amont, il nécessite de calculer le coefficient de détermination (R2) qui permet de quantifier la part de variance expliquée par la varibale explicative.

= 0,62

Le modèle basé sur le nombre d’incendies permet d’expliquer 62% de la variance des surfaces incendiées. Les 38% restant dépendent donc d’autres facteurs explicatifs, notamment de la pluviométrie et du vent. Une régression linéaire multiple (plusieurs variables explicatives non corrélées entre-elles) permettrait d’améliorer sensiblement la qualité du modèle.

Page 6: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 4

Fcalc > Fthéo

=> régression linéaire valide à 95% de significativité selon le F de Fischer-Snedecor

66,2003,0

62,0

1338,062,0

111562,01162,0

Fcalc

v1v2 11 161,442 18,513 10,124 7,715 6,616 5,997 5,598 5,329 5,1210 4,9611 4,8412 4,7513 4,6714 4,6015 4,5416 4,4917 4,4518 4,4119 4,3820 4,3521 4,3222 4,3023 4,2824 4,2625 4,2426 4,2327 4,2128 4,2029 4,1830 4,1740 4,0860 4120 3,92Inf 3,84

Page 7: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 5

2 étapes :-1) nuage de points (X = nombre d’incendies & Y = surfaces

incendiées observées)-2) droite de régression

Rappel : pour tracer une droite, il suffit de connaître 2 points !

Point 1 : X = 57 => Y’ = (28,35*57) - 2496,47 = -880,33Point 2 : X=407 => Y’ = (28,35*407) – 2496,47 = 9043,33

Une fois les 2 Y’ calculer, placer les 2 nouveaux points sur le graphique et tirer une droite entre les 2

Page 8: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 5

0 100 200 300 400 500 600 700 800

-5000

0

5000

10000

15000

20000

25000

Nuage de points

Nombre total d'incendies

Surf

aces

ince

ndié

es (h

ecta

res)

Points bleus : X et Y observésDroite noire = droite de régression : X observé et Y simulé (Y’)

Page 9: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 5

0 100 200 300 400 500 600 700 800

-5000

0

5000

10000

15000

20000

25000

Nuage de points

Nombre total d'incendies

Surf

aces

ince

ndié

es (h

ecta

res)

Points bleus : X et Y observésDroite noire = droite de régression : X observé et Y simulé (Y’)

Page 10: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTION 6

RESIDUS = Y – Y’Y X Y' Y-Y'

DEPT TOTAL SURF INCENDIEES NB TOTAL INCENDIES TOTAL SURF MOD RESIDUS

4 879 57 -880,33 1759,33

5 388 15 -2071,17 2459,17

6 2747 388 8504,61 -5757,61

7 2284 341 7172,01 -4888,01

11 480 104 452,27 27,73

13 2308 350 7427,19 -5119,19

26 326 98 282,15 43,85

2A 6451 407 9043,33 -2592,33

2B 20904 677 16698,72 4205,28

30 336 94 168,74 167,26

34 1285 203 3259,25 -1974,25

48 3507 181 2635,48 871,52

66 566 72 -455,03 1021,03

83 18813 380 8277,79 10535,21

84 232 123 990,99 -758,99

-880,33 = (28,35*57) – 2496,47 1759,33 = 879 – (-880,33)

Page 11: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTIONS 7 & 8

Distribution quasi-gaussienne des résidus

1 2 3 4 5 6 70123456789

Histogramme des résidus

Classes d'égale amplitude

Effec

tifs

Les résidus montrent les biais (= les erreurs) du modèle pour chaque valeur simulée : résidu>0 => sous-estimation du modèlerésidu=0 => valeur simulée = à valeur observée (pas d’erreur)résidu<0 => surestimation du modèle

0 100 200 300 400 500 600 700 800

-8000.00-6000.00-4000.00-2000.00

0.002000.004000.006000.008000.00

10000.0012000.00

Résidus (Y - Y') en fonction de X

Nombre d'incendies

Résid

us (Y

- Y'

)

Le graphique de droite montre des erreurs relativement limitées, avec une tendance à sous-estimer les valeurs observées (9 valeurs sous-estimées pour 15 simulées). L’exemple le plus frappant est la très forte sous-estimation des surfaces incendiées dans le Var, département pour lequel les conditions climatiques ont une importance prépondérante sur la propagation des feux de forêts.

Page 12: QUESTION 1 Chercher à expliquer le nombre dincendies en fonction des surfaces incendiées est peu intuitif, et susceptible de donner des résultats biaisés,

QUESTIONS 9

• Statistiquement, il existe une relation significative entre le nombre d’incendies et les surfaces incendiées des départements français-R2 = 0,62 : le modèle explique 62% des variations de surfaces incendiées d’un département à un autre-le F de Fischer-Snedecor calculé est largement supérieur au F théorique-les résidus sont structurés le long de l’axe des abscisses=> le modèle établi est donc pertinent et « paraît » robuste

• MAIS...-15 points seulement... => trop peu pour mesurer une relation de manière robuste -sous-estimation quasi-systématique du modèle : les surfaces incendiées simulées sont très souvent moins importantes que celles observées (surtout dans le Var (83))- 38% des surfaces incendiées ne sont pas expliquées par le modèle : d’autres variables explicatives entre en jeu !