cours statistique et logiciel r - adeline leclercq...

36
Introduction Modélisation d’une série temporelle Méthode non paramétrique Ajustement paramétrique « Cours Statistique et logiciel R » Rémy Drouilhet (1) , Adeline Leclercq-Samson (1) , Frédérique Letué (1) , Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire Jean Kuntzmann, Dép. Modele et Algorithmes Déterministes du 24 février au 7 avril 205 du 24 février au 7 avril 205 Formation doctorale

Upload: vanthu

Post on 16-Sep-2018

229 views

Category:

Documents


3 download

TRANSCRIPT

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

« Cours Statistique et logiciel R »

Rémy Drouilhet (1), Adeline Leclercq-Samson (1),Frédérique Letué (1), Laurence Viry (2)

(1)Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique,

(2)Laboratoire Jean Kuntzmann, Dép. Modele et Algorithmes Déterministes

du 24 février au 7 avril 205

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Plan de la présentation

1 IntroductionSerie temporelleExemples

2 Modélisation d’une série temporelleDécomposition d’une sérieModèle de décompositionObjectifs

3 Méthode non paramétriqueMoyennes mobilesPropriétés des moyennes mobiles

Fluctuations irrégulieres

4 Ajustement paramétriqueMéthode des moindres carrés

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Qu’est ce qu’une série temporelle ?

Une série chronologique, ou chronique ou série temporelle, est unesuite finie de données indexée par le temps.

Si t1, t2, . . . , tn sont les n instants successifs d’observation et si yti est lavaleur mesurée à l’instant ti , on notera la série chronologique {yt}t∈T oùT est l’ensemble ordonné T = {t1, t2, . . . , tn}.

ObjectifsDécrire, expliquer un phénomène evoluant au cours du tempsPrévoir des valeurs futures

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Domaines d’application

Le temps est indicé le plus souvent, en années, trimestres, mois,jours, heures,...

Les données seront par exemple

Economie (prédiction d’indices économiques...)Finance (évolution des cours de la bourse...)Démographie (analyse de l’évolution d’une population...)Météorologie (analyse de données climatiques...)Médecine (analyse d’électrocardiogrammes...)Géophysique (analyse de donnés sismiques...)Traitement d’images (analyse d’images satellites, médicales...)Energie (prévision de la consommation d’électricité...)

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Exemples

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Time

grip

pe

1985 1990 1995 2000

0 e

+00

2 e

+05

4 e

+05

6 e

+05

8 e

+05

1 e

+06

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Nombre mensuel de demandes d'intérimaires de 1998 à 2001

0

5

10

15

20

25

30

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47

mois

nom

bres

de

dem

ande

s

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Serie temporelleExemples

Convention

On supposera dans toute la suite, que les dates sont équidistantes etdonc nous adopterons la notation simplifiée

(yi )i=1,...,n

pour désigner la série chronologique

{yt}t∈T avec T = {t1, t2, . . . , tn}.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Modélisation d’une série chronologique

Une règle générale en statistique descriptive consiste à commencer parregarder les données, avant d’effectuer le moindre calcul.

Ainsi, l’examen du graphe de la série peut mettre en évidence :une tendance : le phénomène étudiée a-t-il tendance à croître ou àdécroître ?y a t-il un phénomène périodique ? Lié par exemple aux saisons ?y a t-il des variations exceptionnelles et peut-on les expliquer ?

En définitive, il s’agit de déterminer les éléments constitutifs del’evolution globale d’une chronique : ils portent le nom de composantes.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Les composantes d’une chronique

On distingue :

la tendance (fi , 1 ≤ i ≤ n) :Elle représente l’évolution à long terme de la grandeur étudiée, ettraduit l’aspect général de la série.

les variations saisonnières (si , 1 ≤ i ≤ n) :– elles sont liées au rythme imposé par

les saisons météorologiques (production agricole, consommation degaz, . . . ),les activités économiques et sociales (fêtes, vacances, soldes, etc).d’autres causes régulières...

– elles sont de nature périodique, c’est-à-dire qu’il existe un entier p,appelé période, tel que

si = si+p, pour tout i ≥ 1.

Cette composante est donc entièrement déterminée par ses ppremières valeurs s1, s2, . . . , sp.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

la composante résiduelle ou bruit (ei , 1 ≤ i ≤ n) :Les variations résiduelles (qui “restent” quand on a éliminé tous lesautres mouvements) peuvent être de deux natures différentes :

La plupart du temps, elles proviennent d’un grand nombre de petitescauses, sont inexpliquées

Elles sont de faible amplitude et de courte durée.On parle alors de fluctuations irrégulières

Quelquefois, elles proviennent d’évenements accidentels de grandesampleurs

dûs à des accidents importants et explicables : Mai 68, réunificationde l’Allemagne, tempête, . . . ).On parle alors de variations accidentelles.Graphiquement, elles correspondent à des valeurs isoléesanormalement élevées ou faibles.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

On considère qu’une série chronologique (yi , 1 ≤ i ≤ n) est la résultantede 3 composantes fondamentales :

(fi , 1 ≤ i ≤ n), la tendance ou trend (intégrant éventuellement uncycle),

(sj , 1 ≤ j ≤ p), la composante saisonnière ou saisonnalité,

(ei , 1 ≤ i ≤ n), la composante résiduelle ou bruit (intégrant lesfluctuations irrégulières et éventuellement des accidents).

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Modélisation de la tendance par une droite

fθ(t) = a t + b avec θ = (a, b)′

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

5

10

15

20

25

30

35

40

45Tendance Linéaire

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

La parabole

fθ(t) = a t2 + b t + c avec θ = (a, b, c)′

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

50

100

150

200

250Tendance Parabolique

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

La courbe polynômiale

fθ(t) = ap tp +ap−1 tp−1 + . . . + a1 t + a0 avec θ = (ap, . . . , a1, a0)′

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

50

100

150

200

250

300

350Tendance Polynômiale

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

La courbe logarithmique

fθ(t) = a log(t) + b avec θ = (a, b)′

1 6 11 16 21 26 31 362

4

6

8

10

12

14

16

18

20Tendance Logarithmique

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

La courbe logistique

fθ(t) =1

b exp (−a t) + cavec θ = (a, b, c)′

1 6 11 16 21 26 31 360.65

0.7

0.75

0.8

0.85

0.9

0.95

1

1.05Tendance Logistique

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

La courbe exponentielle

fθ(t) = a exp (b t) + c avec θ = (a, b, c)′

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

50

100

150

200

250Tendance Exponentielle

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Les modèles de décomposition

On étudiera deux modèles :

le modèle additifle modèle multiplicatif

combinant chacun :

une tendance (mi ) ;une composante saisonnière (si ) ;une composante résiduelle (ui ).

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Le modèle additif

Modèle additif

xi = mi + si + ui pour i = 1, . . . , n (1)

avecp∑

j=1

sj = 0 etn∑

i=1

ui = 0.

Graphiquement... Dans le modèle additif, l’amplitude de la composantesaisonnière et du bruit reste constante au cours du temps. Ceci se traduitgraphiquement par de fluctuations autour de la tendance d’amplitudeconstante.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Le modèle multiplicatif

Modèle multiplicatif

xi = mi (1+ si ) (1+ ui ) pour i = 1, . . . , n (2)

avecp∑

j=1

sj = 0 etn∑

i=1

ui = 0.

Graphiquement... Dans le modèle multiplicatif, l’amplitude de lacomposante saisonnière et du bruit n’est plus constante au cours dutemps : elles varient au cours du temps proportionnellement à latendance.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Apprendre à reconnaître le bon modèle

Considérons les trois composantes suivantes :

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Modèle Additif Modèle Multiplicatif

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Objectifs

Buts de l’analyse des séries chonologiques :

Description : décrire l’évolution du phénomène dans le temps.Phénomène périodique ? Survenue d’événements accidentels ?Déterminer les composantes d’une série chronologique. Supprimerl’effet saisonnier . En effet, les variations saisonnières peuventmasquer l’évolution principale du phénomène.Trouver une fonction simple du temps qui modèlise au mieux latendanceFaire de la prévision à court ou moyen terme : ayant observéy1, . . . , yn, on veut prédire les valeurs futures yn+1, yn+2, . . .

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Décomposition d’une sérieModèle de décompositionObjectifs

Ajustement de la tendance

On dispose d’une série chronologique (yi )i=1,...,n

Objectifs : trouver une fonction simple du temps qui modélise au mieuxla tendance de la série (yi )i=1,...,n

Deux types de méthodes :

par une méthode non paramétriquepar une méthode paramétrique

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Une méthode non paramétrique : lissage par moyennemobiles

Les moyennes mobiles permettent de lisser directement la série sanshypothèse a priori sur la forme du modéle sous-jacent. La méthode estdonc valable quel que soit le modéle de décomposition. Pour cette raison,on peut classer ce type de lissage dans les méthodes non paramétriques(par opposition aux méthodes paramétriques qui seront abordées dans lapartie 3)

Objectif. Le but d’un lissage par moyenne mobile est

de faire apparaître l’allure de la tendanceen éliminant la composante saisonnièreen atténuant les fluctuations irrégulières.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Principe du lissage par moyennes mobiles

On dispose d’une série chronologique (yi )i=1,...,n

Idée : on décide d’estimer la tendance en un point par une moyenne desobservations qui l’entourent.

Moyennes mobiles simples

La série des moyennes mobiles d’ordre k, notée MM(k), est la sériedes moyennes de k observations consécutives qui prend ses valeurs auxdates moyennes correspondantes :

les moyennes de k termes consécutifs pour la variable y :

MM(k)j =

m termes︷ ︸︸ ︷yj−m + · · ·+ yj−1 +yj +

m termes︷ ︸︸ ︷yj+1 + · · ·+ yj+m

2m + 1

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Propriétés des moyennes mobilesElimination de la composante saisonnière

Elimination de la composante saisonnière

Si la série chronologique (yi )i=1,...,n possède une composante saisonnièrede période p, alors l’application d’une moyenne mobile d’ordre psupprime cette saisonnalité.

La série MM(p) ou MMC (p) ne possède plus de composante saisonnièrede période p.

On se servira donc d’une moyenne mobile d’ordre p pour éliminer unecomposante saisonnière de période p.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Ventes trimestrielles d’un produit

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 160

10

20

30

40

50

60

70

80Série initiale (en bleu) −− MMC(4) (en rouge)

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Atténuation des fluctuations irrégulières

Atténuation des fluctuations irrégulières

Par construction, une moyenne mobile consiste à faire des moyennespartielles de proche en proche. On obtient donc un “lissage” de la série.

1 Une moyenne mobile atténue l’amplitude des fluctuations irrégulièresd’une chronique.

2 Plus l’ordre de la moyenne mobile est élevé, et plus cette atténuationest importante.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Moyennes mobiles sur une série de fluctuations irrégulières

0−3

−2

−1

0

1

2

(a)0

−3

−2

−1

0

1

2

(b)

0−3

−2

−1

0

1

2

(c)0

−3

−2

−1

0

1

2

(d)

La série des fluctuations irrégulières, avec en(a), MM(4) (b), MM(6)(c), MM(12) (d), MM(20)

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Moyennes mobilesPropriétés des moyennes mobiles

Avec R

data = read.table(’grippe.txt’)grippe = ts(data[,2],start=c(1984,44),frequency=52)plot(grippe)res=decompose(grippe,type="additive")plot(res)

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Méthode des moindres carrés

Ajustement paramétrique

Contexte : Nous supposerons dans cette partie que le modèle necomporte plus de composante saisonnière : la série a été au préalablecorrigée de ses variations saisonnières.

Ajustement paramétrique : On veut modéliser la tendance (fi )i=1,...,nde la série chronologique (yi )i=1,...,n par une fonction paramétrique dutemps fθ( . ) où θ est un paramètre.

Il nous faut donc :1 choisir une famille de fonctions {fθ} dans une collection donnée de

fonctions paramétriques2 une fois la famille choisie, déterminer la valeur de θ qui conduit au

meilleur ajustement (dans un sens à définir) de la série (yi )i=1,...,n.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Méthode des moindres carrés

Modélisation de la tendance

Choisir la famille de fonctions {fθ}

Analyse graphique de la série chronologique détermine la famille defonctions paramétriques à considérer

Ajustement préliminaire de la tendance : méthode des moyennesmobiles

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Méthode des moindres carrés

Choisir le meilleur ajustement

On veut ajuster la tendance de la série chronologique (yi )1≤i≤n par unefonction du temps fθ, où θ est un paramètre de Rp.

Une fois la famille de fonctions {fθ} choisie, on veut déterminer la valeurde θ qui consuit au meilleur ajustement.

Le meilleur ajustement est déterminé à l’aide d’un critère, par exemplecelui des moindres carrés :

On appellera estimation des moindres carrés, la valeur de θ qui minimise

n∑i=1

(yi − fθ(ti )

)2

On notera cette valeur θ̂.

du 24 février au 7 avril 205 Formation doctorale

IntroductionModélisation d’une série temporelle

Méthode non paramétriqueAjustement paramétrique

Méthode des moindres carrés

Avec R

res = stl(grippe,s.window=52,s.degree=0)plot(res)tendance=res$time.series[,"trend"]saison=res$time.series[,"seasonal"]residus=res$time.series[,"remainder"]

#analyse de la tendance par un modele lineairelm.tendance=lm(tendance∼time(tendance))summary(lm.tendance)plot(tendance)abline(lm.tendance$coefficients[1],lm.tendance$coefficients[2])

du 24 février au 7 avril 205 Formation doctorale