Download - STAT2—Introduction aux séries temporellesmribatet.perso.math.cnrs.fr/CentraleNantes/STA2/show...Figure 2: Fonction d’autocorrélation empirique de ’aaaaahhhhh’. La série

Séries temporelles (v2) Mathieu Ribatet—[email protected] – 1 / 65

STAT2—Introduction aux séries temporelles

Mathieu Ribatet

École Centrale de Nantes

mailto:[email protected]

Quelques références bibliographiques


[1] P.J. Brockwell and R.A. Davis. Time Series: Theory and Methods.Springer Series in Statistics. Springer, 2009.

[2] P.J. Brockwell and R.A. Davis. Introduction to Time Series andForecasting. Springer Texts in Statistics. Springer International Publishing,2016.

[3] Robert Shumway and David Stoffer. Time Series Analysis and ItsApplications With R Examples, volume 9. 01 2011.


Motivation


� En statistique, classiquement on suppose que les observations sontindépendantes ou même iid, i.e.,

X1, . . . , Xnind∼ F1, . . . , Fn, X1, . . . , Xn iid∼ F.

� Les série temporelles concernent l’étude d’observations ordonnées (biensouvent par le temps) et qui en conséquence sont dépendantes.

� Il existe une multitude de structures de dépendance et dans ce cours nousallons voir “seulement” quelques modèles classiques.


Processus stochastique et séries temporelles


Définition 1. Un processus stochastique {Xt : t ∈ T} définit sur un espaced’indice T est une collection de variables aléatoires définies sur le mêmeespace de probabilité (Ω,F ,P).





Définition 2. Une série temporelle est un processus stochastique dontl’espace d’incide T est soit N,Z, [0,∞) voire R.

Définition 3. On appelle trajectoires du processus {Xt : t ∈ T} les fonctionst 7→ Xt(ω), ω ∈ Ω.





Définition 2. Une série temporelle est un processus stochastique dontl’espace d’incide T est soit N,Z, [0,∞) voire R.

Définition 3. On appelle trajectoires du processus {Xt : t ∈ T} les fonctionst 7→ Xt(ω), ω ∈ Ω.

Remarque. Cela dit bien souvent (si ce n’est tout le temps) les sériestemporelles seront indicées sur T = Z. Ce sera toujours le cas pour ce cours !


Quelques séries temporelles


Annee

Resultats

tri

mestr

iels

par

action

1960 1965 1970 1975 1980

05

10

15

Figure 1: Résultats trimestriels de l’action de Johnson et Johnson de 1960 à 1980.




1880 1900 1920 1940 1960 1980 2000 2020

−50

050

100

Annee

Anom

alie

s d

e tem

pera

ture

mondia

le

Figure 1: Evolution des anomalies sur la température mondiale de 1880 à nos jours—période deréférence : 1951–1980.




Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

Figure 1: Enregistrement de ’aaaa. . . hhhh’ toutes les 10−4s—premiers 1020 points.




Annee

Nom

bre

mensuel de p

assagers

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

Figure 1: Evolution du nombre mensuel de passagers sur le traffic aérien mondial de 1949 à 1960.


1. Notions de base

⊲1. Notions debase

2. Modèlesclassiques

3. Inférence



Stationnarité stricte


Définition 4. Considérons l’ensembleT = {t = (t1, . . . , tn) ∈ Zn : t1 < t2 < · · · < tn, n = 1, 2, . . .}. On appelle loisfini-dimensionnelles de {Xt : t ∈ Z} les fonctions {x 7→ Ft(x), t ∈ T } où

Ft(x) = Pr (Xt1 ≤ x1, . . . , Xtn ≤ xn) , x = (x1, . . . , xn)⊤ ∈ Rn.

Définition 5. Une série temporelle {Xt : t ∈ Z} est dite strictementstationnaire si les lois fini-dimensionnelles de {Xt+h : t ∈ Z}, h ∈ Z, et de{Xt : t ∈ Z} sont identiques.


Stationnarité stricte


Définition 4. Considérons l’ensembleT = {t = (t1, . . . , tn) ∈ Zn : t1 < t2 < · · · < tn, n = 1, 2, . . .}. On appelle loisfini-dimensionnelles de {Xt : t ∈ Z} les fonctions {x 7→ Ft(x), t ∈ T } où

Ft(x) = Pr (Xt1 ≤ x1, . . . , Xtn ≤ xn) , x = (x1, . . . , xn)⊤ ∈ Rn.

Définition 5. Une série temporelle {Xt : t ∈ Z} est dite strictementstationnaire si les lois fini-dimensionnelles de {Xt+h : t ∈ Z}, h ∈ Z, et de{Xt : t ∈ Z} sont identiques.

� C’est généralement une propriété bien trop forte (et impossible à vérifieren pratique) qui font que l’on considèrera souvent une version assouplie.


Ordre 2, tendance et autocovariance


Définition 6. Une série temporelle {Xt : t ∈ Z} est dite d’ordre 2 si, pourtout t ∈ Z, Var(Xt)

Autocorrélation


Définition 8. Soit {Xt : t ∈ Z} une série temporelle d’ordre 2. On appellefonction d’autocorrélation la fonction

ρ : Z2 −→ [−1, 1]

(s, t) 7−→ ρ(s, t) = γ(s, t)√γ(s, s)γ(t, t)

.


Autocorrélation


Définition 8. Soit {Xt : t ∈ Z} une série temporelle d’ordre 2. On appellefonction d’autocorrélation la fonction

ρ : Z2 −→ [−1, 1]

(s, t) 7−→ ρ(s, t) = γ(s, t)√γ(s, s)γ(t, t)

.

� |ρ(s, t)| ≤ 1 (Cauchy–Schwartz).


Stationnarité faible


Définition 9. Une série temporelle {Xt : t ∈ Z} est dite faiblementstationnaire si

1. sa tendance µ(t) est contante, i.e., ne dépend pas de t ;2. γ(t, t+ h) ne dépend pas de t pour tout h ∈ Z.


Stationnarité faible


Définition 9. Une série temporelle {Xt : t ∈ Z} est dite faiblementstationnaire si

1. sa tendance µ(t) est contante, i.e., ne dépend pas de t ;2. γ(t, t+ h) ne dépend pas de t pour tout h ∈ Z.

� Par abus de langage on dira souvent “stationnaire” en parlant de “station-narité faible”.

Proposition 1. Si {Xt : t ∈ Z} est stationnaire alors

γ(t, t+ h) = γ(0, h) = γ(0,−h) := γ(h), ρ(t, t+ h) := ρ(h),

i.e., on pourra traiter la fonction d’autocovariance/autocorrélation comme desfonctions d’une seule variable symétriques en 0. On appelera h le lag.


Fonction d’autocovariance // autocorrélation empirique


On considère une série {Xt : t ∈ Z} stationnaire observée en X1, . . . , Xn

Définition 10. On appelle fonction d’autocovariance empirique la fonction

h 7→ γ̂(h) = 1n

n−h∑

t=1

(Xt+h − X̄)(Xt − X̄), X̄ =1

n

n∑

t=1

Xt.

De même on appelle fonction d’autocorrélation empirique (ACF) la fonction

h 7→ ρ̂(h) = γ̂(h)γ̂(0)

.


Fonction d’autocovariance // autocorrélation empirique


On considère une série {Xt : t ∈ Z} stationnaire observée en X1, . . . , Xn

Définition 10. On appelle fonction d’autocovariance empirique la fonction

h 7→ γ̂(h) = 1n

n−h∑

t=1

(Xt+h − X̄)(Xt − X̄), X̄ =1

n

n∑

t=1

Xt.

De même on appelle fonction d’autocorrélation empirique (ACF) la fonction

h 7→ ρ̂(h) = γ̂(h)γ̂(0)

.

� On divise par n et non par n−h−1 afin d’assurer que h 7→ γ̂(h) est définiepositive.


ACF de ’aaaaaahhhh’


Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

0 50 100 150 200 250

−0.5

0.0

0.5

1.0

Lag

AC

F

Figure 2: Fonction d’autocorrélation empirique de ’aaaaahhhhh’.




Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

0 50 100 150 200 250

−0.5

0.0

0.5

1.0

Lag

AC

F


� La série initiale montrait une certaine périodicité que l’on retrouve surl’ACF




Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

0 50 100 150 200 250

−0.5

0.0

0.5

1.0

Lag

AC

F


� La série initiale montrait une certaine périodicité que l’on retrouve surl’ACF

� En pratique il faudra analyser que la première période


Fonction d’autocorrélation partielle


Définition 11. Soient X0, . . . , Xh des observations successives d’une sérietemporelle stationnaire et Ỹ0 et Ỹh les combinaisons linéaires de Y0, . . . , Yh−1minimisant E{(Y0 − Ỹ0)2} et E{(Yh − Ỹh)2} respectivement.On apelle fonction d’autocorrélation partielle est donnée par

ρ̃(1) = Cor(Y0, Y1), ρ̃(h) = Cor(Y0 − Ỹ0, Yh − Ỹh), h ≥ 2.

En pratique on utilisera sa version empirique.


Fonction d’autocorrélation partielle


Définition 11. Soient X0, . . . , Xh des observations successives d’une sérietemporelle stationnaire et Ỹ0 et Ỹh les combinaisons linéaires de Y0, . . . , Yh−1minimisant E{(Y0 − Ỹ0)2} et E{(Yh − Ỹh)2} respectivement.On apelle fonction d’autocorrélation partielle est donnée par

ρ̃(1) = Cor(Y0, Y1), ρ̃(h) = Cor(Y0 − Ỹ0, Yh − Ỹh), h ≥ 2.

En pratique on utilisera sa version empirique.

� Si la série temporelle est Gaussienne alors

ρ̃(h) = Cor(Y0, Yh | Y1, . . . , Yh−1).

� LE PACF est utile pour identifier les structures Markovienne.


PACF de ’aaaaaahhhh’


Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

0 50 100 150 200 250

−0.5

0.0

0.5

1.0

Lag

AC

F

Figure 3: Fonction d’autocorrélation partielle empirique de ’aaaaahhhhh’.


PACF de ’aaaaaahhhh’


Temps (10−4

s)

Dites "

Aaaaaaa...h

hhhh"

0 200 400 600 800 1000

01000

2000

3000

4000

0 50 100 150 200 250

−0.5

0.0

0.5

1.0

Lag

AC

F

Figure 3: Fonction d’autocorrélation partielle empirique de ’aaaaahhhhh’.

� Mêmes remarques que pour l’ACF


Opérateur de retard et série différenciée


Définition 12. Soit une série temporelle {Xt : t ∈ Z}. On définit l’opérateurde retard (backshift operator) B par

BXt = Xt−1,

et on dira que l’on différenciera (à l’ordre un) la série {Xt : t ∈ Z} ens’intéressant à la série temporelle

Yt = Xt −Xt−1 = (1−B)Xt := DXt.


Opérateur de retard et série différenciée


Définition 12. Soit une série temporelle {Xt : t ∈ Z}. On définit l’opérateurde retard (backshift operator) B par

BXt = Xt−1,

et on dira que l’on différenciera (à l’ordre un) la série {Xt : t ∈ Z} ens’intéressant à la série temporelle

Yt = Xt −Xt−1 = (1−B)Xt := DXt.

Remarque. On pourra s’intéresser à des ordres supérieurs, i.e.,

B2Xt = B(BXt) = Xt−2, B3Xt = . . .

D2Xt = D(DXt) = D(Xt −Xt−1) = Xt − 2Xt−1 +Xt−2, D3Xt = . . .


Utilité des opérateurs B et D


� L’opérateur Dk permet de supprimer une tendance polynomiale� L’opération (1−Bk) “stationnarise” une série périodique de période k





Annee

Re

su

lta

ts t

rim

estr

iels

pa

r a

ctio

n

1960 1965 1970 1975 1980

05

10

15

Annee

Se

rie

diffe

ren

cie

e

1960 1965 1970 1975 1980

−4

−2

02

46

Annee

No

mb

re m

en

su

el d

e p

assa

ge

rs

1950 1952 1954 1956 1958 1960

10

03

00

50

0

Annee

Se

rie

diffe

ren

cie

e

1950 1952 1954 1956 1958 1960

−1

00

−5

00

50

Figure 4: Différenciation (à l’ordre 1) des séries Johnson & Johnson et du trafic aérien mondial.





Time

Xt

0 10 20 30 40

−2

−1

01

2

Time

Se

rie

diffe

ren

cie

e

10 20 30 40

−2

−1

01

23

Time

Xt

0 10 20 30 40

−2

−1

01

2

Time

Se

rie

diffe

ren

cie

e

15 20 25 30 35 40

−2

−1

01

2

Figure 4: Utilisation de (1−Bk) pour une série de la forme Xt = sin(2πt/ω) + εt.


Rappels : Variance stabilisée


� Beaucoup de lois admettent une relation entre µ = E(X) et la varianceque l’on étudie via la fonction variance Var(X) ∝ V (µ) :Normale Var(X) = σ2 et donc V (µ) = 1 ;Poisson Var(X) = µ et donc V (µ) = µ ;Gamma Var(X) = κµ2 et donc V (µ) = µ2.

� Si une v.a. X a pour fonction variance V (µ) alors

Y = h(X), h(x) =

∫ x

x−

V (u)−1/2du, x− = inf{x ∈ R : Pr(X > x−) > 0},

a une variance (approximativement) constante.� En particulier si V (µ) = µλ alors h(x) = x(2−λ)/2 stabilise la variance.


Illustration sur les données du traffic aérien


� Nous avons ici des données de comptage → Poisson ?� On pourrait donc espérer stabiliser la variance par x 7→ √x.

Annee

Nom

bre

mensuel de p

assagers

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

Annee

Vari

ance s

tabili

see

1950 1952 1954 1956 1958 1960

10

15

20

25

Figure 5: Tentative de stabilisation de la variance pour les données de traffic aérien.


Illustration sur les données du traffic aérien (suite)


Reste encore la tendance linéaire que l’on atténue en différenciant Yt =√Xt.

Annee

Nom

bre

mensuel de p

assagers

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

Annee

Seri

e s

tationari

see

1950 1952 1954 1956 1958 1960

−2

−1

01

Annee

|Seri

e s

tationari

see|

1950 1952 1954 1956 1958 1960

0.0

0.5

1.0

1.5

2.0

Figure 6: Tentative de stationariser les données de traffic aérien. En orange le lissage via Nadaraya-Watson.


Mise en garde


� Attention généralement différencier // transformer une série temporellecompliquera sa structure de dépendance. . .

� On essaiera donc autant que possible de travailler sur la série initialequitte à devoir utiliser des modèles plus complexes.

� Ainsi l’interprétation sera plus facile in fine !


2. Modèles classiques

1. Notions de base

⊲2. Modèlesclassiques

3. Inférence



Bruit blanc : Notre modèle de référence


Définition 13. Une série temporelle {Xt : t ∈ Z} est un bruit blanc si elle eststationnaire et vérifie

µ(t) = 0, t ∈ Z, γ(h) ={

σ2, h = 0,

0, h 6= 0.

On parlera de bruit blanc gaussien si de plus Xt ∼ N(0, σ2).


Bruit blanc : Notre modèle de référence


Définition 13. Une série temporelle {Xt : t ∈ Z} est un bruit blanc si elle eststationnaire et vérifie

µ(t) = 0, t ∈ Z, γ(h) ={

σ2, h = 0,

0, h 6= 0.

On parlera de bruit blanc gaussien si de plus Xt ∼ N(0, σ2).

� La terminologie “bruit blanc” s’apparente à la lumière blanche pour laquelletoutes les fréquences sont représentées. . .



Time

Xt

0 100 200 300 400 500

−6

−2

02

46

Time

Xt

0 100 200 300 400 500

−6

−2

02

46

Figure 7: Deux bruits blancs gaussiens avec σ2 = 1 et 4.


ACF et PACF d’un bruit blanc


0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

0 5 10 15 20 25

−0.0

50.0

00.0

5

Lag

Part

ial A

CF

Figure 8: ACF et PACF d’un bruit blanc.


ACF et PACF d’un bruit blanc


0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

0 5 10 15 20 25

−0.0

50.0

00.0

5

Lag

Part

ial A

CF

Figure 8: ACF et PACF d’un bruit blanc.

� Lignes en pointillés : ±1.96/√n.


Test pour la “blancheur” du signal


� Le test initial développé par Box et Pierce (JASA, 1970) puis raffinéensuite par Ljung et Box (Biometrika, 1978) se base sur le résultatsuivant.

� Soit {Xt : t ∈ Z} un bruit blanc. Pour n grand et m≪ n,

Qm = n(n+ 2)m∑

h=1

ρ̂(h)2

n− h·∼ χ2m.

Remarque. La sensibilité du test à détecter une rupture de blancheur dépendde m :

� m trop grand réduira la puissance du test. . .


Test pour la “blancheur” du signal


� Le test initial développé par Box et Pierce (JASA, 1970) puis raffinéensuite par Ljung et Box (Biometrika, 1978) se base sur le résultatsuivant.

� Soit {Xt : t ∈ Z} un bruit blanc. Pour n grand et m≪ n,

Qm = n(n+ 2)m∑

h=1

ρ̂(h)2

n− h·∼ χ2m.

Remarque. La sensibilité du test à détecter une rupture de blancheur dépendde m :

� m trop grand réduira la puissance du test. . .� . . . mais m trop petit aussi !� En pratique on tracera Qm pour différentes valeurs de m et on regardera

son comportement sur une gamme de m donnée.


Illustration


0 50 100 150 200

0.0

0.2

0.4

0.6

0.8

1.0

m

p−

vale

ur

Figure 9: P-valeurs associées au test de Ljung–Box pour différentes valeurs de m. Que pouvez vousdire ?


Message pour la suite des modèles présentés


� Dans toute la suite nous allons présenter des modèles usuels en sériestemporelles centrés

� En pratique E(Xt) = µ avec µ inconnu (et différent de 0 bien souvent)� Dans de telles situations on remplacera simplement Xt par Yt = Xt − µ

dans la définition des modèles.


AR(p)


Définition 14. Le modèle auto-régressif d’ordre p est défini par

Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt,

où {εt : t ∈ T} est un bruit blanc et φ1, . . . , φp, φp 6= 0, sont les paramètresdu modèle.

Définition 15. L’opérateur auto-régressif d’un AR(p) est donné par

φ(B) = 1− φ1B − φ2B2 − · · · − φpBp.


AR(p)


Définition 14. Le modèle auto-régressif d’ordre p est défini par

Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt,

où {εt : t ∈ T} est un bruit blanc et φ1, . . . , φp, φp 6= 0, sont les paramètresdu modèle.

Définition 15. L’opérateur auto-régressif d’un AR(p) est donné par

φ(B) = 1− φ1B − φ2B2 − · · · − φpBp.

� On pourra donc écrire un AR(p) de manière compacte sous la formeφ(B)Xt = εt.


ACF d’un AR(p)


0 5 10 15

0.0

0.8

Lag

AC

F

AR( 1 )

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

0.0

0.8

Lag

AC

F

AR( 2 )

0 5 10 15

0.0

0.6

LagA

CF

0 5 10 15

−0

.20

.6

Lag

AC

F

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

−0

.51

.0

Lag

AC

F

AR( 5 )

0 5 10 15

−0

.50

.5

Lag

AC

F

0 5 10 15−0

.50

.5

Lag

AC

F

0 5 10 15

−0

.40

.4

Lag

AC

F

Figure 10: ACF de 4 résalisations indépendantes d’un AR(p) avec, de gauche à droite, p = 1, 2, 5.


PACF d’un AR(p)


2 4 6 8 10 12 14

0.0

0.8

Lag

Pa

rtia

l A

CF AR( 1 )

2 4 6 8 10 12 14

0.0

0.6

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

0.0

0.6

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.20

.4

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.20

.4

Lag

Pa

rtia

l A

CF AR( 2 )

2 4 6 8 10 12 14

0.0

0.4

LagP

art

ial A

CF

2 4 6 8 10 12 14

−0

.10

.3

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

0.0

0.4

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.60

.4

Lag

Pa

rtia

l A

CF AR( 5 )

2 4 6 8 10 12 14

−0

.60

.2

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14−0

.60

.2

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.40

.2

Lag

Pa

rtia

l A

CF

Figure 11: PACF de 4 résalisations indépendantes d’un AR(p) avec, de gauche à droite, p = 1, 2, 5.


MA(q)


Définition 16. Le modèle de moyenne mobile (moving average) d’ordre q estdéfini par

Xt = εt + θ1εt−1 + · · ·+ θqεt−q,où {εt : t ∈ T} est un bruit blanc et θ1, . . . , θq, θq 6= 0, sont les paramètres dumodèle.

Définition 17. L’opérateur de moyenne mobile d’un MA(q) est donné par

θ(B) = 1 + θ1B + θ2B2 + · · ·+ θqBq.


MA(q)


Définition 16. Le modèle de moyenne mobile (moving average) d’ordre q estdéfini par

Xt = εt + θ1εt−1 + · · ·+ θqεt−q,où {εt : t ∈ T} est un bruit blanc et θ1, . . . , θq, θq 6= 0, sont les paramètres dumodèle.

Définition 17. L’opérateur de moyenne mobile d’un MA(q) est donné par

θ(B) = 1 + θ1B + θ2B2 + · · ·+ θqBq.

� On pourra donc écrire un MA(q) de manière compacte sous la formeXt = θ(B)εt.


ACF d’un MA(q)


0 5 10 15

0.0

0.8

Lag

AC

F

MA( 1 )

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

−0

.20

.6

Lag

AC

F

0 5 10 15

0.0

0.8

Lag

AC

F

MA( 2 )

0 5 10 15

0.0

0.6

LagA

CF

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

0.0

0.6

Lag

AC

F

0 5 10 15

−0

.40

.6

Lag

AC

F

MA( 5 )

0 5 10 15−0

.40

.4

Lag

AC

F

0 5 10 15

−0

.20

.6

Lag

AC

F

0 5 10 15

−0

.20

.6

Lag

AC

F

Figure 12: ACF de 4 résalisations indépendantes d’un MA(q) avec, de gauche à droite, q = 1, 2, 5.


PACF d’un MA(q)


2 4 6 8 10 12 14

−0

.20

.4

Lag

Pa

rtia

l A

CF MA( 1 )

2 4 6 8 10 12 14

−0

.20

.4

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.40

.2

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.20

.4

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.20

.2

Lag

Pa

rtia

l A

CF MA( 2 )

2 4 6 8 10 12 14

−0

.20

.2

LagP

art

ial A

CF

2 4 6 8 10 12 14−0

.20

.2

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.20

.2

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.40

.2

Lag

Pa

rtia

l A

CF MA( 5 )

2 4 6 8 10 12 14

−0

.40

.0

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.30

.1

Lag

Pa

rtia

l A

CF

2 4 6 8 10 12 14

−0

.30

.1

Lag

Pa

rtia

l A

CF

Figure 13: PACF de 4 résalisations indépendantes d’un MA(q) avec, de gauche à droite, q = 1, 2, 5.


Vers les ARMA(p, q)


� Les processus ARMA sont largement utilisés pour la raison suivante. . .


Vers les ARMA(p, q)


� Les processus ARMA sont largement utilisés pour la raison suivante. . .

Soit une fonction d’autocovariance γ telle que limh→∞ γ(h) → 0,alors il est possible de construire un ARMA de fonctiond’autocovariance γ. (admis)


ARMA(p, q)


Définition 18. Une série temporelle {Xt : t ∈ Z} est un ARMA(p, q),q, q ∈ N∗, si elle est stationnaire et telle que

Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt + θ1εt−1 + θ2εt−2 + · · ·+ θqεt−q

soit sous la forme compacte

φ(B)Xt = θ(B)εt.


ARMA(p, q)


Définition 18. Une série temporelle {Xt : t ∈ Z} est un ARMA(p, q),q, q ∈ N∗, si elle est stationnaire et telle que

Xt = φ1Xt−1 + φ2Xt−2 + · · ·+ φpXt−p + εt + θ1εt−1 + θ2εt−2 + · · ·+ θqεt−q

soit sous la forme compacte

φ(B)Xt = θ(B)εt.

� Attention à l’artefact suivant

η(B)φ(B)Xt = η(B)θ(B)εt.

qui peut conduire à des modèles ARMA(p, q) plus complexes qu’ils ne le sontréellement.


Illustration


� Considérons le modèle ARMA(1, 1) suivant

Xt = 0.5Xt−1 − 0.5εt−1 + εt.


Illustration



Xt = 0.5Xt−1 − 0.5εt−1 + εt.

� Ce dernier est faussement complexe puisque

Xt − 0.5Xt−1 = εt − 0.5εt−1 ⇐⇒ η(B)Xt = η(B)εt,

avec η(B) = 1− 0.5B.� C’est surtout un bruit blanc Xt = εt !!!


Illustration



Xt = 0.5Xt−1 − 0.5εt−1 + εt.

� Ce dernier est faussement complexe puisque

Xt − 0.5Xt−1 = εt − 0.5εt−1 ⇐⇒ η(B)Xt = η(B)εt,

avec η(B) = 1− 0.5B.� C’est surtout un bruit blanc Xt = εt !!!

� On prendra soin de vérifier que les polynômes φ(B) et θ(B) n’ont pas deracines communes !


ACF d’un ARMA(p, q)


0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 1 , 1 )

0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 1 , 2 )

0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 1 , 5 )

0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 2 , 1 )

0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 2 , 2 )

0 5 10 15

0.0

0.4

0.8

Lag

AC

F

ARMA( 2 , 5 )

0 5 10 15

−0

.20

.41

.0

Lag

AC

F

ARMA( 5 , 1 )

0 5 10 15

−0

.40

.20

.8

Lag

AC

F

ARMA( 5 , 2 )

0 5 10 15

−0

.50

.5

Lag

AC

F

ARMA( 5 , 5 )

Figure 14: ACF d’un ARMA(p, q) avec p, q = 1, 2, 5.


PACF d’un ARMA(p, q)


2 4 6 8 10 12 14

−0

.40

.20

.8

Lag

Pa

rtia

l A

CF

ARMA( 1 , 1 )

2 4 6 8 10 12 14

−0

.40

.20

.8

Lag

Pa

rtia

l A

CF

ARMA( 1 , 2 )

2 4 6 8 10 12 14

−0

.20

.40

.8

Lag

Pa

rtia

l A

CF

ARMA( 1 , 5 )

2 4 6 8 10 12 14

−0

.20

.40

.8

Lag

Pa

rtia

l A

CF

ARMA( 2 , 1 )

2 4 6 8 10 12 14

−0

.20

.40

.8

Lag

Pa

rtia

l A

CF

ARMA( 2 , 2 )

2 4 6 8 10 12 14−0

.40

.20

.6

Lag

Pa

rtia

l A

CF

ARMA( 2 , 5 )

2 4 6 8 10 12 14

−0

.40

.20

.6

Lag

Pa

rtia

l A

CF

ARMA( 5 , 1 )

2 4 6 8 10 12 14

−0

.60

.00

.6

Lag

Pa

rtia

l A

CF

ARMA( 5 , 2 )

2 4 6 8 10 12 14

−0

.60

.00

.6

Lag

Pa

rtia

l A

CF

ARMA( 5 , 5 )

Figure 15: PACF d’un ARMA(p, q) avec p, q = 1, 2, 5.



Table 1: Identification de l’ordre d’un AR(p) ou d’un MA(q).

AR(p) MA(q) ARMA(p, q)

ACF → 0 Chute au lag q → 0PACF Chute au lag p → 0 → 0


Processus causal


Définition 19. Une série ARMA(p, q) {Xt : t ∈ Z} est dite causale si ellepeut s’écrire sous la forme

Xt =∞∑

j=0

ψjεt−j = ψ(B)εt,

où ψ(B) =∑

∞

j=0 ψjBj et

∑

∞

j=0 |ψj |

Processus inversible


Définition 20. Une série ARMA(p, q) {Xt : t ∈ Z} est dite inversible si ellepeut s’écrire sous la forme

π(B)Xt =∞∑

j=0

πjXt−j = εt,

où π(B) =∑

∞

j=0 πjBj et

∑

∞

j=0 |πj|


METTRE UN EXEMPLE DE POURQUOI IL EST SOUHAITABLE D’AVOIRUNE SERIES CAUSALE ET INVERSIBLE –¿ UNICITÉ


ARIMA(p, d, q)


Allez on complique encore un petit peu les choses !!!

Définition 21. Une série temporelle {Xt : t ∈ Z} est un ARIMA(p, d, q),p, d, q ∈ N, si la série différentiée Yt = (1−B)dXt est un ARMA(p, q), i.e.,on a

φ(B)(1−B)dXt = θ(B)εt.

� Les ARIMA permet d’étendre la modélisation aux séries nonstationnaires

Exemple 1. Le modèle de marche aléatoire Xt = Xt−1 + εt est unARIMA(0, 1, 0)


Modèles SARIMA


Vous suivez toujours ????


Modèles SARIMA


Vous suivez toujours ????Alors on complique plus encore !!!

Définition 22. Une série temporelle {Xt : t ∈ Z} est unARIMA(p, d, q)× (P,D,Q)s, p, d, q, P,D,Q, s ∈ N, si la série vérifie

Φ(Bs)φ(B)(1−B)d(1−Bs)DXt = Θ(Bs)θ(B)εt.

On dira alors que la série temporelle est un SARIMA (multiplicatif), le Ssignifiant Seasonal ARIMA.

� Les séries SARIMA permettent de modéliser une saisonnalité,SARIMA (multiplicatif), e.g., annuelle → s = 12, D = 1.


Exemple


(1− 0.8B12)Xt = (1− 0.9B)εt,


Exemple


(1− 0.8B12)Xt = (1− 0.9B)εt, ARIMA(0, 0, 1)× (1, 0, 0)12.


Exemple


(1− 0.8B12)Xt = (1− 0.9B)εt, ARIMA(0, 0, 1)× (1, 0, 0)12.

Time

Xt

2000 2005 2010 2015 2020

−10

−5

05

0 1 2 3 4 5

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

0 1 2 3 4 5

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

Lag

Part

ial A

CF

Figure 16: ACF et PACF de ce SARIMA.


Exemple


(1− 0.8B12)Xt = (1− 0.9B)εt, ARIMA(0, 0, 1)× (1, 0, 0)12.

Time

dX

t

2005 2010 2015 2020

−2

−1

01

23

0 1 2 3 4 5

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

0 1 2 3 4 5

−0.2

−0.1

0.0

0.1

Lag

Part

ial A

CF

Figure 16: ACF et PACF sur la série (1−B12)Xt.


3. Inférence

1. Notions de base

2. Modèlesclassiques

⊲ 3. Inférence



Estimateur du maximum de vraisemblance


� Il existe de nombreuses méthodes pour estimer un ARMA(p, q).� Mais l’estimateur du maximum de vraisemblance est largement utilisé� Pourquoi ?

invariance 1 si l’on transforme les données Y = g(X) par une bijection,alors L(θ;x) = L(θ; y) ;invariance 2 si l’on transforme les paramètres ψ = ψ(θ) alorsf∗(x;ψ) = f∗(x;ψ(θ)) = f(x; θ) et donc L∗(ψ) = L(θ) d’où ψ̂ = θ̂ ;Efficacité Borne de Cramer–Rao asymptotiquement atteinte ⇒ ICs ettests basés sur L sont asymptotiquement optimaux


Estimateur du maximum de vraisemblance (rappels)


� Pour un modèle statistique régulier, l’estimateur du maximum devraisemblance θ̂ vérifie

θ̂·∼ N

{

θ∗, J(θ̂)−1

}

, n grand,

où J(θ̂) est la matrice observée d’information de Fisher, i.e.,J(θ̂) = −∇2ℓ(θ̂).


Estimateur du maximum de vraisemblance (rappels)


� Pour un modèle statistique régulier, l’estimateur du maximum devraisemblance θ̂ vérifie

θ̂·∼ N

{

θ∗, J(θ̂)−1

}

, n grand,

où J(θ̂) est la matrice observée d’information de Fisher, i.e.,J(θ̂) = −∇2ℓ(θ̂).

� En conséquence on peut facilement obtenir des intervalles de confiancesymétriques pour θ∗,r,

θ̂r ± zα√

j−1rr ,

où j(−1)rr est le r-ème élément diagonal de J(θ̂)−1.


Test du rapport de vraisemblance (rappels)


Définition 23. Considérons deux modèles statistiques paramétriques{fA(x; θ) : θ ∈ Θ} et {fB(x;ψ) : ψ ∈ Ψ}, Θ ⊆ Ψ. On dira que fA estemboité dans fB s’il l’on peut restreindre certains paramètres de ψ de tellesorte que, pour tout θ ∈ Θ, fA(x; θ) = fB(x;ψ).

Exemple 2. Le modèle X1, . . . , Xniid∼ N(µ, σ2) est inclu dans un AR(1)

puisque le 1er modèle correspond à un AR(1) avec θ1 = 0.

Proposition 4. Pour deux modèles emboités A et B, on peut tester

H0 : Modèle A est bon H1 : Modèle B est bon

via la statistique du rapport de vraisemblance

W = 2{ℓB(ψ̂)− ℓA(θ̂)} ·∼ χ2p, n grand,

sous H0 et où p = dim(Ψ)− dim(Θ).


Etude de cas : Température d’un castor


> beav2

day time temp activ

1 307 930 36.58 0

2 307 940 36.73 0

3 307 950 36.93 0

.

.

37 307 1530 37.64 0

38 307 1540 37.51 0

39 307 1550 37.98 1

40 307 1600 38.02 1

.

.

98 308 140 38.01 1

99 308 150 38.04 1

100 308 200 38.07 1

Time

Tem

pera

ture

(C

)

0 20 40 60 80 100

37.0

37.5

38.0

Figure 17: Série temporelle de la température cor-porelle d’un castor relevée toutes les 10 minutes—dataset beav2 de la librairie MASS.


Modélisation (Merci Prof. Anthony Davison !!!)


Nous allons considérer différents modèles statistiques pour ces données :

� Modèle 1 : X1, . . . , Xniid∼ N(µ, σ2) ;

� Modèle 2 : X1, . . . , Xγiid∼ N(µ, σ2) indépendant de

Xγ+1, . . . , Xniid∼ N(µ+ δ, σ2), avec γ = 38 ;

� Modèle 3 : X1, . . . , Xn ∼ AR(1) de paramètres µ, σ2, φ1 ;� Modèle 4 : X1, . . . , Xn ∼ AR(1) de paramètres µ, δ, σ2, φ1 où l’espérance

est µ pour les 38 1ères obs. et µ+ δ pour les suivantes.

https://people.epfl.ch/anthony.davisonmailto:[email protected]









Remarque. Pour comparer les modèles, il faudra qu’ils soient ajustés sur lesmêmes observations. Cela pose un problème pour les modèles de type AR(1)puisque l’on doit connâıtre f(Y1 | Y0). Plusieurs approches possibles :� On utilise la loi stationnaire, i.e., Y1 ∼ N{µ, σ2/(1− φ21)} ;� Imputation, i.e., on pose une valeur arbitraire pour Y0, e.g., Y0 = Ȳ ;� On écarte la contribution de Y1 de tous les calculs.










Remarque. Pour comparer les modèles, il faudra qu’ils soient ajustés sur lesmêmes observations. Cela pose un problème pour les modèles de type AR(1)puisque l’on doit connâıtre f(Y1 | Y0). Plusieurs approches possibles :� On utilise la loi stationnaire, i.e., Y1 ∼ N{µ, σ2/(1− φ21)} ;� Imputation, i.e., on pose une valeur arbitraire pour Y0, e.g., Y0 = Ȳ ;� On écarte la contribution de Y1 de tous les calculs.

� On va utiliser la 3ème approche.


Modèle 1


## Moins la log-vraisemblance

nllik1

Modèle 2



nllik2

Modèle 3



nllik3

Modèle 4



nllik4

Résumé des modèles ajustés


Modèle Nb de paramètres ℓ(θ̂) AIC

1 2 -60.82 125.62 3 13.74 -21.53 3 61.42 -116.94 4 62.39 -116.8

Paramètre Modèle 1 Modèle 2 Modèle 3 Modèle 4

µ 37.6 (0.04) 37.1 (0.03) 37.8 (0.22) 37.36 (0.19)σ 0.44 (0.03) 0.21 (0.01) 0.13 (0.01) 0.13 (0.01)δ — 0.81 (0.04) — 0.55 (0.22)φ1 — — 0.93 (0.03) 0.86 (0.06)


Résumé des modèles ajustés


Modèle Nb de paramètres ℓ(θ̂) AIC

1 2 -60.82 125.62 3 13.74 -21.53 3 61.42 -116.94 4 62.39 -116.8

Paramètre Modèle 1 Modèle 2 Modèle 3 Modèle 4

µ 37.6 (0.04) 37.1 (0.03) 37.8 (0.22) 37.36 (0.19)σ 0.44 (0.03) 0.21 (0.01) 0.13 (0.01) 0.13 (0.01)δ — 0.81 (0.04) — 0.55 (0.22)φ1 — — 0.93 (0.03) 0.86 (0.06)

Remarquons

� la forte augmentation des erreurs standards sur µ et δ lorsque φ1 6= 0.� la forte baisse de σ lorsque δ 6= 0 ou φ1 6= 0.


Analyse des résidus


Pour le modèle 3, les résidus (standardisés) sont donnés par

rt :=xt − x̂tσ̂

=xt − µ̂− φ̂1(xt−1 − µ̂)

σ̂, t = 2, . . . , n.

et devraient être issus d’un bruit blanc (Gaussien).






=xt − µ̂− φ̂1(xt−1 − µ̂)

σ̂, t = 2, . . . , n.


Time

Re

sid

us s

tan

da

rdis

es

0 20 40 60 80 100

−3

−2

−1

01

23

−2 −1 0 1 2

−3

−2

−1

01

23

Theoretical Quantiles

Sa

mp

le Q

ua

ntile

s

20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

Lag

P−

vale

urs

(L

jun

g−

Box)

Figure 18: Analyse des résidus. Gauche : séries temporelles des résidus. Milieu : QQ-plot selon la loiN(0, 1). Droite : P-valeurs du test de Ljung–Box pour différente valeur du lag m.






=xt − µ̂− φ̂1(xt−1 − µ̂)

σ̂, t = 2, . . . , n.


0 5 10 15

−0.2

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

5 10 15

−0.2

−0.1

0.0

0.1

0.2

Lag

Part

ial A

CF

Figure 18: Analyse des résidus. ACF et PACF des résidus.


Modélisation via un SARIMA


La modélisation via un SARIMA consiste en 4 étapes (que l’on répétera aubesoin)

� transformation de la série pour stabiliser la variance (optionel)� identification des ordres p, d, q, P,D,Q et s ;� estimation des paramètres φ, θ,Φ et Θ ;� vérification de l’adéquation du modèle ajusté


Modélisation via un SARIMA


La modélisation via un SARIMA consiste en 4 étapes (que l’on répétera aubesoin)

� transformation de la série pour stabiliser la variance (optionel)� identification des ordres p, d, q, P,D,Q et s ;� estimation des paramètres φ, θ,Φ et Θ ;� vérification de l’adéquation du modèle ajusté

Une fois un modèle pertinent obtenu on poursuivra bien souvent par uneétape de prévision.


Identification des ordres


Choix de d :

� Examen graphique de l’allure de la série temporelle pour détecter la nonstationnarité et la saisonnalité s ;

� Si non stationnaire, différencier successivement la série jusqu’àstationnarité. (Typiquement d = 1, 2 et D = 0, 1 suffisent !).

Choix de p et q (pareil pour P et Q mais aux lags k × s)� Examen des ACF et PACF de la série différenciée� Cassure de l’ACF au lag q suggère un MA(q) ;� Cassure du PACF au lag p suggère un AR(p) ;� Aucune cassure de l’ACF/PACF suggère un ARMA (typiquement avec

p, q ≤ 2.� Décroissance très lente (voire inexistante) de l’ACF/PACF suggère de

différencier encore (ou un problème).


Identification des ordres


Choix de d :

� Examen graphique de l’allure de la série temporelle pour détecter la nonstationnarité et la saisonnalité s ;

� Si non stationnaire, différencier successivement la série jusqu’àstationnarité. (Typiquement d = 1, 2 et D = 0, 1 suffisent !).

Choix de p et q (pareil pour P et Q mais aux lags k × s)� Examen des ACF et PACF de la série différenciée� Cassure de l’ACF au lag q suggère un MA(q) ;� Cassure du PACF au lag p suggère un AR(p) ;� Aucune cassure de l’ACF/PACF suggère un ARMA (typiquement avec

p, q ≤ 2.� Décroissance très lente (voire inexistante) de l’ACF/PACF suggère de

différencier encore (ou un problème).

� Dans tous les cas on prendra soin de considérer des modèles parcimonieuxen accord avec le principe d’Occam.


Estimation


� On utilisera bien souvent l’estimateur du maximum de vraisemblance� Ceci sera facilement fait en R via la fonction arima ou sarima du

package astsa.

> arima(lh, c(1, 0, 1))

Coefficients:

ar1 ma1 intercept

0.4522 0.1982 2.4101

s.e. 0.1769 0.1705 0.1358

> sarima(lh, 1, 0, 1)

Coefficients:

ar1 ma1 xmean

0.4522 0.1982 2.4101

s.e. 0.1769 0.1705 0.1358


Sélection du modèle / Adéquation


� On choisira le meilleur modèle via l’AIC ou des tests du rapports devraisemblance.

� Une fois le “meilleur” modèle retenu, on analysera ses résidus qui pour unARMA(p, q) sont définis par

rt = (xt − µ̂)−p

∑

j=1

φ̂j(xt−j − µ̂)−q

∑

j=1

θ̂jrt−j ,

où r1 = · · · rp = 0.� Si l’analyse des résidus ne révèle aucun problème, on poursuivra ensuite

par l’étape de prévision.


Analyse des résidus pour la température du castor


> sarima(beaver2$temp,

1, 0, 0)

Standardized Residuals

Time0 20 40 60 80 100

−2

01

23

Model: (1,0,0)

5 10 15 20

−0

.20

.20

.4

ACF of Residuals

LAG

AC

F

−2 −1 0 1 2

−2

01

23

Normal Q−Q Plot of Std Residuals

Theoretical Quantiles

Sa

mp

le Q

ua

ntile

s

5 10 15 20

0.0

0.4

0.8

p values for Ljung−Box statistic

LAG (H)

p v

alu

e


Prévisions


Proposition 5. Soit {Xt : t ∈ Z} une série stationnaire. Alors, pour h ≥ 1,

E{Xt+h | X1, . . . , Xt} = argming

E[{Xt+h − g(X1, . . . , Xt)}2],

où g est une fonction des v.a. X1, . . . , Xt.

� Une fois un modèle adéquat ajusté, on pourra s’intéresser à la prévision.� Le meilleur prédicteur (au sens de l’erreur quadratique) de Xn+h à partir

des n première observations X1, . . . , Xn est

X̂n+h = E(Xn+h | X1, . . . , Xn).

� On utilisera donc les estimées de notre (S)AR(I)MA pour calculer cetteespérance conditionnelle1

1Bon en fait en pratique c’est le logiciel qui fera ce travail ;-)


Prévision sur le traffic aérien mondial


Time

sq

rt(A

irP

asse

ng

ers

)

1954 1956 1958 1960 1962 1964 1966

15

20

25

30

35

Figure 19: Prévision via un modèle SARIMA sur les 5 prochaines années.


Parce que nous n’avons pas assez de temps. . .


Nous n’avons pas pu traiter des thèmes suivants :

� Les modèles hétéroscédastiques tels que ARCH,GARCH.� L’analyse spectrale des séries temporelles� Les séries multivariées


Quelques références bibliographiquesMotivationProcessus stochastique et séries temporellesQuelques séries temporelles1. Notions de baseStationnarité stricteOrdre 2, tendance et autocovarianceAutocorrélationStationnarité faibleFonction d'autocovariance // autocorrélation empiriqueACF de 'aaaaaahhhh'Fonction d'autocorrélation partiellePACF de 'aaaaaahhhh'Opérateur de retard et série différenciéeUtilité des opérateurs B et DRappels : Variance stabiliséeIllustration sur les données du traffic aérienIllustration sur les données du traffic aérien (suite)Mise en garde

2. Modèles classiquesBruit blanc : Notre modèle de référenceACF et PACF d'un bruit blancTest pour la ``blancheur'' du signalIllustrationMessage pour la suite des modèles présentésAR(p)ACF d'un AR(p)PACF d'un AR(p)MA(q)ACF d'un MA(q)PACF d'un MA(q)Vers les ARMA(p,q)ARMA(p,q)IllustrationACF d'un ARMA(p,q)PACF d'un ARMA(p,q)Processus causalProcessus inversibleARIMA(p, d, q)Modèles SARIMAExemple

3. InférenceEstimateur du maximum de vraisemblanceEstimateur du maximum de vraisemblance (rappels)Test du rapport de vraisemblance (rappels)Etude de cas : Température d'un castorModélisation (Merci Prof. Anthony Davison !!!)Modèle 1Modèle 2Modèle 3Modèle 4Résumé des modèles ajustésAnalyse des résidusModélisation via un SARIMAIdentification des ordresEstimationSélection du modèle / AdéquationAnalyse des résidus pour la température du castorPrévisionsPrévision sur le traffic aérien mondialParce que nous n'avons pas assez de temps…

Download - STAT2—Introduction aux séries temporellesmribatet.perso.math.cnrs.fr/CentraleNantes/STA2/show...Figure 2: Fonction d’autocorrélation empirique de ’aaaaahhhhh’. La série

Top Related