programmes de maîtrise et de doctorat en démographie modèles de risque et de durée cours 9...

34

Upload: sylvie-montagne

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur
Page 2: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

Programmes de maîtrise et de doctorat en démographie

Modèles de risque et de duréeCours 9Séance du 4 avril 2014

Benoît Laplante, professeur

Page 3: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

Le maximum de vraisemblance

La notion de dérivée L’optimisation La recherche des racines d’une fonction et la méthode de Newton-

Raphson La fonction de vraisemblance La maximisation de la fonction de vraisemblance

Page 4: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La notion de dérivéeLa dérivée d’une fonction

La dérivée est la pente de la droite tangente à une courbe en un point. Dans la mesure où la courbe est justement une courbe, sa tangente change d’un point à l’autre, et la pente de cette tangente change également d’un point à l’autre. Comme le point géométrique est infinitésimal, il y a un nombre infini de tangentes pour chaque courbe et donc un nombre infini de valeurs différentes pour la pente de la courbe.

Si la courbe représente une fonction continue, la suite des valeurs de la pente de la tangente de chacun des points de la courbe est elle-même une fonction.

La pente de la tangente à un point de la courbe qui correspond à une fonction est la dérivée de cette fonction à ce point, et la fonction qui relie toutes les valeurs des pentes des tangentes de la courbe qui correspond à cette fonction est la dérivée de cette fonction.

Page 5: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La notion de dérivée

Soit ƒ(x) une fonction quelconque de x. La dérivée de ƒ(x), notée ƒ΄(x), est la valeur de la pente de la

courbe qui décrit la relation entre ƒ(x) et x pour un changement infinitésimal de x.

Si on se rappelle que la pente d’une droite est le rapport des différences entre les valeurs des ordonnées et des abscisses de deux points de cette droite, la pente d’une tangente quelconque d’une courbe sera

( ) ( ) ( )

pente de la tangente .f x x f x f x

x x

Page 6: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La notion de dérivée

La dérivée de ƒ(x) sera la fonction des valeurs des pentes de la suite de tangentes que l’on obtient en considérant toutes les paires de points de la courbe séparés par une distance infinitésimale.

La dérivée d’une fonction est donc la limite de la pente de cette fonction lors que la distance entre deux points tend vers zéro.

0

( ) ( )( ) lim

x

f x x f xf x

x

Page 7: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La notion de dérivée

On note la dérivée de différentes manières. En particulier, si y est une fonction de x,

on note la dérivée de y par rapport à x

( ),y f x

0

( ) ( )lim .x

dy f x x f x

dx x

Page 8: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La notion de dérivée

Si y est une fonction de plusieurs variables dont x,

on note la dérivée partielle de y par rapport à x

Comme la dérivée d’une fonction continue est elle-même une fonction continue, elle a elle-même une dérivée. On peut donc parler de la deuxième dérivée (ou dérivée seconde) d’une fonction, que l’on note,

( , ,...),y f x z

0

( ) ( )lim .x

y f x x f x

x x

2 2 2

2( ), , ou .

d y d y d yf x

dx dxdx dxdx

Page 9: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

L’optimisation

L’optimisation est la recherche du minimum ou du maximum d’une fonction.

Imaginons une fonction de x qui croît lorsque x augmente jusqu’à une certaine valeur de x et qui ensuite décroît. Cette fonction a un maximum qu’elle atteint lorsqu’elle atteint cette valeur de x.

-2500

-2000

-1500

-1000

-500

0

y

-50 0 50x

y=x-x²

Page 10: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

L’optimisation

Nous avons défini la dérivée d’une fonction comme la suite des valeurs de la pente de la courbe décrite par cette fonction.

Puisque cette fonction croît tant que x est inférieur à une certaine valeur, on sait que la dérivée de cette fonction sera supérieure à zéro pour toutes les valeurs de x inférieures à celle où la fonction atteint son maximum.

Pour la même raison, on sait que la dérivée de cette fonction sera négative pour toutes les valeurs de x supérieures à celle où la fonction atteint son maximum.

On en déduit que le point où une fonction atteint son maximum est également le point où sa dérivée première vaut zéro.

Le même raisonnement vaut pour une fonction qui décroît jusqu’à une certaine valeur de x et qui croît par la suite.

Page 11: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

L’optimisation

En conséquence, si l’on connaît une fonction, il suffit de trouver le point où sa dérivée première vaut zéro pour trouver son maximum ou son minimum.

-100

-50

0

50

100

dx

-50 0 50x

dx=1-2x

Page 12: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

L’optimisation On peut pousser ce raisonnement plus loin. Imaginons que l’on ait une

fonction dont on connaît l’expression mathématique, mais dont on ne sait pas si elle croît pour ensuite décroître ou bien si elle décroît pour ensuite croître. On pourra trouver la valeur de x où la dérivée première vaut zéro, mais on ne saura pas si ce point correspond au maximum ou au minimum de la fonction.

La dérivée première étant elle-même une fonction, on peut en prendre la dérivée – qui sera la dérivée seconde de la fonction d’origine – et cette dérivée nous donnera la pente de la courbe associée à la dérivée première.

Si la dérivée seconde est positive, la pente de la courbe de la fonction d’origine croît, ce qui signifie que cette fonction passe d’une suite de valeurs négatives à une suite de valeurs positives et donc que la valeur de x pour laquelle la dérivée première est nulle est un minimum.

Si, au contraire, la dérivée seconde est négative, la pente de la courbe de la fonction d’origine décroît, ce qui signifie que cette fonction passe d’une suite de valeurs positives à une suite de valeurs négatives et donc que la valeur de x pour laquelle la dérivée première est nulle est un maximum.

Page 13: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Trouver le maximum d’une fonction est donc l’affaire d’une petite série d’opérations.

Il faut tout d’abord définir la fonction, en prendre la dérivée première et la dérivée seconde – pour s’assurer, le cas échéant, que l’on travaille bien à chercher un maximum et non pas un minimum – et finalement, trouver la valeur de x pour laquelle la dérivée première vaut zéro.

La logique de ces opérations est simple, mais leur réalisation est parfois compliquée.

La principale difficulté est qu’il n’existe pas de solution algébrique générale au problème des racines d’une équation.

Autrement dit, il n’existe pas de formule passe-partout – et dans la plupart des cas, pas de formule du tout – pour trouver les valeurs de x pour lesquelles une fonction de x vaut zéro.

Page 14: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

La recherche des racines des équations n’a pas de solution analytique générale, mais elle a une solution algorithmique découverte indépendamment par deux mathématiciens britanniques du XVIIe siècle, Isaac Newton et Joseph Raphson.

Cette solution est généralement connue comme la méthode de Newton-Raphson.

Page 15: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Son principe est très simple. Supposons que l’on cherche le minimum d’une fonction dont on connaît la dérivée première et dont on peut donc calculer la valeur de la fonction et celle de sa dérivée première pour toute valeur de x.

Choisir une valeur quelconque de x, que nous nommerons x0, ne garantit évidemment en rien qu’elle sera la valeur pour laquelle la fonction atteint son minimum. Cependant, on peut calculer la dérivée première de la fonction pour cette valeur de x. Le résultat de ce calcul donne la pente de la courbe dont on cherche le maximum – ou le minimum – au point de cette courbe qui correspond à cette valeur quelconque de x.

Page 16: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Connaître la pente de la courbe à ce point nous permet de construire un triangle rectangle formé 1°par le segment perpendiculaire à l’axe

des abscisses qui va du point x0 au point de la courbe qui lui correspond,

2°par le segment qui va de ce point à l’axe des abscisses en formant un angle dont la tangente – au sens de la fonction trigonométrique, c’est à dire le quotient f(Δx)/Δx – est la pente de la tangente à ce point et

3°le segment qui relie le point x0 au point x1 où le second segment rejoint l’axe des abscisses.

x0 x1

Page 17: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

x0 x1

Page 18: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Le triangle ainsi construit permet de représenter géométriquement la logique de l’algorithme de Newton-Raphson, mais pour comprendre l’origine mathématique de l’algorithme, il est nécessaire de regarder comment se résout le problème de la limite d’une fonction lorsque Δx tend vers zéro qui est à la source de la notion de dérivée.

Page 19: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Il se trouve que l’on peut représenter ce qu’il advient d’une fonction lorsque la valeur de Δx tend vers zéro par une série de Taylor de la forme :

Il se trouve également que lorsque l’on s’approche du point où la fonction vaut zéro, c’est-à-dire lorsque Δx est vraiment petit, seuls les termes linéaires de la formule sont importants. On a donc alors

0

( ) ( )( ) lim

x

f x x f xf x

x

12 1( ) ( )

( ) ( ) ( ) ( ) ... ( ) ( )2 ( 1)!

nn

n

f x f xf x x f x f x x x x R x

n

( ) ( ) ( )f x x f x f x x

Page 20: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Puisque l’on approche du point où la fonction vaut zéro, on peut écrire que f(x+Δx) = 0, ce qui implique que

et que

En remplaçant Δx par ce qu’il représente, c’est-à-dire la différence entre deux valeurs de x, on obtient

puis

( ) ( ) 0f x f x x

( )

.( )

f xx

f x

1 0

( )

( )

f xx x

f x

0

1 00

( ).

( )

f xx x

f x

Page 21: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Ce petit jeu permet, à partir de n’importe qu’elle valeur de x, de trouver une nouvelle valeur de x qui est plus proche de la valeur où la fonction prend la valeur de zéro que ne l’est la première valeur choisie au hasard. Une fois cette valeur trouvée, on estime la valeur de la fonction pour cette valeur de x.

Si la fonction vaut zéro ou prend une valeur que l’on juge suffisamment proche de zéro, on a trouvé la valeur de x pour laquelle cette fonction vaut zéro.

Si la fonction ne vaut pas zéro, il suffit de refaire le calcul à partir de x1 plutôt que de x0, et de recommencer jusqu’à ce que l’on juge l’évaluation de la fonction suffisamment proche de zéro.

La valeur de x qui aura conduit à cette évaluation sera la solution algorithmique au problème de la fonction dont on ne peut pas trouver la racine par une solution algébrique.

Page 22: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La recherche des racines d’une fonction et la méthode de Newton-Raphson

Règle générale, on arrive à une solution satisfaisante après quelques essais.

On nomme chaque essai une « itération », parce que compléter chaque essai implique que l’on répète une série complète d’opérations : déterminer la valeur de x0 pour cet essai, calculer la valeur de la dérivée première pour cette valeur de x, calculer la valeur de x1, calculer la valeur de la fonction pour cette valeur de x1, calculer la différence entre cette valeur et la valeur obtenue à l’itération précédente pour s’assurer que l’on n’a pas dépassé la valeur cible.

La formule de l’algorithme proprement dit se présente tout simplement comme suit :

1

( ).

( )n

n nn

f xx x

f x

Page 23: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

Le maximum de vraisemblanceL’article fondateur de R. A. Fisher

Page 24: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur
Page 25: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

Le maximum de vraisemblanceLa définition de la vraisemblance de R. A. Fisher

Likelihood.- The likelihood that any parameter (or set of parameters) should have assigned value (or set of values) is proportional to the probability that if this were so, the totality of observations should be that observed.

Page 26: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La fonction de vraisemblance La méthode du maximum de vraisemblance permet, en principe, de trouver

les valeurs des paramètres d’une équation qui, en présumant que la structure du modèle est vraie et que les données proviennent d’un échantillon probabiliste, sont les plus vraisemblables.

Le membre de gauche de la fonction de vraisemblance est la vraisemblance elle-même

Son membre de droite est construit à partir de l’expression algébrique de la composante aléatoire du modèle (généralement

sa fonction de densité) et de la fonction de liaison.

La fonction de vraisemblance relie donc la vraisemblance aux paramètres de l’équation qu’on utilise.

On présume que l’échantillon est probabiliste et donc que les unités statistiques ont été échantillonnées indépendamment les unes des autres.

La fonction de vraisemblance de l’échantillon est donc le produit de l’équation de vraisemblance de chacune des unités qui le composent.

Page 27: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La fonction de vraisemblance de la régression logistique La régression logistique est un modèle linéaire qui

permet de relier la probabilité de réalisation d’une variable dichotomique à un ensemble de variables indépendantes. On représente généralement par πi

la probabilité que la variable dépendante dichotomique ne prenne pas la valeur nulle pour un cas donné.

La partie déterministe du modèle relie le quotient de cette probabilité et de son complément à l’exponentielle du produit matriciel des variables indépendantes et de leurs coefficients.

Quelques manipulations permettent d’exprimer πi

en fonction des variables indépendantes et des paramètres du modèle.

La composante aléatoire du modèle suit une loi binomiale. Ceci entraîne que la fonction de vraisemblance de la régression logistique est de la forme

Pr( 0 | )i i iy x

1

ii

ie

x β

1

i

iiee

x β

x β

1

1

(1 )i i

ny y

i ii

L

Page 28: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La fonction de vraisemblance de la régression logistique On fait le grand saut en remplaçant πi par son expression en

fonction des variables indépendantes et des paramètres.

Le logarithme de la fonction de vraisemblance de la régression logistique sera donc

1

1

.11 1

i iy y

n

i

i iL

i i

e ee e

x β x β

x β x β

1

ln ln (1 )ln 1 .1 1

i i

i i

n

i ii

L y ye ee e

x β x β

x β x β

Page 29: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur
Page 30: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La maximisation de la fonction de vraisemblance Notre but est de trouver le maximum d’une fonction. On cherchera donc la valeur de β où la dérivée première de cette

fonction vaudra zéro. Pour y parvenir, il nous faudra utiliser la dérivée de cette dérivée,

c’est-à-dire la dérivée seconde de la fonction de vraisemblance. On se trouve donc dans un cas de la forme

1

( ).

( )n

n nn

f

f

Page 31: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La maximisation de la fonction de vraisemblance Il est rare que l’on estime une équation qui ne contient qu’une seule

variable indépendante. Dans la plupart des cas, au contraire, l’équaiton contient plusieurs variables

indépendantes et il y a donc plusieurs paramètres à estimer. Les programmes de maximisation ne sont donc pas écrits pour estimer un

seul paramètre à la fois, mais plutôt pour en estimer plusieurs. Autrement dit, un programme de maximisation n’est pas

l’opérationnalisation de l’équation

mais plutôt l’opérationnalisation de son équivalent matriciel

1

( ),

( )n

n nn

f

f

11 .n n

β β gH

Page 32: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

La maximisation de la fonction de vraisemblance

Dans cette équation, β désigne le vecteur des estimés des paramètres, g est le vecteur des dérivées partielles premières du logarithme de la fonction de vraisemblance par rapport à β et H est la matrice des dérivées partielles secondes du logarithme de la fonction de vraisemblance par rapport à β.

11n n

β β gH

Page 33: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

En calcul différentiel, le vecteur ayant pour composantes les dérivées premières partielles d’une fonction par rapport à chacune de ses variables se nomme le gradient, d’où l’usage de la lettre « g » pour le désigner.

La matrice par laquelle le gradient est divisé est la matrice Hessienne, d’où l’usage de la lettre « H » pour la désigner. Elle est le résultat de l’opération matricielle qui correspond à prendre la dérivée seconde du logarithme de la fonction de vraisemblance par rapport aux paramètres.

11n n

β β gH

k

L

L

L

L

2

1

βg

2

2

2

2

1

2

2

2

22

2

12

2

1

2

21

2

21

2

2

2

k

LLL

LLL

LLL

L

kk

k

k

βH

Page 34: Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur

a/(1-a)=b → a=b/(1+b)

1(1 )

(1 )

1

ab

aa b a

a b ab

a ab b

a b b

ba

b