régression linéaire simple

14
Régression linéaire simple 1. Définition de la régression Dans l’illustration ci-dessus, l’image est une représentation graphique d’une base de données d’un organisme de crédit automobile. Cette société veut utiliser ses données afin de prédire le budget qu’un client est prêt à investir pour l’achat d’une nouvelle voiture. Les données se regroupent en un ruban assez étroit. Il est possible de faire passer au mieux une courbe de nuage de points à travers ce nuage de points et de considérer que cette courbe est un modèle est un modèle approximatif mais satisfait la réalité. Cette courbe matérialise une fonction : Budget=f ¿ ( Age) C’est la fonction de régression de la variable Budget sur la variable Age. L’astérix présent comme indice de f, signifie que c’est une fonction approximative (juste une estimation de la fonction). La fonction est utilisée de la façon suivante :

Upload: haddou-benderbal-hichem

Post on 04-Jul-2015

184 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Régression linéaire simple

Régression linéaire simple

1. Définition de la régression

Dans l’illustration ci-dessus, l’image est une représentation graphique d’une base de données d’un organisme de crédit automobile.

Cette société veut utiliser ses données afin de prédire le budget qu’un client est prêt à investir pour l’achat d’une nouvelle voiture.

Les données se regroupent en un ruban assez étroit. Il est possible de faire passer au mieux une courbe de nuage de points à travers ce nuage de points et de considérer que cette courbe est un modèle est un modèle approximatif mais satisfait la réalité.

Cette courbe matérialise une fonction :

Budget=f ¿ ( Age )

C’est la fonction de régression de la variable Budget sur la variable Age.

L’astérix présent comme indice de f, signifie que c’est une fonction approximative (juste une estimation de la fonction).

La fonction est utilisée de la façon suivante :

La variable Age est portée en abscisse. Cette fonction fournit une prédiction de la variable Budget auto pour les clients.

Nous avons provisoirement ignoré la difficulté liée au fait que la base de données ne contient pas qu’un échantillon de la population (les clients potentiels) et considéré qu’elle contient l’intégralité de cette population.

Page 2: Régression linéaire simple

De même, nous allons définir la vraie fonction f(x) construite (et non son estimation f*(x) construite par l’analyse à l’aide d’un échantillon).

Même ces causes d’incertitude levées, la prédiction ne peut être parfaite.

Dans l’exemple précédent, l’âge à lui seul servait à déterminer le comportement d’un client. D’autres variables pourraient être prises en compte pour minimiser les erreurs sur la prédiction des valeurs des y (budgets). Ainsi on pourra penser à inclure dans la fonction de régression des variable comme : le sexe, le revenu annuel, le nombre d’enfants…etc.

Toutes ces grandeurs servent à la prédiction sont appelées « variables explicatives » ou « prédicateurs », et la variable budget est appelée « variable à expliquer ». Ainsi d’une façon générale, la fonction de régression est la meilleure fonction :

y=f (x1 , x2,…, x p )

Elle permet de prédire la variable à expliquer y connaissant les valeurs des prédicateurs, x i i=1. . p. Il faut donc définir f (x1 , x2 ,…, xp ) de façon à minimiser ses erreurs.

2. Introduction

La régression est une méthode statistique très utilisée pour analyser la relation d’une variable avec une autre ou avec plusieurs. On a recours à une estimation des paramètres inconnus du modèle de régression par un ajustement mathématique du modèle spécifié en fonction des données récoltées à partir d’un ensemble de valeurs expérimentales qui peuvent être représentées par des points dans un graphe. On cherche à calculer la courbe qui produit le mieux les variations et la grandeur étudiée.

C'est-à-dire qu’elle s’ajuste au mieux au nuage de points.

La régression est donc l’opération qui consiste à ajuster une droite ou une courbe mathématique le plus prêt possible d’un certain nombre de points observés.

Il existe deux méthodes principales de calcul des paramètres d’un modèle de régression

2.1. La méthode des moindres carrés

Minimise la somme des carrés des erreurs de prédiction des modèles sur les données disponibles.

Cette méthode est adoptée par les méthodes de régression simple et multiple.

2.2. La méthode de maximum de vraisemblance

Elle ajuste les valeurs des paramètres de façon à rendre maximal la vraisemblance entre les données pour le modèle.

Page 3: Régression linéaire simple

3. Régression linéaire simple

La régression linéaire simple permet d’étudier et de mesurer la relation mathématique entre les variables quantitatives.

La force d’association entre deux variables estimées par un coefficient de corrélation R, ce coefficient varie de -1 à 1.

Intervalle de |R| Force d’association entre les variables0.8 à 1 Importante0.5 à 0.8 Modéré0.2 à 0.5 Faible0 à 0.2 Très faible

Signe de R Type de relationPositif Une association positive, Y croit avec X.Négatif Une association négative, Y décroit quand X

croit.

La régression linéaire multiple permet d’étudier et de mesurer la relation mathématique qui peut exister entre plusieurs variables quantitatives.

A partir d’une observation : ( y i , xi ) , i=1. . p On a présenté dans un graphe l’ensemble des

points représentants la taille par rapport à l’âge.

y i=a . x i+b

En statistiques, étant donné un échantillon aléatoire,( y i , xi ) , i=1. . p, un modèle de

régression simple suppose que, y i=a . x i+b. La régression linéaire a pour but de déterminer

Page 4: Régression linéaire simple

une estimation des valeurs de a et de b, et de quantifier la validité de cette relation grâce au coefficient de corrélation.

Une de ces méthodes est la méthode des moindres carrés.

4. La différence entre la régression linéaire et la corrélation

Le terme corrélation utilisé pour désigner la relation entre deux variables quantitatives (plus souvent continues).

4.1. Corrélation4.1.1.Exemple 1 corrélation positive

X : ventes de paires de lunette de soleil en été.

Y : vente de crèmes glacées en été.

Quand X augmente, Y augmente aussi (météo estivale).

Quand X diminue, Y diminue aussi (météo pluvieuse).

La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne dépend pas non plus de X.

Y ne peut pas être prédite à partir de X.

4.1.2.Exemple 2

X : ventes de paires de lunette de soleil en été.

Y : vente de parapluies en été.

Quand X augmente, Y diminue.

Quand X diminue, Y augmente.

Page 5: Régression linéaire simple

La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne dépend pas non plus de X.

Y ne peut pas être prédite à partir de X.

4.2. Régression

X : âge de 0 à 15 ans.

Y : taille en centimètres.

Quand X augmente, Y augmente aussi.

Quand X diminue, Y diminue aussi.

La liaison est asymétrique, la taille dépend de l’âge mais l’âge ne dépend pas de la taille.

On ne peut pas permuter les deux axes.

On peut prédire la taille connaissant l’âge à l’aide de l’équation de la droite ou la courbe de régression (carnet de vaccination).

Page 6: Régression linéaire simple

Corrélation RégressionVariables X et Y quantitatives X et Y quantitativesSymétrie Des fois oui et d’autres non NonLiaison X dépend de Y et Y dépend

de XY dépend de X

Prédiction Non Oui5. Condition d’application de la corrélation et de la régression linéaire simple

Il faut vérifier empiriquement (graphiquement) que leurs relation est de nature linéaire (Un nuage représenté par une droite).

5.1. Coefficient de corrélation nul

Qui veut dire que la pente de la droite de régression est nulle.

La nature de la liaison est linéaire. Le nuage est représenté au mieux par une droite horizontale (Y=b).

5.2. Coefficient de corrélation non nul

Qui veut dire que la pente de la droite de régression est non nulle.

Page 7: Régression linéaire simple

La nature de la relation est linéaire, donc, il est possible d’utiliser le coefficient de corrélation et la régression linéaire simple pour quantifier la relation entre deux variables.

5.3. Le cas restant

La nature de la relation entre ces deux variables n’est pas de nature linéaire. Le nuage de points n’est pas résumé pour le mieux par une droite. Donc, on ne peut pas utiliser le coefficient de corrélation ou la régression linéaire simple pour quantifier leur relation.

6. La régression linéaire simple

Elle s’adresse à un type de problèmes ou les variables quantitatives ont un rôle asymétrique, donc Y dépend de X et le contraire n’est pas vérifié.

La liaison entre la variable Y dépendante, et la variable X indépendante peut être est modélisé par une fonction de type Y=α+β . X représenté par graphiquement par des points.

Y : variable dépendante ou expliquée.

Page 8: Régression linéaire simple

X : variable indépendante ou explicative.

α : ordonnée de l’origine ou la valeur de Y sachant que X=0.

β : variation moyenne de la valeur de Y pour un changement unitaire de X.

7. Estimation par la méthode des moindres carrés

La régression linéaire simple cherche à modéliser le fait que les points expérimentaux sont approximativement alignés, elle nous fait identifier la meilleure droite passant à travers le nuage de points. Cette droite s’appelle « droite des moindres carrés » et on la note « DMC ».

Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus proches, c'est-à-dire, la droite qui passe à la plus faible distance de chaque coin du nuage en moyenne.

La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé et l’ordonnée du point correspondant à ce point dans la droite.

Cette distance peut être positive comme elle peut être négative.

Et la somme des distances à la droite s’annule pour s’affranchir du signe, on calcule la somme des carrés des distances de chaque point à la droite.

La droite de régression est la droite qui minimise la somme des carrés des écarts.

Une particularité de la droite de régression est de passer par le point moyen théorique des coordonnées (X ,Y ).

7.1. La méthode des moindres carrés

Le problème de la régression consiste à chercher une relation qui existe entre la variable X et la variable Y, c'est-à-dire de la forme Y=a . X+b par la régression linéaire. On dit que la variable Y est la variable à expliquer ou la variable dépendante et la variable X la variable explicative.

Page 9: Régression linéaire simple

E=∑i=0

n

εi2=∑

i=0

n

( y i− y 'i )=∑i=0

n

( y i− (a . xi+b ))

ε i :Résidu ouécart

a=∑i=0

n

(( X i−X ) . (Y i−Y ))

∑i=0

n

( X i−X )

b=Y−a . X

7.2. Evaluation de la qualité de régression

Pour mesurer la qualité de l’approximation d’un nuage de points grâce à la droite des moindres carrés, on calcule son coefficient de corrélation linéaire :

RX ,Y=Cov (X ,Y )σ X . σY

C’est un nombre compris entre -1 et 1. Il vaut 1 (respectivement -1) si les points du nuage sont alignés sur la droite ayant une pente positive (respectivement négative).

Page 10: Régression linéaire simple

Ce coefficient est une mesure de dispersion d’un nuage. On considère l’approximation de la droite des moindres carrés est de bonne qualité si la valeur absolue du coefficient de corrélation se rapproche de 1. Et médiocre s’il s’éloigne de cette valeur, c'est-à-dire s’approche de 0.

En pratique, on estime souvent la bonne qualité de la régression lorsque le coefficient

dépasse √32

.

8. La régression linéaire multiple

Corrélation RégressionVariables Quantitatives symétriques

ou non symétriquesQuantitatives asymétriques

Test −1≤r ≤1 Pente de la droite des régression

Prédiction Non OuiConditions Indépendances des

observations et liaison linéaire

Distribution conditionnelle normale et de variables constantes

8.1. Principe

Le problème traité par la régression linéaire multiple est le même que la régression linéaire simple si ce n’est qu’il recherche à expliquer les valeurs de la variable Y non pas par les valeurs de la variable X mais plusieurs variables Xi.

En changeant légèrement la notation :

Y=a0+a1. X1+a2 . X2+…+a3 . X3+ε (X )

Page 11: Régression linéaire simple

On suppose donc que la variable Y et les variables Xj sont reliées par une relation linéaire.

p :nombre devariables explicatives

ε (X ):bruit aléatoire

Nous allons préciser à chaque fois la valeur de ε(X), elle dépend du point X de l’espace des données définies par les valeurs des Xj. la régression linéaire simple cherche à faire passer une droite au mieux à travers le nuage de points dans le plan (X, Y).

Il va en être de même pour la régression linéaire multiple, si ce n’est que la représentation visuelle devient impossible sauf de justesse quand il y’a deux variables explicatives X 1 et X2

(dans l’espace). La régression linéaire multiple va alors faire passer un plan à travers le nuage de points représentants les données dans l’espace (X1, X2, Y).

Le plan des moindres carrés est celui qui minimise la somme des carrés des longueurs des segments en bleu par rapport à l’axe (Y) (projection verticale). Ces longueurs s’appellent « les résidus des modèles ». Le plan des moindres carrés est celui qui minimise la somme des carrés des résidus.

En dimension supérieur, il faut se contenter de dire que la régression linéaire multiple va déterminer un hyperplan de dimension p minimisant la somme des carrés des écarts (mesurées parallèlement à l’axe Y) entre les points des données et ceux dans l’hyperplan.