compte rendu data mining regression linéaire avec r - soumia herma-
TRANSCRIPT
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche scientifique
Université de Ghardaïa
Faculté des Sciences et Technologie
Département des Mathématiques et Informatique
Domaine : Mathématiques et Informatique
Spécialité : Master II SIEC
Module : Data Mining et Apprentissage Automatique
PAR :
Soumia Elyakote HERMA
Enseignant :
Pr. Abdelouahab Moussaoui
ANNEE UNIVERSITAIRE : 2015/2016
Compte rendu
Régression linéaire Avec le logiciel R
Contenu
Compte rendu ........................................................................................... 1
Introduction ................................................................................................. 1
Étapes de TP ............................................................................................... 1
Conclusion .................................................................................................. 4
1
Introduction Dans ce TP nous allons voir un des algorithmes d’apprentissage simple c’est
bien la Régression, nous allons travailler avec le logiciel R qui offre des
commandes facile à manipuler. Dans mon TP ; V1et V2 désigne l’âge et la taille
d’enfant respectivement.
Étapes de TP Tout d’abord il faut que nous importons le DataSet DataHeight.txt qui
contient nos donnés à traités ;
> mydata=read.table("TPs\\DataHeight.txt")
> mydata
> attach(mydata)
2
1- la distribution de y en fonction de x (graphiquement) :
> plot(V1,V2)
2- Oui, il y a une corrélation entre les deux variables tel que nous remarquons
que les tailles des enfants augmentent avec leurs âges.
3- La corrélation linéaire peut être calculée grâce à la fonction cor(), elle est la
manière statistique qui prouve que x et y sont corrélés :
> cor(V1,V2)
[1] 0.926317
Nous rappelons que la corrélation linéaire varie entre -1 et 1. Lorsque cette
corrélation vaut 1, elle indique une corrélation positive parfaite entre les données ; les
données sont alors parfaitement alignées le long d’une droite dont le coefficient
directeur est positif.
3
4- les valeurs des paramètres θ0 et θ1: à partir de la commande summary() nous
pouvons estimer les deux paramètres ;
θ0= 0.06388 et θ1= 0.75016
5- la valeur de l’erreur résiduelle : la commande summary(modele) ;
Residual standard error: 0.6576
6- l’équation de la droite de régression : nous avons les valeurs de θ0 et θ1 ; Y=
0.06388X + 0.75016
Eq ; Taille = 0.06388Age + 0.75016
7- la droite de régression :
4
8- Prédiction des tailles des enfants ayant respectivement 3, 7, 9 et 12 ans :
La commande qui permet de donner la prédiction des tailles est :
>predict(modele, newdata=data.frame(V1=12))
3 : 0.941806
7 : 1.197331
9 : 1.325093
12 : 1.516737
9- la taille d’un enfant de 10 ans avec un intervalle de confiance de 95% :
> predict(modele, newdata = data.frame(V1 = 10), interval = "confidence")
fit lwr upr
1 1.388974 1.348584 1.429364
Conclusion À partir de ce que précède nous maitrisons les commandes en R qui aide à faire une
Régression linéaire et en plus prédire de sa part où nous voir l’importance qui nous donne
cet algorithme.