cours 7 : rappels de cours et exemples sous riml.univ-mrs.fr/~reboul/r-cours 7.pdf · le modèle de...

Cours 7 : Rappels de cours et exemples sous R

I- Régression linéaire simple

II- Analyse de variance à 1 facteur

III- Tests statistiques

I- Le modèle de régression linéaire simple: théorie

� Rappels On cherche à expliquer ou à prévoir les variations d’une variable Y (variable dépendante) par celles d’une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS

Y aX b ε= + +où est une variable aléatoire gaussienne de moyenne nulle et de variance

Pour cela on observe un n-échantillon de réalisations de X et de Y, sur lesquelles on va chercher à voir si le lien est plausible,

i.e. si il existe a, b et

(validation)

Avec i.i.d. Gaussiennes et pas trop grand,et à approcher les valeurs des paramètres a, b, et (estimation)

, 1,..., .i i iy ax b i nε= + + =

²σ

²σ

²σ

ε

iε ²σ


� Estimation des paramètres :

• Estimation de a et b : On commence par chercher le « meilleur » ajustement linéaire sur nos données, au sens des moindres carrés :

=i° valeur estiméey ax b= + =i° valeur estimée

= i° résidu

et sont tels que est minimal. Ce sont les coefficients de la régression (ou estimateurs des moindres carrés).

2

1 1

ˆˆ( )²n n

i i ii i

e y ax b= =

= − −∑ ∑a b

ˆ

ˆ

y ax bi i

e y yi i i

= +

= −


On montre que :

• La droite d’ajustement s’appelle droite de régression ou des

1

1

( )( )ˆˆ ˆ,

( )²

n

i ii

n

ii

x x y ya b y ax

x x

=

=

− −= = −

−

∑

∑

ˆˆy ax b= +• La droite d’ajustement s’appelle droite de régression ou des moindres carrés.

• La valeur estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) . C’est aussi la prévision de Y pour une observation telle que X=xi.

• Estimation de : La variance de l’erreur s’estime par

yi

2

1²2 2

n

ii

eSSR

sn n

== =− −

∑

ˆˆy ax b= +

²σ


� Validation du modèle sur les données : il faut que le modèle soit de bonne qualité (bon pouvoir explicatif et prédictif)

• Analyse de la qualité du modèle : Décomposition de la variabilité

=somme des carrés des variations de y2( )²i YSST y y ns= − =∑

=somme des carrés des variations expliquées par le modèle

=somme des carrés des variations résiduelles

On montre que : SST=SSR+SSM

Au plus SSM est grand (ou SSR faible), au meilleur est l’ajustement.

2ˆˆ( )²i Y

SSM y y s= − =∑2 2( 2)iSSR e n s= = −∑


Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des carrés

Somme des carrés moyens

Stat de Fisherde

libertédes carrés carrés moyens Fisher

modèle 1 SSM SSM F=SSM/s²

erreur n-2 SSR s²=SSR/(n-2)

total n-1 SST s²(Y)=SST/(n-1)


Indicateur principal de qualité du modèle: le coefficient de détermination (% de variation expliqué par le modèle, carré du coefficient de corrélation linéaire):

doit être proche de 1.1

²SSM SSR

RSST SST

−= =

Autres indicateurs :

- Le F de Fisher doit être le plus grand possible

- Le s² doit être le plus faible possible pour garantir de bonnes prévisions.

- Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type doivent être faibles. On montre que

avec

²

SSMF

s=

2 1 ²ˆˆ²( ) ; ²( ) ²² ²

1 1

s xs a s b sn nnc ci ii i

= = +∑ ∑= =

i ic x x= −

ˆˆ( ) et ( )s a s b


� Vérification des hypothèses sur les aléas : il faut que les aléas soient i.i.d. et gaussiens

Tests graphiques :

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de

iε

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de structure (indépendance, homoscedasticité, normalité).

• Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance)

• Le QQ-plot suit la première bissectrice


Conséquences

• de la non-normalité : – Les estimateurs ne sont pas optimaux

– Les tests et intervalles de confiances sont invalides. En réalité seulement les distribution à queue très longue posent problème et une légère non-normalité peut être ignorée, d’autant plus que l’échantillon est grand.

• d’une variance non constante : Les estimations ne sont pas bonnes il faut utiliser les moindres carrés pondérés.


Solutions

• Essayer de transformer les données en se rappelant que

- quoiqu’on fasse, certaines données ne peuvent être analysées par régression

- la bonne transformation est parfois difficile à trouver.- la bonne transformation est parfois difficile à trouver.

• Utiliser une régression non-linéaire.


� Repérage des points aberrants:

• Résidu réduit ou studentisé :

( )i

ii

ere

s e=

²1²( ) ² 1 ²(1 )²

²

ii iin

i

cs e s s h

nc

= − − = − ∑

Tests graphiques

• Le graphe des résidus réduits versus les valeurs prédites doit normalement être compris entre –2 et 2 pour au moins 95% des observations dès lors que la normalité est vérifiée.

( )is e1

²ii

c=

∑


• Des observations dont le résidu réduit est >2 en v.a. sont des points contribuant fortement à la valeur de s². Ils peuvent constituer des points aberrants. Il faut les analyser plus avant.

- Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence - Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence potentielle d’un point sur la valeur des coefficients de la régression. Une valeur hii>4/n traduit un point trop influent sur la détermination des coefficients.

- Analyse de la distance de Cook : La distance de Cook mesure le leverage et la contribution au s², c’est-à-dire l’influence réelle d’un point . Une valeur >1 traduit un point aberrant.


Solutions

• Enlever les observations aberrantes et recalculer la régression. Comparer les résultats. Y-a-t-il des différences significatives entre les coefficients?


� Validation du modèle sur la population

Une fois la gaussianité vérifiée, on peut effectuer des tests afin d’asseoir la pertinence du modèle sur la population étudiée. Ces tests testent l’hypothèse :

: 0 contre : 0H a H a= ≠

(a=0 signifie absence de lien linéaire entre X et Y)

• Test de student . Basé sur la statistique

• Test de Fisher. Basé sur la statistique :

0 1: 0 contre : 0H a H a= ≠

0

ˆ T T(n-2) sous H

ˆ( )

aT

s a= ∼

0 F F(1,n-2) sous H²

SSMF

s= ∼

I- Le modèle de régression linéaire simple: exemple

Exemple 1 : On cherche à expliquer les variations de y par celles d’une fonction linéaire de x à partir de 30 observations de chacune des variables, i.e. à ajuster le modèle

où est une suite de variables aléatoires i.i.d.gaussiennes de moyenne nulle et de variance

>x=1:100; X=sample(x,30,replace=TRUE)>Y=3+7*X+rnorm(30,0,100)

iε, 1,...,30.i i iy ax b iε= + + =

²σ

>Y=3+7*X+rnorm(30,0,100)>regression=lm(Y~X); regressionCall:

lm(formula = Y ~ X)

Coefficients:

(Intercept) X

-30.26 7.42

Le modèle de régression linéaire simple: exemple

Dessin du nuage de points : > plot(X,Y)

>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2], b=regression$coef[1])))

> lines(X,regression$fitted.values) #ou abline(regression)

> M=locator(); v=locator()> M=locator(); v=locator()

> segments(0,M$y,M$x,M$y)

> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)

> segments(M$x,v$y,0,v$y,lty=2)

> text(0,350, "yi",col="red")

> text(0,200, "^yi",col="red")

> text(25,250, "ei",col="red")

> title("nuage de points et droite de regression")


Explication des sorties R

> names(regression)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model«[9] "xlevels" "call" "terms" "model«

coefficients (ou coef) : estimations des paramètres

fitted.values (ou fitted): valeurs estimées

Residuals (ou res) : résidus

df.residual : nombre de ddl des résidus (n-2)

ˆˆ et a b

ˆi i ie y y= −ˆiy


> anova(regression)Analysis of Variance Table

Response: Y

Df Sum Sq Mean Sq F value Pr(>F)

X 1 1485466 1485466 159.83 4.312e - 13 ***

SSM

SSR

F=MSM/MSR

X 1 1485466 1485466 159.83 4.312e - 13 ***

Residuals 28 260238 9294

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

MSM=SSM/dl=SSM

MSR=SSR/dl=SSR/n-2n-2


>summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

^b

â

s(^b)

s(â)Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

s(â)tb=^b/s(^b)

ta=â/s(â)

R² =SSM/(SSM+SSR)

S=sqrt(MSR)


� Pertinence du modèle sur les données : >summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

- 206.89 - 76.47 12.28 61.42 192.04 % de variations expliquées

De petites valeurs sont un gage de stabilité du modèle donc du pouvoir prédictif: valeur de b

pas très stable ici

- 206.89 - 76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1


% de variations expliquées par le modèle R² doit être proche de 1 pour bon

pouvoir explicatif: ok ici

Écart-type résiduel doit être faible

pour bon pouvoir prédictif


• Conclusion 1 : le modèle a un bon pouvoir explicatif sur les données, mais le pouvoir prédictif risque d’être entaché par l’instabilité du coefficient b et une variance résiduelle importante.


� Analyse des résidus

Fonctions R utiles: - influence(): étude des points contribuant à l’instabilité du modèle

(prédiction).(prédiction).

- residuals()

- rstudent() : résidus réduits

- acf() : graphe d’autocorrelation des résidus

- plot()

- qqnorm()


- Repérage des points aberrants et des points contribuant fortement à la détermination du modèle :Est suspect un point tel que le résidu réduit est s upérieur à 2 en valeur absolue : si sa distance de Cook’s est >1 , le point suspect contribue trop fortement à la détermination du modèle

- Vérifier les hypothèse sur les aléas : iid et normalité (préalable à l’interprétation des tests)

Le graphe des résidus (ou des résidus réduits) ne d oit pas présenter de structure (variance constante sur la v erticale et symetrie par rapport aux abscisses).

. Le graphe des résidus réduits doit être compris en tre –2 et 2 et ne doit pas présenter de structure. D’autres graphi ques tels que le qqnorm() ou acf() peuvent aider.


> regression$res

1 2 3 4 5 6

-124.555774 192.039037 -206.889677 66.405930 134.778691 84.971904

7 8 9 10 11 12

62.303811 49.992064 58.754097 -59.526887 -122. 429844 164.829565

13 14 15 16 17 18

- 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834 - 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834

19 20 21 22 23 24

-25.642668 -90.246235 50.526061 40.156580 -54 .350556 10.292678

25 26 27 28 29 30

1.090471 94.392800 29.988159 20.679500 -162.3 41983 -82.121786


> rstudent(regression)

1 2 3 4 5 6

-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230

7 8 9 10 11 12

0.67206553 0.54684103 0.61362322 -0.63902844 -1.3 7190197 1.80811221

13 14 15 16 17 18

- 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104 - 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104

19 20 21 22 23 24

-0.27792699 -0.96174524 0.53172811 0.43253471 -0. 58014349 0.10726922

25 26 27 28 29 30

0.01142126 1.03392757 0.31123595 0.21446494 -1.7 9851278 -0.86589500


>par(mfrow=c(2,2)); plot(regression)

Graphe1 : doit être sans structure réparti de part et d’autre de l’axe des xGraphe 2 : doit suivre la bissectriceGraphe 3 : doit être sans structureGraphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cook’s

égales


>plot(regression$fitted,rstudent(regression),xlabel="fitted values", ylabel="standardized residuals");

>abline(h=2,col="red");abline(h=-2,col="red")


> par(mfrow=c(1,2))

> plot(regression$residuals)

> acf(regression$res)


Conclusion 2 : Les résidus semblent approximativement gaussiens (qqnorm) et i.i.d. (pas de structure, de part et d’autre de 0 sur les plots et le corrélogramme).Deux points devraient être éventuellement enlevés du modèle : les points 2 et 3.


� Validité du modèle sur la population

>summary(regression) Call:lm(formula = Y ~ X)

Residuals:

La variable X a une influence significative sur Y à 5%: le

coefficient est significativement Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1


coefficient est significativement différent de zero: le modèle est

pertinent par student

Le terme constant n’ est pas significativement

different de zero: on peut decider de refaire tourner

le modèle sans lui

Le modèle est pertinent à 5% par

Fisher


Conclusion 3: le modèle linéaire est pertinent pour expliquer variations de Y sur la population.

Conclusion : L’ajustement linéaire est pertinent ici. Pour obtenir un meilleur pouvoir prédictif, il faudrait éventuellement retirer les points 2 et 3 de l’analyse et utiliser un modèle sans terme constant. points 2 et 3 de l’analyse et utiliser un modèle sans terme constant.

II- Analyse de variance : théorie

• Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variablequantitative. On veut mettre en évidence une différence de valeur moyenne de lavariable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:

ou de façon équivalente

avec de moyenne nulle.

j E(Y/X=x ) jµ α= + , 1j j

.j ,...pjY µ α ε= + + =

εavec de moyenne nulle.

On veut pouvoir rejeter l’hypothèse :

Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose

avec

et on veut valider l’hypothèse précédente. On fait généralement l’hypothèse implicite queles sont iid gaussiens.

1.... , 1ij ij j

.i n j ,...pjy µ α ε= + + = =

0 1 j p: =...= =...= H α α αjε

1

p

jj

n n=

=∑

ijε


…. ……1 1E ( )X x= jE ( )jX x= E p ( )pX x=

• 1

1

py n yj jn j

= ∑=

111 1,... ny y 1 ,...jj n jy y 1 ,...

pp n py y

1

jn

j i ji

y y=

= ∑1y py


• Un moyen simple pour se rendre compte :


• Lorsque on dit qu’on a un plan équilibré. ...1n np= =


� Estimation des paramètres

• Moyennes

On a p+1 inconnues du modèle ( ) et uniquement p groupes donc on doit imposer une contrainte. On impose :

, ,...,1 pµ α α

(ce qu’un groupe perd l’autre le gagne)

• On cherche les valeurs des paramètres minimisant la fontion des moindres carrés:

01

pn j jj

α =∑=

2( )i

yij jjα µ− −∑∑


• On trouve :

et

est la moyenne estimée ou prédite dans le niveau j du facteur

ˆ yµ = ˆj jy yα = −

ˆ ˆ ˆy α µ= − est la moyenne estimée ou prédite dans le niveau j du facteur

est le i° résidu du niveau j du facteur

• Estimation de la variance des erreurs :

ˆ ˆ ˆjy jα µ= −

ˆij je y yij= −

²

²ij

i j

e

sn p

=−

∑ ∑

II- Analyse de variance : théorie� Validation du modèle : on doit d’abord vérifier que le facteur X discrimine bien Y,

c’est à dire que la majeure partie de la variabilité est bien expliquée par le modèle.

Décomposition de la variabilité

= Somme des carrés des variations dans le niveau j

2( )j

D y yj ij ji E= −∑

∈

= Somme des carrés des variations intra-niveaux

= Somme des carrés des variations inter-niveaux

= somme des carrés des variations totales

On a :

Le modèle est d’autant meilleur que SSinter est grand (que SSintra est faible)

ji E∈

int ( ) ²raSS D n p sjj= = −∑

int2( )erSS n y yj jj

= −∑

2( )SST y yijj i Ej= −∑ ∑

∈

int inter raSST SS SS= +


• Indice de qualité du modèle : le rapport de corrélation (% de variations expliquée par X)

2 1INTER INTRASS SS

SST SSTη = = −

• Autre indice : le F de Fisher :

INTER

INTRA

VF

V=

1INTER

INTER

SSV

p=

−INTRA

INTER

SSV

n p=

−


Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des

Somme des carrés moyens

Stat de Fisherde

libertédes carrés

moyens Fisher

Inter-groupes

p-1 SSinter Vinter=SSinter/p-1 F=Vinter/s²

Intra-groupes

n-p SSintra Vintra=s² =SSintra/(n-p)

total n-1 SST s²(Y)=SST/(n-1)


� Validation des hypothèses sur les aléas

Voir régression


� Test d’égalité des moyennes

Dès lors qu’on a vérifié que les erreurs sont i.i.d. gaussiennes, on peut tester

0 1 j p: =...= =...= H α α α

En utilisant le test de Fisher. On utilise la statistique de test

0 sous H , ( 1, )INTER

INTRA

VF F F p n p

V= − −∼

II- Analyse de variance :exemple

Six (k) insecticides (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes. Les données sont contenues dans le data.frame « InsectSprays ». On veut savoir si il existe un effet significatif du facteur insecticide, i.e. on veut valider le modèle d’analyse de variance :

.,...j;,...iijjijCount 61121, ==++= εαµ

où est une suite de variables aléatoires i.i.d. de moyenne nulle et de variance

>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

.,...j;,...iijjijCount 61121, ==++= εαµ

²σiε

II- Analyse de variance

> summary(anov)


spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395

---

SSInter

SSIntra

V Inter

P(F>Fvalue)F suit F(k-1,n-k)

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

V intra

V inter/V intra

n-k

k-1


> names(anov)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "contrasts" "xlevels" "call" "terms"

[13] "model"

coefficients : moyennes dans les niveauxresiduals : résidus estimes du modèlefitted.values : valeurs estimées ˆˆ ˆij jy µ α= +

ˆij ij ije y y= −ˆ

jα

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray


Le Boxplot montre :

- les points aberrants

- l’asymétrie de la distribution

- une inégalité dans les variances. Cependant, comme souvent il y a peu de données dans chaque niveau du facteur on peu s’attendre a peu de données dans chaque niveau du facteur on peu s’attendre à une grande variabilité même si les variances des sous-populations sont en réalité égales.


Analyse des résidus (cf régression)

>par(mfrow=c(2,2)); plot(anov)


>plot(rstudent(anov))


>par(mfrow=c(2,1))

> acf(anov$res)

>plot(anov$res)


La distribution des résidus semble gaussienne

Les résidus sont i.i.d.

Il existe des points aberrants 39, 27, 25 dont les distances de Cook’s

montrent qu’ils influencent trop les coefficients.


>summary(anov)


spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395 Residuals 66 26.058 0.395

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Le test de Fisher montre que l’on rejette fortement l’hypothèse nulle (avec un risque de se tromper presque nul): le modèle est significatif :il existe un fort effet du facteur spray sur le nombre d’insectes : les moyennes sont differentes

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray


>anov$coeff

(Intercept) sprayB sprayC sprayD sprayE sprayF

3.7606784 0.1159530 -2.5158217 -1.5963245 -1.9 512174 0.2579388

Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B a une moyenne de 3.76+0.11,….

Les écarts les plus significatifs sont entre les groupes A B et F et les groupes C D et E, qui sont plus efficaces que les premiers.

III- Test de comparaison de moyenne

Soient (X1, . . . , Xn) un echantillon issu d’une population iid N(1, 1) et (Y1, . . . , Ym) un échantillon issu d’une population iid E(1). On veut tester:

• Lorsque les variances théoriques des deux variables sont égales :

0 1: ( ) ( ) contre : ( ) ( )H E X E Y H E X E Y= ≠

• Lorsque les variances théoriques des deux variables sont égales : Test de student

• Lorsque les variances théoriques des deux variables sont inégales : Correction de Welch

2 21 1 2 2

1 2

1 2

( 1) ( 1); ²

21 1

X Y n s n st s

n ns

n n

− − + −= =+ −

+1 2 0( 2) sous Ht T n n+ −∼


� Test de student à la main (à α=5%) :

>x = rnorm(100,1,1); y = rexp(200,1)>p=abs(mean(x)-mean(y))> s=sqrt((99*var(x)+199*var(y))/298)>t=p/(s*sqrt(1/100+1/200))>t [1] 0.7274531

On compare |t| le fractile d’ordre 1- α/2 de la loi de student à 298 ddl.Si |t| supérieur, on rejette H0, sinon en accepte.


� Avec la fonction t-test : Cas où on suppose les variances égales :

>x = rnorm(100,1,1); y = rexp(200,1)>t.test(x,y, var.equal=T)

Two Sample t-test

data: x and y

P(|T|>t)Où T suit T(298)

Rejet de H0 si <5%data: x and y

t = -0.7275, df = 298, p-value = 0.4675

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.3460831 0.1592772

sample estimates:

mean of x mean of y

0.9584589 1.0518618

Valeur de t

Nombre de ddl = 298

Rejet de H0 si <5%

X

III- Test de comparaison de moyenne� Avec la fonction t-test : Cas où on suppose les variances inégales

>x = rnorm(100,1,2); y = rexp(200,1)

>st=t.test(x,y)Welch Two Sample t-test

data: x and y

Généralisation du test de Student au cas de variances inégales

data: x and y t = 0.8249, df = 118.758, p-value = 0.4111alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

-0.2472865 0.6004484 sample estimates:mean of x mean of y

1.182571 1.005990Nombre de ddlcorrigé=178,46

Valeur de la Statistique de Welch

X Y

Rejet de H0 si <5%


> names(st)

[1] "statistic" "parameter" "p.value" "conf.int" "estimate"

[6] "null.value" "alternative" "method" "data.name"

statistic : valeur de t

alternative : type d’alternative two-sided, one-sided.alternative : type d’alternative two-sided, one-sided.

estimate : moyennes empiriques des echantillons

null.value : hypothese nulle

conf.int: intervalles de confiances

parameter :ddl

Conclusion : pour les deux exemples, on ne peut pas rejeter l’hypothèse nulle au seuil 5% : les moyennes ne sont pas significativement différentes.

IV – Test du chi2On veut tester à partir d’un tableau de contingence de n individus s’il y a une

relation entre deux caractères X et Y

Statistique de test :

0 1 0: les deux critères sont indépendants contre H !H H=

Où Oi sont les éléments du tableau de contingence, Ei sont les éléments du tableau attendu sous l’hypothèse d’indépendance (voir un cours et l’exemple ci-après)

1 0² ²(( 1)( 1)) sous Hn l cχ χ− − −∼

IV – Test du chi2

� Test du chi2 à la main>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")>O #tableau observé Oi #tableau théorique Ei

homme femme homme femmevoyant 442 514 voyant 458.88 497.12aveugle 38 6 aveugle 21.12 22.88

#Création du tableau théorique : >ni=apply(O,1,sum); nj= apply(O,2,sum)voyant aveugle homme femme 956 44 480 520

>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000, ni[2]*nj[2]/1000),2,2)

>chi2=sum((O-E)^2/E)[1] 27.13874

IV – Test du chi2

> X2=chisq.test(O, correct=F)Pearson's Chi-squared test

data: tab X-squared = 27.1387, df = 1, p-value = 1.894e-07

Valeur de la statistique de test du chi2

P(X>X-squared )

On rejette H0 si la p-value est <5%. Ici, c’est le cas, les caractères sexe et cecite ne sont pas indépendants.

P(X>X-squared )X v.a. de loi X² (1)

cours 7 : rappels de cours et exemples sous riml.univ-mrs.fr/~reboul/r-cours 7.pdf · le modèle de...

Documents