Download - BIO3500 Cours 10 - RÃ©vision sans reponsefredboivin.weebly.com/.../9/3/...3_diapos_par_page.pdfpduv%,2 ²+lyhu &rxuv 5pylvlrq hw suhsdudwlrq j o·h[dphq 'lvwulexwlrq 0hvxuhv gh whqgdqfh

2017-02-28

1

BIO 3500 – Hiver 201720 mars

Cours 10Révision et preparation à

l’examen

Distribution

Mesures de tendance centrale et de dispersion

Test d’hypothèses

Test de t

ANOVA

Corrélation

Régression

Khi carré

Plan de match

IntervallePoint milieu

Fréquence

135-141 138 1

142-148 145 12

149-155 152 32

156-162 159 30

163-169 166 60

170-176 173 44

177-183 180 16

184-190 187 3

191-197 194 2

Distribution

Taille

140 150 160 170 180 190 200

Fré

quen

ce

0

10

20

30

40

50

60

70

Histogramme

Distribution de fréquence

170 162 184 155 180 167 170 166 168 164

172 167 180 154 180 151 153 164 177 149

173 160 152 173 158 143 169 170 154 168

153 165 160 162 162 168 175 169 166 177

175 148 167 166 159 178 156 172 143 171

181 170 174 153 173 165 156 163 173 162

160 162 165 146 177 165 163 176 172 178

135 151 154 145 170 164 163 165 178 171

166 157 156 167 157 154 164 166 184 167

164 167 153 170 162 192 154 166 170 170

158 167 154 169 162 169 162 158 151 179

159 171 165 165 166 180 180 172 165 155

151 158 164 184 170 154 162 166 150 169

173 155 173 149 174 168 162 172 158 183

175 176 165 147 168 168 171 148 166 171

165 176 145 155 176 163 176 167 171 169

171 169 172 171 178 155 164 176 155 173

158 149 176 146 151 166 163 163 147 161

149 155 146 155 177 168 166 168 163 152

169 170 159 163 186 162 148 173 180 150

2017-02-28

2

Distribution

Distribution

La distribution (loi) normale

moyenne contient 95% des données

des données sont contenues par 3 écarts-types

Distribution parfaitement symétrique!

2017-02-28

3

Population: L’entièreté des unités d’intérêt Ex: Tous les lacs du Québec

Ex: Les cerfs de virginie de la Montérégie

Échantillon: La partie de la population qui est mesurée Ex: 10 lacs répartis uniformément sur le territoire

Ex: Les cerfs abattus à la chasse cet automne

Échantillon vs population

Un échantillon doit le plus possible être représentatif de la population! Sinon, on fera des inférences erronées à l’aide des tests

statistiques

Échantillon vs population

Mode, la valeur la plus fréquente

Médiane, la valeur séparant la série de données en 2Mettre les valeurs en ordre croissant, la médiane est la

valeur à la position (n+1)/2 Si le nombre de valeur est pair, il faut additionner et faire la

moyenne des deux valeurs séparant la série en deux

Ex, données: 1, 2, 2, 4, 6, 6 -> (6+1)/2=3.5 valeur médiane Médiane=(2+4)/2=3

Mesures de tendance centrale

2017-02-28

4

Moyenne, la somme de toutes les n valeurs de la série de données divisées par n La meilleur estimation de la tendance centrale, mais

affectée par les valeurs extrêmes

Mesures de tendance centrale

n

ii

XX

n Pour l’échantillon

Pour la population

Variance Unité: ex: taille en cm, variance de la taille en cm2

Mesures de dispersion

2

2 1

( )

1

n

ii

X Xs

n

2

2 1

( )

1

n

ii

X Xs

n

σ2

N

N

Pour l’échantillon Pour la population

μ

Taille de l’échantillon Taille de la population


1 -62 38444 -59 3481

10 -53 2809100 37 1369200 137 18769

X ( )iX X 2( )X X

30272

2 302727568

4s

63X

2

2 1

( )

1

n

ii

X Xs

n

2017-02-28

5

Écart-type: écart moyen à la moyenne Unité: ex: taille en cm, écart-type de la taille en cm


Pour l’échantillon Pour la population

Coefficient de variation: sert à comparer la variation de deux groupes dont les moyennes ou les unités sont différentes Unité: ex: taille en cm, coefficient de variation pas d’unité


Pour l’échantillon Pas de signe différentpour la populations

CVX

Numérique/quantitative: Continue: peut prendre n’importe quelle valeur ex- taille

Discrète: un nombre de valeurs limité ex – nb de marmottes

Nominale/qualitative ex – sexe, type de forêt, espèces

Ordinale: qui peut être ordonnée ex- âge de la vie (enfant, adolescent, adulte)

Type de variable

2017-02-28

6

Statistiques inférentielles

Statistiques descriptives: décrire un ensemble de données sous forme: de graphiques

de tableaux de fréquences

de moyennes, médianes, modes, variances

Statistiques inférentielles: tirer des conclusions concernant la population à partir des résultats obtenus sur un échantillon

Statistiques inférentielles

1. Poser les hypothèses

2. Récolter les observations

3. Déduire la distribution de la statistique en fonction de l’hypothèse nulle

4. Calculer la valeur de la statistique à partir des données (ex., valeur de t, valeur de F, valeur de X2)

5. Calculer la probabilité (p) d’obtenir une telle valeur ou une valeur plus extrême

6. Tirer une conclusion. Si p<α, on rejette H0

Les étapes du test d’hypothèse

2017-02-28

7

Hypothèses nulles et alternatives

Hypothèse nulle (H0): Hypothèse du statut quoMaintenue jusqu’à preuve du contraire Hypothèse d’égalité dans la majorité des cas

Ex. H0: = 20

Hypothèse alternative (H1): Hypothèse qu’on voudrait démontrer (habituellement) Utilisation conditionnelle au rejet de H1

Ex. H1: ≠ 20

μ

μ

Hypothèses nulles et alternatives

L’hypothèse nulle (H0) et l’hypothèse alternative (H1) doivent couvrir l’ensemble des possibilités et être mutuellement exclusives

Tirer une conclusion

Si p<α, on rejette H0

Si la statistique calculée>statistique critique, on rejette H0

Ex, tcalculé > tcritique

Autrement dit, si la statistique calculée > statistique critique, obligatoirement p <α

2017-02-28

8

Deux types d’erreurs possible lors d’une décision statistique

Réalité (inconnu)

Décision Ho vrai Ho fausse

Rejet de Ho Erreur de première espèce (type I)

P=α

Décision correcte

Non-rejet de Ho Décision correcteP=1- α

Erreur de seconde espèce

Tirer une conclusion

ContinueNominale

Variable explicative Variable réponse Condition Test Statistique

2 catégories Test t

ContinueNominale 3+ catégories ANOVA

Continue

ContinueCorrélation

Pas de relationcause-effet

Continue Continue Il y a une relation de cause-effet

Régression

Nominale Nominale Chi-Carré-----------

Types de tests vus

La loi de Student / test de t

2017-02-28

9

3 types de test de t

Comparaison de deux moyennes Ex: Comparer la température corporelle des mouches et des

éléphants

Comparaison d’une moyenne à une valeur théorique Ex: Est-ce que le poids des moufettes est de 10kg?

Comparaison de deux moyennes appariées Ex: Niveau de santé mentale avant et après un discours de

Donald Trump

Test bilatéral

2 moyennesH0: μa = μb

H1: μa ≠ μb

Valeur théoriqueH0: μa = ValeurH1: μa ≠ Valeur

Valeurs appariéesH0: μa1 = μa2

H1: μa1 ≠ μa2

Test unilatéral

2 moyennesH0: μa ≤ μb

H1: μa > μb

Valeur théoriqueH0: μa ≥ ValeurH1: μa < Valeur

Valeurs appariéesH0: μa1 ≥ μa2

H1: μa1 < μa2

où la direction inverse pour l’inégalité

2017-02-28

10

Test unilatéral

À utiliser seulement si l’on a une justification Ex: seul l’une des deux options nous intéresse.

Ex: on juge l’une des deux options pratiquement impossible

Si on test

on ne peut pas découvrir si b est plus grand que a

2 moyennesH0: μa ≤ μb

H1: μa > μb

Distribution de probabilité t vs taille de l'échantillon (n)

d.d.l = degré de liberté = d.f. = degree of freedom

2 moyennesd.d.l. = n-2

Valeur théoriqued.d.l. = n-1

Valeurs appariéesd.d.l. = n-1

Trouver le t critique: Table de t

ex: k=8 , alpha=0.05, test bilatéral

tcrit= 2.306

2017-02-28

11

Analyse de variance

L’analyse de variance

Principalement utilisée pour comparer plusieurs moyennes

Utilise la loi de Fisher comme distribution des probabilités

L’analyse vérifie si la variance entre les moyennes des groupes est supérieure à la variance à l’intérieur des groupes

L’analyse de variance

Variabilité inter

Variabilité intra

Si nous avons k groupes et N observations totales, les d.d.l. sont k-1 et N-kEx: k=3, N=9 ….. F(2,6)

2017-02-28

12

Distribution des probabilités sous la loi de F

α = 0.05

Pro

ba

bili

té

Hypothèses

Distribution F, deux d.d.l.

H0: les moyennes sont égales

H1: au moins une moyenne diffère des autres moyennes

ou μi≠μj

μa ≠ μb ≠ μc ≠ μd

μa = μb = μc = μd

L’ANOVA et le test t

Lorsqu’il n’y a que deux moyennes à comparer (i.e. k=2) les deux tests s’appliquent également

On trouvera qu’il produisent la même probabilité et que

2

11,1 NN tF

2017-02-28

13

Test post-hoc

Pour determiner quelle(s) moyenne(s) diffère(nt)

Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur

alpha afin d’obtenir un alpha global desiré.

Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs

Test post-hoc

Pour determiner quelle(s) moyenne(s) diffère(nt)

Test de Tuckey : Résultats

Les groupes 1 et 2 ne diffèrent pas. Les groupes 2 et 3 non plus. 1 et 3 diffèrent. 1, 2 et 3 diffèrent de 4 et 5.

Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5

A A

B B

C C

Corrélation

2017-02-28

14

Corrélation

Mesurer la force de l’association

linéaire entre 2 variables quantitatives

Corrélation

positive nullenégative

Corrélation

La corrélation n'est pas une relation de cause à effet!!!!

Divorce au Maine

Con

som

mat

ion

de m

arga

rine

r de Pearson

On utilise la méthode de Pearson dérivée de la covariance et adaptée à des échantillons d’une population

Valeur estimée : r de Pearson

La valeur de r varie entre -1 et 1 r = 0; corrélation nulle r = -1 ou 1; corrélation parfaite

2017-02-28

15

corrélation positive corrélation négative corrélation nulle

Les trois types de corrélation

Tests d’hypothèses

H0: ρ=0 la variable x et la variable y ne sont pas corrélées

H0: ρ≠0 la variable x et la variable y sont corrélées

Test sur le coefficient

On utilise un test de t pour tester l’hypothèse nulle H0: ρ=0 et H1: ρ≠0

d.d.l. = n-2

2017-02-28

16

Régression

Objectifs de la régression

Il y a une variable d’intérêt pour laquelle vous voulez avoir :

Une prédiction de ses valeurs futures

Une explication de ses variations

Une estimation de l’erreur possible dans votre

prédiction

Contraste avec la corrélation

En corrélation: on regarde la force d’association ou de liaison entre deux variables

Régression simple:

On utilise une variable dépendante (à prédire, Y) et une autre dite predictive (X) qui détermine la valeur de la première (du moins, en partie)

On est non seulement intéressé à la force de la relation, mais aussi à sa forme: de quel façon Y change en fonction de X

2017-02-28

17

Corrélation et régression

Corrélation

La longueur du bras ne CAUSE pas la longueur de la jambe

Corrélation et régression

Régression

La concentration de l’hormone de croissance X CAUSEla longueur de la jambe et du bras

[hormone de croissance X]

Définitions

L’équation de prédiction produite par l’analyse de régression s’appelle un modèle linéaire (à cause de son incertitude, et parce qu’elle est en forme de droite)

La variable utilisée pour la prédiction s’appelle variable indépendante ou explicative

La variable prédite se nomme la variable dépendante ou réponse

2017-02-28

18

X

Ya

1.0

b

a = ordonnée à l’origine

= penteb

Y a bX

Équation d’une droite

0

= ordonnée à l’origine = 0.4

= pente = 0.5

X

Y

a

b

Y a bX

Équation d’une droite

Y = 0.4 + 0.5X

(x,y)

(0, 0.4)

(1, 0.9)

(2, 1.4)

(3, 1.9)

1 2 30

Y

X

Y

Valeurs prédites et résiduelles

ε = valeur résiduelle = erreur de prediction = Ŷ – Y*** se calcule perpendiculaire à X ***

On veut que X prédise Y, donc on calcule l’erreur sur Y

Ŷ

ε

2017-02-28

19

Principes des moindres carrés

Quelle est la meilleure droite ? La droite optimale est celle pour laquelle la somme des erreurs résiduelles au carré est minimale

Y

X

Droite de régression et erreur résiduelle

L’erreur résiduelle (résidus) sont les écarts ( ) entre les valeurs observées et les valeurs prédites de par le modèle de régression

Ŷ = a + bXY = a +bX + ε

ε = Ŷ – Y

a: ordonnée à l’origineb: pente

eY

Coefficient de détermination

On utilise le terme R2 pour désigner le coefficient de détermination

Le R2 donne la portion de la variabilité expliquée par le modèle R2 = variation de Y expliquée/variation totale de Y

R2 = 1 – variation résiduelle/variation totale

Le R2 varie entre 0 et 1 (relation parfaite) ou si vous préférez, entre 0% et 100% de la variation de Y expliquée par le modèle…

2017-02-28

20

Test sur la pente

H0: b=0.Il n’y a pas de relation linéaire entre la variable

explicative X et la variable dépendante Y

H1: b≠0Il y a une relation linéaire entre la variable explicative X et la variable dépendante Y

oùcalcb

bT

S

2

2

1

( )

eb n

ii

SS

X X

2eS où

Test sur la pente

d.d.l. = n-2

oùcalcb

bT

S

2

2

1

( )

eb n

ii

SS

X X

2eS où

Khi-carré et tables de contingence

2017-02-28

21

Analyse de fréquences

Permet de faire des tests d’hypothèses en se servant de données exprimées en terme de fréquences

Permet de voir des liens entre facteurs à partir des données de fréquences

Test d’hypothèses

H0: La variable A et la variable B sontindépendantes

H0: pi = pj = p ou p = 1/nb de classes

H1: La variable A et la variable B ne sont pas indépendantes

H0: pi ≠ pj

Tables de contingence

Secteur Mâles Femelles Total

Anticosti 30 34 64Cantons de l'Est 55 25 80Laurentides 12 4 16Total 97 63 160

Observée

Calculé la fréquence attendue de chaque cellulePour chaque cellule: Somme ligne *somme colonne

Abondance totale (N)

Ex: mâles attendus à Anticosti = 97*64/160=38.8 mâles à Anticosti

2017-02-28

22

Tables de contingence

Mâles Femelles

Anticosti 38.8 25.2

Cantons de l'Est 48.5 31.5

Laurentides 9.7 6.3

Secteur Mâles Femelles Total

Anticosti 30 34 64Cantons de l'Est 55 25 80Laurentides 12 4 16Total 97 63 160

Observée

Attendue

Khi-carré

Degrés de liberté = (k-1)(m-1)Où k est le nombre de categories de la première

variable et m est le nombre de catégories de la deuxième variable.

Dans l’exemple présent: (3-1)(2-1) = 2

k12

Valeur.observéei Valeur.théoriquei 2

Valeur.théoriqueii1

k

n

Exemples de questions

2017-02-28

23

Example 1

Robert est un nouvel employé dans une compagnie privée sans échelle salariale fixe. Tout de même, il aimerait savoir à quel salaire il devrait s’attendre dans 4 ans, moment à lequel il planifie avoir son premier enfant. Il obtient des informations sur l’ancienneté et le salaire de 10 collègues. Que doit-il faire à partir de ces données pour projeter son salaire dans 4 ans? Quelles seront ses hypothèses? S’il obtient un p de 0,21, quelles doivent être ses conclusions?

Example 2

Jim veut étudier en médecine, mais n’a pas obtenu les notes nécessaires au CÉGEP. Il décide d’entreprendre le chemin de croix que de nombreuses personnes ont fait avant lui et d’obtenir un bacc en biologie avant de réappliquer en médecine. Afin de choisir l’université lui permettant de maximiser ses chances d’être accepté en médecine, mais voulant demeurer à Montréal, il désire comparer le taux d’acceptation en médecine d’étudiants ayant complété leur bacc en biologie à l’UQÀM, l’UdM, McGill et Concordia. Admettant qu’il a accès à ces données (nb d’appliquants et nb d’acceptés provenant de chaque université), quel test devrait-il faire? Identifiez les variables et leur type. Admettant que le test est significatif, comment peut-il déterminer quelle université maximise ses chances?

Example 3

Arianne a remarqué que les animaux de grandes tailles semblent vivre plus longtemps que ceux de petites tailles. Quel test devrait-elle faire pour vérifier son observation? Quels seraient les hypothèses? Que peut-elle conclure si après avoir obtenu des informations sur 20 espèces, elle obtient une valeur de t=2.3?

Download - BIO3500 Cours 10 - RÃ©vision sans reponsefredboivin.weebly.com/.../9/3/...3_diapos_par_page.pdfpduv%,2 ²+lyhu &rxuv 5pylvlrq hw suhsdudwlrq j o·h[dphq 'lvwulexwlrq 0hvxuhv gh whqgdqfh

Top Related