2017-02-28
1
BIO 3500 – Hiver 201720 mars
Cours 10Révision et preparation à
l’examen
Distribution
Mesures de tendance centrale et de dispersion
Test d’hypothèses
Test de t
ANOVA
Corrélation
Régression
Khi carré
Plan de match
IntervallePoint milieu
Fréquence
135-141 138 1
142-148 145 12
149-155 152 32
156-162 159 30
163-169 166 60
170-176 173 44
177-183 180 16
184-190 187 3
191-197 194 2
Distribution
Taille
140 150 160 170 180 190 200
Fré
quen
ce
0
10
20
30
40
50
60
70
Histogramme
Distribution de fréquence
170 162 184 155 180 167 170 166 168 164
172 167 180 154 180 151 153 164 177 149
173 160 152 173 158 143 169 170 154 168
153 165 160 162 162 168 175 169 166 177
175 148 167 166 159 178 156 172 143 171
181 170 174 153 173 165 156 163 173 162
160 162 165 146 177 165 163 176 172 178
135 151 154 145 170 164 163 165 178 171
166 157 156 167 157 154 164 166 184 167
164 167 153 170 162 192 154 166 170 170
158 167 154 169 162 169 162 158 151 179
159 171 165 165 166 180 180 172 165 155
151 158 164 184 170 154 162 166 150 169
173 155 173 149 174 168 162 172 158 183
175 176 165 147 168 168 171 148 166 171
165 176 145 155 176 163 176 167 171 169
171 169 172 171 178 155 164 176 155 173
158 149 176 146 151 166 163 163 147 161
149 155 146 155 177 168 166 168 163 152
169 170 159 163 186 162 148 173 180 150
2017-02-28
2
Distribution
Distribution
La distribution (loi) normale
moyenne contient 95% des données
des données sont contenues par 3 écarts-types
Distribution parfaitement symétrique!
2017-02-28
3
Population: L’entièreté des unités d’intérêt Ex: Tous les lacs du Québec
Ex: Les cerfs de virginie de la Montérégie
Échantillon: La partie de la population qui est mesurée Ex: 10 lacs répartis uniformément sur le territoire
Ex: Les cerfs abattus à la chasse cet automne
Échantillon vs population
Un échantillon doit le plus possible être représentatif de la population! Sinon, on fera des inférences erronées à l’aide des tests
statistiques
Échantillon vs population
Mode, la valeur la plus fréquente
Médiane, la valeur séparant la série de données en 2Mettre les valeurs en ordre croissant, la médiane est la
valeur à la position (n+1)/2 Si le nombre de valeur est pair, il faut additionner et faire la
moyenne des deux valeurs séparant la série en deux
Ex, données: 1, 2, 2, 4, 6, 6 -> (6+1)/2=3.5 valeur médiane Médiane=(2+4)/2=3
Mesures de tendance centrale
2017-02-28
4
Moyenne, la somme de toutes les n valeurs de la série de données divisées par n La meilleur estimation de la tendance centrale, mais
affectée par les valeurs extrêmes
Mesures de tendance centrale
n
ii
XX
n Pour l’échantillon
Pour la population
Variance Unité: ex: taille en cm, variance de la taille en cm2
Mesures de dispersion
2
2 1
( )
1
n
ii
X Xs
n
2
2 1
( )
1
n
ii
X Xs
n
σ2
N
N
Pour l’échantillon Pour la population
μ
Taille de l’échantillon Taille de la population
Mesures de dispersion
1 -62 38444 -59 3481
10 -53 2809100 37 1369200 137 18769
X ( )iX X 2( )X X
30272
2 302727568
4s
63X
2
2 1
( )
1
n
ii
X Xs
n
2017-02-28
5
Écart-type: écart moyen à la moyenne Unité: ex: taille en cm, écart-type de la taille en cm
Mesures de dispersion
Pour l’échantillon Pour la population
Coefficient de variation: sert à comparer la variation de deux groupes dont les moyennes ou les unités sont différentes Unité: ex: taille en cm, coefficient de variation pas d’unité
Mesures de dispersion
Pour l’échantillon Pas de signe différentpour la populations
CVX
Numérique/quantitative: Continue: peut prendre n’importe quelle valeur ex- taille
Discrète: un nombre de valeurs limité ex – nb de marmottes
Nominale/qualitative ex – sexe, type de forêt, espèces
Ordinale: qui peut être ordonnée ex- âge de la vie (enfant, adolescent, adulte)
Type de variable
2017-02-28
6
Statistiques inférentielles
Statistiques descriptives: décrire un ensemble de données sous forme: de graphiques
de tableaux de fréquences
de moyennes, médianes, modes, variances
Statistiques inférentielles: tirer des conclusions concernant la population à partir des résultats obtenus sur un échantillon
Statistiques inférentielles
1. Poser les hypothèses
2. Récolter les observations
3. Déduire la distribution de la statistique en fonction de l’hypothèse nulle
4. Calculer la valeur de la statistique à partir des données (ex., valeur de t, valeur de F, valeur de X2)
5. Calculer la probabilité (p) d’obtenir une telle valeur ou une valeur plus extrême
6. Tirer une conclusion. Si p<α, on rejette H0
Les étapes du test d’hypothèse
2017-02-28
7
Hypothèses nulles et alternatives
Hypothèse nulle (H0): Hypothèse du statut quoMaintenue jusqu’à preuve du contraire Hypothèse d’égalité dans la majorité des cas
Ex. H0: = 20
Hypothèse alternative (H1): Hypothèse qu’on voudrait démontrer (habituellement) Utilisation conditionnelle au rejet de H1
Ex. H1: ≠ 20
μ
μ
Hypothèses nulles et alternatives
L’hypothèse nulle (H0) et l’hypothèse alternative (H1) doivent couvrir l’ensemble des possibilités et être mutuellement exclusives
Tirer une conclusion
Si p<α, on rejette H0
Si la statistique calculée>statistique critique, on rejette H0
Ex, tcalculé > tcritique
Autrement dit, si la statistique calculée > statistique critique, obligatoirement p <α
2017-02-28
8
Deux types d’erreurs possible lors d’une décision statistique
Réalité (inconnu)
Décision Ho vrai Ho fausse
Rejet de Ho Erreur de première espèce (type I)
P=α
Décision correcte
Non-rejet de Ho Décision correcteP=1- α
Erreur de seconde espèce
Tirer une conclusion
ContinueNominale
Variable explicative Variable réponse Condition Test Statistique
2 catégories Test t
ContinueNominale 3+ catégories ANOVA
Continue
ContinueCorrélation
Pas de relationcause-effet
Continue Continue Il y a une relation de cause-effet
Régression
Nominale Nominale Chi-Carré-----------
Types de tests vus
La loi de Student / test de t
2017-02-28
9
3 types de test de t
Comparaison de deux moyennes Ex: Comparer la température corporelle des mouches et des
éléphants
Comparaison d’une moyenne à une valeur théorique Ex: Est-ce que le poids des moufettes est de 10kg?
Comparaison de deux moyennes appariées Ex: Niveau de santé mentale avant et après un discours de
Donald Trump
Test bilatéral
2 moyennesH0: μa = μb
H1: μa ≠ μb
Valeur théoriqueH0: μa = ValeurH1: μa ≠ Valeur
Valeurs appariéesH0: μa1 = μa2
H1: μa1 ≠ μa2
Test unilatéral
2 moyennesH0: μa ≤ μb
H1: μa > μb
Valeur théoriqueH0: μa ≥ ValeurH1: μa < Valeur
Valeurs appariéesH0: μa1 ≥ μa2
H1: μa1 < μa2
où la direction inverse pour l’inégalité
2017-02-28
10
Test unilatéral
À utiliser seulement si l’on a une justification Ex: seul l’une des deux options nous intéresse.
Ex: on juge l’une des deux options pratiquement impossible
Si on test
on ne peut pas découvrir si b est plus grand que a
2 moyennesH0: μa ≤ μb
H1: μa > μb
Distribution de probabilité t vs taille de l'échantillon (n)
d.d.l = degré de liberté = d.f. = degree of freedom
2 moyennesd.d.l. = n-2
Valeur théoriqued.d.l. = n-1
Valeurs appariéesd.d.l. = n-1
Trouver le t critique: Table de t
ex: k=8 , alpha=0.05, test bilatéral
tcrit= 2.306
2017-02-28
11
Analyse de variance
L’analyse de variance
Principalement utilisée pour comparer plusieurs moyennes
Utilise la loi de Fisher comme distribution des probabilités
L’analyse vérifie si la variance entre les moyennes des groupes est supérieure à la variance à l’intérieur des groupes
L’analyse de variance
Variabilité inter
Variabilité intra
Si nous avons k groupes et N observations totales, les d.d.l. sont k-1 et N-kEx: k=3, N=9 ….. F(2,6)
2017-02-28
12
Distribution des probabilités sous la loi de F
α = 0.05
Pro
ba
bili
té
Hypothèses
Distribution F, deux d.d.l.
H0: les moyennes sont égales
H1: au moins une moyenne diffère des autres moyennes
ou μi≠μj
μa ≠ μb ≠ μc ≠ μd
μa = μb = μc = μd
L’ANOVA et le test t
Lorsqu’il n’y a que deux moyennes à comparer (i.e. k=2) les deux tests s’appliquent également
On trouvera qu’il produisent la même probabilité et que
2
11,1 NN tF
2017-02-28
13
Test post-hoc
Pour determiner quelle(s) moyenne(s) diffère(nt)
Test de Tuckey (en anglais Tuckey’s HSD pour: honest significance test) Compare chaque paire, mais en corrigeant l’erreur
alpha afin d’obtenir un alpha global desiré.
Autrement dit, chaque test se fait à un alpha plus faible que le alpha global afin de compenser pour la propagation des erreurs
Test post-hoc
Pour determiner quelle(s) moyenne(s) diffère(nt)
Test de Tuckey : Résultats
Les groupes 1 et 2 ne diffèrent pas. Les groupes 2 et 3 non plus. 1 et 3 diffèrent. 1, 2 et 3 diffèrent de 4 et 5.
Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 5
A A
B B
C C
Corrélation
2017-02-28
14
Corrélation
Mesurer la force de l’association
linéaire entre 2 variables quantitatives
Corrélation
positive nullenégative
Corrélation
La corrélation n'est pas une relation de cause à effet!!!!
Divorce au Maine
Con
som
mat
ion
de m
arga
rine
r de Pearson
On utilise la méthode de Pearson dérivée de la covariance et adaptée à des échantillons d’une population
Valeur estimée : r de Pearson
La valeur de r varie entre -1 et 1 r = 0; corrélation nulle r = -1 ou 1; corrélation parfaite
2017-02-28
15
corrélation positive corrélation négative corrélation nulle
Les trois types de corrélation
Tests d’hypothèses
H0: ρ=0 la variable x et la variable y ne sont pas corrélées
H0: ρ≠0 la variable x et la variable y sont corrélées
Test sur le coefficient
On utilise un test de t pour tester l’hypothèse nulle H0: ρ=0 et H1: ρ≠0
d.d.l. = n-2
2017-02-28
16
Régression
Objectifs de la régression
Il y a une variable d’intérêt pour laquelle vous voulez avoir :
Une prédiction de ses valeurs futures
Une explication de ses variations
Une estimation de l’erreur possible dans votre
prédiction
Contraste avec la corrélation
En corrélation: on regarde la force d’association ou de liaison entre deux variables
Régression simple:
On utilise une variable dépendante (à prédire, Y) et une autre dite predictive (X) qui détermine la valeur de la première (du moins, en partie)
On est non seulement intéressé à la force de la relation, mais aussi à sa forme: de quel façon Y change en fonction de X
2017-02-28
17
Corrélation et régression
Corrélation
La longueur du bras ne CAUSE pas la longueur de la jambe
Corrélation et régression
Régression
La concentration de l’hormone de croissance X CAUSEla longueur de la jambe et du bras
[hormone de croissance X]
Définitions
L’équation de prédiction produite par l’analyse de régression s’appelle un modèle linéaire (à cause de son incertitude, et parce qu’elle est en forme de droite)
La variable utilisée pour la prédiction s’appelle variable indépendante ou explicative
La variable prédite se nomme la variable dépendante ou réponse
2017-02-28
18
X
Ya
1.0
b
a = ordonnée à l’origine
= penteb
Y a bX
Équation d’une droite
0
= ordonnée à l’origine = 0.4
= pente = 0.5
X
Y
a
b
Y a bX
Équation d’une droite
Y = 0.4 + 0.5X
(x,y)
(0, 0.4)
(1, 0.9)
(2, 1.4)
(3, 1.9)
1 2 30
Y
X
Y
Valeurs prédites et résiduelles
ε = valeur résiduelle = erreur de prediction = Ŷ – Y*** se calcule perpendiculaire à X ***
On veut que X prédise Y, donc on calcule l’erreur sur Y
Ŷ
ε
2017-02-28
19
Principes des moindres carrés
Quelle est la meilleure droite ? La droite optimale est celle pour laquelle la somme des erreurs résiduelles au carré est minimale
Y
X
Droite de régression et erreur résiduelle
L’erreur résiduelle (résidus) sont les écarts ( ) entre les valeurs observées et les valeurs prédites de par le modèle de régression
Ŷ = a + bXY = a +bX + ε
ε = Ŷ – Y
a: ordonnée à l’origineb: pente
eY
Coefficient de détermination
On utilise le terme R2 pour désigner le coefficient de détermination
Le R2 donne la portion de la variabilité expliquée par le modèle R2 = variation de Y expliquée/variation totale de Y
R2 = 1 – variation résiduelle/variation totale
Le R2 varie entre 0 et 1 (relation parfaite) ou si vous préférez, entre 0% et 100% de la variation de Y expliquée par le modèle…
2017-02-28
20
Test sur la pente
H0: b=0.Il n’y a pas de relation linéaire entre la variable
explicative X et la variable dépendante Y
H1: b≠0Il y a une relation linéaire entre la variable explicative X et la variable dépendante Y
oùcalcb
bT
S
2
2
1
( )
eb n
ii
SS
X X
2eS où
Test sur la pente
d.d.l. = n-2
oùcalcb
bT
S
2
2
1
( )
eb n
ii
SS
X X
2eS où
Khi-carré et tables de contingence
2017-02-28
21
Analyse de fréquences
Permet de faire des tests d’hypothèses en se servant de données exprimées en terme de fréquences
Permet de voir des liens entre facteurs à partir des données de fréquences
Test d’hypothèses
H0: La variable A et la variable B sontindépendantes
H0: pi = pj = p ou p = 1/nb de classes
H1: La variable A et la variable B ne sont pas indépendantes
H0: pi ≠ pj
Tables de contingence
Secteur Mâles Femelles Total
Anticosti 30 34 64Cantons de l'Est 55 25 80Laurentides 12 4 16Total 97 63 160
Observée
Calculé la fréquence attendue de chaque cellulePour chaque cellule: Somme ligne *somme colonne
Abondance totale (N)
Ex: mâles attendus à Anticosti = 97*64/160=38.8 mâles à Anticosti
2017-02-28
22
Tables de contingence
Mâles Femelles
Anticosti 38.8 25.2
Cantons de l'Est 48.5 31.5
Laurentides 9.7 6.3
Secteur Mâles Femelles Total
Anticosti 30 34 64Cantons de l'Est 55 25 80Laurentides 12 4 16Total 97 63 160
Observée
Attendue
Khi-carré
Degrés de liberté = (k-1)(m-1)Où k est le nombre de categories de la première
variable et m est le nombre de catégories de la deuxième variable.
Dans l’exemple présent: (3-1)(2-1) = 2
k12
Valeur.observéei Valeur.théoriquei 2
Valeur.théoriqueii1
k
n
Exemples de questions
2017-02-28
23
Example 1
Robert est un nouvel employé dans une compagnie privée sans échelle salariale fixe. Tout de même, il aimerait savoir à quel salaire il devrait s’attendre dans 4 ans, moment à lequel il planifie avoir son premier enfant. Il obtient des informations sur l’ancienneté et le salaire de 10 collègues. Que doit-il faire à partir de ces données pour projeter son salaire dans 4 ans? Quelles seront ses hypothèses? S’il obtient un p de 0,21, quelles doivent être ses conclusions?
Example 2
Jim veut étudier en médecine, mais n’a pas obtenu les notes nécessaires au CÉGEP. Il décide d’entreprendre le chemin de croix que de nombreuses personnes ont fait avant lui et d’obtenir un bacc en biologie avant de réappliquer en médecine. Afin de choisir l’université lui permettant de maximiser ses chances d’être accepté en médecine, mais voulant demeurer à Montréal, il désire comparer le taux d’acceptation en médecine d’étudiants ayant complété leur bacc en biologie à l’UQÀM, l’UdM, McGill et Concordia. Admettant qu’il a accès à ces données (nb d’appliquants et nb d’acceptés provenant de chaque université), quel test devrait-il faire? Identifiez les variables et leur type. Admettant que le test est significatif, comment peut-il déterminer quelle université maximise ses chances?
Example 3
Arianne a remarqué que les animaux de grandes tailles semblent vivre plus longtemps que ceux de petites tailles. Quel test devrait-elle faire pour vérifier son observation? Quels seraient les hypothèses? Que peut-elle conclure si après avoir obtenu des informations sur 20 espèces, elle obtient une valeur de t=2.3?