2ème baccalauréat en sciences vétérinaires biostatistiques

64
TD2 Biostatistiques 1 Faculté de Médecine Vétérinaire Université de Liège Séance de TD n°2 : Résolutions Aide pour la résolution : Comment choisir le bon test ? via le site www.biostat.ulg.ac.be => « Notions d’info » => « ABC de R » => « 5. Statistiques inférentielles : les tests d’hypothèse » => « Choix du test inférentiel » Dont voici une copie (et le lien direct : http://www.biostat.ulg.ac.be/pages/Site_r/Inferentielles.html#choix ) : 2 ème baccalauréat en Sciences Vétérinaires Biostatistiques – Travaux dirigés

Upload: others

Post on 23-Jun-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 1

Faculté de Médecine Vétérinaire Université de Liège

Séance de TD n°2 : Résolutions

Aide pour la résolution : Comment choisir le bon test ? via le site www.biostat.ulg.ac.be => « Notions d’info » => « ABC de R » => « 5. Statistiques

inférentielles : les tests d’hypothèse » => « Choix du test inférentiel »

Dont voici une copie (et le lien direct :

http://www.biostat.ulg.ac.be/pages/Site_r/Inferentielles.html#choix ) :

2ème baccalauréat en Sciences Vétérinaires

Biostatistiques – Travaux dirigés

Page 2: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 2

Faculté de Médecine Vétérinaire Université de Liège

1. Un clinicien étudie l'influence d'un bétabloquant sur la fréquence cardiaque (batt/min.) chez le chien. Il répartit donc 12 chiens selon la taille et le produit administré (cf tableau). Deux heures après l'administration du placébo ou du bétabloquant, le clinicien mesure la fréquence cardiaque chez chaque chien (les données sont supposées être de même variance et distribuées normalement).

Placébo Bétabloquant

Petits 95 80 90 75 88 76

Grands 92 76 81 72 85 78

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Taille : 2 modalités (Petits vs Grands)

• Produit : 2 modalités (Placébo vs Bétaboquant)

-VD (variable dépendante) = Fréquence cardiaque : variable continue

- Mesures répétées ? Non ce sont 12 chiens au total

- Normalité des données ? Oui. Cela est précisé dans l’énoncé.

ANOVA 2

B. Poser les hypothèses :

��: ��� ���� � ���� �� ∶ �������� = �������������

��: ��� ���� � � ��� ∶ ����!� = �"#��$

��: ��� ��%���&���% ∶ ��������'���!� = �������������'���!� = ��������'"#��$= �������������'"#��$

�(: )��� � ���� �� ∶ �������� ≠ �������������

�(: )��� � � ��� ∶ ����!� ≠ �"#��$

�(: +%���&���% ���� �� , ��� ∶ � -��%� % ����é�%&

Page 3: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 3

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Tableau de l’anova :

SC Ddl CM F Produit 456,33 1 456,33 30,25 Taille 33,33 1 33,33 2,2099 Interaction 8,33 1 8,33 0,5525 Erreur 120,667 8 15,083 Total 618,67 11

Calculons les moyennes des différents groupes :

/�������00000000000 = ∑ /% = (95 + 90 + 88 + 92 + 81 + 85)6 = 5316 = 88,5

/>���0000000 = ∑ /% = (80 + 75 + 76 + 76 + 72 + 78)6 = 4576 = 76,167

/���A�B00000000 = ∑ /% = (95 + 90 + 88 + 80 + 75 + 76)6 = 5046 = 84

/"#��$B0000000000 = ∑ /% = (92 + 81 + 85 + 76 + 72 + 78)6 = 4846 = 80,667

/��.'���.0000000000 = ∑ /% = (95 + 90 + 88)3 = 2733 = 91

/��.'"#..0000000000 = ∑ /% = (92 + 81 + 85)3 = 2583 = 86

/>���.'���.0000000000000 = ∑ /% = (80 + 75 + 76)3 = 2313 = 77

/>���.'"#.000000000000 = ∑ /% = (76 + 72 + 78)3 = 2263 = 75,33

/D�����000000000 = ∑ /% = 98812 = 82,33

On peut à présent calculer les sommes de carré :

EF�#�$�!� = %��. ∗ H/��.00000 − /D.0000JK + %>���. ∗ (/>���.00000000 − /D.0000)K= 6 ∗ (88,5 − 82,33)K + 6 ∗ (76,167 − 82,33)K = 456,33

Page 4: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 4

Faculté de Médecine Vétérinaire Université de Liège

EF��!��� = %���. ∗ H/���.000000 − /D.0000JK + %"#. ∗ H/"#.00000 − /D.0000JK= 6 ∗ (84 − 82,33)K + 6 ∗ (80,667 − 82,33)K = 33,33

EF!���#���!�� = %��.'���. ∗ H/��.'���.0000000000 − /��.00000 − /���.000000 + /D.0000JK + %��.'"#..∗ H/��.'"#.0000000000 − /��.00000 − /"#.00000 + /D.0000JK + %>���.'���..∗ H/>���.'���.0000000000000 − />���.00000000 − /���.000000 + /D.0000JK + %>���.'"#..∗ H/>���.'"#.000000000000 − />���.00000000 − /"#.00000 + /D.0000JK= 3 ∗ (91 − 88,5 − 84 + 82,33)K + 3 ∗ (86 − 88,5 − 80,667 + 82,33)K + 3∗ (77 − 76,167 − 84 + 82,33)K + 3 ∗ (75,33 − 76,167 − 80,667 + 82,33)² = 8,33

EF�##��# = M(/!NO − /AP0000)²= (95 − 91)K + (90 − 91)K + (88 − 91)K + (92 − 86)K + (81 − 86)K+ (85 − 86)K + (80 − 77)K + (75 − 77)K + (76 − 77)K + (76 − 75,33)K+ (72 − 75,33)K + (78 − 75,33)K = 120,667

EFQ����� = M(/!NO − /D.0000)²= (95 − 82,33)K + (90 − 82,33)K + (88 − 82,33)K + (92 − 82,33)K+ (81 − 82,33)K + (85 − 82,33)K + (80 − 82,33)K + (75 − 82,33)K+ (76 − 82,33)K + (76 − 82,33)K + (72 − 82,33)K + (78 − 82,33)K = 618,67

R� �#�$�!� = %�#�$�!� − 1 = 2 − 1 = 1

R� ��!��� = %��!��� − 1 = 2 − 1 = 1

R� !���#���!�� = H%�#�$�!� − 1J ∗ (%��!��� − 1) = (2 − 1) ∗ (2 − 1) = 1

R� �##��# = S − H%�#�$�!� ∗ %��!���J = 12 − (2 ∗ 2) = 8

R� ����� = S − 1 = 12 − 1 = 11

FT�#�$�!� = EF�#�$�!�R� �#�$�!� = 456,331 = 456,33

FT��!��� = EF��!���R� ��!��� = 33,331 = 33,33

FT!���#���!�� = EF!���#���!��R� !���#���!�� = 8,331 = 8,33

FT�##��# = EF�##��#R� �##��# = 120,6678 = 15,083

Page 5: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 5

Faculté de Médecine Vétérinaire Université de Liège

U�#�$�!� = FT�#�$�!�FT�##��# = 456,3315,083 = 30,25

U��!��� = FT��!���FT�##��# = 33,3315,083 = 2,2099

U!���#���!�� = FT!���#���!��FT�##��# = 8,3315,083 = 0,5525

Allons voir dans la table des F (5%) :

- Effet produit : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F

seuil est 5,32.

- Effet taille : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil

est 5,32.

- Interaction : On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil

est 5,32.

D. Conclusion :

- Effet produit : Etant donné que la valeur de F observée (30,25) est supérieure à la valeur de F

seuil (5,32), on peut rejeter l’H0. Cela signifie que l’on a une probabilité inférieure à 0,05

d’observer les données récoltées si l’H0 était vraie. Cette probabilité étant très petite on rejette

l’H0 et on peut conclure qu’il y a une différence significative entre les deux produits.

- Effet taille : La valeur de F observée (2,2099) est inférieure à la valeur de F seuil (5,32). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative en fonction de la taille.

- Interaction : La valeur de F observée (0,5525) est inférieure à la valeur de F seuil (5,32). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative entre les différents sous-groupes.

Page 6: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 6

Faculté de Médecine Vétérinaire Université de Liège

2. L'agressivité chez la poule pondeuse a été mesurée dans différentes souches avant de les remettre sur des parcours libres. La mesure est un indice qui englobe des mesures oui/non (0/1) faites sur une série d'attitudes considérées par l'éthologiste comme des marques d'agressivité. Cette mesure, bien que résultant d'une somme, ne peut être considérée comme ayant une distribution normale. Les résultats pour 3 souches sont donnés ci-dessous: Souche A Souche B Souche C 4 8 7 5 7 7 6 8 5 5 9 5

L’agressivité est-elle différente entre les souches ?

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 1 VI : Souches : 3 modalités (A vs B vs C)

-VD (variable dépendante) = Agressivité : variable continue

- Mesures répétées ? Non ce sont des poules différentes

- Normalité des données ? NON. Cela est précisé dans l’énoncé.

Test de kruskall-Wallis

B. Poser les hypothèses :

��: ��%V�(0000000000 = ��%V�>0000000000 = ��%V�W0000000000

�(: X -��%� % ����é�%& %�� � -�Y%%� � ��%V�.

C. Calcul :

A partir du formulaire de stat au point 10.2, on a la formule suivante :

Z[ = 12S ∗ (S + 1) ∗ MH%! ∗ �A\KJ − 3 ∗ (S + 1)

Il faut donc d’abord transformer les données en rangs :

Pour ce faire, on classe les données par ordre croissant (sans tenir compte des groupes), puis on

attribue le rang dans l’ordre. Lorsqu’on a des rangs ex-aequos, on attribue la moyenne des rangs.

Page 7: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 7

Faculté de Médecine Vétérinaire Université de Liège

Souche A Souche B Souche C Données

brutes Rangs Données

brutes Rangs Données

brutes Rangs

4 1 8 =(10+11)/2 = 10,5

7 8

5 =(2+3+4+5)/4 = 3,5

7 =(7+8+9)/3 = 8 7 8

6 6 8 10,5 5 3,5

5 3,5 9 12 5 3,5

�(\ = ∑ �%# = (1 + 3,5 + 6 + 3,5)4 = 144 = 3,5

�>\ = ∑ #�] = (^�,_`a`^�,_`^K)b = bb̂ = 10,25

�W\ = ∑ �%# = (8 + 8 + 3,5 + 3,5)4 = 234 = 5,75

Z[ = 12S ∗ (S + 1) ∗ MH%! ∗ �A\KJ − 3 ∗ (S + 1)= 1212 ∗ (12 + 1) ∗ c(4 ∗ 3,5K) + (4 ∗ 10,25K) + (4 ∗ 5,75)Kd − 3 ∗ (12 + 1)= 0,0769 ∗ 601,5 − 39 = 7,2692

Cette valeur peut être considérée comme une valeur de chi-carré avec ddl = nombre de groupes – 1.

Ddl = 3-1 = 2

Allons dans la table des chi-carrés :

On regarde dans la colonne e�,f_K et à la ligne 2. La valeur de X² seuil = 5,991

D. Conclusions :

La valeur de X² observé (7,2692) est supérieure à la valeur de X² seuil (5,991). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 5%. On rejette donc H0 : il y a au

moins une différence significative entre les 3 souches.

Page 8: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 8

Faculté de Médecine Vétérinaire Université de Liège

3. Dans trois fermes de vaches laitières, on a comparé la calcémie (en mg%) des bêtes lactantes en fonction de l'époque et du niveau de production. Les résultats sont les suivants:

Niveau de production Epoque

Février Avril Juillet Octobre Décembre 0-8 L 104 113 116 110 98 8-15 L 104 115 117 115 94 >15 L 104 116 118 113 97

Quelles sont les influences respectives du facteur "époque" et du facteur "niveau de production" ?

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Epoque : 5 modalités (Février vs Avril vs Juillet vs Octobre vs Décembre)

• Niveau de production : 3 modalités (0-8L vs 8-15L vs >15L)

-VD (variable dépendante) = calcémie : variable continue

- Mesures répétées ? Non

- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez

pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on

suppose que c’est normal.

ANOVA 2

B. Poser les hypothèses :

��: ��� ���� � é��g : �héi#!�# = ��i#!� = �N�!���� = ������#� = �$é��j�#�

��: ��� ���� � %�k� � ���� &���% ∶ �h�!��� = �j�l�� = �é��ié

�(: )��� � é��g : �héi#!�# ≠ ��i#!� ≠ �N�!���� ≠ ������#� ≠ �$é��j�#�

�(: )��� � %�k� � ���� &���% ∶ �h�!��� ≠ �j�l�� ≠ �é��ié

L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.

Page 9: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 9

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Tableau de l’anova :

SC Ddl CM F Epoque 884,93 4 221,2333 0,8555 Niveau production

4,93 2 2,467 76,7283

Erreur 23,067 8 2,88 Total 912,93 14

Calculons les moyennes des différents groupes :

/m�A���000000000 = ∑ /% = (104 + 113 + 116 + 110 + 98)5 = 5415 = 108,2

/n�l��000000000 = ∑ /% = (104 + 115 + 117 + 115 + 94)5 = 5455 = 109

/o��ié00000000 = ∑ /% = (104 + 116 + 118 + 113 + 97)5 = 5485 = 109,6

/méi#A�#0000000000 = ∑ /% = (104 + 104 + 104)3 = 3123 = 104

/(i#A�0000000 = ∑ /% = (113 + 115 + 116)3 = 3443 = 114,67

/p�A����000000000 = ∑ /% = (116 + 117 + 118)3 = 3513 = 117

/q����#�00000000000 = ∑ /% = (110 + 115 + 113)3 = 3383 = 112,667

/ré��j�#�0000000000000 = ∑ /% = (98 + 94 + 97)3 = 2893 = 96,33

/D�����000000000 = ∑ /% = 163415 = 108,93

On peut à présent calculer les sommes de carré :

EF�#�$���!�� = %m. ∗ (/m.0000 − /D.0000)K + %n. ∗ (/n.00000 − /D.0000)K + %o. ∗ (/o.0000 − /D.0000)K= 5 ∗ (108,2 − 108,93)K + 5 ∗ (109 − 108,93)K + 5 ∗ (109,6 − 108,93) = 4,93

Page 10: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 10

Faculté de Médecine Vétérinaire Université de Liège

EF������ = %méi. ∗ (/méi.000000 − /D.0000)K + %(. ∗ (/(.0000 − /D.0000)K + %p. ∗ H/p.0000 − /D.0000JK + %q. ∗ (/q.0000 − /D.0000)K+ %r. ∗ (/r.0000 − /D.0000)K= 3 ∗ (104 − 108,93)K + 3 ∗ (114,67 − 108,93)K + 3 ∗ (117 − 108,93)K + 3∗ (112,67 − 108,93)K + 3 ∗ (96,33 − 108,93)² = 884,93

EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (104 − 108,2 − 104 + 108,93)K + (113 − 108,2 − 114,67 + 108,92)K+ (116 − 108,2 − 117 + 108,92)K + (110 − 108,2 − 112,667 + 108,92)K+ (98 − 108,2 − 96,33 + 108,92)K + (104 − 109 − 104 + 108,92)K+ (115 − 109 − 114,67 + 108,92)K + (117 − 109 − 117 + 108,92)K+ (115 − 109 − 112,667 + 108,92)K + (94 − 109 − 96,33 + 108,92)K+ (104 − 109,6 − 104 + 108,92)K + (116 − 109,6 − 114,67 + 108,92)K+ (118 − 109,6 − 117 + 108,92)K + (113 − 109,6 − 112,667 + 108,92)K + (97− 109,6 − 96,33 + 108,92)² = 23,067

EFQ����� = M(/!NO − /D.0000)²= (104 − 108,93)K + (113 − 108,92)K + (116 − 108,92)K + (110 − 108,92)K+ (98 − 108,92)K + (104 − 108,92)K + (115 − 108,92)K + (117 − 108,92)K+ (115 − 108,92)K + (94 − 108,92)K + (104 − 108,92)K + (116 − 108,92)K+ (118 − 108,92)K + (113 − 108,92)K + (97 − 108,92)² = 912,93

R� �#�$���!�� = %�#�$���!�� − 1 = 3 − 1 = 2

R� ������ = %������ − 1 = 5 − 1 = 4

R� �##��# = H%�#�$���!�� − 1J ∗ H%������ − 1J = (3 − 1) ∗ (5 − 1) = 8

R� ����� = S − 1 = 15 − 1 = 14

FT�#�$���!�� = EF�#�$���!��R� �#�$���!�� = 4,932 = 2,467

FT������ = EF������R� ������ = 884,934 = 221,233

FT�##��# = EF�##��#R� �##��# = 23,0678 = 2,88

U�#�$���!�� = FT�#�$���!��FT�##��# = 2,4672,88 = 0,8555

U������ = FT������FT�##��# = 221,2332,88 = 76,73

Page 11: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 11

Faculté de Médecine Vétérinaire Université de Liège

Allons voir dans la table des F (5%) :

- Effet production : On regarde à 2 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F

seuil est 4,46.

- Effet epoque : On regarde à 4 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F

seuil est 3,84.

D. Conclusion

- Effet production : La valeur de F observée (0,8555) est inférieure à la valeur de F seuil (4,46).

Cela signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si

l’H0 était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative entre les niveaux de production.

- Effet epoque : La valeur de F observée (76,73) est supérieure à la valeur de F seuil (3,84).

Cela signifie que l’on a une probabilité inférieure à 0,05 d’observer les données récoltées si

l’H0 était vraie. Cette probabilité étant très faible, cela signifie que H0 est probablement

fausse. On rejette H0. Il y a une différence significative en fonction de l’époque.

Page 12: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 12

Faculté de Médecine Vétérinaire Université de Liège

4. Un groupe de chats d’une même chatterie subit deux tests sérologiques afin de doser les anticorps anti-coronavirus, et cela à 4 mois d’intervalle. Les données sont les suivantes: Attention, il y a une erreur dans le tableau. Pour le chat 1 au test 2, il y a un seul signe + TEST1 TEST2 Chat 1 - + Chat 2 + + Chat 3 - + Chat 4 - + Chat 5 + -

Existe-t-il un statut virologique différent entre les deux tests ?

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : Moment du test : 2 modalités (Test 1 vs Test 2)

-VD (variable dépendante) = statut virologique : variable discrète à 2 modalités (+ vs - )

- Mesures répétées ? Oui

- Normalité des données ? La variable dépendante n’est pas continue donc on ne se pose même pas

cette question.

Test de Mc Nemar

B. Poser les hypothèses :

��: ��� ���� � -�-%� � ��� � � ���� � k��� �V�g

�(: )��� � -�-%� � ��� � � ���� � k��� �V�g

C. Calcul :

Pour réaliser le test de Mc Nemar, il faut réécrire les données pour avoir la table de fréquence :

Test 2 + -

Test 1 + 1 1 - 3 0

On s’intéresse uniquement aux changements de statut sérologique entre le test 1 et le test 2.

Page 13: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 13

Faculté de Médecine Vétérinaire Université de Liège

Les données observées sont donc :

Changements Test 1 + vers Test 2 - = 1

Changements Test 1 – vers Test 2 + = 3

Nombre total de changements = 1+3 = 4

On calcule les données attendues si l’hypothèse nulle est vraie :

Nombre de changements attendus dans un cas comme dans l’autre = 4/2 = 2

On calcule la valeur de chi-carré :

eK = ∑(�s� − ���)²��� = (1 − 2)²2 + (1 − 3)²2 = 1

Ddl = possibilités de changements – 1 = 2 – 1 = 1

A présent, on va dans la table des chi-carré pour chercher la valeur seuil :

On regarde à e�,f_K (en colonne) et à 1 ddl (en ligne). La valeur seuil est 3,841

D. Conclusion

La valeur de eK observée (1) est inférieure à la valeur de eK seuil (3,841). Cela signifie que l’on a

une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0 était vraie. On ne peut donc

pas rejeter H0. On accepte H0. Il n’y a pas d’effet du moment du test sur le statut virologique.

Une autre possibilité est d’utiliser le test du signe :

Pour ce test, il faut calculer les différences entre le test 1 et le test 2 :

TEST1 TEST2 Différence Chat 1 - + + Chat 2 + + = Chat 3 - + + Chat 4 - + + Chat 5 + - -

On ne s’occupe que des changements. Donc on a 4 valeurs au total, 3 différences positive et une

différence négative.

Page 14: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 14

Faculté de Médecine Vétérinaire Université de Liège

On utilise la distribution binomiale pour calculer la probabilité d’avoir 3 différences positives et 1

différences négatives selon l’hypothèse nulle.

Pour rappel :

�(�|�, %) = F�# ∗ �# ∗ (1 − �)�'#

Selon l’hypothèse nulle, il y a autant de différences positives que négatives et donc la prévalence

d’une différence positive ou négative = 0,5.

P(r>=3 |p=0,5 ; n = 4) = P(r=3) + P(r=4) = Fbu ∗ 0,5u ∗ 0,5^ + Fbb ∗ 0,5b ∗ 0,5� = 0,3125

OU

P(r<=1 |p=0,5 ;n=4) = P(r=1) + P(r=0) = Fb̂ ∗ 0,5^ ∗ 0,5u + Fb� ∗ 0,5� ∗ 0,5b = 0,3125

La probabilité d’observer nos données si H0 était correct est donc de 0,3125. Cette probabilité étant

supérieure à 0,05, on accepte H0. Il n’y a pas d’effet du moment du test sur le statut virologique.

Page 15: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 15

Faculté de Médecine Vétérinaire Université de Liège

5. Un groupe de chiennes Jack Russell Terrier subit des tests sanguins de dosage des oestrogènes au début de leurs chaleurs et cela sur 2 cycles consécutifs. Les données sont les suivantes:

Cycle 1 Cycle 2 Chien 1 12 10 Chien 2 18 18 Chien 3 20 22 Chien 4 16 20

Montrez si les taux ostrogéniques diffèrent significativement entre les deux cycles et entre les chiennes.

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Cycle : 2 modalités (Cycle 1 vs Cycle 2)

• Chiennes : 4 modalités (Chien 1 vs Chien 2 vs Chien 3 vs Chien 4)

-VD (variable dépendante) = taux oestrogènes : variable continue

- Mesures répétées ? Oui. Ce sont les mêmes chiennes aux 2 cycles. Mais vu qu’on prend en compte

l’effet chien, cet appariement sera considéré dans l’ANOVA 2.

- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez

pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on

suppose que c’est normal.

ANOVA 2

B. Poser les hypothèses :

��: ��� ���� � � &ℎ�%%: �^ = �K = �u = �b = �_

��: ��� ���� � &Y& ∶ ��l���^ = ��l���K

�(: )��� � � &ℎ�%%: � -��%� % ����é�%& ��V%���&���k

�(: )��� � &Y& ∶ ��l���^ ≠ ��l���K

L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.

Page 16: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 16

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Tableau de l’anova :

SC Ddl CM F Cycle 2 1 2 0,6 Chienne 108 3 36 10,8 Erreur 10 3 3,33 Total 120 7

Calculons les moyennes des différents groupes :

/�l���^000000000 = ∑ /% = (12 + 18 + 20 + 16)4 = 664 = 16,5

/�l���K000000000 = ∑ /% = (10 + 18 + 22 + 20)4 = 704 = 17,5

/^000 = ∑ /% = (12 + 10)2 = 11

/K000 = ∑ /% = (18 + 18)2 = 18

/u000 = ∑ /% = (20 + 22)2 = 21

/b000 = ∑ /% = (16 + 20)2 = 18

/D�����000000000 = ∑ /% = 1368 = 17

On peut à présent calculer les sommes de carré :

EF�l��� = %�l���^ ∗ H/�l���^000000000 − /D.0000JK + %�l���K ∗ H/�l���K000000000 − /D.0000JK= 4 ∗ (16,5 − 17)K + 4 ∗ (17,5 − 17)K = 2

EF�w!���� = %^ ∗ (/^000 − /D.0000)K + %K ∗ (/K000 − /D.0000)K + %u ∗ (/u000 − /D.0000)K + %b ∗ (/b000 − /D.0000)K= 2 ∗ (11 − 17)K + 2 ∗ (18 − 17)K + 2 ∗ (21 − 17)K + 2 ∗ (18 − 17)K = 108

Page 17: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 17

Faculté de Médecine Vétérinaire Université de Liège

EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (12 − 16,5 − 11 + 17)K + (18 − 16,5 − 18 + 17)K + (20 − 16,5 − 21 + 17)K+ (16 − 16,5 − 18 + 17)K + (10 − 17,5 − 11 + 17)K + (18 − 17,5 − 18 + 17)K+ (22 − 17,5 − 21 + 17)K + (20 − 17,5 − 18 + 17)K = 10

EFQ����� = M(/!NO − /D.0000)²= (12 − 17)K + (18 − 17)K + (20 − 17)K + (16 − 17)K + (10 − 17)K+ (18 − 17)K + (22 − 17)K + (20 − 17)K = 120

R� �l��� = %�l��� − 1 = 2 − 1 = 1

R� �w!���� = %�w!���� − 1 = 4 − 1 = 3

R� �##��# = H%�l��� − 1J ∗ (%�w!���� − 1) = (2 − 1) ∗ (4 − 1) = 3

R� ����� = S − 1 = 8 − 1 = 7

FT�l��� = EF�l���R� �l��� = 21 = 2

FT�w!���� = EF�w!����R� �w!���� = 1083 = 36

FT�##��# = EF�##��#R� �##��# = 103 = 3,33

U�l��� = FT�l���FT�##��# = 23,33 = 0,6

U�w!���� = FT�w!����FT�##��# = 363,33 = 10,8

Allons voir dans la table des F (5%) :

- Effet cycle : On regarde à 1 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F seuil

est 10,13.

- Effet chienne: On regarde à 3 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F

seuil est 9,28.

Page 18: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 18

Faculté de Médecine Vétérinaire Université de Liège

D. Conclusion

- Effet cycle : La valeur de F observée (0,6) est inférieure à la valeur de F seuil (10,13). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative entre les cycles.

- Effet chienne : La valeur de F observée (10,8) est supérieure à la valeur de F seuil (9,28). Cela

signifie que l’on a une probabilité inférieure à 0,05 d’observer les données récoltées si l’H0

était vraie. Cette probabilité étant très faible, cela signifie que H0 est probablement fausse. On

rejette H0. Il y a une différence significative en fonction de la chienne.

Page 19: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 19

Faculté de Médecine Vétérinaire Université de Liège

6. Trois doses croissantes d'un facteur A ont été essayées sur trois groupes de deux mâles et trois groupes de deux femelles. Cette expérience a donné les teneurs suivantes d'un constituant sanguin: Attention, l’énoncé n’est pas en accord avec le tableau. Il y a 3 groupes de mâles (2 avec 3 mâles et un avec 4 mâles) et 3 groupes de femelles (un avec 2, un avec 3 et un avec 4 femelles).

Facteur A

Dose I Dose II Dose III

Mâles 9 10 10 3 4 6 5 6 7 10

Femelles 10 13 6 9 5 5 9 3 3

On demande de tester si la dose et le sexe de l'animal ont un effet sur le constituant sanguin. L'effet du facteur est-il indépendant du sexe ?

REPONSE:

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Dose : 3 modalités (I vs II vs III)

• Sexe : 2 modalités (Mâles vs Femelles)

-VD (variable dépendante) = constituant sanguin : variable continue

- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.

- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez

pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on

suppose que c’est normal.

ANOVA 2

B. Poser les hypothèses :

��: ��� ���� � � ��� ∶ �x = �xx = �xxx ��: ��� ���� � �, ∶ �jâ��B = �h�j����B

��: ��� ��%���&���% ∶ �x'jâ��B = �x'h�j����B = �xx'jâ��B = �xx'h�j����B

�(: )��� � � ��� ∶ � -��%� % ����é�%& ��V%���&���k

�(: )��� � �, ∶ �jâ��B ≠ �h�j����B

�(: +%���&���% ∶ X -��%� % ����é�%& ��V%���&���k

Page 20: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 20

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Tableau de l’anova :

SC Ddl CM F Dose 80,23 2 40,11 8,9 Sexe 0 1 0 0 Interaction 17,19 2 8,59 1,91 Erreur 58,58 13 4,51 Total 156 18

Calculons les moyennes des différents groupes :

/x000 = ∑ /% = (9 + 10 + 10 + 10 + 13)5 = 525 = 10,4

/xx0000 = ∑ /% = (3 + 4 + 6 + 6 + 9 + 5 + 5)7 = 387 = 5,43

/xxx00000 = ∑ /% = (5 + 6 + 7 + 10 + 9 + 3 + 3)7 = 437 = 6,14

/jâ��B00000000 = ∑ /% = (9 + 10 + 10 + 3 + 4 + 6 + 5 + 6 + 7 + 10)10 = 7010 = 7

/h�j����B000000000000 = ∑ /% = (10 + 13 + 6 + 9 + 5 + 5 + 9 + 3 + 3)9 = 639 = 7

/x'j.0000000 = ∑ /% = (9 + 10 + 10)3 = 293 = 9,67

/xx'j.00000000 = ∑ /% = (3 + 4 + 6)3 = 133 = 4,33

/xxx'j.000000000 = ∑ /% = (5 + 6 + 7 + 10)4 = 284 = 7

/x'h.000000 = ∑ /% = (10 + 13)2 = 232 = 11,5

/xx'h.0000000 = ∑ /% = (6 + 9 + 5 + 5)4 = 254 = 6,25

/xxx'h.00000000 = ∑ /% = (9 + 3 + 3)3 = 153 = 5

/D�����000000000 = ∑ /% = 13319 = 7

Page 21: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 21

Faculté de Médecine Vétérinaire Université de Liège

On peut à présent calculer les sommes de carré :

EF$�B� = %x ∗ (/x000 − /D.0000)K + %xx ∗ (/xx0000 − /D.0000)K + %xxx ∗ (/xxx00000 − /D.0000)K= 5 ∗ (10,4 − 7)K + 7 ∗ (5,43 − 7)K + 7 ∗ (6,14 − 7)K = 80,2286

EFB�z� = %h. ∗ H/h.0000 − /D.0000JK + %j. ∗ (/j.00000 − /D.0000)K = 10 ∗ (7 − 7)K + 9 ∗ (7 − 7)² = 0

EF!���#���!�� = %x'j. ∗ (/x'j.0000000 − /x000 − /j.00000 + /D.0000)K + %xx'j. ∗ (/xx'j.00000000 − /xx0000 − /j.00000 + /D.0000)K+ %xxx'j. ∗ (/xxx'j.000000000 − /xxx00000 − /j.00000 + /D.0000)K + %x'h. ∗ H/x'h.000000 − /x000 − /h.0000 + /D.0000JK+ %xx'h. ∗ H/xx'h.0000000 − /xx0000 − /h.0000 + /D.0000JK + %xxx'h. ∗ H/xxx'h.00000000 − /xxx00000 − /h.0000 + /D.0000JK= 3 ∗ (9,67 − 10,4 − 7 + 7)K + 3 ∗ (4,33 − 5,43 − 7 + 7)K + 4∗ (7 − 6,14 − 7 + 7)K + 2 ∗ (11,5 − 10,4 − 7 + 7)K + 4 ∗ (6,25 − 5,43 − 7 + 7)K+ 3 ∗ (5 − 6,14 − 7 + 7)² = 17,188

EF�##��# = M(/!NO − /AP0000)²= (9 − 9,67)K + (10 − 9,67)K + (10 − 9,67)K + (3 − 4,33)K + (4 − 4,33)K+ (6 − 4,33)K + (5 − 7)K + (6 − 7)K + (7 − 7)K + (10 − 7)K + (10 − 11,5)K+ (13 − 11,5)K + (6 − 6,25)K + (9 − 6,25)K + (5 − 6,25)K + (5 − 6,25)K+ (9 − 5)K + (3 − 5)K + (3 − 5)K = 58,583

EFQ����� = M(/!NO − /D.0000)²= (9 − 7)K + (10 − 7)K + (10 − 7)K + (3 − 7)K + (4 − 7)K + (6 − 7)K + (5 − 7)K+ (6 − 7)K + (7 − 7)K + (10 − 7)K + (10 − 7)K + (13 − 7)K + (6 − 7)K+ (9 − 7)K + (5 − 7)K + (5 − 7)K + (9 − 7)K + (3 − 7)K + (3 − 7)K = 156

R� $�B� = %$�B� − 1 = 3 − 1 = 2

R� B�z� = %B�z� − 1 = 2 − 1 = 1

R� !���#���!�� = (%$�B� − 1) ∗ (%B�z� − 1) = (3 − 1) ∗ (2 − 1) = 2

R� �##��# = S − (%$�B� ∗ %B�z�) = 19 − (3 ∗ 2) = 13

R� ����� = S − 1 = 19 − 1 = 18

FT$�B� = EF$�B�R� $�B� = 80,22862 = 40,11

FTB�z� = EFB�z�R� B�z� = 01 = 0

FT!���#���!�� = EF!���#���!��R� !���#���!�� = 17,182 = 8,59

Page 22: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 22

Faculté de Médecine Vétérinaire Université de Liège

FT�##��# = EF�##��#R� �##��# = 58,58313 = 4,51

U$�B� = FT$�B�FT�##��# = 40,114,51 = 8,9016

UB�z� = FTB�z�FT�##��# = 04,51 = 0

U!���#���!�� = FT!���#���!��FT�##��# = 8,594,51 = 1,907

Allons voir dans la table des F (5%) :

- Effet dose : On regarde à 2 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil

est 3,81.

- Effet sexe : On regarde à 1 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil

est 4,67.

- Interaction : On regarde à 2 (en colonne) et 13 (en ligne) degrés de liberté. La valeur de F seuil

est 3,81.

D. Conclusion :

- Effet dose : Etant donné que la valeur de F observée (8,9) est supérieure à la valeur de F seuil

(3,81), on peut rejeter l’H0. Cela signifie que l’on a une probabilité inférieure à 0,05

d’observer les données récoltées si l’H0 était vraie. Cette probabilité étant très petite on rejette

l’H0 et on peut conclure qu’il y a une différence significative entre les différentes doses.

- Effet sexe : La valeur de F observée (0) est inférieure à la valeur de F seuil (4,67). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative en fonction du sexe.

- Interaction : La valeur de F observée (1,907) est inférieure à la valeur de F seuil (3,81). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas d’interaction dose-sexe.

L’effet de la dose est donc indépendant du sexe.

Page 23: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 23

Faculté de Médecine Vétérinaire Université de Liège

7. Les performances de lévriers de course ont été enregistrées (temps pour parcourir 1000m) et sont présentées dans le tableau qui suit :

Ecurie Chien Temps (sec.) Les Lévriers du Plat Pays

Médor 50 Saxo 48 – 49 - 52

Dog Speed Speed 49 – 55 Trash 71 - 62 Fusée 47

Faites les comparaisons possibles dans ce type d'analyse.

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Ecurie: 2 modalités (Les lévriers vs Dog Speed)

• Chien : 5 modalités (Médor vs Saxo vs Speed vs Trash vs Fusée)

! les modalités dépendent de l’écurie : Médor et Saxo se trouvent uniquement pour l’écurie

« Lévriers » et Speed, Trash et Fusée se trouvent uniquement pour l’écurie « Dog Speed ».

-VD (variable dépendante) = temps: variable continue

- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.

- Normalité des données ? Pas de précision dans l’énoncé. Mais vu qu’il y a 2 VI et que vous n’avez

pas vu comment faire dans ce genre de plan expérimentaux avec des tests non paramétriques, on

suppose que c’est normal.

ANOVA 2 hiérarchique

B. Poser les hypothèses :

��: ��� ���� � ′é& �� ∶ �|éi#!�#B = �r�" }���$

��: ��� ���� �� &ℎ�%� ��%� é& �� ∶ �né$�# = �}�z�� �}���$ = �Q#�Bw = �m�Bé�

�(: )��� � ′é& �� ∶ �|éi#!�#B ≠ �r�" }���$

�(: )��� �� &ℎ�%� ��%� é& �� ∶ �né$�# ≠ �}�z��/� �}���$ ≠ �Q#�Bw ≠ �m�Bé�

Page 24: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 24

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Tableau de l’anova :

SC Ddl CM F Ecurie 110,45 1 110,45 6,58 Chien (Ecurie) 330,38 3 110,13 6,56 Erreur 67,17 4 16,79 Total 508 8

Calculons les moyennes des différents groupes :

/�éi#A�#B00000000000 = ∑ /% = (50 + 48 + 49 + 52)4 = 1994 = 49,75

/r�"}���$0000000000000 = ∑ /% = (49 + 55 + 71 + 62 + 47)5 = 2845 = 56,8

/né$�#000000000 = ∑ /% = (50)1 = 50

/}�z�0000000 = ∑ /% = (48 + 49 + 52)3 = 1493 = 49,67

/}���$00000000 = ∑ /% = (49 + 55)2 = 1042 = 52

/Q#�Bw000000000 = ∑ /% = (71 + 62)2 = 1332 = 66,5

/m�Bé�00000000 = ∑ /% = (47)1 = 47

/D�����000000000 = ∑ /% = 4839 = 53,67

On peut à présent calculer les sommes de carré :

EF���#!� = %��i#!�#B ∗ (/��i#A�#B00000000000 − /D.0000)K + %r�"}���$ ∗ H/r�"}���$0000000000000 − /D.0000JK= 4 ∗ (49,75 − 53,67)K + 5 ∗ (56,8 − 53,67)K = 110,45

EF�w!�� = %né$�# ∗ (/né$�#000000000 − /�éi#A�#B00000000000)K + %}�z� ∗ (/}�z�0000000 − /��i#A�#B00000000000)K + %}���$∗ H/}���$00000000 − /r�"}���$0000000000000JK + %Q#�Bw ∗ H/Q#�Bw000000000 − /r�"}���$0000000000000JK + %m�Bé�∗ H/m�Bé�00000000 − /r�"}���$0000000000000JK= 1 ∗ (50 − 49,75)K + 3 ∗ (49,67 − 49,75)K + 2 ∗ (52 − 56,8)K + 2∗ (66,5 − 56,8)K + 1 ∗ (47 − 56,8)K = 330,3833

Page 25: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 25

Faculté de Médecine Vétérinaire Université de Liège

EF�##��# = M(/!NO − /AP0000)²= (50 − 50)K + (48 − 49,67)K + (49 − 49,67)K + (52 − 49,67)K + (49 − 52)K+ (55 − 52)K + (71 − 66,5)K + (62 − 66,5)K + (47 − 47)K = 67,167

EFQ����� = M(/!NO − /D.0000)²= (50 − 53,67)K + (48 − 53,67)K + (49 − 53,67)K + (52 − 53,67)K+ (49 − 53,67)K + (55 − 53,67)K + (71 − 53,67)K + (62 − 53,67)K+ (47 − 53,67)K = 508

R� ���#!� = %���#!� − 1 = 2 − 1 = 1

R� �w!�� = %�w!�� − %é��#!� = 5 − 2 = 3

R� �##��# = S − %�w!�� = 9 − 5 = 4

R� ����� = S − 1 = 9 − 1 = 8

FT���#!� = EF���#!�R� ���#!� = 110,451 = 110,45

FT�w!�� = EF�w!��R� �w!�� = 330,38333 = 110,1278

FT�##��# = EF�##��#R� �##��# = 67,1674 = 16,79167

U���#!� = FT���#!�FT�##��# = 110,4516,79 = 6,5776

U�w!�� = FT�w!��FT�##��# = 110,127816,79 = 6,56

Allons voir dans la table des F (5%) :

- Effet écurie : On regarde à 1 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de F seuil

est 7,71.

- Effet chien (écurie) : On regarde à 3 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de

F seuil est 6,59.

Page 26: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 26

Faculté de Médecine Vétérinaire Université de Liège

D. Conclusion:

- Effet écurie : La valeur de F observée (6,58) est inférieure à la valeur de F seuil (7,71). Cela

signifie que l’on a une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0

était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de différence

significative en fonction de l’écurie.

- Effet chien dans l’écurie : La valeur de F observée (6,56) est inférieure à la valeur de F seuil

(6,59). Cela signifie que l’on a une probabilité supérieure à 0,05 d’observer les données

récoltées si l’H0 était vraie. On ne peut donc pas rejeter H0. On accepte H0. Il n’y a pas de

différence entre les chiens dans l’écurie.

Page 27: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 27

Faculté de Médecine Vétérinaire Université de Liège

8. Un clinicien souhaite évaluer l’efficacité de trois molécules antalgiques sur groupe de chiens atteints de fractures multiples réduites chirurgicalement. Un score clinique, dont la distribution n’est pas normale, de 0 (pas de douleur) à 5 (douleur intense), est attribué afin de voir l’efficacité de chaque molécule. Les données sont les suivantes: Carprofen Méloxidyl Paracétamol 2 1 2 2 2 4 1 0 3 3 5

Existe-t-il une différence d’efficacité entre les molécules ?

REPONSE :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : molécules antalgiques : 3 modalités (Carprofen vs Méloxidyl vs

Paracétamol)

-VD (variable dépendante) = score clinique: variable continue

- Mesures répétées ? Non ce sont des chiens différents dans tous les groupes.

- Normalité des données ? Non, on précise dans l’énoncé que la distribution n’est pas normale.

Test de Kruskal-Wallis.

B. Poser les hypothèses :

��: �#��"B W�#�#�h�� = �#��"B né��z!$l� = �#��"B ��#��é��j�� �(: X -��%� % ����é�%& %�� � 3 -� é& �.

C. Calcul :

On doit commencer par transformer les données en rangs (indépendamment du groupe dans lequel

elles appartiennent) :

Carprofen Méloxidyl Paracétamol Données Rangs Données Rangs Données Rangs 2 (4+5+6+7)/4 = 5,5 1 (2+3)/2 = 2,5 2 5,5 2 5,5 2 5,5 4 10 1 2,5 0 1 3 8,5 3 (8+9)/2 = 8,5 5 11

Page 28: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 28

Faculté de Médecine Vétérinaire Université de Liège

La formule du test de kruskal-Wallis se trouve dans le formulaire de stat au point 10.2 :

eK = 12% ∗ (% + 1) ∗ M %! ∗ �̅!K − 3 ∗ (% + 1)

Nous devons donc calculer les moyennes de rangs de chaque groupe :

�W��#�h��000000000000 = ∑ ��%V�% = (5,5 + 5,5 + 2,5 + 8,5)4 = 224 = 5,5

�né��zA$l�000000000000 = ∑ ��%V�% = (2,5 + 5,5 + 1)3 = 93 = 3

���#��é��j��000000000000000 = ∑ ��%V�% = (5,5 + 10 + 8,5 + 11)4 = 354 = 8,75

eK = 12% ∗ (% + 1) ∗ M %! ∗ �̅!K − 3 ∗ (% + 1)= 1211 ∗ (11 + 1) ∗ (4 ∗ 5,5K + 3 ∗ 3K + 4 ∗ 8,75K) − 3 ∗ (11 + 1) = 5,2954

Ddl = n groupe – 1 = 3 – 1 = 3

A présent, on va dans la table des chi-carré pour chercher la valeur seuil :

On regarde à e�,f_K (en colonne) et à 2 ddl (en ligne). La valeur seuil est 5,91

D. Conclusion

La valeur de eK observée (5,29) est inférieure à la valeur de eK seuil (5,91). Cela signifie que l’on a

une probabilité supérieure à 0,05 d’observer les données récoltées si l’H0 était vraie. On ne peut donc

pas rejeter H0. On accepte H0. Il n’y a pas d’effet de différence d’efficacité entre les molécules.

Page 29: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 29

Faculté de Médecine Vétérinaire Université de Liège

9. Des bovins ont été répartis par classe d'âge et par catégorie de conformation, et le poids (moyen) de chaque animal a ensuite été mesuré. Les données sont dans la table suivante:

Age Catégorie Poids 1 1 411 1 2 356 1 3 485 2 1 621 2 2 584 2 3 613 3 1 681 3 2 599 3 3 702

Montrez l’existence d’une relation linéaire du poids en fonction de l’âge puis montrez l’influence de l’âge et de la catégorie sur le poids. Tenir compte de la catégorie est-il nécessaire ?

REPONSE :

1. Relation linéaire du poids en fonction de l’âge :

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : âge : variable continue

-VD (variable dépendante) : poids : variable continue

=> Relation linéaire entre 2 variables continues = Régression linéaire simple.

Test de régression linaire simple.

B. Poser les hypothèses :

��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���.

On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans

un test bilatéral

Page 30: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 30

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²

/0 = ∑ /% = (1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3)9 = 189 = 2

�0 = ∑ �% = (411 + 256 + 485 + 621 + 584 + 613 + 681 + 599 + 702)9 = 50529 = 561,33

Age = X

Poids = Y

x = / − /0 y = � − �0 x*y x²

1 411 (1-2) = -1 (411-561,33)=-150,33 (-1*-150,33) = 150,33 (-1)² = 1 1 356 (1-2) = -1 (356-561,33)=-205,33 (-1*-205,33)=205,33 (-1)² = 1 1 485 (1-2) = -1 (485-561,33)=-76,33 (-1*-76,33)=76,33 (-1)² = 1 2 621 (2-2) = 0 (621-561,33)=59,667 (0*59,667)=0 0²=0 2 584 (2-2) = 0 (584-561,33)=22,667 (0*22,667)=0 0²=0 2 613 (2-2) = 0 (613-561,33)=51,667 (0*51,667)=0 0²=0 3 681 (3-2) = 1 (681-561,33)=119,667 (1*119,667)=119,667 1²=1 3 599 (3-2) = 1 (599-561,33)=37,667 (1*37,667)=37,667 1²=1 3 702 (3-2) = 1 (702-561,33)=140,667 (1*140,667)=140,667 1²=1 Somme : 0 0 730 6

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 7306 = 121,667

A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est

significativement différente de 0 dans la population :

- Utilisé la statistique t

- Faire une analyse de variance

• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)

� = s − �E�

Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²

Page 31: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 31

Faculté de Médecine Vétérinaire Université de Liège

Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de

Y :

�� = � + s ∗ /

Où � = �0 − s ∗ /0

� = �0 − s ∗ /0 = 561,33 − 121,667 ∗ 2 = 318

Age = X

Poids = Y

Y prédits (��) (� − ��)²

1 411 =318+121,667*1 = 439,667 =(411-439,667)²=821,778 1 356 =318+121,667*1 = 439,667 (356-439,667)² = 7000,111 1 485 =318+121,667*1 = 439,667 (485-439,667)² = 2055,111 2 621 =318+121,667*2 = 561,33 (621-561,33)² = 3560,111 2 584 =318+121,667*2 = 561,33 (584-561,33)² = 513,778 2 613 =318+121,667*2 = 561,33 (613-561,33)² = 2669,444 3 681 =318+121,667*3 = 683 (681-683)² = 4 3 599 =318+121,667*3 = 683 (599-683)² = 7056 3 702 =318+121,667*3 = 683 (702-683)² = 361 Somme : 24041,333

E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = Kb�b^,uu(f'K)∗� = 572,412698

� = �'�}� = ^K^,��'�√_�K,b^ = 5,085

Ddl = n – 2 = 9-2 = 7

Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 7 degrés de liberté.

La valeur de t seuil est 2,365.

• En passant par l’analyse de variance :

SC Ddl CM F Régression 88816,667 1 88816,667 25,86 Erreur 24041,33 7 3434,57619 Total 112858 8

EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y

Page 32: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 32

Faculté de Médecine Vétérinaire Université de Liège

Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs

pour les deux dernières possibilités, on en conclut donc que :

EF�é"#�BB!�� = s ∗ M , ∗ Y = 121,67 ∗ 730 = 88816,667

EF�##��# = ∑H�� − �JK = 24041,33 C’est le numérateur de E�K calculer dans le test de t.

EF����� = M(� − �0)² = M Y²

Age = X

Poids = Y

y = � − �0 y²

1 411 (411-561,33)=-150,33 (-150,33)² = 22600,11 1 356 (356-561,33)=-205,33 (-205,33)² = 42161,78 1 485 (485-561,33)=-76,33 (-76,33)² = 5826,78 2 621 (621-561,33)=59,667 (59,67)² = 3560,11 2 584 (584-561,33)=22,667 (22,67)² = 513,78 2 613 (613-561,33)=51,667 (51,67)² = 2669,44 3 681 (681-561,33)=119,667 (119,67)² = 14320,11 3 599 (599-561,33)=37,667 (37,67)² = 1418,78 3 702 (702-561,33)=140,667 (140,67)² = 19787,11 Somme : 0 112858

EF����� = 112858

Ddl regression = nombre de X = 1

Ddl erreur = N – 2 = 9 – 2 = 7

Ddl total = N – 1 = 9-1 = 8

FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 88816,6671 = 88816,667

FT�##��# = EF�##��#R� �##��# = 24041,337 = 3434,57619

U = FT#�"#�BB!��FT�##��# = 88816,6673434,57619 = 25,8603

Vous pouvez vérifier que t² = F : 5,0853047² = 25,8603

Page 33: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 33

Faculté de Médecine Vétérinaire Université de Liège

Allons voir dans la table des F (5%) :

On regarde à 1 (en colonne) et 7 (en ligne) degrés de liberté. La valeur de F seuil est 5,59.

D. Conclusions :

Par rapport au test de t :

La valeur de t observée (5,085) est supérieure à la valeur de t seuil (2,365). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids et l’âge.

Par rapport au test de F :

La valeur de F observée (25,86) est supérieure à la valeur de F seuil (5,59). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids et l’âge.

2. Tenir compte de la catégorie est-il nécessaire ?

Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• âge : variable continue discrète (seulement 3 valeurs : 1, 2 ou 3)

• catégorie : variable continue discrète (seulement 3 valeurs : 1, 2 ou 3)

-VD (variable dépendante) : poids : variable continue

Vous avez 2 possibilités :

Soit vous considérez l’âge et la catégorie comme des variables continues, vous êtes donc dans une

régression linéaire multiple.

Soit vous considérez l’âge et la catégorie comme des variables discrètes avec 3 modalités chacune,

vous êtes donc dans une Anova II.

• Régression linéaire multiple :

A. Poser les hypothèses :

��: �^ = �K = 0

�(: �^ ≠ �K ≠ 0

Page 34: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 34

Faculté de Médecine Vétérinaire Université de Liège

B. Calcul :

On calcule les pentes des deux variables indépendantes (âge et catégorie) :

Selon le formulaire de stat (8.3.1):

s^ = R^R

sK = RKR

Où R = ∑ ,K̂ ∗ ∑ ,KK − (∑ ,^,K)²

R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY

RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y

On va compléter le tableau de tout à l’heure :

Age = X1

Cat. = X2

Poids = Y

x1= /^ − /^000 y = � − �0

x1*y x1² x2²= (/K − /K000)²

x2*y x1*x2

1 1 411 -1 -150,33 150,33 1 (1-2)² = 1 (-1*-150,33)

= 150,33 -1*-1 =

1

1 2 356 -1 -205,33 205,33 1 (2-2)² = 0 (0*-205,33) =

0 -1*0 =

0

1 3 485 -1 -76,33 76,33 1 (3-2)² = 1 (1*-76,33) =

-76,33 -1*1 =

-1

2 1 621 0 59,667 0 0 (1-2)² = 1 (-1*59,667) =

-59,667 0*-1 =

0

2 2 584 0 22,667 0 0 (2-2)² = 0 (0*22,667) =

0 0*0 =

0

2 3 613 0 51,667 0 0 (3-2)² = 1 (1*51,667) =

51,667 0*1 =

0

3 1 681 1 119,667 119,667 1 (1-2)² = 1 (-1*119,667)

= -119,667

1*-1 = -1

3 2 599 1 37,667 37,667 1 (2-2)² = 0 (0*37,667) =

0 1*0 =

0

3 3 702 1 140,667 140,667 1 (3-2)² = 1 (1*140,667) =

140,667 1*1 =

1

/K000= 2

SOMME 0 0 730 6 6 87 0

R = M ,K̂ ∗ M ,KK − �M ,^,K�K = 6 ∗ 6 − 0K = 36

R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY = 730 ∗ 6 − 0 ∗ 87 = 4380

Page 35: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 35

Faculté de Médecine Vétérinaire Université de Liège

RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y = 87 ∗ 6 − 0 ∗ 730 = 522

s^ = R^R = 438036 = 121,67

sK = RKR = 52236 = 14,5

On est dans le cas particulier où ∑ ,^,K = 0 et donc les pentes de la régression multiple sont identique

aux pentes de la régression simple de chaque X avec Y.

A présent, pour tester si la régression multiple est significative, nous devons faire une analyse de

variance sur les données de Y prédits :

SC Ddl CM F Régression 90078,17 2 45039,08 11,86 Erreur 22779,83 6 3796,64 Total 112853 8

EF�é"#�BB!�� = M(�� − �0)² = s^ ∗ M ,^Y + sK ∗ M ,KY = 121,67 ∗ 730 + 14,5 ∗ 87 = 90078,17

EF�##��# = MH�� − �JK = EF����� − EF#é"#�BB!�� = 112853 − 90078,17 = 22779,83

EF����� = M(� − �0)² = M Y² = 112853

Ddl régression = nombre de X = 2

Ddl erreur = N – nombre de variables = 9 – 3 = 6

Ddl total = N – 1 = 9-1 = 8

FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 90078,172 = 45039,08

FT�##��# = EF�##��#R� �##��# = 22779,836 = 3796,64

U = FT#�"#�BB!��FT�##��# = 45039,083796,64 = 11,86

Page 36: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 36

Faculté de Médecine Vétérinaire Université de Liège

Allons voir dans la table des F (5%) :

On regarde à 2 (en colonne) et 6 (en ligne) degrés de liberté. La valeur de F seuil est 5,14.

C. Conclusion :

La valeur de F observée (11,86) est supérieure à la valeur de F seuil (5,14). Cela signifie que la

probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. La régression

linéaire multiple est significative.

D. Différence entre régression simple et régression multiple :

On a vu au point 1 que la régression simple de l’âge était significative. On vient de voir que la

régression multiple de l’âge et de la catégorie est également significative. La question qu’on peut se

poser à présent est « Y a-t-il un modèle meilleur que l’autre ? L’ajout de la variable catégorie

améliore-t-elle le modèle ? »

Pour ce faire, on va comparer le modèle de régression simple de l’âge avec le modèle de régression

multiple.

�� : EF �éV�����%j���!��� − EF �éV�����%�"� = 0

�( : EF �éV�����%j���!��� − EF �éV�����%�"� > 0

Pour rappel :

EF �éV�����%("� = 88816,67

EF �éV�����%j���!��� = 90078,17

EF )�� �j���!��� = 22779,83

RR �éV�����%�"� = 1

RR �éV�����%j���!��� = 2

RR )�� �j���!��� = 6

U = (EF�j���!��� − EF��"�) (R� j���!��� − R� �"�)�

EF)j���!��� R� j���!���� = (90078,17 − 88816,67) (2 − 1)�22779,83/6 = 0,33

Page 37: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 37

Faculté de Médecine Vétérinaire Université de Liège

Allons voir dans la table des F (5%) :

On regarde à 1 (en colonne) et 6 (en ligne) degrés de liberté. La valeur de F seuil est 5,99.

La valeur de F observée (0,33) est inférieure à la valeur de F seuil (5,99). Cela signifie que la

probabilité d’observer les données si H0 était vraie est supérieure à 0,05. On accepte H0. La régression

multiple n’explique pas plus que la régression simple de l’âge sur le poids. Il n’y a donc pas d’intérêt

d’ajouter la catégorie au modèle.

• Anova II :

Je vais refaire le tableau des données brutes croisées pour plus de facilités :

Catégorie 1 2 3

Age 1 411 356 485 2 621 584 613 3 681 599 702

A. Poser les hypothèses :

��: ��� ���� � âV: �^ = �K = �u

��: ��� ���� � � &��éV��� ∶ �^ = �K = �u

�(: )��� � âV: � -��%� % ����é�%& ��V%���&���k

�(: )��� � � &��éV���: � -��%� % ����é�%& ��V%���&���k

L’interaction est impossible à tester puisqu’il n’y a qu’une donnée à chaque croisement des 2 VI.

B. Calcul :

Tableau de l’anova :

SC Ddl CM F Age 97794,67 2 48897,33 59,46 Catégorie 11777 2 5884 7,16 Erreur 3289,33 4 822,33 Total 112858 8

Page 38: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 38

Faculté de Médecine Vétérinaire Université de Liège

Calculons les moyennes des différents groupes :

/("�^0000000 = ∑ /% = (411 + 356 + 485)3 = 417,33

/("�K0000000 = ∑ /% = (621 + 584 + 613)3 = 606

/("�u0000000 = ∑ /% = (681 + 599 + 702)3 = 660,667

/���.^0000000 = ∑ /% = (411 + 621 + 681)3 = 571

/���.K0000000 = ∑ /% = (356 + 584 + 599)3 = 513

/���.u0000000 = ∑ /% = (485 + 613 + 702)3 = 600

/D�����000000000 = ∑ /% = 50529 = 561,33

On peut à présent calculer les sommes de carré :

EF�"� = %�"�^ ∗ H/�"�^0000000 − /D.0000JK + %�"�K ∗ H/�"�K0000000 − /D.0000JK + %�"�u ∗ H/�"�u0000000 − /D.0000JK= 3 ∗ (417,33 − 561,33)K + 3 ∗ (606 − 561,33)K + 3 ∗ (660,67 − 561,33)K= 97794,67

EF���é"�#!� = %���.^ ∗ (/���.^0000000 − /D.0000)K + %���.K ∗ (/���.K0000000 − /D.0000)K + %���.u ∗ (/���.u0000000 − /D.0000)K= 3 ∗ (571 − 561,33)K + 3 ∗ (513 − 561,33)K + 3 ∗ (600 − 561,33)K = 11774

EF�##��# = MH/!N − /A\ − /P\ + /D.0000JK= (411 − 417,32 − 571 + 561,33)K + (356 − 417,33 − 513 + 561,33)K+ (485 − 41,33 − 600 + 561,33)K + (621 − 606 − 571 + 561,33)K+ (584 − 606 − 513 + 561,33)K + (613 − 606 − 600 + 561,33)K+ (681 − 660,67 − 571 + 561,33)K + (599 − 660,67 − 513 + 561,33)K + (702− 660,67 − 600 + 561,33)² = 3289,33

Page 39: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 39

Faculté de Médecine Vétérinaire Université de Liège

EFQ����� = M(/!NO − /D.0000)²= (411 − 561,33)K + (256 − 561,33)K + (485 − 561,33)K + (621 − 561,33)K+ (584 − 561,33)K + (613 − 561,33)K + (681 − 561,33)K + (599 − 561,33)K+ (702 − 561,33)² = 112858

R� �"� = %�"� − 1 = 3 − 1 = 2

R� ����"�#!� = %���. − 1 = 3 − 1 = 2

R� �##��# = H%�"� − 1J ∗ (%���. − 1) = (3 − 1) ∗ (3 − 1) = 4

R� ����� = S − 1 = 9 − 1 = 8

FT�"� = EF�"�R� �"� = 97794,672 = 48897,33

FT���é"�#!� = EF���é"�#!�R� ���é"�#!� = 117772 = 5884

FT�##��# = EF�##��#R� �##��# = 3289,334 = 822,33

U�"� = FT�"�FT�##��# = 48897,33822,33 = 59,46

U���é"�#!� = FT���é"�#!�FT�##��# = 5884822,33 = 7,16

Allons voir dans la table des F (5%) :

- Effet age : On regarde à 2 (en colonne) et 3 (en ligne) degrés de liberté. La valeur de F seuil

est 6,94.

- Effet catégorie: On regarde à 2 (en colonne) et 4 (en ligne) degrés de liberté. La valeur de F

seuil est 6,94.

C. Conclusion :

-Effet de l’âge : La valeur de F observée (59,46) est supérieure à la valeur de F seuil (6,94). Cela

signifie que la probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. Il

y a un effet significatif de l’âge.

Page 40: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 40

Faculté de Médecine Vétérinaire Université de Liège

-Effet de la catégorie : La valeur de F observée (7,16) est supérieure à la valeur de F seuil (6,94). Cela

signifie que la probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. Il

y a un effet significatif de la catégorie.

Il y a donc un intérêt de tenir compte de la catégorie.

Page 41: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 41

Faculté de Médecine Vétérinaire Université de Liège

10. L'injection d'hormone de croissance (GH) chez le mouton augmente le poids à l'abattage. On a remarqué que ce gain pondéral était d'autant plus grand que la quantité d'hormone injectée était élevée. On suppose donc la relation linéaire entre ces deux variables. Voici les mesures prises sur 5 moutons différents : GH(UI/10 kg) Gain pondéral (kg)

6 8 1,6 4

20,3 19 16,2 16 12,5 13

Montrez la relation entre le gain pondéral et l’administration de GH.

REPONSE :

Choix du test :

Via l’ « ABC de R » :

-Variable 1 : Injection d’hormone de croissance : variable continue

-Variable 2 : gain pondéral : variable continue

=> Relation linéaire entre 2 variables continues :

- Régression linéaire simple.

- Test de corrélation.

1. Régression linéaire simple :

Il faut choisir une variable qui sera la variable dépendante (Y) et une autre qui sera la variable

indépendante (X). Dans l’énoncé, on dit que l’injection de GH augmente le poids à l’abattage. Donc,

le poids à l’abattage dépend de l’injection de GH. Le poids à l’abattage sera donc la variable

dépendante (Y) et l’injection de GH sera la variable indépendante (X).

A. Poser les hypothèses :

��: � = 0 ∶ ��� � � ����% �%é���. �(: � > 0 ∶ � ����% �%é���. On dit dans l’énoncé que le gain pondéral est d’autant plus grand que la quantité d’hormone est

injectée est élevée. On supposer donc un sens positif à la relation linéaire. On est donc dans un test

unilatéral

Page 42: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 42

Faculté de Médecine Vétérinaire Université de Liège

B. Calcul :

Etant donné que la statistique F est toujours positive et bilatérale, on va utiliser un test de t qui nous

permet de tester uniquement si la pente est significativement positive.

Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²

/0 = ∑ /% = (6 + 1,6 + 20,3 + 16,2 + 12,5)5 = 11,32

�0 = ∑ �% = (8 + 4 + 19 + 16 + 13)5 = 12

GH = X

Gain = Y

x = / − /0 y = � − �0 x*y x²

6 8 (6-11,32) = -5,32 (8-12) = -4 -5,32*-4 = 21,28 (-5,32)² = 28,30 1,6 4 (1,6-11,32) = -9,72 (4-12) = -8 -9,72*-8 = 77,76 (-9,72)² = 94,48

20,3 19 (20,3-11,32) = 8,98 (19-12) = 7 8,98*7 = 62,86 8,98² = 80,64 16,2 16 (16,2-11,32) = 4,88 (16-12) = 4 4,88*4 = 19,52 4,88² = 23,81 12,5 13 (12,5-11,32) = 1,18 (13-12) = 1 1,18*1 = 1,18 1,18² = 1,39

Somme : 0 0 182,6 228,628

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 182,6228,628 = 0,7987

En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)

� = s − �E�

Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²

Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de

Y :

�� = � + s ∗ /

Où � = �0 − s ∗ /0

� = �0 − s ∗ /0 = 12 − 0,7987 ∗ 11,32 = 2,9589

Page 43: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 43

Faculté de Médecine Vétérinaire Université de Liège

GH = X

Gain = Y

Y prédits (��) (� − ��)²

6 8 =2,9589+0,7987*6 = 7,75 (8-7,75)² = 0,06 1,6 4 =2,9589+0,7987*1,6 = 4,24 (4-4,24)² = 0,056

20,3 19 =2,9589+0,7987*20,3 =

19,17 (19,17-19)² = 0,030

16,2 16 =2,9589+0,7987*16,2 =

15,90 (15,90-16)² = 0,01

12,5 13 =2,9589+0,7987*12,5 =

12,94 (12,94-13)² = 0,003

Somme : 0,16152002

E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = �,^�(_'K)∗KKa,�Ka = 0,00023549

� = �'�}� = �,�fa�'�√�,���Ku = 52,045

Ddl = n – 2 = 5-2 = 3

Allons dans la table des t à t0,05 (comme on est dans un test unilatéral) et 3 degrés de liberté.

La valeur de t seuil est 2,353.

C. Conclusion :

La valeur de t observée (52,045) est supérieure à la valeur de t seuil (2,353). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids à l’abattage et l’injection de GH.

2. Corrélation :

Dans ce cas-ci, il n’y a pas d’importance du choix de X et Y.

A. Poser les hypothèses :

��: � = 0 ∶ ��� � &���é ����%

�(: � > 0 ∶ F���é ����% ������k

On dit dans l’énoncé que le gain pondéral est d’autant plus grand que la quantité d’hormone est

injectée est élevée. On supposer donc un sens positif à la relation linéaire. On est donc dans un test

unilatéral

Page 44: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 44

Faculté de Médecine Vétérinaire Université de Liège

B. Calcul :

La formule de la corrélation se trouve dans le formulaire de stat au point 9.

� = ∑ ,Y�∑ ,² ∗ ∑ Y²

On peut repartir des données calculées lors de la régression. Il nous manque le calcul de y².

/0 = ∑ /% = (6 + 1,6 + 20,3 + 16,2 + 12,5)5 = 11,32

�0 = ∑ �% = (8 + 4 + 19 + 16 + 13)5 = 12

GH = X

Gain = Y

x = / − /0 y = � − �0 x*y x² y²

6 8 (6-11,32) =

-5,32 (8-12) =

-4 -5,32*-4 =

21,28 (-5,32)² =

28,30 (-4)² = 16

1,6 4 (1,6-11,32) =

-9,72 (4-12) =

-8 -9,72*-8 =

77,76 (-9,72)² =

94,48 (-8)² = 64

20,3 19 (20,3-11,32) =

8,98 (19-12) =

7 8,98*7 =

62,86 9,28² = 80,64

7² = 49

16,2 16 (16,2-11,32) =

4,88 (16-12) =

4 4,88*4 =

19,52 4,88² = 23,81

4² = 16

12,5 13 (12,5-11,32) =

1,18 (13-12) =

1 1,18*1 =

1,18 1,18² =

1,39 1² = 1

Somme : 0 0 182,6 228,628 146

� = ∑ ,Y�∑ ,² ∗ ∑ Y² = 182,6√228,628 ∗ 146 = 0,999

On passe par la statistique t :

� = ��1 − �² ∗ √S − 2 = 0,99�1 − 0,99K ∗ √5 − 2 = 52,045

On constate que cette valeur de t est identique à celle calculée dans la régression simple.

Ddl = n – 2 = 5-2 = 3

Page 45: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 45

Faculté de Médecine Vétérinaire Université de Liège

Allons dans la table des t à t0,05 (comme on est dans un test unilatéral) et 3 degrés de liberté.

La valeur de t seuil est 2,353.

C. Conclusion :

La valeur de t observée (52,045) est supérieure à la valeur de t seuil (2,353). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

corrélation significative entre le poids à l’abattage et l’injection de GH.

Page 46: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 46

Faculté de Médecine Vétérinaire Université de Liège

11. Au terme d’une expérience comportant l’administration d’un même régime à 10 souches de White Leghorn, on a mesuré le poids moyen de 50 poules de chaque souche après 350 jours et la consommation alimentaire moyenne de chacune de ces souches. Les résultats ont été les suivants (exprimés en livres) : Poids corporel Consommation alimentaire

4,6 87,1 5,1 93,1 4,8 89,8 4,4 91,4 5,9 99,5 4,7 92,1 5,1 95,5 5,2 99,3 4,9 93,4 5,1 94,4

a) On demande de mesurer la relation qui existe entre ces deux variables et d’en tester la signification au moyen de deux tests. Calculez l’intervalle de confiance 95% du coefficient de régression b) Quel serait l’intervalle de confiance 95% de la prédiction de la consommation en 350 jours d’une poule ayant un poids de 5,3 livres. c) Soit un lot de 50 poules ayant atteint, au terme de l’expérience, le poids moyen de 5,3 livres, on demande de calculer l’intervalle de confiance 95% de la prédiction de la consommation moyenne en 350 jours, pour ce lot particulier.

REPONSE :

a) On demande de mesurer la relation qui existe entre ces deux variables et d’en

tester la signification au moyen de deux tests. Calculez l’intervalle de confiance

95% du coefficient de régression :

A. Choix du test :

Via l’ « ABC de R » :

-Variable 1 : Poids corporel : variable continue

-Variable 2 : Consommation alimentaire : variable continue

=> Relation linéaire entre 2 variables continues :

- Régression linéaire simple.

- Test de corrélation.

Comme dans la question, on nous demande de calculez l’intervalle de confiance 95% du coefficient de

régression, on en déduit qu’on doit réaliser une régression.

Page 47: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 47

Faculté de Médecine Vétérinaire Université de Liège

B. Poser les hypothèses :

��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���. On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans

un test bilatéral.

Comme on veut voir l’influence du poids sur la quantité consommée, c’est le poids qui influence la

consommation alimentaire. La consommation alimentaire dépend donc du poids. Le poids sera donc la

variable indépendante (X) et la consommation sera la variable dépendante (Y).

On nous demande de tester la régression au moyen de deux tests. Pour tester la nullité de la pente, on

peut utiliser un test de t ou une analyse de variance.

C. Calcul :

Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²

/0 = ∑ /% = (4,6 + 5,1 + 4,8 + 4,4 + 5,9 + 4,7 + 5,1 + 5,2 + 4,9 + 5,1)10 = 4,98

�0 = ∑ �% = (87,1 + 93,1 + 89,8 + 91,4 + 99,5 + 92,1 + 95,5 + 99,3 + 93,4 + 94,4)10 = 93,56

Poids = X

Consommation = Y

x = / − /0 y = � − �0 x*y x²

4,6 87,1 (4,6-4,98)

= -0,38 (87,1-93,56) =

-6,46 (-0,38*-6,46) =

2,4548 (-0,38)² =

0,1444

5,1 93,1 (5,1-4,98)

= 0,12 (93,1-93,56) =

-0,46 (0,12*-0,46) =

-0,0552 (0,12)² = 0,0144

4,8 89,8 (4,8-4,98)

= -0,18 (89,8-93,56) =

-3,76 (-0,18*-3,76) =

0,6768 (-0,18)² =

0,0324

4,4 91,4 (4,4-4,98)

= -0,58 (91,4-93,56) =

-2,16 (-0,58*-2,16) =

5,4648 (-0,58)² =

0,3364

5,9 99,5 (5,9-4,98)

= 0,92 (99,5-93,56) =

5,94 (0,92*5,94) =

5,4648 (0,92)² = 0,8464

4,7 92,1 (4,7-4,98)

= -0,28 (92,1-93,56) =

-1,46 (-0,28*-1,46) =

0,4088 (-0,28)² =

0,0784

5,1 95,5 (5,1-4,98)

= 0,12 (95,5-93,56) =

1,94 (0,12*1,94) =

0,2328 (0,12)² = 0,0144

5,2 99,3 (5,2-4,9) =

0,22 (99,3-93,56) =

5,74 (0,22*5,74) =

1,2628 (0,22)² = 0,0484

4,9 93,4 (4,9-4,98)

= -0,08 (93,4-93,56) =

-0,16 (-0,08*-0,16) =

0,0128 (-0,08)² =

0,0064

5,1 94,4 (5,1-4,98)

= 0,12 (94,4-93,56) =

0,84 (0,12*0,84) =

0,1008 (0,12)² = 0,0144

Somme : 0 0 11,812 1,536

Page 48: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 48

Faculté de Médecine Vétérinaire Université de Liège

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 11,8121,536 = 7,69

A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est

significativement différente de 0 dans la population :

- Utilisé la statistique t

- Faire une analyse de variance

• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)

� = s − �E�

Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)²

Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de

Y :

�� = � + s ∗ /

Où � = �0 − s ∗ /0

� = �0 − s ∗ /0 = 93,56 − 7,69 ∗ 4,98 = 55,26

Poids = X

Consommation = Y

Y prédits (��) (� − ��)²

4,6 87,1 55,26 + 7,69*4,6 = 90,64 (87,1-90,64)² = 12,51 5,1 93,1 55,26 + 7,69*5,1 = 94,48 (93,1-94,48)² = 1,91 4,8 89,8 55,26 + 7,69*4,8 = 92,17 (89,8-92,17)² = 5,64 4,4 91,4 55,26 + 7,69*4,4 = 89,10 (91,4-89,10)² = 5,29 5,9 99,5 55,26 + 7,69*5,9 = 100,63 (99,5-100,63)² = 1,29 4,7 92,1 55,26 + 7,69*4,7 = 91,41 (92,1-91,41)² = 0,48 5,1 95,5 55,26 + 7,69*5,1 = 94,48 (95,5-94,48)² = 1,03 5,2 99,3 55,26 + 7,69*5,2 = 95,25 (99,3-95,25)² = 16,39 4,9 93,4 55,26 + 7,69*4,9 = 92,94 (93,4-92,94)² = 0,21 5,1 94,4 55,26 + 7,69*5,1 = 94,48 (94,4-94,48-² = 0,007

Somme : 44,76849

E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = bb,��abf(^�'K)∗^,_u� = 3,64

� = �'�}� = �,�f'�√u,�b = 4,0289

Page 49: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 49

Faculté de Médecine Vétérinaire Université de Liège

Ddl = n – 2 = 10-2 = 8

Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 8 degrés de liberté.

La valeur de t seuil est 2,306.

• En passant par l’analyse de variance :

SC Ddl CM F Régression 90,83 1 90,83 16,23 Erreur 44,768 8 5,596 Total 135,604 9 15,067

EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y

Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs

pour les deux dernières possibilités, on en conclut donc que :

EF�é"#�BB!�� = s ∗ M , ∗ Y = 7,69 ∗ 11,812 = 90,83

EF�##��# = ∑H�� − �JK = 44,76849 C’est le numérateur de E�K calculer dans le test de t.

EF����� = M(� − �0)² = M Y²

Poids = X

Consommation = Y

y = � − �0 y²

4,6 87,1 (87,1-93,56) = -6,46 (-6,46)² = 41,73 5,1 93,1 (93,1-93,56) = -0,46 (-0,46)² = 0,21 4,8 89,8 (89,8-93,56) = -3,76 (-3,76)² = 14,14 4,4 91,4 (91,4-93,56) = -2,16 (-2,16)² = 4,66 5,9 99,5 (99,5-93,56) = 5,94 (5,94)² = 35,28 4,7 92,1 (92,1-93,56) = -1,46 (-1,46)² = 2,13 5,1 95,5 (95,5-93,56) = 1,94 (1,94)² = 3,76 5,2 99,3 (99,3-93,56) = 5,74 (5,74)² = 32,95 4,9 93,4 (93,4-93,56) = -0,16 (-0,16)² = 0,026 5,1 94,4 (94,4-93,56) = 0,84 (0,84)² = 0,70

Somme : 0 135,604

EF����� = 135,604

OU EF����� = EF�é"#�BB!�� + EF�##��# = 90,83 + 44,768 = 135,604

Page 50: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 50

Faculté de Médecine Vétérinaire Université de Liège

Ddl regression = nombre de X = 1

Ddl erreur = N – 2 = 10 – 2 = 8

Ddl total = N – 1 = 10-1 = 9

FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 90,831 = 90,83

FT�##��# = EF�##��#R� �##��# = 44,7688 = 5,596

U = FT#�"#�BB!��FT�##��# = 90,835,596 = 16,23

Vous pouvez vérifier que t² = F : 4,0289² = 16,23

Allons voir dans la table des F (5%) :

On regarde à 1 (en colonne) et 8 (en ligne) degrés de liberté. La valeur de F seuil est 5,32.

D. Conclusions :

Par rapport au test de t :

La valeur de t observée (4,029) est supérieure à la valeur de t seuil (2,306). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids et la consommation alimentaire.

Par rapport au test de F :

La valeur de F observée (16,23) est supérieure à la valeur de F seuil (5,32). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids et la consommation alimentaire.

E. Calcul de l’intervalle de confiance (voir formule 8.1):

� = s ± ��/K ∗ E�

� = 7,69 ± 2,306 ∗ �3,64 = 3,288 )� 12,09

La pente dans la population a 95% de chance de se trouver entre 3,288 et 12,09.

Page 51: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 51

Faculté de Médecine Vétérinaire Université de Liège

b) Quel serait l’intervalle de confiance 95% de la prédiction de la consommation en

350 jours d’une poule ayant un poids de 5,3 livres.

Pour prédire une valeur, on utilise la formule 8.2.2 : Prédiction de Y en fonction de X.

� = �� ± ��/K ∗ Elz ∗ �1 + 1% + ,²∑ ,²

X = 5,3 �� = � + s ∗ / = 55,26 + 7,69 ∗ 5,3 = 96,02

Y prédit à partir des valeurs de l’équation de régression linéaire trouvée au point précédent (a).

��/K = 2,306

Valeur trouvée également au point précédent correspondant à la valeur de t0,025 dans la table avec 8 degrés de liberté.

Elz = √FT �� � = �∑(� − ��)²S − 2 = �5,596 = 2,36

,K = (/ − /0)K = (5,3 − 4,98)K = 0,1024 M ,² = 1,536

Calculé au point précédent.

� = �� ± ��/K ∗ Elz ∗ �1 + 1% + ,K∑ ,K = 96,02 ± 2,306 ∗ 2,36 ∗ �1 + 110 + 0,10241,536= 90,1287 )� 101,91

Donc la prédiction de la consommation d’une poule ayant un poids de 5,3 livres a 95% de chance de se trouver entre 90,13 et 101,91.

c) Soit un lot de 50 poules ayant atteint, au terme de l’expérience, le poids moyen de

5,3 livres, on demande de calculer l’intervalle de confiance 95% de la prédiction

de la consommation moyenne en 350 jours, pour ce lot particulier.

Pour prédire une valeur moyenne, on utilise la formule 8.2.1 : Prédire la moyenne des Y en fonction

de X.

�0 = �� ± ��/K ∗ Elz ∗ �1% + ,²∑ ,²

Page 52: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 52

Faculté de Médecine Vétérinaire Université de Liège

X = 5,3 �� = � + s ∗ / = 55,26 + 7,69 ∗ 5,3 = 96,02

Y prédit à partir des valeurs de l’équation de régression linéaire trouvée au point précédent (a).

��/K = 2,306

Valeur trouvée également au point précédent (a) correspondant à la valeur de t0,025 dans la table avec 8 degrés de liberté.

Elz = √FT �� � = �∑(� − ��)²S − 2 = �5,596 = 2,36

,K = (/ − /0)K = (5,3 − 4,98)K = 0,1024 M ,² = 1,536

Calculé au point précédent (a).

�0 = �� ± ��/K ∗ Elz ∗ �1% + ,K∑ ,K = 96,02 ± 2,306 ∗ 2,36 ∗ � 110 + 0,10241,536= 93,79 )� 98,25

Donc la prédiction de la consommation moyenne de poules ayant un poids moyen de 5,3 livres a 95% de chance de se trouver entre 93,79 et 98,25.

Page 53: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 53

Faculté de Médecine Vétérinaire Université de Liège

12. Des scientifiques ont minutieusement disséqué les carrés de 12 porcs d’abattoir et, parallèlement au poids des carrés, ils ont relevé le poids abattu et la longueur des carcasses. Voici les résultats : Poids des carrés Poids abattu Longueur 17 75,4 76 18,2 72,2 71 19,2 80,4 75 18 71,2 71 18,2 77 76 15,2 65,8 76 15 67,8 73 17 71,8 73 16,8 69,2 74 16 68 74 12,8 55 67 13 59 68

a) Trouver la relation significative permettant d’estimer le poids des carrés à partir du poids abattu et de la longueur de la carcasse b) Calculer la part des variations du poids des carrés qui est expliquée par les variations du poids abattu et de la longueur c) Mesurer la relation qui existe entre le poids abattu et la longueur lorsque le poids des carrés est constant et tester cette relation

REPONSE :

a) Trouver la relation significative permettant d’estimer le poids des carrés à partir

du poids abattu et de la longueur de la carcasse

A. Choix du test :

Via l’ « ABC de R » :

-VI (variable indépendante) : 2 VI :

• Poids abattu : variable continue

• Longueur de la carcasse: variable continue

-VD (variable dépendante) : poids des carrés : variable continue

Régression linéaire multiple.

B. Poser les hypothèses :

��: �^ = �K = 0

�(: �^ ≠ �K ≠ 0

Page 54: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 54

Faculté de Médecine Vétérinaire Université de Liège

C. Calcul :

On calcule les pentes des deux variables indépendantes (Poids abattu = X1 et longueur de la caracasse

= X2) :

Selon le formulaire de stat (8.3.1):

s^ = R^R

sK = RKR

Où R = ∑ ,K̂ ∗ ∑ ,KK − (∑ ,^,K)²

R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY

RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y

Calculons les moyennes des différentes variables :

/^000 = ∑ /% = (75,4 + 72,2 + 80,4 + 71,2 + 77 + 65,8 + 67,8 + 71,8 + 69,2 + 68 + 55 + 59)12= 69,4

/K000 = ∑ /% = (76 + 71 + 75 + 71 + 76 + 76 + 73 + 73 + 74 + 74 + 67 + 68)12 = 72,83

�0 = ∑ /% = (17 + 18,2 + 19,2 + 18 + 18,2 + 15,2 + 15 + 17 + 16,8 + 16 + 12,8 + 13)12= 16,3667

Page 55: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 55

Faculté de Médecine Vétérinaire Université de Liège

Y X1 X2 y = �− �0

x1= /−̂ /^000

x2= /K − /K000 y² x1² x2² x1*y x2*y x1*x2

17 75,4 76 17-16,37

= 0,633

75,4-69,4 = 6

76-72,83 = 3,167

0,63² =

0,40 6² = 36

3,167² =

10,028

6*0,633 = 3,8

3,167* 0,633

= 2,005

6*3,167 = 19

18,2 72,2 71 18,2-16,37

= 1,833

72,2-69,4 = 2,8

71-72,83 = -1,83

1,83² =

3,36 2,8² = 7,84

(-1,83)² = 3,36

2,8*1,83 = 5,13

-1,83* 1,833

= -3,36

2,8*-1,83 = -5,13

19,2 80,4 75 19,2-16,37

= 2,833

80,4-69,4 = 11

75-72,83 = 2,167

2,83² =

8,03 11² = 121

2,167² =

4,694

11*2,83 = 31,167

2,167* 2,833

= 6,138

11*2,167 = 23,83

18 71,2 71 18-16,37

= 1,633

71,2-69,4 = 1,8

71-72,83 = -1,83

1,63² =

2,67 1,8² = 3,24

(-1,83)² = 3,36

1,8* 1,63 = 2,94

-1,83* 1,633

= -2,99

1,8*-1,83 = -3,3

18,2 77 76 18,2-16,37

= 1,833

77-69,4 = 7,6

76-72,83 = 3,167

1,83² =

3,36 7,6² = 57,76

3,167² =

10,028

7,6* 1,83 = 13,93

3,167* 1,833

= 5,805

7,6*3,167 = 24,067

15,2 65,8 76 15,2-16,37

= -1,167

65,8-69,4 = -3,6

76-72,83 = 3,167

(-1,17)²

= 1,36

(-3,6)² =

12,96

3,167² =

10,028

-3,6*-1,17 =

4,2

3,167* -1,167

= -3,69

-3,6*3,167

= -11,4

15 67,8 73 15-16,37

= -1,367

67,8-69,4 = -1,6

73-72,83 = 0,167

(-1,37)²

= 1,87

(-3,6)² =

12,96

0,167² =

0,028

-1,6*-1,17 = 2,187

0,167* -1,167

= -

0,2278

-1,6*0,167 = -0,267

17 71,8 73 17-16,37

= 0,63

71,8-69,4 = 2,4

73-72,83 = 0,167

0,63² =

0,40 2,4² = 5,76

0,167² =

0,028

2,4* 0,63 = 1,52

0,167* 0,63 = 0,105

2,4*0,167 = 0,4

16,8 69,2 74 16,8-16,37

= 0,43

69,2-69,4 = -0,2

74-72,83 = 1,167

0,43² =

0,19 (-0,2)² = 0,04

1,167² = 1,36

-0,2* 0,43 = -0,087

1,167* 0,43 = 0,505

-0,2*1,167 = -0,233

16 68 74 16-16,37

= -0,367

68-69,4 = -1,4

74-72,83 = 1,167

(-0,37)²

= 0,13

(-1,4)² = 1,96

1,167² = 1,36

-1,4* -0,37

= 0,513

1,167* -0,367

= -0,427

-1,4*1,167 = -1,633

12,8 55 67 12,8-16,37

= -3,567

55-69,4 = -

14,4

67-72,83 = -5,83

(-3,57)²

= 12,72

(-14,4)²

= 207,36

(-5,83)²

= 34,028

-14,4* -3,57

= 51,36

-5,83*-3,57 = 20,805

-14,4*-5,83 = 84

13 59 68 13-16,37

= -3,67

59-69,4 = -

10,4

68-72,83 = -4,83

(-3,67)²

= 11,33

(-10,4)²

= 108,16

(-4,83)²

= 23,36

-10,4* -3,7 = 35,013

-4,83* -3,67

= 16,27

-10,4*-4,83 = 50,267

SOMME 45,83 564,64 101,67 151,68 40,93 179,6

Page 56: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 56

Faculté de Médecine Vétérinaire Université de Liège

R = M ,K̂ ∗ M ,KK − �M ,^,K�K = 564,64 ∗ 101,67 − 179,6K = 25148,90667

R^ = M ,^Y ∗ M ,KK − M ,^,K ∗ M ,KY = 151,68 ∗ 101,667 − 179,6 ∗ 40,933 = 8069,173

RK = M ,KY ∗ M ,K̂ − M ,^,K ∗ M ,^Y = 40,93 ∗ 564,64 − 179,6 ∗ 151,68 = −4129,13067

s^ = R^R = 8069,17325148,91 = 0,3208

sK = RKR = − 4129,1325148,91 = −0,16418728

A présent, pour tester si la régression multiple est significative, nous devons faire une analyse de

variance sur les données de Y prédits :

SC Ddl CM F Régression 41,95 2 20,97 48,65 Erreur 3,88 9 0,4311 Total 45,83 11 4,166

EF�é"#�BB!�� = M(�� − �0)² = s^ ∗ M ,^Y + sK ∗ M ,KY = 0,32 ∗ 151,68 ± 0,16 ∗ 40,93= 41,9466796

EF�##��# = MH�� − �JK = EF����� − EF#é"#�BB!�� = 45,83 − 41,95 = 3,879987

EF����� = M(� − �0)² = M Y² = 45,82667

Ddl régression = nombre de X = 2

Ddl erreur = N – nombre de variables = 12 – 3 = 9

Ddl total = N – 1 = 12-1 = 11

FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 41,952 = 20,9733

FT�##��# = EF�##��#R� �##��# = 3,889 = 0,4311

Page 57: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 57

Faculté de Médecine Vétérinaire Université de Liège

U = FT#�"#�BB!��FT�##��# = 20,970,43 = 48,64966

Allons voir dans la table des F (5%) :

On regarde à 2 (en colonne) et 9 (en ligne) degrés de liberté. La valeur de F seuil est 4,26.

D. Conclusion :

La valeur de F observée (48,65) est supérieure à la valeur de F seuil (4,26). Cela signifie que la

probabilité d’observer les données si H0 était vraie est inférieure à 0,05. On rejette H0. La régression

linéaire multiple est significative.

b) Calculer la part des variations du poids des carrés qui est expliquée par les

variations du poids abattu et de la longueur

La part de variance = R² = }W�é�]������}W��� ¡ = b^,f_b_,au = 0,9153

Le poids abattu et la longueur explique 91,53% de la variation du poids des carrés.

c) Mesurer la relation qui existe entre le poids abattu et la longueur lorsque le poids

des carrés est constant et tester cette relation

Pour ce faire, on doit ajuster les valeurs de poids abattu et de la longueur au poids des carrés. On va

donc chercher la relation entre premièrement le poids abattu et le poids des carrés et deuxièmement

entre la longueur et le poids des carrés. A partir de ces relations, on ajustera le poids abattu et la

longueur. On aura donc des nouvelles valeurs de poids abattu et de longueur. On pourra alors calculer

la relation entre ces deux nouvelles variables.

A. Relation entre le poids abattu et le poids des carrés :

Dans ce cas-ci, poids abattu = Y et poids des carrés = X.

Comme calculé dans le point précédent (a), on sait que

M ,² = 45,83

M ,Y = 151,68

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 151,6845,83 = 3,30986

Page 58: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 58

Faculté de Médecine Vétérinaire Université de Liège

B. Ajustement des poids abattu :

A présent, on peut calculer des nouvelles valeurs de poids abattu en ajustant pour le poids des carrés.

On considèrera que tout le monde à la moyenne des poids des carrés. Dès lors, les nouveaux poids

abattus se calculent comme suit :

����� �s��� ���i��� = ����� �s��� + s ∗ (/0 − /)

T�Y%% �� ����� �� &���é� = 16,367

Poids des carrés Poids abattu Poids abattu ajusté 17 75,4 75,4+3,31*(16,37-17) = 73,3 18,2 72,2 72,2+3,31*(16,37-18,2) = 66,13 19,2 80,4 80,4+3,31*(16,37-19,2) = 71,02 18 71,2 71,2+3,31*(16,37-18) = 65,79 18,2 77 77+3,31*(16,37-18,2) = 70,93 15,2 65,8 65,84+3,31*(16,37-15,2) = 69,66 15 67,8 67,8+3,31*(16,37-15) = 72,32 17 71,8 71,8+3,31*(16,37-17) = 69,70 16,8 69,2 69,2+3,31*(16,37-16,8) = 67,76 16 68 68+3,31*(16,37-16) = 69,21 12,8 55 55+3,31*(16,37-12,8) = 66,80 13 59 59+3,31*(16,37-13) = 70,14

C. Relation entre la longueur et le poids des carrés :

Dans ce cas-ci, longueur = Y et poids des carrés = X.

Comme calculé dans le point précédent (a), on sait que

M ,² = 45,83

M ,Y = 40,93

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 40,9345,83 = 0,89322

Page 59: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 59

Faculté de Médecine Vétérinaire Université de Liège

D. Ajustement des longueurs :

A présent, on peut calculer des nouvelles valeurs de longueur en ajustant pour le poids des carrés. On

considèrera que tout le monde à la moyenne des poids des carrés. Dès lors, les nouvelles longueurs se

calculent comme suit :

¢�%V ����i��� = ¢�%V � + s ∗ (/0 − /)

T�Y%% �� ����� �� &���é� = 16,367

Poids des carrés Longueur Longueur ajustée 17 76 76+0,89*(16,37-17) = 75,43 18,2 71 71+0,89*(16,37-18,2) = 69,36 19,2 75 75+0,89*(16,37-19,2) = 72,47 18 71 71+0,89*(16,37-18) = 69,54 18,2 76 76+0,89*(16,37-18,2) = 74,36 15,2 76 76+0,89*(16,37-15,2) = 77,04 15 73 73+0,89*(16,37-15) = 74,22 17 73 73+0,89*(16,37-17) = 72,43 16,8 74 74+0,89*(16,37-16,8) = 73,61 16 74 74+0,89*(16,37-16) = 74,33 12,8 67 67+0,89*(16,37-12,8) = 70,18 13 68 68+0,89*(16,37-13) = 71,01

E. Relation entre les poids abattus ajustés et les longueurs ajustées :

On utilise les nouvelles valeurs calculées pour tester la relation entre ces deux variabes.

Poids abattu ajusté Longueur ajustée 73,3 75,43 66,13 69,36 71,02 72,47 65,79 69,54 70,93 74,36 69,66 77,04 72,32 74,22 69,70 72,43 67,76 73,61 69,21 74,33 66,80 70,18 70,14 71,01

Pour tester la relation entre 2 variables continues, on peut réaliser une régression simple ou une

corrélation.

Page 60: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 60

Faculté de Médecine Vétérinaire Université de Liège

1ère méthode : Régression linéaire simple :

On ne nous donne pas d’information sur le sens de cette relation. Donc on choisit une variable comme

X et une autre comme Y. Arbitrairement, je choisis de prendre le poids abattu comme X et la longueur

comme Y.

��: � = 0 ∶ ��� � � ����% �%é���. �(: � ≠ 0 ∶ � ����% �%é���. On n’a pas d’a priori sur le sens de la relation linéaire : pente positive ou négative. On est donc dans

un test bilatéral.

Nous devons commencer par estimer la pente de notre échantillon (voir formulaire de stat au point 8) :

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)²

Les moyennes ne doivent pas avoir changer par rapport à la première analyse. Donc,

/0 = 69,4

�0 = 72,83

Poids = X

Longueur = Y

x = / − /0 y = � − �0 x*y x²

73,3 75,43 73,3-69,4 = 3,9

75,43-72,83 = 2,5967

3,9*2,60 = 10,127

3,9² = 15,21

66,13 69,36 66,13-69,4 = -3,27

69,36-72,83 = -3,473

-3,27*-3,47 = 11,3578

(-3,27)² = 10,6929

71,02 72,47 71,02-69,4 = 1,62

72,47-72,83 = -0,363

1,62*-0,36 = -0,5886

1,62² = 2,6244

65,79 69,54 65,79-69,4 = -3,61

69,54-72,83 = -3,293

-3,61*-3,29 = 11,889

(-3,61)² = 13,0321

70,93 74,36 70,93-69,4 = 1,53

74,36-72,83 = 1,5267

1,53*1,53 = 2,3358

1,53² = 2,3409

69,66 77,04 69,66-69,4 = 0,26

77,04-72,83 = 4,2067

0,26*4,21 = 1,0937

0,26² = 0,0676

72,32 74,22 72,32-69,4 = 2,92

74,22-72,83 = 1,3867

2,92*1,29 = 4,049

2,92² = 8,5264

69,70 72,43 69,70-69,4 = 0,3

72,43-72,83 = -0,40

0,3*-0,40 = -0,121

0,3² = 0,03

67,76 73,61 67,76-69,4 = -1,64

73,61-72,83 = 0,7767

-1,64*0,78 = -1,27

(-1,64)² = 2,6896

69,21 74,33 69,21-69,4 = -0,19

74,33-72,83 = 1,4967

-0,19*1,50 = -0,28

(-0,19)² = 0,0361

66,80 70,18 66,80-69,4 = -2,6

70,18-72,83 = -2,653

-2,6*-2,65 = 6,8987

(-2,6)² = 6,76

70,14 71,01 70,14-69,4 = 0,74

71,01-72,83 = -1,823

0,74*-1,82 = -1,3493

0,74² = 0,5476

Somme : 0 0 44,134 62,6176

Page 61: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 61

Faculté de Médecine Vétérinaire Université de Liège

s = ∑ , ∗ Y∑ ,² = ∑(/ − /0) ∗ (� − �0)∑(/ − /0)² = 44,13462,6176 = 0,7048

A présent, nous avons deux possibilités pour tester si cette valeur de b estimée dans l’échantillon est

significativement différente de 0 dans la population :

- Utilisé la statistique t

- Faire une analyse de variance

• En utilisant la statistique t : (les formules sont dans le formulaire de stat au point 8 et 8.1)

� = s − �E�

Où E�K = ∑(�'��)²(�'K)∗∑(�'�0)² Il faut donc calculer les valeurs de Y prédits (��) puis l’écart entre ces valeurs et les valeurs réelles de

Y :

�� = � + s ∗ /

Où � = �0 − s ∗ /0

� = �0 − s ∗ /0 = 72,83 − 0,70 ∗ 69,4 = 23,91894

Poids = X

Longueur = Y

Y prédits (��) (� − ��)²

73,3 75,43 23,92+0,70*73,3 = 75,58 (75,43-75,58)² = 0,023 66,13 69,36 23,92+0,70*66,13 = 70,53 (69,36-70,53)² = 1,36 71,02 72,47 23,92+0,70*71,02 = 73,97 (72,47-73,97)² = 2,26 65,79 69,54 23,92+0,70*65,79 = 70,29 (69,54-70,29)² = 0,56 70,93 74,36 23,92+0,70*70,93 = 73,91 (74,36-73,91)² = 0,20 69,66 77,04 23,92+0,70*69,66 = 73,016 (77,04-73,02)² = 16,19 72,32 74,22 23,92+0,70*72,32 = 74,89 (74,22-74,89)² = 0,45 69,70 72,43 23,92+0,70*69,70 = 73,04 (72,43-73,04)² = 0,38 67,76 73,61 23,92+0,70*67,76 = 71,68 (73,61-71,68)² = 3,73 69,21 74,33 23,92+0,70*69,21 = 72,699 (74,33-72,70)² = 2,66 66,80 70,18 23,92+0,70*66,80 = 71,001 (70,18-71)² = 0,67 70,14 71,01 23,92+0,70*70,14 = 73,35 (71,01-73,35)² = 5,50

Somme : 33,9985

E�K = ∑(�'��)²(�'K)∗∑(�'�0)² = uu,ffa_(^K'K)∗�K,�^�� = 0,054

� = �'�}� = �,��'�√�,�_b = 3,02479

Page 62: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 62

Faculté de Médecine Vétérinaire Université de Liège

Ddl = n – 2 = 12-2 = 10

Allons dans la table des t à t0,025 (comme on est dans un test bilatéral) et 10 degrés de liberté.

La valeur de t seuil est 2,228.

La valeur de t observée (3,02) est supérieure à la valeur de t seuil (2,228). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids abattu ajusté et la longueur ajustée.

• En passant par l’analyse de variance :

SC Ddl CM F Régression 31,11 1 31,11 9,15 Erreur 33,9985 10 3,39985 Total 65,105 11

EF�é"#�BB!�� = M(�� − �0)² = sK ∗ M ,K = s ∗ M , ∗ Y

Vous avez trois possibilités pour calculer la somme des carrés régression. Nous avons déjà les valeurs

pour les deux dernières possibilités, on en conclut donc que :

EF�é"#�BB!�� = s ∗ M , ∗ Y = 0,70 ∗ 44,13 = 31,1065

EF�##��# = ∑H�� − �JK = 33,9985 C’est le numérateur de E�K calculer dans le test de t.

EF����� = M(� − �0)² = M Y² = EF�é"#�BB!�� + EF�##��# = 31,1065 + 33,9985 = 65,105

Ddl regression = nombre de X = 1

Ddl erreur = N – 2 = 12 – 2 = 10

Ddl total = N – 1 = 12-1 = 11

FT#�"#�BB!�� = EF#�"#�BB!��R� #�"#�BB!�� = 31,111 = 31,11

FT�##��# = EF�##��#R� �##��# = 33,998510 = 3,39985

Page 63: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 63

Faculté de Médecine Vétérinaire Université de Liège

U = FT#�"#�BB!��FT�##��# = 31,113,4 = 9,14936

Vous pouvez vérifier que t² = F : 3,025² = 9,15

Allons voir dans la table des F (5%) :

On regarde à 1 (en colonne) et 10 (en ligne) degrés de liberté. La valeur de F seuil est 4,96.

La valeur de F observée (9,15) est supérieure à la valeur de F seuil (4,96). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

relation linéaire significative entre le poids abattu ajusté et la longueur ajustée.

2ème méthode : Corrélation :

Dans ce cas-ci, il n’y a pas d’importance du choix de X et Y.

��: � = 0 ∶ ��� � &���é ����%

�(: � ≠ 0 ∶ F���é ����% ������k

On n’a pas d’a priori sur le sens de la relation linéaire : corrélation positive ou négative. On est donc

dans un test bilatéral.

La formule de la corrélation se trouve dans le formulaire de stat au point 9.

� = ∑ ,Y�∑ ,² ∗ ∑ Y²

On peut repartir des données calculées lors de la régression. Il nous manque les y² mais qui

correspondent à la SC total calculée lors du test d’anova ci-dessus = 65,105

Page 64: 2ème baccalauréat en Sciences Vétérinaires Biostatistiques

TD2 Biostatistiques 64

Faculté de Médecine Vétérinaire Université de Liège

Poids = X

Longueur = Y

x = / − /0 y = � − �0 x*y x²

73,3 75,43 73,3-69,4 = 3,9

75,43-72,83 = 2,5967

3,9*2,60 = 10,127

3,9² = 15,21

66,13 69,36 66,13-69,4 = -3,27

69,36-72,83 = -3,473

-3,27*-3,47 = 11,3578

(-3,27)² = 10,6929

71,02 72,47 71,02-69,4 = 1,62

72,47-72,83 = -0,363

1,62*-0,36 = -0,5886

1,62² = 2,6244

65,79 69,54 65,79-69,4 = -3,61

69,54-72,83 = -3,293

-3,61*-3,29 = 11,889

(-3,61)² = 13,0321

70,93 74,36 70,93-69,4 = 1,53

74,36-72,83 = 1,5267

1,53*1,53 = 2,3358

1,53² = 2,3409

69,66 77,04 69,66-69,4 = 0,26

77,04-72,83 = 4,2067

0,26*4,21 = 1,0937

0,26² = 0,0676

72,32 74,22 72,32-69,4 = 2,92

74,22-72,83 = 1,3867

2,92*1,29 = 4,049

2,92² = 8,5264

69,70 72,43 69,70-69,4 = 0,3

72,43-72,83 = -0,40

0,3*-0,40 = -0,121

0,3² = 0,03

67,76 73,61 67,76-69,4 = -1,64

73,61-72,83 = 0,7767

-1,64*0,78 = -1,27

(-1,64)² = 2,6896

69,21 74,33 69,21-69,4 = -0,19

74,33-72,83 = 1,4967

-0,19*1,50 = -0,28

(-0,19)² = 0,0361

66,80 70,18 66,80-69,4 = -2,6

70,18-72,83 = -2,653

-2,6*-2,65 = 6,8987

(-2,6)² = 6,76

70,14 71,01 70,14-69,4 = 0,74

71,01-72,83 = -1,823

0,74*-1,82 = -1,3493

0,74² = 0,5476

Somme : 0 0 44,134 62,6176

� = ∑ ,Y�∑ ,² ∗ ∑ Y² = 44,134

�62,6176 ∗ 65,105 = 0,6912

On passe par la statistique t :

� = ��1 − �² ∗ √S − 2 = 0,69�1 − 0,69K ∗ √12 − 2 = 3,02479

On constate que cette valeur de t est identique à celle calculée dans la régression simple.

Ddl = n – 2 = 12-2 = 10

Allons dans la table des t à t0,025 (comme on est dans un test unilatéral) et 10 degrés de liberté.

La valeur de t seuil est 2,228.

La valeur de t observée (3,025) est supérieure à la valeur de t seuil (2,228). Cela signifie que la

probabilité d’observer nos données si H0 était vraie est inférieure à 0,05. On rejette H0. Il y a une

corrélation significative entre le poids abattu ajusté et la longueur ajustée.