séminaire en écologie et analyse de données bio 3500 – automne 2008 françois guillemette alain...

63
Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Upload: lorraine-basset

Post on 03-Apr-2015

106 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Séminaire en écologie et analyse de données

BIO 3500 – Automne 2008

François GuillemetteAlain Paquette

Page 2: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

François [email protected]

Doctorat (3e année) en écologie aquatique Comprendre le rôle de la respiration

bactérienne dans les écosystèmes d’eau douce Membre du Groupe de Recherche

Interuniversitaire en Limnologie Site internet: http://www.gril-limnologie.ca/ Midis aquatiques: Vendredi 12h15 (SB-1555)

Membre au conseil exécutif de la Société canadienne de limnologie

Page 3: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Alain [email protected]

Chercheur postdoctoral au Centre d’étude de la Forêt www.cef-cfr.ca

Biodiversité et fonctions des écosystèmes

Projet TRIADE en aménagment forestier durable

Mécanismes de développement propre chez les indiens Emberas au Panama

Page 4: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Objectifs:

Lecture critique en écologie

Méthodes statistiques et analyse des données

Communication scientifique

Page 5: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Lecture critique

QUI? OÙ? QUAND? QUOI? À QUI? POURQUOI? COMMENT? AVEC QUEL EFFET?

Page 6: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les niveaux de communication entre scientifiques de scientifique à gestionnaires, décideurs

économiques et politiques vers le public

Page 7: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

(1) La littérature scientifique- Les articles scientifiques: structure et style- Le processus de publication et d’autocorrection - Indexes bibliographiques et traditions de citation- La propriété intellectuelle, conflit d’intérêt

(2) Les conférences scientifiques Les présentations orales Les présentations par affiche

(3) Le web comme outil

Sujets abordés

Page 8: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Structure pour cette partie du cours 1 atelier de recherche bibliographique (22 sept.

à 9h00) 4 rencontres en classe:

Théorie sur la communication Discussion d’un article Questions sur le contenu de l’article Synthèse de la problématique, objectifs, méthodes,

résultats et conclusions de l’article Liens avec les notions de statistiques et de

communication discutées lors des cours précédents Critique de l’article

3 rencontres pour les exposés oraux, en équipe de 3 15 minutes d’oral 5 minutes de questions

Page 9: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Évaluation pour cette partie du cours

Choisir un sujet de recherche en écologie Remise du sujet le 6 octobre Le travail se fait en équipes de 3 Vous devez obtenir l’approbation de votre sujet pour pouvoir

remettre le résumé

Résumé de recherche (25%) Remise le 10 novembre Effectuer une recherche bibliographique sur le sujet choisi Bibliographie de 5 références minimum; synthétiser et critiquer

au moins 3 de ces articles en vous inspirant des discussions en classe

Souvent, le plus intéressant se trouve dans des articles donnant des points de vue contraires que vous pourrez alors comparer

(3) Présentation orale (20%) Présenter votre résumé de recherche oralement (15 min + 5

min) Participation des autres étudiants lors des exposés (5%)

Page 10: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Pour la semaine prochaine:

Lire plusieurs fois et attentivement l’article #1 que vous trouverez sur le site web du cours:

www.er.uqam.ca/nobel/r34246/bio3500.htm

Nous en discuterons en cours; si vous ne l’avez pas lu, se sera

difficile!

Page 11: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Rôle des statistiques en écologie

Résumé l’information contenue dans un grand nombre d’observations

Se convaincre et convaincre les autres

Page 12: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Analyse de données

1 - Collecte des données

2 - Synthèse et traitement

3 - Présentation et communication de l'information

Page 13: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Identifier la problématique, la question

Rassembler lesdonnées pertinentes

Organiser les données

Analyser les données

Interpréter les résultats obtenus

Analyse de données

Recueillir de nouvelles données

Page 14: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Structure et évaluation 4 rencontres en classe:

Statistique descriptive Comparaison de moyenne Analyse de variance Corrélation Régression Khi-carré

1 rencontre de révision 8 ateliers de travaux pratiques

4 rapports à rendre (25%) 1 atelier sur Powerpoint 1 examen final en biostatistique (25%)

24 novembre 9-12h (SB-R440) 10 questions

Page 15: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Analyse de données I

Page 16: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Definition

Les statistiques sont un ensemble d'outils utilisés pour organiser et analyser des données

Page 17: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Statistique descriptive

Ensemble des outils et procédures qui permettent de réorganiser un ensemble de données, de les décrire et de les résumer.

Il existe de nombreux moyens de représenter en tableau et graphiquement le données . Nous nous limiterons à décrire les distributions de fréquences et les histogrammes.

Page 18: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Le poids de 200 poissons

170 162 184 155 180 167 170 166 168 164172 167 180 154 180 151 153 164 177 149173 160 152 173 158 143 169 170 154 168153 165 160 162 162 168 175 169 166 177175 148 167 166 159 178 156 172 143 171181 170 174 153 173 165 156 163 173 162160 162 165 146 177 165 163 176 172 178135 151 154 145 170 164 163 165 178 171166 157 156 167 157 154 164 166 184 167164 167 153 170 162 192 154 166 170 170158 167 154 169 162 169 162 158 151 179159 171 165 165 166 180 180 172 165 155151 158 164 184 170 154 162 166 150 169173 155 173 149 174 168 162 172 158 183175 176 165 147 168 168 171 148 166 171165 176 145 155 176 163 176 167 171 169171 169 172 171 178 155 164 176 155 173158 149 176 146 151 166 163 163 147 161149 155 146 155 177 168 166 168 163 152169 170 159 163 186 162 148 173 180 150

En regardant ces données, que peut-on dire?

Page 19: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distribution de fréquences

Poids Fréquence Poids Fréquence Poids Fréquence Poids Fréquence

135 1 154 7 165 10 176 7143 2 155 8 166 11 177 4145 2 156 3 167 8 178 4146 3 157 2 168 8 179 1147 2 158 6 169 8 180 6148 3 159 3 170 10 181 1149 4 160 3 171 8 183 1150 2 161 1 172 6 184 3151 5 162 11 173 8 186 1152 2 163 8 174 2 192 1153 4 164 7 175 3

À noter: une distribution de fréquences peut être représentée dans un tableau qui indique combien de fois chaque valeur

d’une variable a été observée.

Page 20: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Règle de Yule

Nombre de classes = 2.5 N 0.25

2.5 X 2000.25 = 9.4 classes Largeur de l’intervalle = Étendue

(valeurmax-valeurmin/ Nombre de classes (192 – 135)/9.4 ≈ 6

Par convention, on utilise généralement le point milieu pour le caractériser. Cette valeur est l’indice de l’intervalle.

Page 21: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distribution de fréquences

Les données après regroupement…

Intervalle

Point milieu

Fréquence

135-141 138 1

142-148 145 12

149-155 152 32

156-162 159 30

163-169 166 60

170-176 173 44

177-183 180 16

184-190 187 3

191-197 194 2

Page 22: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Taille

140 150 160 170 180 190 200

Fré

quen

ce

0

10

20

30

40

50

60

70

HistogrammesInterval

lePoint milieu

Fréquence

135-141 138 1

142-148 145 12

149-155 152 32

156-162 159 30

163-169 166 60

170-176 173 44

177-183 180 16

184-190 187 3

191-197 194 2

Page 23: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distribution unimodale et symétrique

Page 24: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distribution bimodale

Une distribution présentant deux sommets prédominants est qualifiée de bimodale (par opposition à une distribution unimodale).

Page 25: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distributions asymétriques

Certaines distributions ne sont pas symétriques.Elles peuvent présenter une queue vers la gauche (asymétrie négative) ou vers la droite (asymétrie positive)

Page 26: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Statistique inférentielle

Statistique inférentielle consiste à extrapoler les résultats obtenus sur un échantillon afin de tirer des conclusions concernant la population.

Il s’agit d’inférer certaines caractéristiques de la population à partir de ce que l’on sait sur un échantillon.

Page 27: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Population / échantillon

Une population est un ensemble fini d'objets (les individus ou unités statistiques) sur lesquels une étude porte et dont les éléments répondent à une ou plusieurs caractéristiques communes.

Un échantillon est un ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit représentatif de cette population, au moins pour l'objet de l'étude.

Page 28: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Pourquoi un échantillon ?

Ressources limitées Temps Coûts financiers Nombre d’étudiants d’été disponibles…

Rareté

Parfois les mesures sur un échantillon sont plus exactes

Page 29: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Deux problèmes-clés

L’échantillon doit être aléatoire (tiré au hasard)

L’extrapolation est limitée à la population définie

Page 30: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Exemple

Supposez un écologiste qui voudrait mesurer la concentration des cyanobactéries dans les lacs de la région est du Québec.

Il/elle décide donc de mesurer la concentration de cyano dans dix lacs.

population

échantillons

Page 31: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Exemple

Un échantillon (dix lacs) est tiré aléatoirement de la population.

Observation: mesure une ou plusieurs propriétés (pH, cyanobactéries, taille etc...) d'une entité (ex.: lac).

Le but est d’extrapoler les résultats à l’ensemble de la population.

Page 32: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Observations (4) et variables (2)

lac pH cyanobacterie (µg/L)1 6.3 6.82 7.2 10.33 6.8 11.34 7.4 9.4

Une variable est une propriété d’une observation qui peut prendre différentes valeurs.

Page 33: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Population / échantillon (deux niveaux)

moyenne

Page 34: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Types de variable

variables nominales: Sexe (masculin ou féminin) Couleur (rouge, jaune, blanc, etc…) variables ordinales: Âges de la vie (juvénile, adulte) variables continues: La taille, le poids, pH

Page 35: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Variables discrètes et continues

Les variables discrètes ont un nombre limité de valeurs qui peuvent être énumérées explicitement. Exemples : Sexe (M ou F), couleur des yeux…

Les variables continues peuvent prendre n’importe quelle valeur entre les extrêmes d’une échelle. Exemples : taille, distance, poids, pH…

Page 36: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Taille

140 150 160 170 180 190 200

Fré

quen

ce

0

10

20

30

40

50

60

70

Les mesures de tendance centrale

Une mesure de tendance centrale représente la valeur typique ou le centre d’une distribution.

Page 37: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de tendance centrale

Il existe trois principales mesures de tendance centrale :

1) le mode

2) la médiane

3) la moyenne

Page 38: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Taille

140 150 160 170 180 190 200

Fré

que

nce

0

10

20

30

40

50

60

70

Le mode

Le mode est la valeur la plus fréquente c’est-à-dire la valeur obtenue par le plus grand nombre de sujets

applicable aux variables nominales et distributions

Page 39: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Le poids de 200 poissons

mode

Intervalle

Point milieu

Fréquence

135-141 138 1

142-148 145 12

149-155 152 32

156-162 159 30

163-169 166 60

170-176 173 44

177-183 180 16

184-190 187 3

191-197 194 2

Page 40: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Distribution bimodale

mode

Page 41: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La médiane

La valeur centrale dans une distribution

La médiane est la valeur par rapport à laquelle il y autant de valeurs qui sont plus grandes que de valeurs plus petites

Page 42: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La médiane

Calcul avec un nombre impair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 31 - disposer les scores en ordre croissant: 3, 5, 5, 7, 8, 9, 12, 13, 152 - calculer la position médiane

3 - la médiane est la 5ème valeur = 8

1 9 15

2 2

n n= # observations

Page 43: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La médiane

3, 5, 5, 7, 8, 9, 12, 13, 154 valeurs4 valeurs

Page 44: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La médiane Calcul avec un nombre pair de scores valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, 111 - disposer les scores en ordre croissant: 3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, 152 - calculer la position médiane

3 - la médiane se trouve entre la 6ème et la 7ème valeur (8 et 9). La médiane est la moyenne de ces deux valeurs = 8.5

1 12 16.5

2 2

n n= # observations

Page 45: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La médiane

3, 5, 5, 6, 7, 8, 9, 11, 12, 13, 15, 15

8.5

6 valeurs 6 valeurs

Page 46: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La moyenne

7+12+5+9+8+5+15+13+3+15+6+11 1099.08

12 12X

la mesure de tendance centrale la plus connue et importante

valeurs: 7, 12, 5, 9, 8, 5, 15, 13, 3, 15, 6, 11

n

ii

XX

n

Page 47: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La sommation

X pH1 5.42 6.43 7.44 8.45 5.3

5

1

5.4 6.4 7.4 8.4 5.3 32.9ii

X

n

ii

X Signifie additioner tous les Xi de i=1à i=n.n= # observations

Page 48: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

La sommation

52

2 2 2 2 25.4 6.4 7.4 8.4 5.3

223.53

ii

X

X pH1 5.42 6.43 7.44 8.45 5.3

Exemple de sommation au carré:

Page 49: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Avantages et inconvénients des différentes mesures de tendance centrale

Le mode, la médiane et la moyenne ne sont égales que si la distribution est symétrique et unimodale.

Page 50: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Distribution symétrique et unimodale

Page 51: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

médiane

moyenne

mode

Page 52: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Avantages et inconvénients des différentes mesures de tendance centrale

prochain cours stats

La moyenne est la plus utilisée, car elle se prête aisément aux calculs d’équations

(on peut écrire une équation qui décrit la moyenne)

Elle est la meilleure estimation de la tendance centrale de la population

Inconvénient: la moyenne est très affectée par les observations extrêmes

Page 53: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Avantages et inconvénients des différentes mesures de tendance centrale

La médiane a l’avantage d’être peu

affectée par les observations extrêmes.

Inconvénients: elle ne se prête pas directement aux

équations elle est moins stable que la moyenne

Page 54: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Avantages et inconvénients des différentes mesures de tendance centrale

Le mode n’est pas affecté par les observations extrêmes.

Il est le seul applicable aux variables nominales (ou distributions).

Inconvénients: peu stable et ne se prête

pas aux équations.

Page 55: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Avantages et inconvénients des différentes mesures de tendance centrale

Illustration de l’effet des scores extrêmes sur la médiane et la moyenne

1) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 92

Médiane = 72,5 Moyenne = 73,332) 53, 58, 62, 64, 68, 72, 73, 77, 86, 87, 88, 192Médiane = 72,5 -> médiane n’est pas affectéeMoyenne = 81,67 -> moyenne est fortement affectée

Page 56: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

Moyenne identique mais la dispersion varie fortement

1, 4, 10, 100, 200

61, 62, 63, 64, 65 63.0X

Page 57: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

poids poids

12X 12X

Page 58: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

Conclusion:

1) la tendance centrale ne renseigne que de façon incomplète sur une distribution

2) Il faut également connaître la dispersion

des données autour de la tendance centrale

Page 59: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

1 -62 38444 -59 348110 -53 2809100 37 1369200 137 18769

Les mesures de variabilitéLa variance (s2) d’un échantillon

2

2 1

( )

1

n

ii

X Xs

n

X ( )iX X 2( )X X

30272

2 302727568

4s

63X

Page 60: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

2

63.0

2.5

X

s

Moyenne identique mais la dispersion varie fortement

1, 4, 10, 100, 200

61, 62, 63, 64, 65

2

63.0

7568

X

s

Page 61: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

2 2

2

2 21

63.0

2.5

( )2.5 1.58

1

n

ii

X cm

s cm

X Xs s cm cm

n

L’écart-type: la même unité que la variable

61 cm, 62 cm, 63 cm, 64 cm, 65 cm

Page 62: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Les mesures de variabilité

Le coefficient de variation

comparer la variabilité de deux variables ou deux groupes d’observations quand leurs moyennes sont très differentes

sCV

X 1.58 / 63.0 = 0.025 ou

2.5%

Page 63: Séminaire en écologie et analyse de données BIO 3500 – Automne 2008 François Guillemette Alain Paquette

Pour la semaine prochaine:

Lire plusieurs fois et attentivement l’article #1 que vous trouverez sur le site web du cours:

www.er.uqam.ca/nobel/r34246/bio3500.htm

Nous en discuterons en cours; si vous ne l’avez pas lu, se sera

difficile!