bien réfléchir avant d’agir - listes.ird.fr fileagir en fonction de ses moyens d’obsevation...
Post on 10-Sep-2018
216 Views
Preview:
TRANSCRIPT
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
AUF – Novembre 2014 1
Réfléchir avant d’agir
Agir en fonction de ses moyens d’observation
Anticiper la méthode d’analyse des données avant de commencer
2
Les questions de base
• A partir de quand ce que l’on mesure reflète t-il la réalité ?
• Traduire une question en une expérimentation !
• Crédibilité des données ?
• Crédibilité des conclusions ?
• Crédibilité du thésard / chercheur !!!!
3
Population à analyser
Echantillon étudié
Récolte et analyse des
données
Interprétation des
résultats et
extrapolation à la
population source
Un échantillon est un ensemble d’individus représentatifs d’une population
4
L’échantillonnage
Exemple
Résultats
– Dans une classe il y a la même proportion de filles que de garçons soit 50%
– L’âge moyen calculé est de 18 ans
– L’âge médian est de 18 ans
Conclusions
– La classe est assez homogène
– L’âge des élèves est d’environ 18 ans
Que manque t-il ?
5
Exemple
Résultats
– Dans une classe il y a la même proportion de filles que de garçons soit 50%
– L’âge moyen calculé est de 18 ans
– L’âge médian est de 18 ans
Conclusions
– La classe est assez homogène
– L’âge des élèves est d’environ 18 ans
Que manque t-il ? :
La taille de l’échantillon, il n’y a qu’un garçon de 22 ans et une fille de 14 ans
6
Des phases successives
• La première phase a pour but d’obtenir des informations générales sur la toxicité et l’action éventuelle du nouveau traitement
• La deuxième phase précise l’efficacité du produit étudié, en fonction des doses administrées
• La troisième phase a pour objectif principal de définir les modalités de prescription du nouveau médicament (doses, fréquences d’utilisation, etc.)
• Et la quatrième phase est une phase de suivi, qui a notamment pour but d’identifier les éventuels effets secondaires ou qui pourraient apparaître à long terme
7
Toujours mettre des témoins
• En essai : Introduire systématiquement un ou deux témoins qui permettront de « recaler » les données
• En agronomie : mettre des bordures pour éliminer leur effet
• En analyse : Introduire des données aléatoires pour détecter les limites de l’interprétation
• En médecine : Introduire des effets placébo pour distinguer les effets liés à l’échantillon
8
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
AUF – Novembre 2014 9
Les descripteurs monovariées
La moyenne
La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus :
X (moy) = 1/n ⋅∑ x i (pour n allant de 1 à i)
La médiane
La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50 % au-dessus et 50 % en dessous
Le niveau de confiance recherché
95% est le seuil le plus courant
10
Les descripteurs monovariées
La variance
La variance est égale à la moyenne simple des écarts à la moyenne arithmétique
σ2 = (1 / n−1) ⋅∑ (x i −X ) 2 (pour n allant de 1 à i)
L’écart Type
L’écart type σ est la racine carrée de la variance
Le Coefficient de variation
Le Coefficient de Variation est le rapport de l’écart type sur la moyenne : CV = σ / X
Intervalle de confiance
Lorsqu’il y a n mesures la précision dur la mesure augmente en 1/ √ n
11
Théorie de l'échantillonnage
• Garantir ou au moins d'estimer la fiabilité de conclusions tirées de l'étude d'échantillons, mais étendues aux populations entières
• Capacité à capter la diversité du phénomène étudié
• Minimiser le biais ou erreur systématique
• Estimer le lien entre la taille de l'échantillon et la confiance que l'on peut accorder à la généralisation des résultats
12
Valeur de la population source Valeur de l’échantillon
L'objectif est d'obtenir une meilleure connaissance de la population par l'étude du seul échantillon Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population
13
Valeur de la population source Valeur de l’échantillon
L'objectif est d'obtenir une meilleure connaissance de la population par l'étude du seul échantillon Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population La valeur expérimentale obtenue est différente de la valeur de la source
14
Attention aux préjugés
Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant
l'étude exhaustive de la population
15
La distribution normale
• Cette distribution possède plusieurs caractéristiques :
• Égalité de la moyenne, de la médiane et du mode
• Parfaite symétrie
• Concentration des données autour de la moyenne avec diminution relative à l'éloignement
• Très utilisée en statistiques
16
Les 3 distributions de droite diffèrent par leur écart type
Les 3 distributions de gauche diffèrent par leur moyenne
Normales ne veut pas dire identiques
17
Les observations peuvent être un peu décalées….
Il faudra dans ce cas procéder à des transformations mathématiques
pour reconfigurer les données et rendre la
distribution normale
18
Les variables peuvent être indépendantes ou corrélées La connaissance des relations peut permettre d’économiser des mesures
La corrélation entre variables permet de prédire la valeur de l’une en connaissant la valeur de l’autre
19
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
AUF – Novembre 2014 20
Méthode expérimentale
• Isoler les variables censées influencer le comportement étudié
• Construire une situation expérimentale contrôlée le plus rigoureusement possible
• Tester des hypothèses formulées à partir d’un contexte théorique en les soumettant aux faits de manière à les infirmer ou les confirmer
• Tirer les conclusions correspondantes en terme de lien de causalité (ou de non causalité) entre VI et VD
21
Le plan à groupes indépendants
Chaque groupe ne passe qu’une partie des tests
Les groupes doivent être indépendants mais équivalents
– Un premier groupe : modalité A
– Une deuxième groupe : modalité B
On comparera que les différences de moyennes des groupes
22
Groupes appariés
Chaque groupe passe tous les tests
Tous les individus subissent toutes les modalités
Le problème d’équivalence des groupes ne se pose plus
En revanche, l’ordre des traitements doit être aléatoire pour chaque individu
23
Les plans factoriels (Précision et cout expérimental)
• Etudes de plusieurs variables
• Effets principaux de chaque variable
• Interactions entre les variables
• Groupes
– Indépendants (mesures partielles)
– Appariés (mesures répétées)
– Mixtes (une partie partielle + une partie répétée)
24
Modèle expérimental Plan factoriel à groupes indépendants
Variable 1 (Durée)
Variable 2 (Traitement)
Individus
Durée 1 Traitement 1 1 à 20
Durée 1 Traitement 2 21 à 40
Durée 2 Traitement 1 41 à 60
Durée 2 Traitement 2 61 à 80
Chaque individu ne subit qu’une seule durée traitement
Il n’y a qu’une mesure par individu
Donc 80 mesures au total
25
Modèle expérimental Plan factoriel à groupes appariés
Traitement1 Traitement 2
Traitement 1 Traitement 2
Durée 1 2 1 2
Individu 1
Individu 2
Individu x
Chaque individu subit toutes les durées traitement
Il y a quatre mesures par individu
Donc 320 mesures au total soit 4 fois plus
26
Modèle expérimental Plan factoriel mixte
Individu Durée Durée
1 2
Traitement Traitement 1 Individu 1
Traitement 1 Individu 2
Traitement 1 Individu N/2
Traitement 2 Individu 41
Traitement 2 Individu 42
Traitement 2 Individu 80
Chaque individu subit la moitié deux durées traitement mais un seul traitement
Il y a deux mesures par individu
Donc mesures 160 mesures au total 27
Quantification des librairies NGS par QPCR
Dispositif Echantillon : E1 Témoin positif : T+ Témoin négatif : blanc Gamme étalon : C1-C6
3 dilutions X 3 réplicats
1 2 3 4 5 6
A E1_1/1000 E1_1/4000 E1_1/8000 blanc
B E1_1/1000 E1_1/4000 E1_1/8000 blanc
C E1_1/1000 E1_1/4000 E1_1/8000 blanc
D T+_1/1000 T+_1/4000 T+_1/8000
E T+_1/1000 T+_1/4000 T+_1/8000
F T+_1/1000 T+_1/4000 T+_1/8000
G C1 C2 C3 C4 C5 C6
H C1 C2 C3 C4 C5 C6
Témoin -
E1
Plan plaque QPCR
28
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
AUF – Novembre 2014 29
Analyse de la variance L'analyse de la variance (terme souvent abrégé par le terme
ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus d'une même population
Ce test s'applique lorsque l'on mesure une ou plusieurs variables explicatives catégorielles (appelées alors facteurs de variabilité)
On parle d'analyse à un facteur, lorsque l'analyse porte sur un modèle décrit par un facteur de variabilité, d'analyse à deux facteurs ou d'analyse multifactorielle
30
Analyse de la variance
Ecrire le modèle théorique en fonction de la problématique à étudier.
Il est souvent possible d'écrire plusieurs modèles pour un même problème, en fonction des éléments que l'on souhaite intégrer dans l'étude
Le modèle général s'écrit : yijk… = x + f(i,j,k,….) + E
avec (y) la variable à expliquer, x une constante et (f) une relation entre les variables explicatives et l'erreur de mesure. On pose l'hypothèse fondamentale que l'erreur suit une loi normale
31
Conditions
• Normalité de la distribution : on suppose, sous l'hypothèse nulle, que les échantillons sont issus d'une même population et suivent une loi normale
• Il est donc nécessaire de vérifier la normalité des distributions et l’homogénéité des variances (tests de Barlett ou de Levene par exemple)
• Indépendance des échantillons : on suppose que chaque échantillon analysé est indépendant des autres échantillons. En pratique, c'est la problématique qui permet de supposer que les échantillons sont indépendants.
• Un exemple fréquent d'échantillons dépendants est le cas des mesures avec répétitions (chaque échantillon est analysé plusieurs fois)
32
Procédures
L'hypothèse nulle correspond au cas où les distributions suivent la même loi normale : m1 = m2 = …
L'hypothèse alternative est qu'il existe au moins une distribution dont la moyenne s'écarte des autres moyennes
Calculs des SCE (Sommes des Ecarts à la moyenne) et des variances Pour m1 : S2
1 = SCE1 / n1-1 Pour m2 : S22 = SCE2 / n2-1
F = S21 / S2
2
Si la valeur du F n’est pas compatible avec la loi de Fisher (cf tables) alors on rejette l’hypothèse H0 d’égalité des moyennes
33
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
AUF – Novembre 2014 34
Analyses multivariées
Les analyses multivariées sont très diverses selon l'objectif recherché, la nature des variables et la mise en œuvre formelle. On peut identifier deux grandes familles :
Méthodes descriptives (visant à structurer et résumer l'information)
Méthodes explicatives visant à expliquer une ou des variables dites « dépendantes » (variables à expliquer) par un ensemble de variables dites « indépendantes » (variables explicatives)
35
Le panorama des méthodes
Descriptives
Explicatives
• Descriptives
– Composantes principales (ACP)
– Factorielle des correspondances (AFC)
– Classification hiérarchisée (CAH)
– Iconographie des corrélations
36
L'Analyse en composantes principales (ACP)
L’analyse consiste à transformer des variables quantitatives liées entre elles (dites "corrélées" en statistique) en nouvelles variables décorrélées les unes des autres
Ces nouvelles variables sont nommées "composantes principales", ou axes principaux
Elle permet de réduire le nombre de variables et de rendre l'information moins redondante
37
ACP
Il s'agit d'une approche à la fois géométrique (les variables étant représentées dans un nouvel espace, selon des directions d'inertie maximale) et statistique (la recherche portant sur des axes indépendants expliquant au mieux la variabilité – la variance des données
Lorsqu'on veut compresser un ensemble de variables aléatoires, les premiers axes de l'analyse en composantes principales sont un meilleur choix, du point de vue de l'inertie ou de la variance
38
Statistiques élémentaires
Variable Moyenne Ecart Type Min Max Dissymétrie Aplatissement
V1
V2
V3
V4
Tableau de données initiales
Variable Groupe Individu 1 Individu 2 Individu 3 Individu n
V1 A
V2 A
V3 B
V4 C
39
Matrice des corrélations
V1 V2 V3 V4
V1 1 0.52 -0.60 0.05
V2 1 0.40 -0.20
V3 1 0.15
V4 1
Axe Valeur propre % variance % cumulé
F1 1 28.23 70 70
F2 2 12.03 30 100
F3 3 0.03 0 100
F4 4 0.01 0 100
Valeurs propres
40
F1 F2 F3 F4
V1 0.81 -0.58 0.01 -0.02
V2 0.90 -0.43 -0.03 0.02
V3 0.75 0.66 -0.02 -0.01
V4 0.91 0.40 0.05 0.01
Corrélations facteurs axes
Axe 2 30% Axe 1 : 70%
Axe 2 : 30% V1
V2
V3
V4
V3
V4
V1
V2
41
Tableau des données (Quantitatives)
Individus Origine Variable 1
Variable 2
Variable 3
Variable 4
Variables Test
Individu 1 A
Individu 2 A
….
Individu 15
B
Individu 16
B
….
Individu 30
C
Individu 31
C
42
ACP - Projection des observations sur un plan factoriel
Pourcentage de
variance expliqué par
les axes
Corrélations des
variables avec les axes
43
CAH - Mesure des distances
• La classification ascendante hiérarchique est une procédure qui va progressivement agréger des objets de plus en plus différents (c'est-à-dire, de plus en plus éloignés, distants)
• La méthode la plus simple consiste à considérer que les k variables forment les dimensions d'un espace à k-dimensions. Pour trois variables, vous obtiendrez un espace en 3-dimensions
• La distance Euclidienne est la plus courante
44
CAH - Méthodes d'agrégation
• Une autre question sensible en classification ascendante hiérarchique concerne la manière de déterminer les distances entre les classes
• Saut minimum (plus proches voisins) c’est la méthode utilisée par défaut
• Distance maximale entre les voisins les plus éloignés
45
46
L'iconographie des corrélations est une méthode qui consiste à remplacer une matrice de corrélations par un schéma où les corrélations « remarquables » sont représentées
par un trait plein (corrélation positive), ou un trait pointillé (corrélation négative)
47
Le panorama des méthodes
Descriptives
Explicatives
• Explicatives
– Analyse discriminante
– Régression multiple
– Nuées dynamiques
– Arbres de décisions et neurones artificiels
48
49 AUF – Novembre 2014
L’analyse discriminante permet de rechercher la meilleure combinaison de variables séparant les groupes identifiés Il donne une équation qui combine les différentes variables initiales en fonction de leur contribution
Les deux approches
permettent la recherche
de groupes
50
Arbres de décisions et neurones artificiels
Système d’apprentissage du modèle
51
Ouvrages
Pierre Dagnélie
Principes d’expérimentation (dispo en pdf gratuit) et en français
Frédérique Bertrand
Initiation à la statistique avec R (27€) - chez Dunod
Helmut van Emden Statistics for terrified biologists - chez blackwell
52
Logiciels de statistiques
GenStat : statistiques générales
SPSS : un des logiciels les plus compréhensibles techniquement
Statistica: statistiques générales, data mining et informatique décisionnelle
R : un langage de programmation pour les statistiques
53
Plan
• Bien réfléchir avant d’agir
• Les descripteurs de la variation
• Le protocole expérimental
• Analyses à une variable
• Analyses avec plusieurs variables
• FIN
AUF – Novembre 2014 54
top related