bien réfléchir avant d’agir - listes.ird.fr fileagir en fonction de ses moyens d’obsevation...

• Bien réfléchir avant d’agir

• Les descripteurs de la variation

• Le protocole expérimental

• Analyses à une variable

• Analyses avec plusieurs variables

AUF – Novembre 2014 1

Réfléchir avant d’agir

Agir en fonction de ses moyens d’observation

Anticiper la méthode d’analyse des données avant de commencer

Les questions de base

• A partir de quand ce que l’on mesure reflète t-il la réalité ?

• Traduire une question en une expérimentation !

• Crédibilité des données ?

• Crédibilité des conclusions ?

• Crédibilité du thésard / chercheur !!!!

Population à analyser

Echantillon étudié

Récolte et analyse des

données

Interprétation des

résultats et

extrapolation à la

population source

Un échantillon est un ensemble d’individus représentatifs d’une population

L’échantillonnage

Exemple

Résultats

– Dans une classe il y a la même proportion de filles que de garçons soit 50%

– L’âge moyen calculé est de 18 ans

– L’âge médian est de 18 ans

Conclusions

– La classe est assez homogène

– L’âge des élèves est d’environ 18 ans

Que manque t-il ?

Exemple

Résultats

– Dans une classe il y a la même proportion de filles que de garçons soit 50%

– L’âge moyen calculé est de 18 ans

– L’âge médian est de 18 ans

Conclusions

– La classe est assez homogène

– L’âge des élèves est d’environ 18 ans

Que manque t-il ? :

La taille de l’échantillon, il n’y a qu’un garçon de 22 ans et une fille de 14 ans

Des phases successives

• La première phase a pour but d’obtenir des informations générales sur la toxicité et l’action éventuelle du nouveau traitement

• La deuxième phase précise l’efficacité du produit étudié, en fonction des doses administrées

• La troisième phase a pour objectif principal de définir les modalités de prescription du nouveau médicament (doses, fréquences d’utilisation, etc.)

• Et la quatrième phase est une phase de suivi, qui a notamment pour but d’identifier les éventuels effets secondaires ou qui pourraient apparaître à long terme

Toujours mettre des témoins

• En essai : Introduire systématiquement un ou deux témoins qui permettront de « recaler » les données

• En agronomie : mettre des bordures pour éliminer leur effet

• En analyse : Introduire des données aléatoires pour détecter les limites de l’interprétation

• En médecine : Introduire des effets placébo pour distinguer les effets liés à l’échantillon

Les descripteurs monovariées

La moyenne

La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus :

X (moy) = 1/n ⋅∑ x i (pour n allant de 1 à i)

La médiane

La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50 % au-dessus et 50 % en dessous

Le niveau de confiance recherché

95% est le seuil le plus courant

Les descripteurs monovariées

La variance

La variance est égale à la moyenne simple des écarts à la moyenne arithmétique

σ2 = (1 / n−1) ⋅∑ (x i −X ) 2 (pour n allant de 1 à i)

L’écart Type

L’écart type σ est la racine carrée de la variance

Le Coefficient de variation

Le Coefficient de Variation est le rapport de l’écart type sur la moyenne : CV = σ / X

Intervalle de confiance

Lorsqu’il y a n mesures la précision dur la mesure augmente en 1/ √ n

Théorie de l'échantillonnage

• Garantir ou au moins d'estimer la fiabilité de conclusions tirées de l'étude d'échantillons, mais étendues aux populations entières

• Capacité à capter la diversité du phénomène étudié

• Minimiser le biais ou erreur systématique

• Estimer le lien entre la taille de l'échantillon et la confiance que l'on peut accorder à la généralisation des résultats

Valeur de la population source Valeur de l’échantillon

L'objectif est d'obtenir une meilleure connaissance de la population par l'étude du seul échantillon Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population

Valeur de la population source Valeur de l’échantillon

L'objectif est d'obtenir une meilleure connaissance de la population par l'étude du seul échantillon Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant l'étude exhaustive de la population La valeur expérimentale obtenue est différente de la valeur de la source

Attention aux préjugés

Le recours à un échantillon répond en général a une contrainte pratique (manque de temps, de place, évaluation destructive d'une production, coût financier…) interdisant

l'étude exhaustive de la population

La distribution normale

• Cette distribution possède plusieurs caractéristiques :

• Égalité de la moyenne, de la médiane et du mode

• Parfaite symétrie

• Concentration des données autour de la moyenne avec diminution relative à l'éloignement

• Très utilisée en statistiques

Les 3 distributions de droite diffèrent par leur écart type

Les 3 distributions de gauche diffèrent par leur moyenne

Normales ne veut pas dire identiques

Les observations peuvent être un peu décalées….

Il faudra dans ce cas procéder à des transformations mathématiques

pour reconfigurer les données et rendre la

distribution normale

Les variables peuvent être indépendantes ou corrélées La connaissance des relations peut permettre d’économiser des mesures

La corrélation entre variables permet de prédire la valeur de l’une en connaissant la valeur de l’autre

Méthode expérimentale

• Isoler les variables censées influencer le comportement étudié

• Construire une situation expérimentale contrôlée le plus rigoureusement possible

• Tester des hypothèses formulées à partir d’un contexte théorique en les soumettant aux faits de manière à les infirmer ou les confirmer

• Tirer les conclusions correspondantes en terme de lien de causalité (ou de non causalité) entre VI et VD

Le plan à groupes indépendants

Chaque groupe ne passe qu’une partie des tests

Les groupes doivent être indépendants mais équivalents

– Un premier groupe : modalité A

– Une deuxième groupe : modalité B

On comparera que les différences de moyennes des groupes

Groupes appariés

Chaque groupe passe tous les tests

Tous les individus subissent toutes les modalités

Le problème d’équivalence des groupes ne se pose plus

En revanche, l’ordre des traitements doit être aléatoire pour chaque individu

Les plans factoriels (Précision et cout expérimental)

• Etudes de plusieurs variables

• Effets principaux de chaque variable

• Interactions entre les variables

• Groupes

– Indépendants (mesures partielles)

– Appariés (mesures répétées)

– Mixtes (une partie partielle + une partie répétée)

Modèle expérimental Plan factoriel à groupes indépendants

Variable 1 (Durée)

Variable 2 (Traitement)

Individus

Durée 1 Traitement 1 1 à 20

Chaque individu ne subit qu’une seule durée traitement

Il n’y a qu’une mesure par individu

Donc 80 mesures au total

Modèle expérimental Plan factoriel à groupes appariés

Traitement1 Traitement 2

Traitement 1 Traitement 2

Durée 1 2 1 2

Individu 1

Individu 2

Individu x

Chaque individu subit toutes les durées traitement

Il y a quatre mesures par individu

Donc 320 mesures au total soit 4 fois plus

Modèle expérimental Plan factoriel mixte

Individu Durée Durée

Traitement Traitement 1 Individu 1

Traitement 1 Individu 2

Traitement 1 Individu N/2

Chaque individu subit la moitié deux durées traitement mais un seul traitement

Il y a deux mesures par individu

Donc mesures 160 mesures au total 27

Quantification des librairies NGS par QPCR

Dispositif Echantillon : E1 Témoin positif : T+ Témoin négatif : blanc Gamme étalon : C1-C6

3 dilutions X 3 réplicats

1 2 3 4 5 6

A E1_1/1000 E1_1/4000 E1_1/8000 blanc

B E1_1/1000 E1_1/4000 E1_1/8000 blanc

C E1_1/1000 E1_1/4000 E1_1/8000 blanc

D T+_1/1000 T+_1/4000 T+_1/8000

E T+_1/1000 T+_1/4000 T+_1/8000

F T+_1/1000 T+_1/4000 T+_1/8000

G C1 C2 C3 C4 C5 C6

H C1 C2 C3 C4 C5 C6

Témoin -

Plan plaque QPCR

Analyse de la variance L'analyse de la variance (terme souvent abrégé par le terme

ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus d'une même population

Ce test s'applique lorsque l'on mesure une ou plusieurs variables explicatives catégorielles (appelées alors facteurs de variabilité)

On parle d'analyse à un facteur, lorsque l'analyse porte sur un modèle décrit par un facteur de variabilité, d'analyse à deux facteurs ou d'analyse multifactorielle

Analyse de la variance

Ecrire le modèle théorique en fonction de la problématique à étudier.

Il est souvent possible d'écrire plusieurs modèles pour un même problème, en fonction des éléments que l'on souhaite intégrer dans l'étude

Le modèle général s'écrit : yijk… = x + f(i,j,k,….) + E

avec (y) la variable à expliquer, x une constante et (f) une relation entre les variables explicatives et l'erreur de mesure. On pose l'hypothèse fondamentale que l'erreur suit une loi normale

Conditions

• Normalité de la distribution : on suppose, sous l'hypothèse nulle, que les échantillons sont issus d'une même population et suivent une loi normale

• Il est donc nécessaire de vérifier la normalité des distributions et l’homogénéité des variances (tests de Barlett ou de Levene par exemple)

• Indépendance des échantillons : on suppose que chaque échantillon analysé est indépendant des autres échantillons. En pratique, c'est la problématique qui permet de supposer que les échantillons sont indépendants.

• Un exemple fréquent d'échantillons dépendants est le cas des mesures avec répétitions (chaque échantillon est analysé plusieurs fois)

Procédures

L'hypothèse nulle correspond au cas où les distributions suivent la même loi normale : m1 = m2 = …

L'hypothèse alternative est qu'il existe au moins une distribution dont la moyenne s'écarte des autres moyennes

Calculs des SCE (Sommes des Ecarts à la moyenne) et des variances Pour m1 : S2

1 = SCE1 / n1-1 Pour m2 : S22 = SCE2 / n2-1

F = S21 / S2

Si la valeur du F n’est pas compatible avec la loi de Fisher (cf tables) alors on rejette l’hypothèse H0 d’égalité des moyennes

Analyses multivariées

Les analyses multivariées sont très diverses selon l'objectif recherché, la nature des variables et la mise en œuvre formelle. On peut identifier deux grandes familles :

Méthodes descriptives (visant à structurer et résumer l'information)

Méthodes explicatives visant à expliquer une ou des variables dites « dépendantes » (variables à expliquer) par un ensemble de variables dites « indépendantes » (variables explicatives)

Le panorama des méthodes

Descriptives

Explicatives

• Descriptives

– Composantes principales (ACP)

– Factorielle des correspondances (AFC)

– Classification hiérarchisée (CAH)

– Iconographie des corrélations

L'Analyse en composantes principales (ACP)

L’analyse consiste à transformer des variables quantitatives liées entre elles (dites "corrélées" en statistique) en nouvelles variables décorrélées les unes des autres

Ces nouvelles variables sont nommées "composantes principales", ou axes principaux

Elle permet de réduire le nombre de variables et de rendre l'information moins redondante

Il s'agit d'une approche à la fois géométrique (les variables étant représentées dans un nouvel espace, selon des directions d'inertie maximale) et statistique (la recherche portant sur des axes indépendants expliquant au mieux la variabilité – la variance des données

Lorsqu'on veut compresser un ensemble de variables aléatoires, les premiers axes de l'analyse en composantes principales sont un meilleur choix, du point de vue de l'inertie ou de la variance

Statistiques élémentaires

Variable Moyenne Ecart Type Min Max Dissymétrie Aplatissement

Tableau de données initiales

Variable Groupe Individu 1 Individu 2 Individu 3 Individu n

Matrice des corrélations

V1 V2 V3 V4

V1 1 0.52 -0.60 0.05

V2 1 0.40 -0.20

V3 1 0.15

Axe Valeur propre % variance % cumulé

F1 1 28.23 70 70

F2 2 12.03 30 100

F3 3 0.03 0 100

F4 4 0.01 0 100

Valeurs propres

F1 F2 F3 F4

V1 0.81 -0.58 0.01 -0.02

V2 0.90 -0.43 -0.03 0.02

V3 0.75 0.66 -0.02 -0.01

V4 0.91 0.40 0.05 0.01

Corrélations facteurs axes

Axe 2 30% Axe 1 : 70%

Axe 2 : 30% V1

Tableau des données (Quantitatives)

Individus Origine Variable 1

Variable 2

Variable 3

Variable 4

Variables Test

Individu 1 A

Individu 2 A

Individu 15

Individu 16

Individu 30

Individu 31

ACP - Projection des observations sur un plan factoriel

Pourcentage de

variance expliqué par

les axes

Corrélations des

variables avec les axes

CAH - Mesure des distances

• La classification ascendante hiérarchique est une procédure qui va progressivement agréger des objets de plus en plus différents (c'est-à-dire, de plus en plus éloignés, distants)

• La méthode la plus simple consiste à considérer que les k variables forment les dimensions d'un espace à k-dimensions. Pour trois variables, vous obtiendrez un espace en 3-dimensions

• La distance Euclidienne est la plus courante

CAH - Méthodes d'agrégation

• Une autre question sensible en classification ascendante hiérarchique concerne la manière de déterminer les distances entre les classes

• Saut minimum (plus proches voisins) c’est la méthode utilisée par défaut

• Distance maximale entre les voisins les plus éloignés

L'iconographie des corrélations est une méthode qui consiste à remplacer une matrice de corrélations par un schéma où les corrélations « remarquables » sont représentées

par un trait plein (corrélation positive), ou un trait pointillé (corrélation négative)

Le panorama des méthodes

Descriptives

Explicatives

• Explicatives

– Analyse discriminante

– Régression multiple

– Nuées dynamiques

– Arbres de décisions et neurones artificiels

49 AUF – Novembre 2014

L’analyse discriminante permet de rechercher la meilleure combinaison de variables séparant les groupes identifiés Il donne une équation qui combine les différentes variables initiales en fonction de leur contribution

Les deux approches

permettent la recherche

de groupes

Arbres de décisions et neurones artificiels

Système d’apprentissage du modèle

Ouvrages

Pierre Dagnélie

Principes d’expérimentation (dispo en pdf gratuit) et en français

Frédérique Bertrand

Initiation à la statistique avec R (27€) - chez Dunod

Helmut van Emden Statistics for terrified biologists - chez blackwell

Logiciels de statistiques

GenStat : statistiques générales

SPSS : un des logiciels les plus compréhensibles techniquement

Statistica: statistiques générales, data mining et informatique décisionnelle

R : un langage de programmation pour les statistiques

• FIN

bien réfléchir avant d’agir - listes.ird.fr fileagir en fonction de ses moyens d’obsevation...

Documents

thématique : lutte contre le décrochage apad : anticiper

la santé environnementale: il est temps d’agir

comprendre et anticiper les attaques ddos

projet d'etablissement 2015-2018 - collège …€¦ ·...

du plaisir d’agir à l’envie d’apprendre en eps

anticiper l’unite une méthode de...

anticiper la mise en service d’un bâtiment

l'imaginaire peut-il développer l'aptitude à anticiper

esiee ge cours 1 anticiper definir 4

dignitÉ et pouvoir d’agir : remettre les

la prostitution : il est temps d’agir

préparer et anticiper un chantier de méthanisation

anticiper pour-mieux-agir

compétences et pouvoir d’agir - université laval ·...

donner les moyens d’agir et de réussir

anticiper le risque du contrôle fiscal f.e.c

anticiper les risques juridiques des algorithmes d’ia

handéo, l’association qui libère le pouvoir d’agir des...

les difficultés, savoir les anticiper

anticiper et préparer la fusion des instances