1
LES STATISTIQUES
Valérie Bougault, PhD.
Référence: S. Champely. « Statistique vraiment appliquée au sport ». Ed de Boeck université (Bruxelles), Coll Sciences et pratiques du sport. 2004
2
I. INTRODUCTION: A QUOI SERT LA STATISTIQUE?
I.1. Définition
Méthode scientifique consistant à réunir des données chiffrées sur des ensembles nombreux (populations), puis à analyser, commenter et critiquer ces données.
❏ La statistique permet de rendre lisible un flux important de données.
Cours 1
4
Le marché du Sport en France
L’évolution du marché (en milliards d’euros)
0123456789
10
2000 +5,1%
2001 +4,0%
2002 +4,1%
2003 +4,2%
2004 +2,5%
2005 +1,9%
2006 +0,3%
2007 +2,5%
2008 –0,5%
7,55 7,85 8,178,51 8,72 8,89 8,92 9,15 9,10
Tendance budget moyen par ménage en 2008: 332 €Source: L’observatoire Cetelem 2009
5
Le marché du Sport en France
Commerces associés ou franchisés 23,8%
Commerces intégrés (GSS) 47,5%
Autres commerces
spécialisés 7,5%
VPC 3,6%
Commerces monomarques et
indépendants 4,2%Grandes surfaces alimentaires 4,3%
Commerces d’équipement de la
personne 9,1%
Source: L’observatoire Cetelem 2009
6
Budget Sport des ménages en Europe
Top 3 du budget Sport des ménages en
Europe
Top 3 du budget Sport des ménages en
Europe, à revenus équivalents
7
II. PRODUIRE DE BONNES DONNEES
Sujets X Y1 A 752 B 853 B 854 B 955 C 906 D 957 D 95
2 mesures X et Y prises sur 7 sujets : Connaître le contexte des données
Peut-on généraliser les résultats obtenus à une population plus large?
Quelle est la qualité de ces données?
Peut-on établir des relations de cause à effet?
8
II.1. Mesurer
II.1.A. Validité d’une mesure
Une mesure est dite valide si elle mesure effectivement
l’information que l’on souhaite mesurer
Formes de validité :o Instruments de mesure adaptés
o Précision des caractéristiques de la mesure
Problème: Sciences du sport (beaucoup de caractéristiques)
9
o Validité prédictive
= lorsque la mesure peut être utilisée pour prédire avec une faible marge d’erreur ce que l’on souhaite mesurer.
o Validité du contenu (experts)= repose sur une sélection pertinente des mesures qui reflèteront les aspects essentiels de l’information recherchée.
o Validité du construit (experts)
= lorsque l’on essaie de savoir si un ensemble de mesures évalue correctement une caractéristique complexe et abstraite (tests psycho)
10
Validité et mesures dérivées :
Combinaison de plusieurs mesures en une seule pour en
augmenter la validité
Validité et contextualisation :
Une mesure doit être rapportée à d’autres, obtenues dans des
conditions comparables.
12
Le biais :
= Tendance générale à la sur- ou sous-estimation de la
véritable valeur, par la méthode de mesure.
o Méthode de mesure
o Définition imprécise de la mesure
o Conditions de mesure
o Individu mesuré
o Effet HAWTHORNE
o Evaluateur
13
La variabilité :
Une mesure est dite peu variable si on obtient sensiblement les
mêmes résultats en la répétant dans des conditions identiques
o Variations biologiques
o Variations mécaniques
o Insuffisance d’un protocole
14
La fiabilité :
Une mesure est dite fiable ou précise si le biais et la variabilité
sont faibles.
o Plusieurs méthodes concurrentes pour une même
information
Laquelle choisir?
15
II.1.C. Autres considérations sur les mesures
Accessibilité des mesures :
o Facilité de mise en œuvre
o Coût raisonnable
Mesures observationnelles ou expérimentales :
o Facilité de mise en œuvre
o Coût raisonnable
16
Mesures observationnelles ou expérimentales :
o Mesures observationnelles
= Quand la seule intervention de l’évaluateur réside dans le
choix des unités statistiques à mesurer.
Représentativité de l’échantillon = Sondage, échantillonnage
Existence de nombreuses variables cachées
Ne permettent pas de démontrer des relations de cause à effet
17
o Mesures expérimentales
= Dans l’étude d’une relation de cause à effet, lorsque
l’évaluateur maîtrise la variable explicative, on parle de mesures
expérimentales.
Limitation des variables cachées
Beaucoup plus difficiles de mise en place
Coût
18
II.1.D. Echelles de mesure
Les mesures diffèrent en fonction du nombre de valeurs
qu’elles peuvent prendre :
o Qualitatives
o Ordinales
o Quantitatives
19
Mesures qualitatives : (Ex: Genre: F ou M)
= Indique l’appartenance de l’unité statistique à une catégorie
o Pas de différenciation des unités à l’intérieur de
chaque catégorie
o Pas de hiérarchie établie entre les catégories
o Souvent codées numériquement
o Pas de sens arithmétique
20
Variables ordinales :
= Indique l’appartenance de l’unité statistique à une catégorie
mais l’ensemble de ces catégories présente la particularité
d’être ordonné.
o Toutes les catégories doivent pouvoir être ordonnées.
21
Mesures quantitatives : (Ex: Poids, taille…)
= Vise à estimer une quantité numérique
o 2 unités statistiques sont séparées par une véritable
distance (comparaisons possibles des écarts)
o Opérations arithmétiques envisageables
NB o La séparation entre les échelles n’est pas imperméable
o Limitation le plus possible des variables qualitatives
22
II.1.E. Organisation des mesures dans un tableau
Objectifs d’un tableau mis à jour :
o Retrouver l’ensemble des mesures prises sur
une unité statistique
o Disposer de valeurs de l’échantillon complet
concernant une mesure (âge)
o Pouvoir facilement croiser les données des
mesures
23
Structure la plus efficace :
o Disposer les unités statistiques en ligne
o Disposer les mesures en colonne
o Données manquantes: ne pas mettre de
chiffre
Sujet Genre Age Sport H/sem Années CSP H/semAB F 20 Judo 10 3 Etudiant 20PL M 22 Kayak 3 1 Vendeur 30
24
II.2. Sonder
Exemple:
Journal « L’équipe »:
= principal fonds de commerce et principale « une » = Football
Interrogations:
o Le football tient-il réellement une place prépondérante dans les unes de ce quotidien?
o Quels sont les autres sports représentés?
Cours 2
25
II.2.A. Population et échantillon
Population = ensemble des unités statistiques (objets,
individus, organisations…) sur lequel nous voulons de
l’information.
o Doit être exactement adaptée aux objectifs de l’étude
o Doit reposer sur une définition précise
Echantillon = fraction de la population
26
Recensement = mesure de toute la population
Rare (sauf pour de très petites populations) :
o Coût
o Temps
o Bonne qualité des mesures
Sondage = mesure d’un échantillon supposé représentatif de
la population
27
II.2.B. Techniques empiriques de sélection
Sondage de convenance= Sélection des unités statistiques les plus accessibles
Thèmes PagesF1 4
Football 65,5Golf 1,5
Hand-ball 7,5Paris-Dakar 4
Rugby 6,5Science du sport 1
Ski 1Tennis 6Voile 2
Volley-Ball 1
Référence: S. Champely. 2004
Les « Unes » de l’Equipe
(du 1er janvier 2001 au 11 avril
2001)
28
o Biais de sondage : échantillon non représentatif
o Echantillon autosélectionné : quand les individus sondés
sont des volontaires (souvent observé en sport)
= Défauts majeurs des sondages de convenance
29
Sondage par quotas= Méthode généralement utilisée par les instituts de sondage
français
= Consistent à respecter dans la constitution de l’échantillon, certaines proportions de la population
o Variables sur lesquelles sont fondés les quotas doivent
être fortement relié au comportement étudié
o La proportion des catégories doit être bien à jour
30
La qualité du sondage par quotas repose sur 3 hypothèses :
o La variabilité de la caractéristique qui nous intéresse,
observée dans la population générale peut être
essentiellement caractérisée par les différences existantes
entre les sous-populations
o Au sein d’une même sous-population, l’opinion est
relativement homogène
o Le poids exact des sous-populations est connu
31
o Caractérisation ou caricature?
o Biais du sondeur (sélection représentative??)
o Biais du sondé (refus de répondre)
Dans la technique des quotas,le refus de répondre
n’est pas comptabilisé (« on passe au suivant)
32
Sondage par boule de neige
= Consiste d’abord à dénicher un certain nombre d’individus correspondants à une population d’étude. Il leur est demandé de répondre au sondage et ensuite de citer, parmi leurs connaissances, d’autres personnes appartenant également à l apopulation d’étude.
o Utilisé pour les populations rares ou d’accès difficile
o Ne touche que des populations bien particulières
33
Sondage empirique
= Sondages de convenance, par quotas et par boule de neige.
o Biais de sélection important (intérêt du tirage au sort des sondés)
34
II.2.C. Techniques aléatoires de sélection
2 étapes :
o 1- Construction de la liste des unités statistiques
formant la population = liste de sondage
o 2- Par une technique de tirage au sort dans cette liste,
on sélectionne les unités de l’échantillon
Sondage aléatoire simple= Technique aléatoire de sélection la plus simple
35
Sondage aléatoire stratifiéUne population est souvent constituée de sous-populations = strates
Sondage aléatoire stratifié = consiste à pratiquer indépendamment dans chaque sous-population un sondage aléatoire
Quelle taille choisir pour chaque population?
o Généralement, taille proportionnelle à l’importance de la
sous-population correspondante = allocation
proportionnelle
36
NB:
o Plus les strates sont différentes, plus on réalise de gain
par rapport à un sondage aléatoire simple
o Possibilité d’augmenter la précision pour des petites
sous-populations, puis de corriger le déséquilibre.
37
Problèmes des listes de sondage
= La difficulté pratique de ces sondages est de constituer
une liste de sondage
Défaut de couverture : Quand une liste de sondage ne
correspond pas à la population. Les résultats obtenus sur
l’échantillon ne se généralisent alors qu’à la liste de
sondage.
38
Sondage aléatoire systématique
Quand les unités sont classables dans un certain ordre, on peut employer cette technique. On parle alors plus de file de sondage que liste de sondage.
Le sondage aléatoire systématique consiste à :
o Sélectionner régulièrement les unités statistiques dans
une file de sondage.
o Le « saut » qu’il faut à chaque fois effectuer pour définir
l’unité suivante = le pas de sondage
o Pour définir l’unité statistique initiale = tirage au sort
39
Intérêt = pas besoin de liste de population. Il faut juste
avoir une idée de sa taille afin de choisir un pas
permettant de choisir au final un échantillon assez grand.
40
Sondage par degrés
Parfois le sunités statistiques peuvent être classées par petits groupes.
Le sondage par degrés consiste à :
o 1- Construire une liste des groupes d’unités et à
sélectionner par une méthode aléatoire un échantillon de
groupes (tirage au 1er degré)
o 2- A l’intérieur de chaque groupe sélectionné, on
constitue une liste de ses unités statistiques et on réalise
un tirage aléatoire pour obtenir un échantillon d’unité
(tirage au 2nd degré)
41
En pratique…
On combine souvent différents types de sondage pour constituer un échantillon.
Combien d’exemplaires choisir pour obtenir des résultats dignes d’intérêt ?
42
II.2.D. Taille de l’échantillon
Variation d’échantillonnage :
= lorsque le pourcentage calculé sur l’échantillon dépend de
l’échantillon choisi
o Nécessité de connaître son ampleur
o Quand le sondage a été effectué avec une composante
aléatoire, on peut obtenir une information sur ces variations
43
Fourchette :
= constituée de 2 quantités entre lesquelles la véritable valeur
(celle de la population) se trouve vraisemblablement.
o Il existe toujours une incertitude
o Plus l’échantillon est grand et plus la fourchette se rétrécit,
plus on est sûr du résultat
44
Population ± 5% ± 2,5% ± 1%100 79 94 99250 151 215 244500 217 377 4751000 278 606 90610 000 370 1332 4899100 000 383 1513 87621 000 000 384 1534 951310 000 000 384 1536 9595100 000 000 384 1537 9603
Taille d’échantillon à sonder pour un pourcentage suivant la taille de la population et la précision voulue
o Petits échantillons
o La précision ne dépend pas de la taille de la population
45
II.2.E. Les non-réponses
Taux de réponseo Problème de contact
o Problème de refus
- Il faut présenter systématiquement le taux de réponse dans vos rapports
- Un taux de réponse < 80% n’est pas satisfaisant
46
Influence du mode de passation sur le taux de réponse
Mode de passation = technique choisie pour présenter concrètement le questionnaire aux sondés 5téléphone, envoi, interview)
o Il existe des techniques d’amélioration du taux de réponse
47
II.2.F. Cas pratique
Objectif : connaître le souhait et la satisfaction des usagers des piscines de Lyon
o Définition de la population cible
o Précision de cette population
o Choix de la technique de sondage
o Mise en place du protocole et définition précise des modalités
48
II.2.G. Le questionnaire
On ne peut pas se prononcer sur la qualité des résultats d’un sondage sans connaître exactement les questions qui ont été posées.
Erreurs d’échantillonnage : problèmes de représentativité de l’échantillon (population mal ciblée, mauvaise méthode de sélection, taille d’échnatillon trop faible, taux de réponse trop bas)
Erreurs d’observation : proviennent de la rédaction du questionnaire et de son administration
Erreur totale : Somme des erreurs d’échantillonnage et d’observation
49
II.3. Expérimenter
Objectif
Déterminer l’effet sur l’objet de recherche de certaines causes.
Effet : mesuré par l’intermédiaire d’une variable dite variable de réponse ou variable dépendante
Cause (s) : mesurée (s) par par une ou plusieurs variables dites facteurs ou variables indépendantes
Une variable n’est ni dépendante ni indépendante par nature
50
Caractéristiques:
o Faire varier volontairement une partie des variables indépendantes en les manipulant
o Maîriser l’effet des autres variables indépendantes :
en utilisant un tirage au sort qui dilue leur influence (randomisation)
en organisant intelligemment les unités statistiques pour équilibrer leur effet
en les observant pour estimer leur incidence grâce à un modèle mathématique (technique des covariables)
51
II.3.A. Les trois composantes d’une expérience
Unité expérimentale : objets, individus… sur lesquels on
pratique l’expérience : on parle plutôt de sujets lorsque ce
sont des êtres humains
Facteur : cequi causeles faits, les changements (variable
indépendante)
Réponse : réaction de l’unité à l’action du facteur
52
II.3.B. Les répétitions
= quand plusieurs unités se voient appliquer le même traitement
o Recrutement de sujets souvent difficile mais un sujet ne suffit pas
o La répétition permet
d’estimer l’effet moyen du traitement
de séparer le traitement de la variabilité individuelle (cad des différences normales et naturelles )
de comparer l’effet du traitement à l’effet moyen d’autres traitements
53
o On n’est pas obligé d’utiliser le même nombre de répétitions pour chaque traitement mais c’est plus précis
o Différences peu importantes attendues = prévoir un nombre plus conséquent de répétitions
PS: Il existe des tests d’étude de la puissance statistique permettant de prévoir :
la variabilité attendue
la taille des effets espérés
le nombre de répétitions nécessaires
54
II.3.C. Des expériences comparatives
Confusion: lorsqu’on ne peut distinguer l’effet du facteur d’autres causes potentielles
Pour limiter les confusions, il faut rendre l’expérimentation comparative. On compare :
o plusieurs traitements
o l’absence de traitement à son application. Le groupe contrôle est celui qui ne subit pas le traitement
55
II.3.D. La randomisation
Randomisation : Utilisation du hasard pour affecter les traitements aux unités
o Permet d’éviter les confusions provenant des « différences existant normalement et naturellement » entre unités statistiques
II.3.E. Placebo et double-aveugleo Effet placebo (« quand on sait qu’on subit un traitement,
même inefficace, on se porte généralement mieux »)
o La procédure en double-aveugle (« seul le statisticien sait qui est qui»)
56
II.3.F. Le dispositif en blocsAfin de repérer de faibles différences, il convient d’avoir un bon nombre de répétitions, sinon on ne pourra pas atteindre une puissance satistique suffisante pour cette expérimentation.
Plutôt que de multiplier le nombre de sujets, il existe une autre possibilité qui passe par une meilleure maîtrise de la variabilité individuelle.
o Rassemblement d’individus en groupes homogènes pour appliquer les différents traitements à l’intérieur de chaque groupe.
= notion d’appariement
57
II.3.G. Le dispositif de cross-over= consiste en l’utilisation de chaque sujet comme un bloc, le traitement et le contrôle lui étant successivement appliqués. L’ordre d’application est tiré au hasard.
Intérêts: o Quand le nombre d’individus est faibleo Quand la variabilité d’une personne à l’autre est très forteo Quand impossibilité de construire un bloc homogène
Inconvénients:o Durée pour le sujeto Respect d’une période de latence entre 2 traitementso Si longue période, en tenir compte dans l’analyse statistique
58
II.3.H. Le dispositif factoriel= Plusieurs facteurs peuvent être étudiés simultanément si on effectue toutes les combinaisons entre eux pour former les traitements (randomisation classique pour l’affectation aux traitements)
Intérêts:
o Recherche d’interactions
Interaction : lorsque l’effet d’un facteur dépend des traitements employés par un autre facteur
o On ne peut deviner l’effet des 2 facteurs d’après les 2 études séparées
o On limite le nombre de répétitions nécessaires
59
II.3.I. Le dispositif en carré latin
Exemple : temps de cuisson des pâtes (5, 11, 16 et 20 min) et indice gycémique (étude de Bornet et al. 1990)
= Afin d’équilibrer chaque jour les types de cuisson et d’en construire toutes les successions, on emploie un carré latin
Sujets / Jours Jour 1 Jour 2 Jour 3
Sujet 1 A B C
Sujet 2 C A B
Sujet 3 B C A
60
II.3.K. Le dispositif fractionnaire= Consiste,lorsque le nombre de combinaisons factorielles est trop élevé, à se restreindre à un sous-ensemble de traitements (une fraction). Ils seront soigneusement choisis pour permettre le test de l’effet de tous les facteurs et,éventuellement de quelques interactions.
o Utiles en début d’étude lorsqu’on peut craindre d’oublier des effets importants.