rapport technique annuel 2016 sur · 2019-03-14 · le conseil médical du canada rapport technique...

Examen d’aptitude du Conseil médical

du Canada(EACMC), partie I

Rapport technique annuel 2016 surl’EACMC, partie I

Le Conseil médical du Canada

Rapport technique annuel 2016 sur l’EACMC, partie I 2

Table des matières

Avant-propos ........................................................................................................................................ 4

1. APERÇU DE L’EACMC, PARTIE I ................................................................................................. 5

2. ÉLABORATION DE L’EXAMEN ...................................................................................................... 5 2.1 Spécifications des épreuves .................................................................................................. 5

2.1.1 La composante QCM ................................................................................................. 5 2.1.2 La composante PDC .................................................................................................. 7

2.2 Format de l’examen ............................................................................................................... 8 2.3 Élaboration des questions d’examen .................................................................................... 9

2.3.1 Questions à choix multiples ..................................................................................... 11 2.3.2 Création automatisée de questions d’examen ......................................................... 12 2.3.3 Questions de prise de décisions cliniques ............................................................... 14 2.3.4 Traduction des QCMs et des questions de PDC ..................................................... 15

3. ADMINISTRATION DE L’EXAMEN .............................................................................................. 16 3.1 Centres d’examen et administration des épreuves ............................................................. 16 3.2 Sécurité de l’examen ........................................................................................................... 17 3.3 Préparation à l’examen ........................................................................................................ 17 3.4 Assurance de la qualité ....................................................................................................... 17 3.5 Communication des résultats .............................................................................................. 18

4. VALIDITÉ 19

4.1 Données probantes fondées sur le contenu de l’examen ................................................... 19 4.2 Données probantes fondées sur la structure interne de l’examen ..................................... 20 4.3 Diminution des facteurs non pertinents ............................................................................... 21

5. ANALYSES PSYCHOMÉTRIQUES .............................................................................................. 21 5.1 Analyse des questions d’examen : théorie classique

des tests et théorie de la réponse à l’item ........................................................................... 21 5.2 Calibrage des questions d’examen selon la TRI ................................................................. 23 5.3 Estimation de l’habileté des candidats ................................................................................ 25 5.4 Administration d’épreuves adaptatives par étapes.............................................................. 26 5.5 Notation de l’examen ........................................................................................................... 28 5.6 Établissement du seuil de réussite et échelonnage des résultats...................................... 29 5.7 Communication des résultats .............................................................................................. 31

6. RÉSULTATS DE L’EXAMEN ........................................................................................................ 32 6.1 Cohortes de candidats ......................................................................................................... 32 6.2 Résultats globaux de l’examen............................................................................................ 32 6.3 Fidélité des scores et des décisions de classification ......................................................... 34 6.4 Exactitude et consistance des décisions de réussite ou d’échec....................................... 36 6.5 Profil des notes spécifiques par domaine ............................................................................ 37 6.6 Taux de réussite antérieurs ................................................................................................. 39 6.7 Sondages auprès des candidats ......................................................................................... 39

Références ...................................................................................................................................... 42

ANNEXE A : Centres d’examen pour l’EACMC, partie I ..................................................................... 44

ANNEXE B : Relevé de résultats pour l’EACMC, partie I .................................................................... 45

ANNEXE C : Rapport d'information supplémentaire pour l’EACMC, partie I ...................................... 46

Liste des tableaux et des figures

Tableau 1 : Statistiques sur l’indice de difficulté de rasch par discipline

et par niveau de difficulté .................................................................................................. 6

Tableau 2 : Conception des caselets pour les huit épreuves de PDC ................................................ 7

Tableau 3 : Conception de huit épreuves équivalentes de PDC ......................................................... 8

Tableau 4 : Nombre de QCMs (rédigées de manière traditionnelle)

mises à l’essai pour chaque discipline en 2016 ............................................................. 10

Tableau 5 : Nombre de qcms (produites par CAQE) mises à l’essai pour

chaque discipline en 2016 .............................................................................................. 11

Tableau 6 : Nombre de questions d’examen produites par caqe en 2016

par chacun des comités d’épreuves ............................................................................... 14

Tableau 7 : Critères statistiques d’approbation des résultats............................................................ 18

Tableau 8 : Corrélations (corrigées pour atténuation) entre disciplines (n = 4 147) ......................... 20

Figure 1 : Administration d’épreuves adaptatives par étapes – section initiale ............................. 27

Figure 2 : Administration d’épreuves adaptatives par étapes – sections nos 2 à 6 ......................... 27

Tableau 9 : Répartition des candidats en 2016 ................................................................................. 32

Tableau 10 : Résultats de l’examen au printemps et à l’automne 2016 ............................................. 33

Figure 3 : Distribution des scores totaux au printemps et à l’automne 2016 .................................. 34

Figure 4 : Erreurs types sur le score total à l’examen – printemps 2016 ....................................... 35

Figure 5 : Erreurs types sur le score total à l’examen – automne 2016 ......................................... 36

Tableau 11 : Estimations de fidélité et erreurs types de mesure, et indices de

consistance et d’exactitude des décisions pour les sessions de printemps

et d’automne 2016 .......................................................................................................... 37

Figure 3 : Profil des scores spécifiques par domaine à la session de printemps

de l’ EACMC, partie I ...................................................................................................... 38

Figure 4 : Profil des scores spécifiques par domaine à la session d’automne

de l’EACMC, partie I ....................................................................................................... 38

Tableau 12 : Taux de réussite, du printemps 2013 à l’automne 2016 ................................................ 39

Tableau 13 : Résultats (en pourcentage) des sondages menés auprès des candidats

au printemps et à l’automne 2016 après la composante QCM ...................................... 39

Tableau 14 : Résultats (en pourcentage) des sondages menés auprès des candidats

au printemps et à l’automne 2016 après la composante PDC ....................................... 40

Avant-propos

Ce rapport résume les caractéristiques psychométriques fondamentales de l’examen d’aptitude

du Conseil médical du Canada (EACMC), partie I, les activités d’élaboration et d’administration

des épreuves de cet examen en 2016, de même que le rendement des candidats à ces

épreuves. Les chapitres 1 à 5 décrivent le but, le format, l’élaboration du contenu, l’administration

des épreuves, la notation des épreuves et la communication des résultats de l’examen. Ces

chapitres fournissent aussi des données probantes de validité qui appuient l’interprétation des

résultats. Ils abordent en outre la fidélité, les erreurs de mesure et d’autres caractéristiques

psychométriques de l’examen. Le chapitre 6 résume le rendement des candidats pour les 2

sessions d’examen de 2016 et fournit des données antérieures à des fins de référence. Ce

rapport est destiné à servir de documentation technique et de document de référence pour les

membres du Comité central des examens (CCE), les membres des comités d’épreuves et le

personnel du Conseil médical du Canada (CMC).

1. Aperçu de l’EACMC, partie I

L’EACMC, partie I, est un examen informatisé d’une durée d’une journée. Il évalue la

compétence des diplômés en médecine qui demandent à être admis à des programmes de

formation clinique postdoctorale sous supervision. Plus précisément, l’EACMC, partie I, évalue

les connaissances ainsi que les aptitudes et attitudes cliniques décrites dans les objectifs du

CMC pour les disciplines suivantes : chirurgie; médecine; obstétrique et gynécologie (OBGYN);

pédiatrie; psychiatrie; santé des populations, aspects éthiques, légaux et organisationnels de

l’exercice de la médecine (SPELO).

L’EACMC, partie I, comporte deux composantes. La première comprend 196 questions à choix

multiples (QCM). La seconde comprend 36 cas de prise de décisions cliniques (PDC) qui

contiennent des questions à choix de réponses et des questions à réponse écrite.

Le CCE est responsable de veiller aux aspects suivants de l’EACMC, partie I : spécifications des

épreuves, élaboration de l’examen et mise à jour de son contenu et approbation des résultats.

2. Élaboration de l’examen

2.1 Spécifications des épreuves

2.1.1 La composante QCM

Pour la composante QCM, les spécifications des épreuves ne portent que sur les disciplines

couvertes et le niveau de difficulté des testlets. Un testlet est une entité formée de quatre QCM

d’une même discipline. Les comités d’épreuves produisent des testlets par niveau de difficulté, en

veillant à ce que chaque testlet couvre un contenu varié à l’intérieur de la discipline. Les testlets

servent à administrer des épreuves adaptatives par étapes pour la composante QCM. Chaque

item (QCM) se voit attribuer un niveau de difficulté fondé sur l’indice de difficulté de Rasch établi

lors du calibrage. La section 5.2 décrit le processus de calibrage. Quatre niveaux de difficulté

sont définis : 1 – questions très faciles; 2 – questions faciles; 3 – questions difficiles; 4 –

questions très difficiles. Le tableau 1 ci-après donne, pour chaque discipline et chaque niveau de

difficulté, les indices de difficulté de Rasch moyen, minimal et maximal en 2016. Pour l’examen

de 2017, les questions seront choisies de manière à correspondre aux mêmes niveaux de

difficulté. La section 5.4 décrit plus en détail le concept d’épreuve adaptative par étapes.

Tableau 1 – Statistiques sur l’indice de difficulté de Rasch par discipline et par niveau de difficulté

Discipline Niveau de difficulté Moyenne Min Max

Médecine 1 −2,39 −4,66 −1,62

Médecine 2 −1,10 −1,62 −0,64

Médecine 3 −0,18 −0,63 0,30

Médecine 4 0,94 0,31 3,76

Obstétrique et gynécologie 1 −2,42 −4,87 −1,64

Obstétrique et gynécologie 2 −1,08 −1,62 −0,61

Obstétrique et gynécologie 3 −0,21 −0,63 0,30

Obstétrique et gynécologie 4 0,97 0,31 2,76

Pédiatrie 1 −2,41 −4,51 −1,63

Pédiatrie 2 −1,08 −1,60 −0,64

Pédiatrie 3 −0,19 −0,78 0,32

Pédiatrie 4 0,95 0,34 2,79

SPELO 1 −2,31 −4,48 −1,25

SPELO 2 −1,13 −1,63 −0,65

SPELO 3 −0,20 −0,63 0,30

SPELO 4 0,97 0,31 2,49

Psychiatrie 1 −2,37 −4,24 −1,62

Psychiatrie 2 −1,13 −1,62 −0,64

Psychiatrie 3 −0,23 −0,63 0,29

Psychiatrie 4 0,92 0,32 2,88

Chirurgie 1 −2,21 −3,87 −1,62

Chirurgie 2 −1,08 −1,62 −0,63

Chirurgie 3 −0,19 −0,63 0,31

Chirurgie 4 1,07 0,31 3,09

Des pourcentages selon le contenu ont été fixés pour une seule discipline, SPELO. À partir d’une

pondération qui avait été établie avant la mise en place d’examens informatisés, la santé des

populations devait constituer au maximum 20 % du contenu des questions de SPELO, et les

aspects éthiques, légaux et organisationnels de l’exercice de la médecine les 80 %

restants. Lorsque le CMC est passé aux examens informatisés ainsi qu’à des épreuves

adaptatives par étapes avec des testlets de quatre questions, ce rapport est passé d’un ratio de

20-80 à 25-75. Ainsi, chaque testlet de quatre questions comprend une question de santé des

populations.

2.1.2 La composante PDC

La composante PDC de l’EACMC, partie I, comprend six caselets respectant les spécifications

résumées dans le tableau 2. Un caselet est formé de six cas, à raison d’un cas pour chacune des

six disciplines. Chaque cas comporte d’une à quatre questions liées au cas clinique présenté.

Chaque épreuve comprend six caselets, pour un total de 36 cas. Comme la période d’examen

dure plusieurs jours, huit épreuves sont élaborées chaque année. Le tableau 3 montre comment

la répartition des caselets entre les huit épreuves de la composante PDC assure un

chevauchement des contenus d’une épreuve à l’autre. Selon ce schéma, il faut 108 cas distincts

pour les huit épreuves d’une session d’examen.

Tableau 2 – Conception des caselets pour les huit épreuves de PDC

Priorité no 1 : Complexité

Cas et questions plus complexes que dans les QCM

Priorité no 2 : Tâches cliniques Par épreuve

Acquisition de données 40 %

Interprétation de données 20 %

Prise en charge 40 %

Priorité no 3 : Groupes d’âge Par épreuve

Grossesse, périnatalité, nourrissons 10 %

Enfants et adolescents 30 %

Adultes 45 %

Personnes âgées 15 %

Priorité no 4 : Appareils et systèmes

Questions portant sur une variété d’appareils et systèmes

Tableau 3 – Conception de huit épreuves équivalentes de PDC

Caselet ÉPREUVE

Totaux 1 2 3 4 5 6 7 8

1 X X X 3

2 X X X 3

3 X X X 3

4 X X X 3

5 X X X 3

6 X X X 3

7 X X X 3

8 X X X 3

9 X X X 3

10 X X X 3

11 X X X 3

12 X X X 3

13 X X 2

14 X X 2

15 X X 2

16 X X 2

17 X X 2

18 X X 2

Totaux 6 6 6 6 6 6 6 6

* Chaque « X » représente un ensemble de 6 cas.

2.2 Format de l’examen

L’examen comporte une composante QCM et une composante PDC. Le contenu de chaque

composante englobe 6 disciplines : chirurgie, médecine, obstétrique et gynécologie, pédiatrie,

psychiatrie, SPELO.

La composante QCM de l’EACMC, partie I, est formée de sept sections de 28 questions

chacune, pour un total de 196 questions. La durée maximale de cette composante est de trois

heures et demie. Cette composante est conçue comme une épreuve semi-adaptative par étapes.

Ce modèle consiste à faire une estimation initiale de l’habileté d’un candidat à partir du résultat

de la première section (appelée section initiale), qui détermine le niveau de difficulté des

questions de la prochaine section (Voir la section 5.4, à la page 22, pour une description plus

détaillée du concept d’épreuve adaptative par étapes). Chaque QCM comprend un énoncé et

cinq réponses possibles, dont une seule est correcte. Une réponse erronée n’entraîne aucune

pénalité. Le modèle d’administration des QCMs est conçu de telle sorte que le candidat, après

avoir soumis ses réponses aux questions d’une section, ne peut revenir à cette section.

La composante PDC comprend de 45 à 50 cas environ (y compris des cas mis à l’essai). D’une à

quatre questions sont posées pour chaque cas, pour un total d’environ 80 questions. La durée

maximale de cette composante est de quatre heures. La composante PDC comporte des

questions à choix de réponses et des questions à réponse écrite. Elle est conçue pour évaluer

les aptitudes des candidats à résoudre des problèmes et à prendre des décisions cliniques.

Chaque description de cas est suivie d’au moins une question portant sur des aspects clés de la

résolution du cas. Les questions de PDC (de même que certaines QCM) sont accompagnées

d’illustrations : photographies, diagrammes, radiographies, électrocardiogrammes, graphiques ou

tableaux. Les candidats peuvent avoir à obtenir des renseignements cliniques, à demander des

examens diagnostiques, à poser un diagnostic ou à prescrire un traitement. Leurs décisions

devraient refléter la prise en charge d’un patient réel.

Chaque candidat se voit attribuer au hasard une version d’une épreuve de l’examen de PDC. Un

candidat qui se présente à l’examen deux fois au cours d’une même année se voit attribuer des

épreuves différentes, de telle sorte qu’il n’ait pas à répondre aux mêmes cas. Les épreuves sont

conçues de manière à inclure un nombre donné de cas et de questions également répartis entre

les six disciplines. Chaque version d’une épreuve comprend aussi une dizaine de cas mis à

l’essai. Contrairement à ce qui se passe pour la composante QCM, ces cas mis à l’essai ne

comptent pas dans le calcul de la note du candidat. Les cas mis à l’essai qui ont un bon

rendement sont conservés à titre de cas actifs à utiliser dans des épreuves ultérieures.

En général, la composante QCM de l’EACMC, partie I, est administrée le matin, et la composante

PDC l’après-midi.

2.3 Élaboration des questions d’examen

Le contenu de la composante QCM de l’examen est élaboré par des comités d’épreuves propres

à chacune des six disciplines, formés de médecins de famille et d’autres spécialistes. Les deux

langues officielles (anglais et français) sont représentées au sein de ces comités d’épreuves, car

le contenu des examens est produit dans les deux langues officielles. Le contenu de la

composante PDC est élaboré par un comité d’épreuves pluridisciplinaire comprenant des

représentants de chacune des six disciplines ainsi que des médecins de famille. Tout nouveau

contenu élaboré par les comités d’épreuves des diverses disciplines et de la composante PDC

est revu et approuvé avant d’être mis à l’essai. Le nouveau contenu de la composante QCM est

mis à l’essai avec le contenu actif de l’examen. Après l’examen, le CMC analyse les réponses

données par les candidats. Les questions mises à l’essai qui répondent à certains critères

statistiques sont inclus dans le calcul de la note des candidats. Celles qui ne répondent pas à ces

critères sont renvoyées à leurs comités d’épreuves respectifs, qui les révisent avant qu’elles

soient à nouveau mises à l’essai. Le nouveau contenu de la composante PDC est également mis

à l’essai et évalué d’une manière similaire; par contre, les questions mises à l’essai qui répondent

aux exigences de rendement ne comptent dans le calcul de la note des candidats que dans les

épreuves subséquentes.

En 2016, un total de 917 QCM élaborées par les comités d’épreuves au moyen de la méthode

traditionnelle de rédaction de questions d’examen ont été mises à l’essai. D’autre part, 227 QCM

produites à l’aide de la méthode de création automatisée de questions d’examen (CAQE – voir la

sous-section 2.3.2) ont été mises à l’essai, pour un total de 1 144 QCMs mises à l’essai en 2016.

Le tableau 4 donne le nombre de QCM mises à l’essai qui ont été élaborées par les comités

d’épreuves de chaque discipline au moyen de la méthode traditionnelle de rédaction. Le tableau

5 donne le nombre de QCMs mises à l’essai qui ont été élaborées par les comités d’épreuves de

chaque discipline à l’aide de la méthode de CAQE.

Tableau 4 – Nombre de QCMs (rédigées de manière traditionnelle) mises à l’essai pour chaque discipline en 2016

Comité d’épreuves Nombre de questions

Médecine 111

Obstétrique et gynécologie 203

Pédiatrie 164

SPELO 126

Psychiatrie 133

Chirurgie 180

TOTAL 917

Tableau 5 – Nombre de QCMs (produites par CAQE) mises à l’essai pour chaque discipline en 2016

Comité d’épreuves Nombre de

modèles Nombre de questions

Médecine 21 193

Obstétrique et gynécologie 4 21

Pédiatrie 2 6

SPELO - -

Psychiatrie 1 7

Chirurgie - -

TOTAL 28 227

L’élaboration de QCMs et de questions de PDC pour l’EACMC, partie I, doit tenir compte du but

de cet examen. Même si le principe de l’élaboration de questions est le même pour les

composantes QCM et PDC, il y a certaines différences. La suite de cette section présente le

cycle d’élaboration des questions d’examen pour les composantes QCM et PDC, ainsi que le

processus de traduction des questions de l’anglais au français.

2.3.1 Questions à choix multiples

Le contenu de la composante QCM de l’EACMC, partie I, est élaboré par des comités d’épreuves

propres à chacune des six disciplines. Chaque comité d’épreuves est formé de huit à 11 experts

en la matière, venant de diverses régions du Canada, qui sont reconnus pour leurs compétences

dans leur discipline ainsi qu’en formation et évaluation dans le domaine médical. Chaque comité

d’épreuves comprend au moins deux médecins de famille. Les experts en la matière peuvent être

recommandés par un agent responsable de l’élaboration d’examens du CMC, par un membre

d’un comité d’épreuves ou par le comité de sélection du CMC. Toute recommandation doit être

approuvée par le comité de sélection lors de l’Assemblée annuelle du CMC.

Chaque comité d’épreuves tient au moins une réunion par année au siège du CMC à Ottawa.

Pendant ces réunions, des QCMs sont rédigées, classifiées, examinées par des pairs et

approuvées pour être mises à l’essai. Les comités d’épreuves comprennent des représentants

des deux langues officielles et des diverses régions géographiques du Canada. Le contenu est

élaboré conformément aux normes professionnelles énoncées aux sections 3.1, 3.7 et 3.11 du

document Standards for Educational and Psychological Testing (American Educational Research

Association, American Psychological Association, National Council on Measurement in Education

et Joint Committee on Standards for Educational and Psychological Testing (U.S.) (2014), ainsi

qu’en suivant les lignes directrices énoncées à la section 2.3 du document International

Guidelines for Test Use (International Test Commission (2001). International Guidelines for Test

Use, International Journal of Testing, 1(2), 93-114). Ces normes et lignes directrices

comprennent des étapes d’assurance de la qualité. Premièrement, après la vérification des

questions d’examen par les comités d’épreuves, les agents responsables de l’élaboration

d’examens et les réviseurs du contenu des examens s’assurent que les questions sont

appropriées quant au style, à la structure et à la langue. Deuxièmement, après la traduction en

français des questions rédigées en anglais, les agents responsables de l’élaboration d’examens

font une lecture comparée exhaustive des versions anglaise et française, ainsi qu’une lecture

comparée à voix haute de toutes les questions avec des médecins bilingues.

Les agents responsables de l’élaboration d’examens, en collaboration avec le président de

chaque comité d’épreuves, guident les membres du comité d’épreuves à élaborer un contenu

correspondant aux spécifications des épreuves pour lesquelles on sait qu’il y a des lacunes. Il

faut aussi veiller à créer des questions de différents niveaux de difficulté, en utilisant la

terminologie médicale la plus à jour (p. ex. celle de la 5e édition du Manuel diagnostique et

statistique des maladies mentales [DSM-5]) et en essayant de satisfaire aux spécifications

d’épreuve de l’examen. Dans l’élaboration des questions d’examen, les membres des comités

d’épreuves sont souvent appelés à mettre l’accent sur les erreurs commises par des candidats

peu compétents.

2.3.2 Création automatisée de questions d’examen

En prévision du besoin futur d’un plus grand nombre de questions d’examen, afin que le CMC

puisse administrer l’EACMC, partie I, à l’étranger et plus souvent, un projet de recherche de

trois ans a été mis sur pied en 2013, afin d’explorer la faisabilité du recours à la création

automatisée de questions d’examen (CAQE) pour l’élaboration de QCMs. Les comités

d’épreuves ont été initiés au processus de CAQE en 2016.

Le processus de CAQE recourt à des modèles cognitifs pour produire des questions d’examen à

l’aide de la technologie informatique. Ce processus comporte trois étapes (Gierl et al., 2013) :

• Étape 1 : Les experts médicaux identifient et organisent le contenu qui se prête à

l’élaboration de modèles cognitifs.

• Étape 2 : Les experts médicaux créent un modèle de question d’examen qui définit

où le contenu du modèle cognitif doit être placé dans un gabarit pour produire des

questions d’examen.

• Étape 3 : Les experts médicaux utilisent un algorithme informatisé de production de

questions d’examen (Item Generator - IGOR) pour mettre le contenu dans le modèle

de question d’examen.

IGOR est un logiciel écrit en JAVA et dont le rôle consiste à assembler le contenu spécifié dans

un modèle de question d’examen, en respectant les éléments et les contraintes définis dans le

modèle cognitif. Afin de rendre cet outil plus convivial, une application Web, appelée iButler

(Conseil médical du Canada, 2015), a été mise au point en collaboration avec deux chercheurs

de l’Université de l’Alberta. iButler permet aux membres des comités d’épreuves d’élaborer des

modèles cognitifs et de produire automatiquement et sur-le-champ des questions d’examen. Il est

important de noter que la CAQE ne remplacera pas la rédaction traditionnelle de questions; elle

est simplement un outil permettant d’augmenter la quantité de questions élaborées.

La CAQE à l’aide d’iButler a été officiellement lancée au sein des comités d’épreuves de

l’EACMC, partie I, en janvier 2016. L’objectif était d’inclure la CAQE dans les réunions de chaque

comité d’épreuves, avec une formation à l’élaboration de nouveaux modèles cognitifs à l’aide

d’iButler. Depuis cette date, tous les comités d’épreuves de la composante QCM de l’EACMC,

partie I, ont été initiés à l’élaboration de modèles cognitifs à l’aide d’iButler. Chaque réunion d’un

comité d’épreuves comprenait une séance d’une demi-journée commençant par une formation

sur ce qu’est la CAQE, suivi d’un exercice interactif de groupe sur la création de modèles

cognitifs. Enfin, un didacticiel sur la saisie et la codification de données dans iButler a été mis à la

disposition des membres des comités d’épreuves.

Chaque comité d’épreuves avait pour objectif de produire de 30 à 40 questions à partir d’un

nouveau modèle et de choisir les 20 « meilleures » pour une mise à l’essai lors de futures

épreuves de l’EACMC, partie I. Pour le moment, le nombre visé de questions d’examen est de

20, compte tenu du nombre d’épreuves de l’EACMC, partie I, qui peuvent être administrées.

Dans la majorité des séances de CAQE à ce jour, l’objectif fixé a été atteint ou dépassé. Le

tableau 6 donne le nombre de modèles cognitifs élaborés et le nombre de questions produites à

partir de ces modèles.

Tableau 6 – Nombre de questions d’examen produites par CAQE en 2016 par chacun des comités d’épreuves

Comité d’épreuves Nombre de

modèles Nombre de questions

Médecine 2 60

Obstétrique et gynécologie 3 100

Pédiatrie 2 60

SPELO 2 33

Psychiatrie 5 120

Chirurgie 4 120

TOTAL 20 493

De manière générale, les réactions des comités face à l’élaboration de QCMs par CAQE ont été

très positives. Des sessions semblables sont actuellement prévues en 2017 pour les réunions

des comités d’épreuves de la composante QCM de l’EACMC, partie I. Nous prévoyons continuer

d’inclure la CAQE dans le cours normal de nos activités, en plus de la rédaction traditionnelle de

questions, ce qui aidera à combler les lacunes connues dans le cadre du nouveau plan directeur.

2.3.3 Questions de prise de décisions cliniques

Le contenu de la composante PDC de l’EACMC, partie I, est élaboré par un comité d’épreuves

distinct. Ce comité est formé d’experts en la matière couvrant les domaines de spécialité

(médecine, pédiatrie, SPELO, psychiatrie, obstétrique et gynécologie, chirurgie et médecine

familiale). Il comprend des représentants des deux langues officielles et des diverses régions

géographiques du Canada. Comme dans le cas des QCMs, le contenu est élaboré

conformément aux normes professionnelles mentionnées à la sous-section 2.3.1 et fait l’objet de

procédures rigoureuses d’assurance de la qualité. Le comité se réunit deux fois par année et a

pour mandat d’élaborer, de réviser et de classifier des questions de PDC de manière à combler

les lacunes existantes.

L’élaboration de questions de PDC est fondée sur ce que l’on appelle la méthode des éléments-

clés. Cette méthode repose sur la notion de spécificité des cas, c’est-à-dire que la capacité de

résolution d’un problème clinique donné ne permet pas de prédire la capacité de résolution d’un

autre problème clinique. Par conséquent, les évaluations de rendement clinique doivent porter

sur une gamme élargie de situations, les compétences n’étant pas généralisables à l’échelle des

problèmes. Pour évaluer les compétences des candidats dans une vaste gamme de situations et

en temps limité (4 heures), l’évaluation doit être fondée exclusivement sur les défis précis (c.-à-d.

les éléments-clés) de la résolution de chaque problème, qu’il s’agisse de questions essentielles

ou de difficultés spécifiques. Pour définir les éléments-clés, les membres des comités d’épreuves

se font souvent rappeler de mettre l’accent sur les erreurs commises par des candidats peu

compétents.

L’élaboration de cas à éléments-clés pour la composante PDC est guidée par des considérations

psychométriques ainsi que par des principes établis d’élaboration d’épreuves. Les cas à

éléments-clés procurent beaucoup de souplesse en ce qui concerne le format des questions

(questions à choix de réponses ou à réponse écrite), le nombre de réponses possibles et les

critères de notation. On a constaté que les problèmes à éléments-clés sont utiles pour évaluer

des aptitudes de PDC qui requièrent non seulement des connaissances médicales, mais aussi la

capacité d’appliquer ces connaissances à des scénarios cliniques exigeant de prendre des

décisions cruciales à des étapes précises de l’évaluation et de la prise en charge du problème.

Ces points précis et critiques de décision constituent les éléments-clés d’un cas.

Après avoir défini et approuvé les éléments-clés, les membres du comité d’épreuves élaborent le

cas. À ce stade, le cas et la ou les questions d’examen sont élaborés conformément au scénario

et aux objectifs du CMC choisis, et le barème de notation correspond en premier lieu aux

éléments-clés. Tous les cas élaborés sont approuvés par le comité d’épreuves avant d’être mis à

l’essai. À titre d’étape supplémentaire d’assurance de la qualité, le contenu des cas est

également vérifié par les six comités d’épreuves spécialisés de la composante QCM, qui

transmettent au besoin leurs commentaires au comité d’épreuves de la composante PDC pour

une éventuelle révision des cas. Les cas qui ont été mis à l’essai et qui ont un rendement

adéquat sont conservés à titre de cas actifs à utiliser dans des épreuves ultérieures.

2.3.4 Traduction des QCMs et des questions de PDC

Les questions d’examen sont d’abord rédigées en anglais. Le CMC les envoie ensuite à des

traducteurs professionnels experts en traduction médicale. Une fois la traduction vers le français

complétée, les étapes ci-dessous d’assurance de la qualité sont effectuées et donnent lieu au

besoin à des révisions du contenu des questions :

• Les agents responsables de l’élaboration d’examens et les réviseurs du CMC font

cinq lectures comparées des versions anglaise et française.

• Le CMC tient une session de validation de la traduction, au cours de laquelle des

médecins spécialistes francophones appartenant à des facultés de médecine

francophones participent à une autre ronde de lectures comparées. Chaque question

d’examen en français est ensuite révisée par deux ou trois médecins francophones

au cours de la session.

• À titre d’étape finale, un membre francophone du comité d’épreuves et un éditeur du

contenu de l’examen font un dernier ensemble de révisions comparées comprenant

une lecture à voix haute du contenu et les dernières retouches.

3. Administration de l’examen

3.1 Centres d’examen et administration des épreuves

L’EACMC, partie I, est administré deux fois par année en avril-mai et en octobre-novembre,

pendant des périodes de deux à trois semaines, dans plus de 18 centres d’examen situés dans

des laboratoires informatiques universitaires ou dans des centres d’examen privés d’un bout à

l’autre du Canada.

L’examen est administré et surveillé par le personnel du CMC, qui se sert du système QEI.net

mis au point par le Département des technologies de l’information (TI). Pendant la période

d’examen, les coordonnateurs des centres d’examen doivent appeler chaque matin le personnel

du CMC pour obtenir les permissions d’accès (mots de passe de chaque session et mot du jour),

afin de se connecter à l’examen. Chaque coordonnateur de centre d’examen possède un code

d’identification personnel qu’il doit saisir avec le code et le numéro d’identification personnel (NIP)

du candidat pour que l’examen commence. Les coordonnateurs des centres d’examen

collaborent directement avec le personnel du CMC en ce qui concerne les permissions d’accès,

les problèmes de sécurité, les problèmes techniques et les situations d’urgence.

Le nombre de jours d’administration de l’EACMC, partie I, dans un centre d’examen donné

dépend de sa capacité quotidienne maximale et du nombre de candidats qui ont demandé ce

centre. L’examen est offert en français et en anglais dans tous les centres; il se peut toutefois

que le personnel puisse communiquer seulement dans une langue et que le soutien technique

offert sur place soit limité à cette langue. Le soutien est offert dans les deux langues officielles

dans les centres d’Ottawa et de Montréal. L’annexe A donne la liste des centres d’examen.

3.2 Sécurité de l’examen

Le CMC prend plusieurs dispositions pour assurer la sécurité de l’examen. Les processus de

publication des épreuves sont bien établis, les lignes directrices aux centres d’examen (pour

l’administration des épreuves) sont communiquées et passées en revue avec chaque

coordonnateur de centre d’examen avant chaque période d’administration de l’examen, et le

traitement des résultats s’effectue dans l’environnement sécurisé du CMC. Ce cycle

d’administration des épreuves assure une administration constante et équitable de l’examen pour

tous les candidats. Le CMC collabore avec tous les intervenants pour toutes les facettes du

processus d’administration de l’examen, afin de confirmer que seuls les candidats admissibles

subissent l’examen et que personne ne bénéficie d’un avantage indu.

Les coordonnateurs de tous les centres d’examen sont formés à reconnaître de possibles

brèches de sécurité. La formation se fait sur place lors de l’ouverture d’un nouveau centre

d’examen ou de l’embauche d’un nouveau coordonnateur de centre d’examen. Le CMC assure

un suivi au moyen de communications verbales et écrites pour mettre à jour et appliquer les

mesures de sécurité. En plus d’assurer la sécurité des épreuves dans les centres d’examen, le

personnel du CMC surveille les candidats qui communiquent en ligne le contenu de l’examen,

avant, pendant et après l’administration des épreuves.

3.3 Préparation à l’examen

Des ressources en ligne sont disponibles pour aider les candidats à se préparer à l’EACMC,

partie I. Elles comprennent des vidéos de démonstration, des outils d’auto-évaluation, une liste

de ressources par discipline médicale et les objectifs du CMC. Tous les candidats ont accès à

ces ressources par le truchement du site Web du CMC (mcc.ca/fr/examens/eacmc-partie-i/

ressources-preparatoires). D’autres outils proposés aux candidats comprennent le programme

d’apprentissage autonome sur la communication et les compétences culturelles, accessible par le

truchement d’inscriptionmed.ca.

3.4 Assurance de la qualité

Après l’administration de chaque épreuve, le Département des TI met à jour la base de données

PostCBT du CMC en y ajoutant deux tableaux SQL, soit une par composante de l’examen. Ces

tableaux comportent une ligne par question pour chaque candidat. Les deux tableaux contiennent

les identificateurs des candidats et des questions d’examen, ainsi que les réponses données et

les notes obtenues pour chacune des questions actives ou mises à l’essai. Le psychométricien

chargé de l’EACMC, partie I, effectue une première assurance de la qualité des tableaux,

notamment en vérifiant qu’ils sont complets. Toute donnée manquante fait l’objet d’une

vérification avec le Bureau d’évaluation. Une fois que la conformité des données aux exigences

d’assurance de la qualité est établie, le Département de psychométrie et services docimologiques

procède à la détermination et au calibrage des notes.

3.5 Communication des résultats

Environ quatre à cinq semaines après la dernière journée de la session d’examen, le CCE tient

une réunion par téléconférence pour revoir le rendement des candidats, aborder les questions

administratives et statuer sur des cas particuliers de candidats. À compter de 2016, les résultats

de l’examen peuvent être communiqués avant la réunion en personne du CCE, à condition que

les propriétés de l’examen satisfassent à des critères statistiques précis. Le tableau 7 résume

ces critères. Le CMC permet ensuite aux candidats d’accéder à leur résultat final (p. ex. réussite

ou échec) et à leur score total par le truchement de leur compte inscriptionmed.ca. Peu après, les

candidats ont accès à leur Relevé de résultats, document officiel qui donne leurs résultats, ainsi

qu’à leur Rapport d’information supplémentaire, qui leur fournit des renseignements sur leurs

forces et faiblesses par discipline et dans la prise de décisions cliniques. Des exemples de

Relevé de résultats et de Rapport d’information supplémentaire sont accessibles à l’adresse

suivante : mcc.ca/fr/examens/eacmc-partie-i/notation.

Tableau 7 – Critères statistiques d’approbation des résultats

Indice Valeurs idéales

Intervalles historiques1 Printemps Indice

Printemps Automne

Rendement des questions d’examen

Valeur P 0,10 – 0,902 0,03 – 0,99 0,03 – 0,99 0,02 – 0,98 0,02 – 0,99

CTI > 0,302 0,02 – 0,42 0,02 – 0,42 0,02 – 0,37 0,02 – 0,42

Exactitude des décisions > 0,90 0,90 – 0,96 0,84 – 0,91 0,93 0,89

Consistance des décisions > 0,90 0,93 – 0,94 0,84 – 0,853 0,91 0,85

Taux de réussite (%)

DCM 1ère fois s.o. 94,5 – 98,8 94,4 – 100 96,7 85,7

Total s.o. 77,9 – 84,2 46,4 – 54,8 79,3 47,6

1 Pour les épreuves administrées de 2012 à 2015

2 Les attributs des items dont la valeur P ou la corrélation item-total est à l’extérieur de ces intervalles sont revus par notre

conseillère en chef en éducation médicale, les agents responsables de l’élaboration d’examens et les membres des comités

d’épreuves, afin d’éliminer tout problème de contenu.

3 Pour les épreuves administrées à l’automne, la consistance des décisions est rapportée depuis l’automne 2015.

4. Validité

« La validité est le degré auquel les données probantes et la théorie appuient l’interprétation des

notes qui découlent de l’utilisation proposée des épreuves » (traduit de l’American Educational

Research Association, American Psychological Association, National Council on Measurement in

Education et Joint Committee on Standards for Educational and Psychological Testing (U.S.)

(2014). Standards for educational and psychological testing. Washington, DC: American

Educational Research Association). La validation d’une épreuve exige la collecte et l’intégration

de données probantes de sources multiples, afin d’élaborer un argument de validité qui appuie

les utilisations et interprétations voulues des notes obtenues par les candidats et afin d’éliminer

les menaces à la validité (Messick, 1989, 1994).

La validation de l’EACMC, partie I, est un processus continu qui consiste à recueillir des données

probantes pour appuyer l’interprétation des notes obtenues par un candidat comme l’un des

indicateurs de ses connaissances et aptitudes fondamentales dans les principales disciplines de

la médecine. Des considérations concernant la validité interviennent dans la conception de

l’examen, les spécifications des épreuves, l’élaboration des questions, l’assemblage des

épreuves, la qualité psychométrique, l’administration des épreuves et la communication des

résultats.

4.1 Données probantes fondées sur le contenu de l ’examen

Pendant l’élaboration de l’examen, on prend bien soin de s’assurer que celui-ci est destiné à des

diplômés en médecine qui s’apprêtent à commencer une formation postdoctorale au Canada.

Comme on l’a mentionné au chapitre 2, les questions de l’EACMC, partie I, sont élaborées en

fonction de spécifications d’épreuve définies par les membres du CCE, qui veillent à ce que le

contenu de l’examen corresponde aux connaissances et aux aptitudes que l’on attend de

nouveaux diplômés en médecine qui s’apprêtent à entrer en première année de formation

postdoctorale sous supervision.

Divers comités d’épreuves interviennent dans l’élaboration de questions d’examen. Pour chaque

discipline, des ateliers sur l’élaboration de contenu sont régulièrement organisés afin de former

les membres des comités d’épreuves à l’élaboration de questions d’examen. Ces questions

doivent correspondre aux connaissances et aux aptitudes définies dans les spécifications

d’épreuve de chaque domaine et respecter les lignes directrices d’élaboration d’examens

professionnels. Les lignes directrices du CMC pour l’élaboration de questions d’examen sont

documentées et accessibles dans le site Web du CMC. De telles lignes directrices ont été

élaborées pour les QCMs et les questions de PDC. Les lignes directrices relatives aux QCMs

sont accessibles à l’adresse mcc.ca/wp-content/uploads/Elaboration-question-choix-

reponses.pdf, et celles relatives aux questions de PDC sont accessibles à l’adresse mcc.ca/wp-

content/uploads/Lignes-directrices-PDC.pdf. Les questions d’examen sont revues, révisées et

parachevées par des membres des comités d’épreuves, des agents responsables de

l’élaboration d’examens, des réviseurs et des traducteurs.

4.2 Données probantes fondées sur la structure

interne de l’examen

Comme les candidats reçoivent des ensembles comparables mais différents de questions

d’examen, il est difficile de faire une analyse factorielle de l’EACMC, partie I, car il n’y a pas

assez de données disponibles; par contre, il est possible d’analyser dans une certaine mesure la

structure interne de l’EACMC, partie I, par l’évaluation des corrélations entre les notes

spécifiques à chaque discipline. Cela permet de savoir jusqu’à quel point l’examen correspond

aux domaines visés dans le Plan directeur. Ces corrélations ont été examinées pour les données

de 4 341 candidats qui ont réussi ou échoué l’EACMC, partie I, au printemps 2016.

Le tableau 8 donne les corrélations entre les notes spécifiques aux six disciplines pour la

composante QCM de l’examen. Ces corrélations ont été corrigées pour atténuation; le tableau

indique donc ce que seraient ces corrélations si chaque discipline pouvait être mesurée avec un

niveau de fidélité parfait.

On voit que les corrélations entre disciplines varient de 0,70 entre pédiatrie et SPELO à 0,89

entre médecine et pédiatrie ainsi qu’entre médecine et chirurgie. Cela laisse entendre que le

rendement à l’EACMC, partie I, dans les différentes disciplines correspond essentiellement à un

seul concept dominant (p. ex. les connaissances médicales et aptitudes cliniques fondamentales

que l’EACMC, partie I, est censé mesurer).

Tableau 8 – Corrélations (corrigées pour atténuation) entre disciplines (N = 4 147)

Médecine Obstétrique et gynécologie

Pédiatrie Chirurgie Psychiatrie

Obstétrique et gynécologie 0,78*

Pédiatrie 0,89* 0,86*

Chirurgie 0,89* 0,80* 0,88*

Psychiatrie 0,79* 0,78* 0,79* 0,77*

SPELO 0,71* 0,75* 0,70* 0,71 0,84*

* Significative avec p < 0,001

4.3 Diminution des facteurs non pertinents

Une autre manière de rehausser la validité de l’examen consiste à diminuer les écarts non

pertinents (p. ex. la variance d’erreur due à des facteurs non liés à ce que l’examen est censé

mesurer). Au cours de leur élaboration, les questions d’examen sont revues par les experts en la

matière et les agents responsables de l’élaboration d’examens, qui veillent à ce qu’elles soient

conformes aux spécifications d’épreuve. Ils vérifient également si les questions d’examens sont

rédigées dans un langage approprié et si elles comportent un biais involontaire à l’égard de

certains groupes linguistiques ou culturels. De plus, des données empiriques sur les questions et

l’analyse des distracteurs permettent d’étudier des sources potentielles de non-pertinence. Le

chapitre 5 aborde ce sujet plus en détail. Les taux d’achèvement de l’examen, les temps de

réponse des candidats aux questions et les temps mis à faire l’ensemble de l’examen sont

également analysés. Cela permet de s’assurer que le temps alloué pour passer l’examen est

adéquat et que la rapidité n’est pas un facteur affectant le rendement des candidats. Le CMC

veille à ce que les conditions d’administration des épreuves soient normalisées dans l’ensemble

des centres d’examen, afin que tous les candidats aient les mêmes chances de faire la

démonstration de leurs habiletés. Enfin, le site Web du CMC donne des renseignements détaillés

sur l’examen et contient des liens vers des ressources pour aider les candidats à se préparer et

pour atténuer l’anxiété liée à l’examen.

5. Analyses psychométriques

Ce chapitre décrit les analyses psychométriques effectuées après l’administration de chaque

épreuve. Cela comprend une analyse des questions d’examen, puis leur calibrage, l’estimation

de l’habileté des candidats, la notation de l’examen, l’établissement du seuil de réussite et

l’échelonnage des résultats, puis la communication des résultats.

5.1 Analyse des questions d’examen : théorie classique

des tests et théorie de la réponse à l’ i tem

Après l’administration de chaque épreuve de l’EACMC, partie I, l’équipe du Département de

psychométrie et services docimologiques analyse chacune des questions d’examen pour en

vérifier la validité sur le plan statistique, avant le processus de notation des réponses données

par les candidats. Par suite de cette analyse, effectuée selon la théorie classique des tests et la

théorie de la réponse à l’item, des questions d’examen sont signalées pour une variété de

raisons exposées ci-après. Il est important de souligner que l’inclusion ou l’exclusion dans le

calcul de la note finale de questions signalées par suite de cette analyse repose sur un examen

attentif de leur contenu par des experts. Même si l’on encourage les experts du contenu à utiliser

les données statistiques pendant l’étude de ces questions, leur décision finale repose sur le

caractère défendable du contenu évalué par une question ou un cas.

Signalement en vertu de la théorie classique des tests

Immédiatement après l’administration d’une épreuve, une analyse d’items initiale est effectuée à

partir des réponses données par tous les candidats qui se présentaient à l’examen pour la

première fois. Une analyse d’item initiale comprend une analyse d’item classique pour en

connaître la difficulté, l’indice de discrimination ainsi que le rendement brut des candidats. Plus

précisément, pour chaque item, sa valeur P donne une mesure de sa difficulté, et sa corrélation

avec la note totale donne son indice de discrimination. L’indice de corrélation point bisériale est

calculée pour les items dichotomiques tels que les QCMs (dont la note est 0 ou 1), et la

corrélation polysériale est calculée pour les items polytomiques (qui ont plus de deux notes

possibles) telles que les questions de PDC à réponse écrite (qui donnent lieu à plus de

deux notes, p. ex. 0, 0,33, 0,67 et 1). De plus, l’équipe du Département de psychométrie et

services docimologiques examine la proportion des candidats qui choisissent chaque option,

comme indicateur du fonctionnement de chacun des leurres (réponses erronées). De plus, la

corrélation est calculée entre chaque leurre et le score total. Si les leurres fonctionnent comme

prévu, ces corrélations seront négatives (par exemple, les candidats qui ont une note totale plus

faible à l’EACMC, partie I, choisissent les leurres plus souvent que ceux qui ont de meilleurs

résultats).

Les questions d’examen signalées par l’équipe sont examinées par des psychométriciens et des

experts du contenu. Une question est signalée si elle répond à au moins l’un des critères

suivants :

• Niveau de difficulté très élevé : valeur P < 0,10

• Niveau de difficulté très faible : valeur P > 0,95

• Faible indice de discrimination : < 0,10

• Parmi les meilleurs candidats (p. ex. les 20 % supérieurs), il y en a davantage qui

choisissent un leurre plutôt que la bonne réponse.

• Pourcentage élevé de non-réponse : > 5 %

Les questions signalées ne sont incluses dans le calibrage selon la TRI que si les

psychométriciens et les experts du contenu confirment que le contenu de ces questions est

acceptable et que le barème de correction est adéquat. Les questions signalées au cours de

l’analyse d’item initiale et jugées déficientes sont exclues des analyses subséquentes, avec

l’approbation du comité de révision.

5.2 Calibrage des questions d’examen selon la TRI

Des études antérieures (De Champlain et al., 2012; Morin et al., 2014) ont montré que des

modèles simples, par exemple celui de Rasch, donnent des résultats compatibles avec ceux de

modèles plus élaborés comme le modèle logistique à deux paramètres. Le modèle de Rasch et

l’une de ses extensions appelée modèle à crédit partiel (Masters, 1982) ont été appliqués aux

épreuves de l’EACMC, partie I, administrées depuis le printemps 2015, à l’aide du logiciel

Winsteps (Linacre, 2015), pour le calibrage et la notation des questions d’examen. Cela a permis

de mettre en œuvre un modèle unifié de TRI pour l’estimation de tous les items dichotomiques et

polytomiques de QCM et de PDC, et d’établir l’habileté des candidats en tenant compte de tous

les items (QCM et PDC).

Selon le modèle de Rasch, la probabilité d’une bonne réponse à un item dichotomique est une

fonction logistique de la différence entre l’habileté d’un candidat et le niveau de difficulté de l’item.

Selon le modèle de Rasch, si X = 1 représente une bonne réponse, et X = 0 une réponse

erronée, la probabilité d’une bonne réponse est donnée par :

𝑃𝑖{𝑋𝑛𝑖} =𝑒𝛽𝑛−𝛿𝑖

1 + 𝑒𝛽𝑛−𝛿𝑖,

où 𝛽𝑛 représente l’habileté du candidat n, et 𝛿𝑖 le niveau de difficulté de l’item i.

Dans le cas d’items polytomiques, le modèle de Rasch polytomique (modèle à crédit partiel) est

une généralisation du modèle dichotomique. C’est un modèle général de mesure qui fournit un

fondement théorique pour une notation sous forme de nombres entiers (notes catégorielles).

Pour la session de printemps 2016 de l’EACMC, partie I, des questions d’examen dont l’indice de

difficulté selon le modèle de Rasch avait été enregistré dans la base de données ont servi de

points de repère pour le calibrage de nouveaux items (tels que les questions mises à l’essai),

selon le processus mentionné ci-dessous. Pour les fins du calibrage, on utilise un groupe de

référence formé des diplômés canadiens et internationaux en médecine candidats se présentant

à l’examen pour la première fois. Par conséquent, tous ceux qui ont déjà été candidats à

l’examen sont exclus des quatre étapes de calibrage énumérées ci-après.

• Étape 1 : Considérer comme fixes les QCMs de la banque de données dont les

valeurs de déplacement sont inférieures à 0,2 et étalonner les QCMs mises à l’essai

pour tous les candidats qui se présentent à l’examen pour la première fois (qu’ils

soient diplômés canadiens en médecine [DCM] ou diplômés internationaux en

médecine [DIM]).

• Étape 2 : Réétalonner les QCMs mises à l’essai autres que celles qui ont été

identifiées à l’étape 1 ci-dessus. Il en résulte un ensemble final d’items étalonnés prêt

à utiliser à l’étape 3.

• Étape 3 : Étalonner tous les items dichotomiques et polytomiques de PDC en utilisant

toutes les QCM étalonnées comme points de repère. Le contenu des questions de

PDC signalées est révisé après cette étape.

Depuis l’adoption au printemps 2015 du modèle de Rasch de TRI pour le calibrage et la notation

de l’EACMC, partie I, des critères statistiques supplémentaires ont été introduits pour la

composante PDC, afin d’identifier des questions potentiellement déficientes.

À l’heure actuelle, la composante PDC comporte des items dichotomiques et polytomiques. Dans

le cas des items polytomiques, une extension du modèle de Rasch, appelée modèle à crédit

partiel, sert à établir le niveau de difficulté en tenant compte de paramètres de seuils ou de

paramètres de seuils de transition entre les catégories de scores. Ces seuils sont fondés sur le

modèle et sont censés avoir une valeur qui s’accroitre à mesure que la catégorie de note

augmente. On s’attend à ce que les notes pour ces items polytomiques soient plus élevées

(p. ex. 0,67 au lieu de 0,33) pour les candidats qui réussissent mieux à l’ensemble de l’examen.

Lorsque ce n’est pas le cas, on dit que ces items ont des paramètres de seuils désordonnés (par

exemple, les candidats plus faibles sur l’ensemble de l’examen obtiennent des notes plus

élevées pour ces items que les candidats plus forts). Ces items sont signalés comme

potentiellement déficients et font l’objet d’une révision de leur contenu.

De plus, les items polytomiques dont une option n’est presque jamais choisie (p. ex. trop peu de

candidats obtiennent une note donnée) sont également signalés et font l’objet d’une révision de

leur contenu.

Enfin, les questions de PDC où il y a trop d’écart entre les notes données par des correcteurs

différents sont également signalées. On s’attend à ce que les notes accordées par deux

correcteurs soient dans une grande mesure comparables. Les questions de PDC à réponse

écrite où l’accord entre les correcteurs est inférieur à 90 % sont signalées et font l’objet d’une

révision de leur contenu. De plus les questions dont le coefficient kappa pondéré est inférieur à

0,61 sont elles aussi signalées et font l’objet d’une révision de leur contenu. Le coefficient kappa

reflète la concordance entre les correcteurs au-delà du seul hasard (Cohen, 1979).

Au cours de l’analyse d’item initiale effectuée au printemps 2016, 74 QCMs ont été signalées et,

après consultation avec un expert du contenu, ont été exclues du calcul de la note finale. Dans le

cas de la composante PDC, 58 questions ont été signalées. Après consultation avec un expert du

contenu, 47 d’entre elles ont été exclues du calcul de la note finale.

• Étape 4 : Réétalonner les questions de PDC après exclusion de questions signalées

à l’étape 3 ci-dessus, pour obtenir des estimations définitives des niveaux de difficulté

de toutes les QCMs et questions de PDC.

5.3 Estimation de l ’habileté des candidats

Le logiciel Winsteps (Linacre, 2015) permet à l’utilisateur d’étalonner des items tout en faisant

une estimation de l’habileté des candidats, grâce à un processus itératif et à deux méthodes

d’estimation : PROX, qui est la méthode de l’approximation normale mise au point par Cohen

(1979) et (JMLE, Joint Maximum Likelihood Estimation), une méthode du maximum de

vraisemblance conjointe. Un processus itératif permet d’obtenir des estimations du niveau de

difficulté des items et des habiletés des candidats. Au départ, toutes les estimations (mesures)

des paramètres sont initialisées à zéro. Ensuite, la méthode PROX sert à obtenir des estimations

initiales du niveau de difficulté des items. Chaque itération améliore les estimations données par

la méthode PROX, jusqu’à ce qu’elles satisfassent à un critère statistique préétabli. Ces

estimations constituent les estimations initiales pour la méthode JMLE, qui les précise davantage

par d’autres itérations sur les données. Ce processus itératif cesse lorsque les critères de

convergence sont satisfaits. Dans Winsteps, deux critères de convergence peuvent être définis

pour déterminer les règles d’arrêt du processus itératif (Linacre, 2016). Pour obtenir une grande

précision, le critère de changement sur l’échelle logit (de l’anglais log-odds units) a été fixé à

0,000001 et le critère de note résiduelle à 0,0001.

• Étape 5 : Établir l’habileté des candidats en utilisant toutes les QCMs et questions de

PDC retenues à la suite du calibrage décrit après l’étape 4.

Comme les mêmes QCMs et questions de PDC sont utilisées au printemps et à l’automne, les

estimations d’habileté des candidats aux épreuves de l’automne sont obtenues en utilisant les

paramètres d’item établis lors de la dernière étape de calibrage pour les épreuves du printemps.

5.4 Administration d’épreuves adaptatives par étapes

Après plusieurs années de recherches, les épreuves de l’EACMC, partie I, ont commencé à être

administrées de manière informatisée à l’automne 2000. Maguire (1999) a établi que le modèle

logistique à deux paramètres était le meilleur, étant donné les réponses aux questions de la

composante QCM de l’EACMC, partie I. Il a ensuite établi (Maguire, 2001) qu’il y avait une

corrélation significative et forte entre le nombre total de bonnes réponses et les estimations

d’habileté des candidats calculées à l’aide du modèle logistique à deux paramètres de la TRI. En

plus d’utiliser le nombre total de questions (par discipline médicale) comme critère d’arrêt (p. ex.

la fin de l’examen), on a remplacé l’administration d’épreuves adaptatives traditionnelles par des

épreuves adaptatives par étapes, où une section initiale sert à orienter les candidats vers des

questions de niveau de difficulté approprié, en fonction de leurs réponses à un ensemble (testlet)

de quatre questions par discipline.

La figure 1 illustre les règles de décision mises en œuvre après l’administration et la notation de

la section initiale. La première des sept sections de la composante QCM est formée de testlets

d’orientation. Dans chaque discipline, un testlet d’orientation comporte quatre questions de

différents niveaux de difficulté (p. ex. une question très facile, une question facile, une question

difficile et une question très difficile). Une fois que le candidat a soumis ses réponses à toutes les

questions de la section initiale, celles-ci sont corrigées sur-le-champ et, pour chacune des

six disciplines, le résultat détermine le niveau de difficulté des questions qui composeront la

deuxième section. À compter de la deuxième section, les testlets de chaque discipline

contiennent quatre questions de même niveau de difficulté. Un candidat qui ne réussit aucune ou

une des quatre questions de la section initiale aura dans la deuxième section un testlet contenant

quatre questions de niveau 1 (c.-à-d. quatre questions très faciles). Un candidat qui réussit deux

des quatre questions de la section initiale aura dans la deuxième section un testlet contenant

quatre questions de niveau 2 (c.-à-d. quatre questions faciles). Un candidat qui réussit trois des

quatre questions de la section initiale aura dans la deuxième section un testlet contenant

quatre questions de niveau 3. Enfin, un candidat qui réussit les quatre questions de la section

initiale aura dans la deuxième section un testlet contenant quatre questions de niveau 4.

Les règles de décision mises en œuvre à l’issue des sections deux à six suivent la même logique

(voir la figure 2). Par exemple, un candidat qui ne réussit aucune ou une des quatre questions de

la deuxième section aura, dans la troisième section, quatre questions du niveau de difficulté

immédiatement inférieur. Un candidat qui ne réussit aucune ou une des quatre questions de

niveau 4 de la deuxième section aura, dans la troisième section, quatre questions du niveau 3.

Un candidat qui ne réussit aucune ou une des quatre questions de niveau 1 dans la

deuxième section aura, dans la troisième section, quatre questions du même niveau de difficulté,

c’est-à-dire le niveau 1.

Figure 1 – Administration d’épreuves adaptatives par étapes – Section initiale

Figure 2 – Administration d’épreuves adaptatives par étapes – Sections nos 2 à 6

Dans chaque discipline, choisir au hasard un testlet de la section initiale(1 question très facile, 2 facile, 3 difficile, 4 très difficile)

Note = 0 ou 1

Aller au niveau 1

Note = 2

Aller au niveau 2

Note = 3

Aller au niveau 3

Note = 4

Aller au niveau 4

Dans chaque discipline, choisir au hasard un testletdu niveau déterminé après la notation de la section initiale

Note = 0 ou 1Actuellement au

niveau 1?

Si oui, choisir un autre testlet

de niveau 1

Si non, baisser d'un niveau et

choisir un testlet

Note = 2

Choisir un testlet de

même niveau

Note = 3

Choisir un testlet de

même niveau

Note = 4Actuellement au

niveau 4?

Si oui, choisir un autre testlet

de niveau 4

Si non, monter d'un niveau et

choisir un testlet

5.5 Notation de l’examen

L’habileté d’un candidat et le score total qu’il obtient à l’EACMC, partie I, sont établies à partir de

son rendement combiné pour les composantes QCM et PDC. Le CMC utilise le modèle de Rasch

(Rasch, 1960) pour noter les réponses des candidats à l’examen. Même si des données brutes

(notes de type 0 ou 1) sont nécessaires, elles ne suffisent pas à déterminer le degré d’habileté

d’un candidat. La simple somme des notes brutes obtenues pour l’ensemble des questions

d’examen ne reflète pas avec exactitude l’habileté d’un candidat, car elle ne tient pas compte du

niveau de difficulté des questions auxquelles il a répondu dans une épreuve donnée de l’EACMC,

partie I.

Les QCM et les questions de PDC à choix de réponses sont notées par ordinateur, car elles

comportent des réponses numérotées qui sont comparées à des barèmes de notation préétablis.

Les questions de PDC à réponse écrite sont corrigées par des médecins correcteurs. Depuis

l’automne 2014, les médecins correcteurs de l’EACMC, partie I, utilisent le logiciel Aggregator

mis au point par le CMC pour faciliter la notation des questions à réponse écrite. Aggregator

présente aux médecins correcteurs les cas et les questions de PDC, ainsi que les éléments-clés

et les barèmes de correction. Avant de présenter les réponses des candidats aux médecins

correcteurs, Aggregator regroupe les réponses identiques de candidats à une question donnée. Il

présente aussi toutes les réponses distinctes qui n’ont pas été ainsi regroupées. Les médecins

correcteurs doivent ensuite indiquer pour chaque réponse s’ils la jugent correcte ou erronée, en

fonction du barème de correction préétabli (p. ex. liste des bonnes réponses). Chaque question

est corrigée de manière indépendante par deux médecins correcteurs. S’il y a des différences,

celles-ci sont résolues par un troisième correcteur. Aggregator permet aussi aux médecins

correcteurs d’indiquer si un candidat a dépassé le nombre maximal autorisé de réponses à une

question. Il est important de remarquer que les correcteurs n’attribuent aucune note. Ils doivent

simplement indiquer si les réponses sont correctes ou erronées. La notation de l'examen se fait

après cette étape de validation. Une fois toutes les réponses classées comme correctes ou

erronées, la notation de l’examen se fait automatiquement, en tenant compte de toutes les autres

contraintes telles que le dépassement du nombre maximal autorisé de réponses.

Toutes les QCMs sont notées de manière dichotomique, car elles n’ont qu’une seule bonne

réponse. Une grande partie des questions de PDC sont également notées de manière

dichotomique (68 % des questions qui ont compté en 2016). Dans le cas des questions de PDC

polytomiques qui ont plus d’une bonne réponse, la première étape consiste à attribuer des notes

proportionnelles. La deuxième étape consiste à attribuer une note catégorielle à chacune des

combinaisons possibles de notes proportionnelles, car c’est le type de donnée qui peut être

analysé selon le modèle à crédit partiel. Par exemple, un candidat qui fournit deux des

trois bonnes réponses aura les deux-tiers des points (p. ex. 0,67), ce qui entraînera une note

catégorielle de 3 sur 4.

Le modèle de Rasch exige de déterminer le niveau de difficulté de chaque question, afin

d’évaluer l’habileté d’un candidat. Le modèle de Rasch (et une extension de ce modèle, appelée

modèle à crédit partiel, qui sert à traiter des questions de PDC pour lesquelles il y a plus d’une

bonne réponse) permet de déterminer l’habileté d’un candidat en tenant compte du niveau de

difficulté de toutes les questions. Le modèle de Rasch permet en outre d’établir une échelle telle

que les attributs des candidats (p. ex. leur habileté) et des attributs des items (p. ex. leur niveau

de difficulté) s’expriment avec la même unité de mesure. Dans une phase initiale, on définit une

échelle comportant des unités de mesure appelées logits (de l’anglais log-odds units), qui permet

d’exprimer l’habileté des candidats sur la même échelle que les indices de difficulté des

questions. Sur cette échelle, les valeurs se situent généralement entre −3,00 et +3,00, mais elles

peuvent dépasser ces limites. Un candidat qui obtient un score de −3,00 a des connaissances

très limitées par rapport au contenu évalué, alors qu’un candidat qui obtient un score de +3,00 a

des connaissances étendues par rapport au contenu évalué.

5.6 Établissement du seuil de réussite et

échelonnage des résultats

Tous les trois à cinq ans, le CMC procède à un exercice d’établissement du seuil de réussite, afin

de s’assurer que celle-ci et la note de passage demeurent appropriées. L’établissement du seuil

de réussite consiste à définir le rendement minimal acceptable et à établir une note de passage.

À l’automne 2014, le CMC a effectué un exercice rigoureux, fondé sur l’opinion d’experts,

d’établissement du seuil de réussite. Pour ce faire, il a réuni un comité de 17 médecins

représentant des facultés de médecine de toutes les régions du pays et différentes spécialités, et

cumulant plusieurs années d’expériences de la supervision d’étudiants et de résidents1. Il a

employé la méthode du signet (Bookmark Method), utilisée avec succès et soutenue par

plusieurs programmes d’examen à grande échelle dans le monde. Après l’exercice de

l’établissement du seuil de réussite, la nouvelle note de passage a été approuvée par le CCE. Le

CCE est formé de médecins et de professeurs de médecine de toutes les régions du pays. Ses

1 mcc.ca/wp-content/uploads/MCCQE-Part-I-Standard-Setting-Report-2015.pdf (en anglais seulement)

membres sont nommés chaque année par le Conseil du CMC. Le CCE est responsable de la

qualité des examens du CMC et détermine le résultat final (p. ex. réussite ou échec) obtenu par

les candidats.

À la session de printemps 2015 de l’EACMC, partie I, un nouveau seuil de réussite a été utilisé

pour refléter le rendement minimal acceptable. La valeur représentant ce seuil a été établie à

−0,22 sur l’échelle de Rasch. Bien que l’échelle de Rasch définie plus haut ait des propriétés qui

conviennent bien aux calculs mathématiques, elle n’est pas conviviale pour la population des

candidats. Une transformation linéaire des estimations d’habileté exprimées sur l’échelle de

Rasch est nécessaire pour définir une échelle de notes pour communiquer les résultats qui soit

plus significative pour les candidats. L’échelle choisie à cette fin a une valeur moyenne de 500 et

un écart type de 100. Sur cette échelle, la note de passage est de 427 pour l’EACMC, partie I.

Le score de chaque candidat sur l’échelle de scores est établi au moyen d’une transformation

linéaire dont la formule générale est la suivante :

𝑋𝑖′ = 𝑎 + 𝑏𝑋𝑖

𝑋𝑖′ = score mis en échelle;

𝑏 = composante multiplicative de la transformation linéaire,

souvent appelée pente;

𝑎 = composante additive, souvent appelée ordonnée à l’origine;

𝑋𝑖 = score du candidat selon le modèle de Rasch.

Au printemps 2015, lorsque l’échelle a été établie pour la première fois, la pente et l’ordonnée à

l’origine ont été fixées respectivement à 215,7309 et 475,0214. Ces deux constantes ont été

utilisées pour transformer le score de chaque candidat selon le modèle de Rasch en un score sur

l’échelle de scores.

Le résultat final (p. ex. réussite ou échec) d’un candidat est déterminé par son score total mis en

échelle et la position de celle-ci par rapport à la note de passage de l’examen; un score total

supérieur ou égale à la note de passage donne un résultat de réussite, et un score total inférieur

à la note de passage donne un résultat d’échec. Le rendement d’un candidat est jugé par rapport

à la note de passage de l’examen et non par rapport au rendement des autres candidats.

5.7 Communication des résultats

Environ sept semaines après le dernier jour de la session d’examen, le CMC communique à

chaque candidat, par l’entremise de son compte inscriptionmed.ca, un Relevé de résultats et un

Rapport d’information supplémentaire. Des exemples de Relevé de résultats et de Rapport

d’information supplémentaire sont disponibles à l’annexe B et C, respectivement. Le Relevé de

résultats donne le résultat final du candidat, son score total et la note de passage de l’examen.

Le Rapport d’information supplémentaire fournit des renseignements supplémentaires sur les

scores spécifiques par discipline et pour la composante PDC, ainsi que des données

comparatives, ce qui fournit au candidat des renseignements sur ses points forts et ses points

faibles. Il est important de remarquer que, comme les scores spécifiques portent sur moins de

questions, ils constituent des mesures moins précises. Les scores spécifiques sont fournis aux

candidats à des fins de rétroaction uniquement et ne devraient pas être utilisés par des

organismes comme outil de sélection.

Après l’administration d’une épreuve, s’il se peut que le rendement d’un candidat ait été affecté

par des vices de procédure survenus pendant l’examen, cela est signalé au CCE, car les cas

particuliers exigent une décision spécifique. Il se peut qu’un candidat se voit accorder « Aucun

résultat » si le CCE est incapable d’en arriver à une décision valable de réussite ou d’échec.

Dans d’autres cas particuliers, par exemple si un candidat est pris en flagrant délit de non-respect

des règlements de l’examen (p. ex. utilisation d’un téléphone multifonction), le CCE peut

déterminer un « Résultat refusé ».

6. Résultats de l’examen

Ce chapitre résume le rendement des candidats pour les deux sessions d’examen tenues en

2016. S’il y a lieu, des données historiques d’années précédentes sont incluses à des fins de

référence.

6.1 Cohortes de candidats

En 2016, l’EACMC, partie I, a été administré pendant une période de trois semaines (du 25 avril

au 12 mai) au printemps et une période de deux semaines (du 31 octobre au 9 novembre) à

l’automne. En tout, 5 924 candidats se sont présentés dans 21 centres d’examen. Sur l’ensemble

des candidats qui se sont présentés à l’examen en 2016, six ont reçu le résultat « Aucun

résultat » et deux ont reçu le résultat « Résultat refusé ». Ces huit candidats ne sont pas inclus

dans les statistiques qui suivent. Le tableau 9 donne la répartition des candidats selon l’endroit

où ils ont obtenu leur diplôme en médecine et le nombre de fois où ils se sont présentés à

l’EACMC, partie I.

Tableau 9 – Répartition des candidats en 2016

Printemps 2016 Automne 2016 Totaux

Groupe Nombre % Nombre % Nombre %

DCM – 1er essai 2 810 64,7 21 1,3 2 831 47,9

DCM – reprise 66 1,5 105 6,7 171 2,9

DIM – 1er essai 836 19,3 868 55,1 1 704 28,8

DIM – reprise 629 14,5 581 36,9 1 210 20,5

TOTAUX 4 341 1 575 5 916

6.2 Résultats globaux de l ’examen

Le tableau 10 donne les taux de réussite des cohortes du printemps et de l’automne 2016, de

même que les totaux pour l’ensemble de l’année, ainsi que des statistiques descriptives de base.

Les scores sont exprimés sur l’échelle de communication des résultats, qui va de 50 à 950; la

note de passage est 427. Tout comme le tableau 9, le tableau 10 n’inclut pas les candidats qui

ont reçu un résultat « Aucun résultat » ou « Résultat refusé ».

Tableau 10 – Résultats de l’examen au printemps et à l’automne 2016

Résultats à l’examen

Printemps 2016 Automne 2016 Totaux

DCM – 1er essai Nombre 2 810 21 2 831

Moyenne 548 506 548

Écart type 67 70 67

Minimum 313 386 313

Maximum 813 629 813

Taux de réussite (%) 97 86 97

DCM – reprise Nombre 66 105 171

Moyenne 443 448 446

Minimum 225 154 154

Maximum 557 560 560

DIM – 1er essai Nombre 836 868 1 704

Moyenne 450 436 443

Minimum 50 50 50

Maximum 686 744 744

DIM – reprise Nombre 629 581 1 210

Moyenne 386 388 387

Minimum 50 126 50

Maximum 570 574 574

Tous les candidats

Nombre 4 341 1 575 5 916

Moyenne 504 420 482

Minimum 50 50 50

Maximum 813 744 813

La figure 3 montre la distribution des notes totales sur l’échelle des notes communiquées, pour

tous les candidats aux sessions du printemps (en or) et de l’automne (en rouge) 2016. La

distribution des notes est semblable pour les 2 sessions. Par contre, la cohorte de l’automne n’a

pas eu un aussi bon rendement que celle du printemps.

Figure 3 – Distribution des scores totaux au printemps et à l’automne 2016

6.3 Fidélité des scores et des décisions de classif ication

La fidélité d’une épreuve est le degré auquel l’échantillon des questions d’examen qui composent

l’épreuve mesure avec exactitude ce que l’épreuve est censée mesurer. On peut évaluer la

fidélité de l’EACMC, partie I, en examinant l’erreur-type (ET) des habiletés sur l’échelle des

scores communiqués. L’ET indique la précision des scores sur un point donné de l’échelle. Elle

est en relation inverse avec la quantité d’information fournie par l’épreuve en ce point. Les

valeurs de l’ET devraient être aussi petites que possible, de sorte que la mesure de l’habileté

d’un candidat comporte le moins d’erreur possible. Dans le cadre de la TRI, l’ET joue le même

rôle que l’erreur type de mesure (ETM) en théorie classique de la mesure (Hambleton, et al.,

1991), sauf que, dans la TRI, l’ET varie avec le niveau d’habileté du candidat, ce qui n’est pas le

cas de l’ETM classique.

Les figures 4 et 5 montrent les diagrammes de dispersion des valeurs de l’ET sur l’échelle des

scores communiqués, pour les sessions du printemps et de l’automne 2016, respectivement.

Printemps Automne

Pour chaque cohorte, le graphique montre que les scores sont moins exacts vers les

deux extrémités de l’échelle, mais qu’ils sont plus exacts au milieu de l’échelle, où se situent la

majorité des scores. L’ET est la plus faible au voisinage de la note de passage, ce qui

correspond à la plus grande précision des estimations d’habileté, et donc à des décisions de

réussite ou d’échec plus exactes et constantes.

Figure 4 – Erreurs types sur le score total à l’examen – Printemps 2016

0 100 200 300 400 500 600 700 800 900

Score total communiqué

Erreur type à la note de passage = 30

Note de passage = 427

Figure 5 – Erreurs types sur le score total à l’examen – Automne 2016

6.4 Exactitude et consistance des décisions

de réussite ou d’échec

Dans le contexte de cet examen, dont l’enjeu est important, l’exactitude des décisions de réussite

ou d’échec est tout à fait cruciale. On peut aussi évaluer la fidélité de l’EACMC, partie I, en

examinant la consistance et l’exactitude des décisions de réussite ou d’échec à partir des scores

obtenus par les candidats. On peut faire une estimation des indices de consistance et

d’exactitude des décisions à l’aide de la méthode de Livingston et Lewis (1995), employée par de

nombreux programmes d’examens à enjeux élevés. L’indice de consistance des décisions est

une estimation de l’accord entre les décisions de réussite ou d’échec résultant d’épreuves

parallèles potentielles de l’examen. L’indice d’exactitude des décisions est une estimation de

l’accord entre les décisions de réussite ou d’échec observées pour les candidats et celles qui

seraient fondées sur leur score vrai (p. ex. si les candidats pouvaient être testés sur un nombre

infini de questions de l’EACMC, partie I). Comme le montre le tableau 11, les estimations des

0 100 200 300 400 500 600 700 800 900

Score total communiqué

Erreur type à la note de passage = 30

Note de passage = 427

indices de consistance et d’exactitude pour les deux sessions d’examen de 2016 témoignent de

la fidélité et de la validité des décisions de réussite ou d’échec fondées sur les scores obtenus

par les candidats à l’EACMC, partie I.

Tableau 11 – Estimations de fidélité et erreurs types de mesure, et indices de cons istance et d’exactitude des décisions pour les sessions de printemps et d’automne 2016

Printemps Automne

Estimation de fidélité 0.90 0.88

ETM (échelle des scores communiqués) 30.27 29.47

Indice de consistance des décisions 0.91 0.85

Faux positifs 0.09 0.08

Faux négatifs 0.09 0.08

Indice d’exactitude des décisions 0.93 0.89

Faux positifs 0.03 0.05

Faux négatifs 0.04 0.06

6.5 Profi l des notes spécifiques par domaine

Le profil des scores spécifiques par domaine vise à fournir des données diagnostiques aux

candidats en soulignant leurs forces et lacunes relatives. Le Rapport d’information

supplémentaire est conçu de manière à fournir à chaque candidat des renseignements sur ses

scores spécifiques par domaine. Ce rapport montre les scores spécifiques par domaine obtenus

par l’ensemble des candidats aux sessions d’examen du printemps et de l’automne 2016. La

fourchette des scores spécifiques par domaine est représentée sous forme graphique dans les

figures 6 et 7. Les graphiques montrent les scores spécifiques pour chacun des huit domaines.

Les rectangles représentent la fourchette des scores obtenus par 50 % des candidats dans

chaque domaine. Le trait vertical à l’intérieur de chaque rectangle correspond au score médian

ou au 50e centile des scores spécifiques pour le domaine. Les 50 % restants des scores

spécifiques par domaine sont représentés par des traits horizontaux, à droite et à gauche du

rectangle (pour les 25 % supérieurs et les 25 % inférieurs, respectivement).

Figure 3 – Profil des scores spécifiques par domaine à la session de printemps de l’EACMC, partie I

Figure 4 – Profil des scores spécifiques par domaine à la session d’automne de l’EACMC, partie I

Le rectangle contient 50 % des scores . Le trait vertical représente la note médiane (50e centile).

Ces traits représentent 25 % des scores au-dessus et en dessous du rectangle

PDC ̶

FAM ̶

MED ̶

OBGYN ̶

PEDS ̶

SPELO ̶

PSYCH ̶

CHIR ̶

PDC ̶

FAM ̶

MED ̶

OBGYN ̶

PEDS ̶

SPELO ̶ ̶

PSYCH ̶

CHIR ̶

Le rectangle contient 50 % des scores . Le trait vertical représente la note médiane (50e centile).

Ces traits représentent 25 % des scores au-dessus et en dessous du rectangle

6.6 Taux de réussite antérieurs

Cette section présente un historique des taux de réussite. Le tableau 12 donne les taux de

réussite de 2013 à 2016 pour les DCM et les DIM candidats à l’examen pour la première fois

ainsi que pour l’ensemble du groupe de référence. Les DCM et les DIM candidats à l’examen

pour la première fois sont inclus dans le groupe principal de référence, car ils constituent la

cohorte la plus nombreuse et la plus stable d’une année à l’autre pour ce qui est du rendement.

Tableau 12 – Taux de réussite, du printemps 2013 à l’automne 2016

Pass Rate

Group 2013 2014 2015 2016 Total

DCM – 1er essai 98.8% 97.8% 94.6% 96.7% 96.9%

DIM – 1er essai 67.2% 64.3% 59.8% 57.9% 62.4%

TOTAL 85.6% 85.2% 81.7% 82.1% 83.7%

6.7 Sondages auprès des candidats

Afin d’améliorer la qualité des examens, les candidats sont invités à répondre après chaque

épreuve à un sondage sur leurs réactions face à l’examen. Les tableaux 13 et 14 donnent les

résultats des sondages menés respectivement après la composante QCM et la composante

Tableau 1 – Résultats (en pourcentage) des sondages menés auprès des candidats au printemps et à l’automne 2016 après la composante QCM

À quelle fréquence avez-vous utilisé le tableau blanc qui vous a été fourni?

Jamais Quelques fois Souvent Très souvent Tout au long de l’examen Pas de réponse

Printemps 28 57 9 3 3 18

Automne 31 50 12 5 3 33

Comment évaluez-vous la structure de l’examen?

Faible Passable Bon Très bon Excellent Pas de réponse

Printemps 4 27 50 17 3 19

Automne 5 29 46 16 5 35

Comment évaluez-vous la conception de l’examen?

Printemps 5 26 51 16 3 20

Automne 7 28 42 18 5 36

Comment évaluez-vous la disposition des écrans de l’examen?

Printemps 4 20 47 24 6 25

Automne 4 18 44 25 9 43

Comment évaluez-vous la facilité d’utilisation de l’examen?

Printemps 3 18 47 25 7 25

Automne 4 21 45 21 9 43

Tableau 24 – Résultats (en pourcentage) des sondages menés auprès des candidats au printemps et à l’automne 2016 après la composante PDC

À quelle fréquence avez-vous utilisé le tableau blanc qui vous a été fourni?

Jamais Quelques fois Souvent Très souvent Tout au long de l’examen

Pas de réponse

Printemps 34 45 13 4 3 23

Automne 34 43 16 4 3 39

Comment évaluez-vous la structure de l’examen?

Printemps 6 32 47 13 2 23

Automne 7 35 40 13 4 40

Comment évaluez-vous la conception de l’examen?

Printemps 8 32 47 13 2 24

Automne 9 32 41 15 4 40

Comment évaluez-vous la disposition des écrans de l’examen?

Printemps 3 21 49 21 5 28

Automne 4 21 46 21 8 52

Comment évaluez-vous la facilité d’utilisation de l’examen?

Printemps 3 22 49 20 5 28

Automne 4 26 46 17 7 45

Disponibilité et serviabilité du personnel du centre d’examen?

Printemps 0 4 25 34 36 33

Automne 0 26 46 17 7 50

Comment évaluez-vous la salle d’examen ou le laboratoire informatique (disposition de la salle favorable à un examen dont l’enjeu est important)?

Printemps 3 10 32 34 21 33

Automne 6 12 34 26 22 50

Comment évaluez-vous votre expérience d’examen?

Printemps 3 22 50 20 5 33

Automne 4 23 44 20 9 50

Références

American Educational Research Association, American Psychological Association, National

Council on Measurement in Education et Joint Committee on Standards for Educational

and Psychological Testing (U.S.) (2014). Standards for educational and psychological

testing. Washington, DC: American Educational Research Association.

Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43,

561-73. dx.doi.org/10.1007/BF02293814.

Angoff, W.H. (1971). Scales, norms, and equivalent scores. Dans R.L. Thorndike (dir.),

Educational Measurement (2e éd., pp. 508-600). Washington DC: American Council on

Education.

Cizek, G. J. (2001). (Éd.). Setting Performance Standards: Concepts, Methods and Perspectives.

New Jersey: Lawrence Erlbaum Associates Inc.

Cohen, Leslie. (1979). Approximate Expressions for Parameter Estimates in the Rasch Model.

The British Journal of Mathematical and Statistical Psychology, 32, 113-120.

onlinelibrary.wiley.com/doi/10.1111/j.2044-8317.1979.tb00756.x/abstract.

Conseil médical du Canada (2015). iButler® (Version 1.3) [Computer Software]. Ottawa, Ontario.

De Champlain, A.F., Boulais, A.P., & Dallas, A. (2016). Calibrating the Medical Council of

Canada’s Qualifying Examination Part I using an integrated item response theory

framework: a comparison of models and designs. Journal of Educational Evaluation for

Health Professions, 13, 1-6.

Gierl M, Lai H, Turner, S. (2012) Using automatic item generation to create multiple-choice test

items. Medical Education, 46, 757-765.

onlinelibrary.wiley.com/doi/10.1111/j.1365-2923.2012.04289.x/abstract.

Gierl, M.J., et Haladyna, T. (2013). Automatic item generation: Theory and practice. New York:

Routledge.

Hambleton, R. K., Swaminathan, H., et Rogers, H. J. (1991). Fundamentals of item response

theory. Newbury Park, CA: Sage.

Hofstee, W. K. B. (1983). The case for compromise in educational selection and grading. In S. B.

Anderson and J. S. Helmick (dir.). On educational testing (pp. 109-127). San Francisco:

Jossey-Bass.

International Test Commission (2001). International Guidelines for Test Use, International Journal

of Testing, 1(2), 93-114.

Linacre, J. M. (2015). Winsteps® Rasch Measurement Computer Program. Beaverton, Oregon:

Winsteps.com.

Linacre, J.M. (2015). Winsteps® (Version 3.91.0) [Computer Software]. Beaverton, Oregon:

Winsteps.com. Repéré le 1er janvier 2015 de winsteps.com.

Linacre, J. M. (2016). Winsteps® Rasch measurement computer program User's Guide.

Beaverton, Oregon: Winsteps.com. Repéré de winsteps.com.

Linacre J.M. (2002). What do Infit and Outfit, Mean-square and Standardized mean? Rasch

Measurement Transactions, 16 (2) p.878. Repéré à rasch.org/rmt/rmt162f.htm.

Livingston S.A. et Lewis C. (1995). Estimating the consistency and accuracy of classifications

based on test scores. Journal of Educational Measurement, 32(2), 179–197.

jstor.org/stable/1435147.

Maguire, T. O., (2001) Item and Testlet Use for the Multiple-Choice Portion of the May 2001

Qualifying Exam. Manuscrit inédit.

Maguire, T.O. (1999). Adaptive Testing and Part I of the Medical Council of Canada’s Qualifying

Exam. Research and Information Report 1999-02.

Maguire, T.O. (2000). Procedures for Calculating Equating Expressions and Standard Errors for

the CRS Practice Exam. Research and Information Report 2000-02.

Masters, G.N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149-174.

dx.doi.org/ 10.1007/BF02296272.

Messick, S. (1989). Validity. In Educational Measurement (3e éd., p. 610). Macmillan USA.

Messick, S. (1994). The interplay of evidence and consequences in the validation of performance

assessments. Educational Researcher, 23(2), 13‐23.

Morin, M., Boulais, A-P., et De Champlain, A. (2014) Scoring the Medical Council of Canada’s

Qualifying Exam Part I: A comparison of multiple IRT models using different calibration

methods. Manuscrit inédit.

Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests (Reprint, with

Foreword and Afterword by B. D. Wright, Chicago: University of Chicago Press, 1980).

Copenhagen, Denmark: Danmarks Paedogogiske Institut.

Smith R.M. P. (1966). Polytomous mean-square fit statistics. Rasch Measurement Transactions,

10(3), 516-517. Repéré à rasch.org/rmt/rmt103a.htm.

Annexe A :

Centres d’examen pour l’EACMC, partie I

Alberta Calgary Laboratoire informatique universitaire

Edmonton Laboratoire informatique universitaire

Colombie-Britannique Kelowna Laboratoire informatique universitaire

Prince George Laboratoire informatique universitaire

Vancouver Laboratoire informatique universitaire

Victoria Laboratoire informatique universitaire

Manitoba Winnipeg Laboratoire informatique universitaire

Nouveau-Brunswick Moncton Laboratoire informatique universitaire

Nouvelle-Écosse Halifax Laboratoire informatique universitaire

Ontario Hamilton Laboratoire informatique universitaire

Kingston Laboratoire informatique universitaire

London Laboratoire informatique universitaire

Mississauga Laboratoire privé

Ottawa Laboratoire informatique universitaire

Sudbury Laboratoire informatique universitaire

Thunder Bay Laboratoire informatique universitaire

Toronto, Bay Street Laboratoire privé

Toronto University Laboratoire informatique universitaire

Québec Saguenay Laboratoire informatique universitaire

Montréal I Laboratoire informatique universitaire

Montréal II Laboratoire informatique universitaire

Québec Laboratoire informatique universitaire

Sherbrooke Laboratoire informatique universitaire

Trois-Rivières Laboratoire informatique universitaire

Saskatchewan Saskatoon Laboratoire informatique universitaire

Terre-Neuve-et-Labrador St. John’s Laboratoire informatique universitaire

Annexe B :

Relevé de résultats pour l’EACMC, partie I

Annexe C :

Rapport d'information supplémentaire pour l’EACMC, partie I

rapport technique annuel 2016 sur · 2019-03-14 · le conseil médical du canada rapport technique...

Documents

rapport annuel 2009 - enabel · rapport annuel 2009 carte...

rapport 2014 annuel 2015 - centre des technologies de...

chapitre vi- quelques formules de zikr choisies formules de...

rapport annuel exercice 2016 compte rendu technique et

enver hoxha oeuvres choisies tome i

sourates choisies pour la prière

des obligations : questions choisies

idée, idéalisme et idéologie dans les oeuvres choisies de...

lettres choisies de saint vincent de paul

rapport annuel 2014 - abelo · rapport annuel 2014 10...

rapport annuel technique et financier · compte-rendu...

annales corrigées et choisies

eric bettinger stanford university school of education 10...

rapport annuel resoptic - cc rives de moselle · erp sage...

oeuvres choisies de saint-simon_memoire sur le sciencie de...

des agnelles de renouvellement bien choisies et bien...

lycée : lycée technique moulay youssef de...

contrÔle technique pÉriodique des …...

guide technique annuel 2010

christophe marion - oeuvres choisies 2015