La mise à l’essai d’une plate-forme d’évaluation sur mesure : webQuiz
Komi SODOKÉMartin RIOPEL
Université du Québec à Montréal
ACFAS – Université McGill16 Mai 2006
PLAN DE PRESENTATIONI- Introduction et mise en contexte
- Définition et explication- Objectif et cadre de la présentation- Tests classiques : Structure et limites
II- La Théorie de la Réponse à l’Item- Définition et fondements- Modélisation utilisée- Estimation des paramètres
III- Le testing adaptatif - Comparaison du déroulement des tests - Algorithme de fonctionnement utilisé
IV- Présentation du travail effectué - WebQuiz - PersonFit
V- Conclusion et développements futurs
I- Introduction et Mise en contexte
L’adaptation donc peut se faire en fonction de plusieurs critères dont : le contenu relatif, la pondération, le format de présentation ou des ressources.
Adapter signifie Mettre en accord, ajuster.Dans le contexte de l’évaluation ou de l’apprentissage, l’adaptation consiste à produire un cheminement, une suite de contenus ou de questions qui tiennent compte des paramètres associés à l’apprenant (culture, niveau d’habileté etc.) et des données associées au déroulement de la session (maîtrise du sujet, temps de réponse, état émotionnel etc.)
Pourquoi adapter ?
Nécessité de partage de ressource d’évaluation ou d’apprentissage, faire des équivalences et de comparaison (cas du TIMMS).
Différents paramètres, dont la culture, le goût, les couleurs et les caractéristiques des personnes, peuvent influencer la compréhension ou biaiser le résultat d’une évaluation.
Avoir de meilleures performances lors des évaluations.
Donner une éducation personnalisée.
Définition et explication
I- Introduction et Mise en contexte
Nous allons nous intéresser dans la suite à une adaptation selon contenuAu niveau du contenu, un test (évaluation certificative) adaptatif désigne un test sur mesure dont les questions présentées à chaque répondant sont tributaires de sa maîtrise du sujet et de ses réponses aux questions préalablement administrées.
Plusieurs solutions ont été proposées comme les tests de Binet, à deux étapes, à niveaux flexibles, pyramidaux et stratifiés : ayant chacune leurs forces et faiblesses.
Différentes études ont été menées sur des systèmes de recommandation de question lors d’une évaluation. Nouvelles générations de plate formes de téléformation qui bénéficient des expertises de plusieurs disciplines, dont l’Intelligence Artificielle, les Sciences de l’éducation, la Psychologie cognitive STI: Système Tutoriel Intelligent
Dans le domaine des sciences de l’éducation
Au niveau informatique
Objectif et cadre de la présentation
Tests classiques : Structure et limites
Même test pour tous les répondants.
Nombre fixe de questions.
Différents degrés de difficulté des questions.
Durée fixe et prédéterminée.
Note du répondant qui correspond généralement à la
somme des scores obtenus à toutes les questions.
Ce format de test que nous appellerons «test classique» couvre la majorité desépreuves d’évaluations actuelles, y compris les évaluations en ligne (e-évaluation).
I- Introduction et Mise en contexte
Le niveau de difficulté des questions auxquelles doit répondre le
répondant ne correspond pas toujours au niveau de connaissance de
ce dernier manque de motivation.
L’estimateur du niveau de connaissance de l’apprenant n’est pas précis
surtout dans les points extrêmes de l’échelle d’habileté.
INTERROGATIONS RELATIVES À CES CONSTATS
N'y aurait-il pas un moyen d’administrer un test individualisé contenant :
uniquement des questions pertinentes,
dans un ordre approprié,
et en nombre non superflu?
SOLUTIONConception de tests adaptatifs : tests sur mesure personnalisés selon le profil et le niveau de connaissance de chaque répondant.
Tests classiques : Structure et limites
I- Introduction et Mise en contexte
Nous présenterons une plate forme de test adaptatif par ordinateur basée sur la sur la Théorie de la Réponse à l’Item.
Théorie de la Réponse à l’Item
La Théorie de la Réponse à l’Item (TRI) est un ensemble de modèles permettant une représentation mathématique probabiliste des caractéristiques des questions en vue de leur utilisation pour déterminer un niveau d’habilité ou un trait considéré latent d’un répondant à un test.Le niveau d’habilité désigne le degré d’aptitude particulier d’un individu dans un domaine précis.
5 Postulats Hétérogénéité de la variance.
Unidimensionnalité du trait (multidimensionnalité toutefois possible).
Indépendance locale (Indépendance de la réponse d’un item à un autre).
Invariance du niveau de difficulté par rapport aux sujets.
Invariance du niveau d’habileté par rapport aux items.
Chaque répondant à un test a un niveau d’habilité θ donné auquel on pourrait associer une valeur numérique à sur un échelle d’habileté. Chaque répondant de niveau d’habileté θ a une probabilité P(θ) de trouver la bonne réponse à une question.
Deux considérations servent de fondement à la TRI
Définition et fondements
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thêta
P(u
=1|T
hê
ta,
b)
b = -1,00
b = 0,00
b = 1,00
Le paramètre de difficulté de l’item, noté b Le paramètre de discrimination de l’item noté a
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thêta (a = 1,00; b = 0,00)
P(u
|Th
êta
, a
, b
, c)
c = 0,00
c = 0,20
c = 0,50
Le paramètre de pseudo-chance de l’item noté c
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thêta (a = 0,60; b = 0,00; c = 0,00)
P(u
|Th
êta
, a
, b
, c,
d)
d = -0,70
d = 0,90
d = 1.00
L’asymptote maximale de l’item notée d
ecdcdca,buP
ba )(11)(),, ,|1(
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5,00 -3,00 -1,00 1,00 3,00 5,00
Thêta (b = 0,00)
P(u
|Th
êta
, a
, b
)
a = 0,50
a = 1,00
a = 4,00
Il existe plusieurs modèles. Actuellement nous travaillons avec le modèle dichotomique à quatre paramètres
Théorie de la Réponse à l’ItemModélisation utilisée
1- Paramètres d’items : a,b, c et d en supposant θ connu
2- Paramètre de sujet : θ (thêta) en supposant a,b,c,d connus Maximum de vraisemblance : MLE
Maximum a posteriori (MAP ou BME)
Maximum de vraisemblance pondéré (WLE)
Espérance a posteriori (EAP)
Espérance a posteriori empirique (EEAP)
Cas concret qui se produit lorsque qu’on veut transformer une épreuve d’évaluation classique en une épreuve d’évaluation à modélisation.
Ce processus de calcul des paramètres s’appelle la calibration du test.
Vue la complexité des calculs à faire, nous nous servons d’un logiciel spécialisé conçu à cet effet : BILOG.
3- Estimation simultanée de a,b,c et d et de θ
Théorie de la Réponse à l’ItemEstimation des paramètres
La distribution des P(u=1|θ) en fonction des valeurs de θ pour tous les répondants est obtenue.
L’objectif serait donc de trouver les quatre paramètres d’item de la courbe
correspondante
Comparaison du déroulement des tests
Terminer le test lorsqu'une réponse a été donnée à la dernière question ou lorsqu’on ne peut plus répondre aux autres questions ou le temps impartit au test est expiré.
mettre fin à l'administration du test lorsqu'un niveau prédéterminé de précision de l’estimateur du niveau d'habileté est atteint ou un nombre limite préfixée de question a été administrée.
Tests adaptatifsTests classiques
Répondre à une première question, généralement la question #1.
Répondre à une prochaine question, généralement la suivante.
un estimateur provisoire du niveau d'habileté du répondant est déterminé.
un nouvel estimateur provisoire de son niveau d'habileté est alors calculé et une nouvelle question est administrée.
Le testing adaptatif
1. Règle de départ :
2. Règle de suite :
3. Règle d'arrêt :
2. Règle de suite :
1. Règle de départ:
3. Règle d'arrêt :
Algorithme de fonctionnement utiliséDébut du
test1. Règle de départ
3. Calcul de l’estimateur a priori du niveau d’habileté
7. Est-ce que la règle d’arrêt est satisfaire
2. départ
5. Administration de l’item
6. Calcul de l’estimateur provisoire du niveau d’habileté : EAP, WLE, MAP, MLE
4. Sélection d’un item en fonction de l’estimateur provisoire du d’habileté : maximisation de
l’information ou minimisation de l’espérance de l’erreur-type a posteriori
Fin de test 8. Calcul de l’estimateur final du niveau d’habileté : EAP, WLE,
MAP, MLE
Non
Oui
Le testing adaptatif
Présentation du travail effectué
WebQuiz: plate-forme de télé formation permettant la conception et l’administration de tests adaptatifs par ordinateur.
PersonFit: logiciel utilitaire (Raîche, 2003; Sodoké 2005) permettant de réaliser: les tâches de calculs relatives à la TRI; une simulation de patrons de réponses selon les modèles logistiques à 1, 2, 3 ou 4 paramètres et selon différents méthodes d’estimation; la détection de patrons de réponses inappropriés à partir des indices Lz, Infit, Outfit et Zeta; la création des fichiers de données et de traitements nécessaires pour webQuiz; la création et simulation de test adaptatif en local (en cours de développement).
Base de données des items
ÉtudiantsProfesseur
Interface Professeur
Profil Étudiants
Theta Estimator
Item Finder
Réponses etRétroaction
Itemcandidat
items optimaaux
Créer, Modifier,
Supprimer
Interface Étudiants
Récupérer
Rechercher
Selctionner
Administrer
Récupérer et Évaluer
PersonFit
Calibrer
Évaluer
Récupérer
Mettre à jour
Récupérer
Fig.1 Architecture actuelle
Conclusion et développements futurs
Modèle apprenant
État affectif
État cognitif
Modèle pédagogique
Agent Tuteur
Connaissance du domaine
Item Administré
QuestionRecommender
Fig.2 Architecture prévue
Socio-constructivisme
Béhaviorisme
Cognitiviste
Caractéristique
Migration vers un agent de recommandation de questions : QuestionRecommender.
Amélioration des stratégies de sélection du prochain item grâce aux stratégies d’Intelligence Artificielle.
Norme XML pour générer de nouvelles questions à partir des questions existantes.
Merci et Questions ?
Références Baker F. (2001). The Basics of Item Response Theory. ERIC Clearinghouse on
Assessment and Evaluation, University of Maryland
Blanchard, E., Razaki, R., Frasson, C. (2005b). Cross-Cultural Adaptation of eLearning Contents: a Methodology. International Conference on E-Learning, Vancouver, Canada.
Brusilovsky, P. and Peylo, C. (2003) Adaptive and intelligent Web-based educational systems. In P. Brusilovsky and C. Peylo (eds.): International Journal of Artificial Intelligence in Education 13 (2-4), Special Issue on Adaptive and Intelligent Web-based Educational Systems, 159-172.
Gay, G. (2000). Culturally responsive teaching: Theory, research and practice. New York: Teachers College Press.
Hage H., Aïmeur, E. (2005). Exam Question Recommender System. Proceedings of the 12th International Conference on Artificial Intelligence in Education, Amsterdam, july 2005.
Wainer, H. (1990). Computerized Adaptive Testing: A primer. New York: Lawrence Erlbaum Associates.
Raîche G. (2004). Modèles de mesure : l'apport de la théorie des réponses aux items. Le testing adaptatif. Dans R. Bertrand et J.-G. Blais (Dirs) : Montréal : Presses de l'Université du Québec