Download - La mise à lessai dune plate-forme dévaluation sur mesure : webQuiz Komi SODOKÉ Martin RIOPEL Université du Québec à Montréal ACFAS – Université McGill

La mise à l’essai d’une plate-forme d’évaluation sur mesure : webQuiz

Komi SODOKÉMartin RIOPEL

Université du Québec à Montréal

ACFAS – Université McGill16 Mai 2006

PLAN DE PRESENTATIONI- Introduction et mise en contexte

- Définition et explication- Objectif et cadre de la présentation- Tests classiques : Structure et limites

II- La Théorie de la Réponse à l’Item- Définition et fondements- Modélisation utilisée- Estimation des paramètres

III- Le testing adaptatif - Comparaison du déroulement des tests - Algorithme de fonctionnement utilisé

IV- Présentation du travail effectué - WebQuiz - PersonFit

V- Conclusion et développements futurs

I- Introduction et Mise en contexte

L’adaptation donc peut se faire en fonction de plusieurs critères dont : le contenu relatif, la pondération, le format de présentation ou des ressources.

Adapter signifie Mettre en accord, ajuster.Dans le contexte de l’évaluation ou de l’apprentissage, l’adaptation consiste à produire un cheminement, une suite de contenus ou de questions qui tiennent compte des paramètres associés à l’apprenant (culture, niveau d’habileté etc.) et des données associées au déroulement de la session (maîtrise du sujet, temps de réponse, état émotionnel etc.)

Pourquoi adapter ?

Nécessité de partage de ressource d’évaluation ou d’apprentissage, faire des équivalences et de comparaison (cas du TIMMS).

Différents paramètres, dont la culture, le goût, les couleurs et les caractéristiques des personnes, peuvent influencer la compréhension ou biaiser le résultat d’une évaluation.

Avoir de meilleures performances lors des évaluations.

Donner une éducation personnalisée.

Définition et explication


Nous allons nous intéresser dans la suite à une adaptation selon contenuAu niveau du contenu, un test (évaluation certificative) adaptatif désigne un test sur mesure dont les questions présentées à chaque répondant sont tributaires de sa maîtrise du sujet et de ses réponses aux questions préalablement administrées.

Plusieurs solutions ont été proposées comme les tests de Binet, à deux étapes, à niveaux flexibles, pyramidaux et stratifiés : ayant chacune leurs forces et faiblesses.

Différentes études ont été menées sur des systèmes de recommandation de question lors d’une évaluation. Nouvelles générations de plate formes de téléformation qui bénéficient des expertises de plusieurs disciplines, dont l’Intelligence Artificielle, les Sciences de l’éducation, la Psychologie cognitive STI: Système Tutoriel Intelligent

Dans le domaine des sciences de l’éducation

Au niveau informatique

Objectif et cadre de la présentation

Tests classiques : Structure et limites

Même test pour tous les répondants.

Nombre fixe de questions.

Différents degrés de difficulté des questions.

Durée fixe et prédéterminée.

Note du répondant qui correspond généralement à la

somme des scores obtenus à toutes les questions.

Ce format de test que nous appellerons «test classique» couvre la majorité desépreuves d’évaluations actuelles, y compris les évaluations en ligne (e-évaluation).


Le niveau de difficulté des questions auxquelles doit répondre le

répondant ne correspond pas toujours au niveau de connaissance de

ce dernier manque de motivation.

L’estimateur du niveau de connaissance de l’apprenant n’est pas précis

surtout dans les points extrêmes de l’échelle d’habileté.

INTERROGATIONS RELATIVES À CES CONSTATS

N'y aurait-il pas un moyen d’administrer un test individualisé contenant :

uniquement des questions pertinentes,

dans un ordre approprié,

et en nombre non superflu?

SOLUTIONConception de tests adaptatifs : tests sur mesure personnalisés selon le profil et le niveau de connaissance de chaque répondant.

Tests classiques : Structure et limites


Nous présenterons une plate forme de test adaptatif par ordinateur basée sur la sur la Théorie de la Réponse à l’Item.

Théorie de la Réponse à l’Item

La Théorie de la Réponse à l’Item (TRI) est un ensemble de modèles permettant une représentation mathématique probabiliste des caractéristiques des questions en vue de leur utilisation pour déterminer un niveau d’habilité ou un trait considéré latent d’un répondant à un test.Le niveau d’habilité désigne le degré d’aptitude particulier d’un individu dans un domaine précis.

5 Postulats Hétérogénéité de la variance.

Unidimensionnalité du trait (multidimensionnalité toutefois possible).

Indépendance locale (Indépendance de la réponse d’un item à un autre).

Invariance du niveau de difficulté par rapport aux sujets.

Invariance du niveau d’habileté par rapport aux items.

Chaque répondant à un test a un niveau d’habilité θ donné auquel on pourrait associer une valeur numérique à sur un échelle d’habileté. Chaque répondant de niveau d’habileté θ a une probabilité P(θ) de trouver la bonne réponse à une question.

Deux considérations servent de fondement à la TRI

Définition et fondements

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

-5,00 -3,00 -1,00 1,00 3,00 5,00

Thêta

P(u

=1|T

hê

ta,

b)

b = -1,00

b = 0,00

b = 1,00

Le paramètre de difficulté de l’item, noté b Le paramètre de discrimination de l’item noté a

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

-5,00 -3,00 -1,00 1,00 3,00 5,00

Thêta (a = 1,00; b = 0,00)

P(u

|Th

êta

, a

, b

, c)

c = 0,00

c = 0,20

c = 0,50

Le paramètre de pseudo-chance de l’item noté c

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

-5,00 -3,00 -1,00 1,00 3,00 5,00

Thêta (a = 0,60; b = 0,00; c = 0,00)

P(u

|Th

êta

, a

, b

, c,

d)

d = -0,70

d = 0,90

d = 1.00

L’asymptote maximale de l’item notée d

ecdcdca,buP

ba )(11)(),, ,|1(

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

-5,00 -3,00 -1,00 1,00 3,00 5,00

Thêta (b = 0,00)

P(u

|Th

êta

, a

, b

)

a = 0,50

a = 1,00

a = 4,00

Il existe plusieurs modèles. Actuellement nous travaillons avec le modèle dichotomique à quatre paramètres

Théorie de la Réponse à l’ItemModélisation utilisée

1- Paramètres d’items : a,b, c et d en supposant θ connu

2- Paramètre de sujet : θ (thêta) en supposant a,b,c,d connus Maximum de vraisemblance : MLE

Maximum a posteriori (MAP ou BME)

Maximum de vraisemblance pondéré (WLE)

Espérance a posteriori (EAP)

Espérance a posteriori empirique (EEAP)

Cas concret qui se produit lorsque qu’on veut transformer une épreuve d’évaluation classique en une épreuve d’évaluation à modélisation.

Ce processus de calcul des paramètres s’appelle la calibration du test.

Vue la complexité des calculs à faire, nous nous servons d’un logiciel spécialisé conçu à cet effet : BILOG.

3- Estimation simultanée de a,b,c et d et de θ

Théorie de la Réponse à l’ItemEstimation des paramètres

La distribution des P(u=1|θ) en fonction des valeurs de θ pour tous les répondants est obtenue.

L’objectif serait donc de trouver les quatre paramètres d’item de la courbe

correspondante

Comparaison du déroulement des tests

Terminer le test lorsqu'une réponse a été donnée à la dernière question ou lorsqu’on ne peut plus répondre aux autres questions ou le temps impartit au test est expiré.

mettre fin à l'administration du test lorsqu'un niveau prédéterminé de précision de l’estimateur du niveau d'habileté est atteint ou un nombre limite préfixée de question a été administrée.

Tests adaptatifsTests classiques

Répondre à une première question, généralement la question #1.

Répondre à une prochaine question, généralement la suivante.

un estimateur provisoire du niveau d'habileté du répondant est déterminé.

un nouvel estimateur provisoire de son niveau d'habileté est alors calculé et une nouvelle question est administrée.

Le testing adaptatif

1. Règle de départ :

2. Règle de suite :

3. Règle d'arrêt :

2. Règle de suite :

1. Règle de départ:

3. Règle d'arrêt :

Algorithme de fonctionnement utiliséDébut du

test1. Règle de départ

3. Calcul de l’estimateur a priori du niveau d’habileté

7. Est-ce que la règle d’arrêt est satisfaire

2. départ

5. Administration de l’item

6. Calcul de l’estimateur provisoire du niveau d’habileté : EAP, WLE, MAP, MLE

4. Sélection d’un item en fonction de l’estimateur provisoire du d’habileté : maximisation de

l’information ou minimisation de l’espérance de l’erreur-type a posteriori

Fin de test 8. Calcul de l’estimateur final du niveau d’habileté : EAP, WLE,

MAP, MLE

Non

Oui

Le testing adaptatif

Présentation du travail effectué

WebQuiz: plate-forme de télé formation permettant la conception et l’administration de tests adaptatifs par ordinateur.

PersonFit: logiciel utilitaire (Raîche, 2003; Sodoké 2005) permettant de réaliser: les tâches de calculs relatives à la TRI; une simulation de patrons de réponses selon les modèles logistiques à 1, 2, 3 ou 4 paramètres et selon différents méthodes d’estimation; la détection de patrons de réponses inappropriés à partir des indices Lz, Infit, Outfit et Zeta; la création des fichiers de données et de traitements nécessaires pour webQuiz; la création et simulation de test adaptatif en local (en cours de développement).

Base de données des items

ÉtudiantsProfesseur

Interface Professeur

Profil Étudiants

Theta Estimator

Item Finder

Réponses etRétroaction

Itemcandidat

items optimaaux

Créer, Modifier,

Supprimer

Interface Étudiants

Récupérer

Rechercher

Selctionner

Administrer

Récupérer et Évaluer

PersonFit

Calibrer

Évaluer

Récupérer

Mettre à jour

Récupérer

Fig.1 Architecture actuelle

Conclusion et développements futurs

Modèle apprenant

État affectif

État cognitif

Modèle pédagogique

Agent Tuteur

Connaissance du domaine

Item Administré

QuestionRecommender

Fig.2 Architecture prévue

Socio-constructivisme

Béhaviorisme

Cognitiviste

Caractéristique

Migration vers un agent de recommandation de questions : QuestionRecommender.

Amélioration des stratégies de sélection du prochain item grâce aux stratégies d’Intelligence Artificielle.

Norme XML pour générer de nouvelles questions à partir des questions existantes.

Merci et Questions ?

Références Baker F. (2001). The Basics of Item Response Theory. ERIC Clearinghouse on

Assessment and Evaluation, University of Maryland

Blanchard, E., Razaki, R., Frasson, C. (2005b). Cross-Cultural Adaptation of eLearning Contents: a Methodology. International Conference on E-Learning, Vancouver, Canada.

Brusilovsky, P. and Peylo, C. (2003) Adaptive and intelligent Web-based educational systems. In P. Brusilovsky and C. Peylo (eds.): International Journal of Artificial Intelligence in Education 13 (2-4), Special Issue on Adaptive and Intelligent Web-based Educational Systems, 159-172.

Gay, G. (2000). Culturally responsive teaching: Theory, research and practice. New York: Teachers College Press.

Hage H., Aïmeur, E. (2005). Exam Question Recommender System. Proceedings of the 12th International Conference on Artificial Intelligence in Education, Amsterdam, july 2005.

Wainer, H. (1990). Computerized Adaptive Testing: A primer. New York: Lawrence Erlbaum Associates.

Raîche G. (2004). Modèles de mesure : l'apport de la théorie des réponses aux items. Le testing adaptatif. Dans R. Bertrand et J.-G. Blais (Dirs) : Montréal : Presses de l'Université du Québec

Download - La mise à lessai dune plate-forme dévaluation sur mesure : webQuiz Komi SODOKÉ Martin RIOPEL Université du Québec à Montréal ACFAS – Université McGill

Top Related