diagnosticité des mesures physiologiques périphériques de
Post on 29-Jan-2022
3 Views
Preview:
TRANSCRIPT
© Mark Parent, 2019
Diagnosticité des mesures physiologiques périphériques de la charge mentale
Thèse
Mark Parent
Doctorat en psychologie
Philosophiæ doctor (Ph. D.)
Québec, Canada
iii
Résumé
La charge mentale est un concept très utile dans les domaines dont l’objet d’étude et
d’analyse est le travail et la performance humaine. Typiquement, la charge mentale est
mesurée à l’aide des mesures subjectives (c.-à-d. des questionnaires) ou par des mesures
comportementales (c.-à-d. les actions des individus). La charge mentale peut également être
mesurée à l’aide de l’activité physiologique périphérique (p.ex. l’activité cardiaque). Il est
cependant difficile de déterminer la source de la charge mentale à l’aide des mesures
physiologiques périphérique. En effet, les sous-dimensions de la charge mentale, comme
l’exigence, l’effort, le stress et la fatigue, provoquent souvent des manifestations
physiologiques similaires. En plus de cette problématique, les mesures physiologiques de la
charge mentale sont trop souvent étudiées dans des contextes de laboratoire et trop rarement
étudiées dans des milieux de travail réels. Il est donc crucial d’investiguer leur potentiel dans
des contextes réels. Cette thèse vise donc à investiguer le potentiel diagnostique (le potentiel
à déterminer la source) des mesures physiologiques périphériques de la charge mentale. Pour
y arriver, une méthode combinant l’approches cognitive traditionnelle et l’apprentissage
automatique est utilisée. La thèse rapporte les résultats de deux expériences : une première
menée en contexte de laboratoire et une seconde menée dans une simulation de
commandement et contrôle reproduisant un milieu de travail réel. Les résultats montrent que
les mesures physiologiques périphériques peuvent prédire, avec une bonne précision, la sous-
dimension qui est à l’origine de la charge mentale en contexte de tâche simple. Bien que
moins précise, il reste possible de faire cette prédiction dans des contextes de tâche réelle.
Dans l’ensemble, cette thèse apporte plusieurs contributions essentielles afin de rendre
possible les mesures physiologiques périphériques de la charge mentale dans les milieux de
travail réels.
iv
Abstract
Mental workload stands out as a key concept as soon as human work and human performance
is discussed. Mental workload is often measured using subjective questionnaires or
behavioral cues. Peripheral physiological measures (e.g. heart rate) can also be used to
measure workload. However, it is particularly difficult to determine the source of workload
using peripheral physiological measures. Sub-divisions of mental workload, such as task
load, mental effort, stress and fatigue, often trigger similar physiological reactions, blurring
the diagnostic potential of physiological measures. Furthermore, physiological measures are
too often investigated in laboratory settings, making it hazardous to determine their
performance in real world settings. This thesis aims at investigating the diagnostic potential
of peripheral physiological measures. A mixed methodology, combining traditional cognitive
approach as well as machine learning techniques, is used. This thesis presents results of both
a laboratory setting experimental as well as an ecological command and control simulation.
Results show that peripheral measures can be used to predict, with high accuracy, the source
of workload in laboratory settings. While not as accurate, results also show that it is possible
to perform a diagnostic measure of workload in an ecological work simulation. This thesis
contribute to improve the potential of peripheral physiological measures in real work settings.
v
Table des matières
Résumé .............................................................................................................................. iii Abstract ............................................................................................................................... iv Table des matières ............................................................................................................... v Liste des tableaux ............................................................................................................ viii Liste des figures .................................................................................................................. xi
Liste des abréviations ....................................................................................................... xii Remerciements ................................................................................................................ xiii Introduction ......................................................................................................................... 1 Chapitre 1 : Le concept et les mesures de la charge mentale .............................................. 3
1.1 La charge mentale et ses composantes ...................................................................... 3
1.1.1 Exigence, effort et motivation ............................................................................. 5
1.1.2 Stress, anxiété et frustration ................................................................................ 8
1.1.3 Fatigue, vigilance et ennui ................................................................................ 10 1.2 Mesures de la charge mentale .................................................................................. 12
1.2.1 Considérations psychométriques ....................................................................... 13 1.2.2 Mesures comportementales ............................................................................... 16
1.2.3 Mesures subjectives .......................................................................................... 18 1.2.4 Mesures physiologiques .................................................................................... 19
1.3 Mesures physiologiques périphériques des dimensions de la charge mentale ........ 22 1.3.1 Le potentiel des mesures physiologiques périphériques ................................... 22 1.3.2 Justification des dimensions de la charge mentale ............................................ 24
1.3.3 Effets physiologiques des dimensions de la charge mentale ............................ 27 1.3.4 Synthèse ............................................................................................................ 32
1.4 Problématique .......................................................................................................... 33 1.4.1 Manque de diagnosticité ................................................................................... 33
1.4.2 Difficulté à intégrer dans des milieux de travail humain .................................. 36 1.5 Objectif de la thèse .................................................................................................. 38
Chapitre 2 : Stratégie méthodologique .............................................................................. 40
2.1 Expériences .............................................................................................................. 42 2.2 Mesures .................................................................................................................... 44
2.2.1 Mesures subjectives et comportementales ........................................................ 44 2.2.2 Mesures physiologiques .................................................................................... 45
2.3 Découpage en époque et prétraitement des signaux ................................................ 49 2.4 Calcul des métriques physiologiques ....................................................................... 51 2.5 Organisation des schèmes de classification ............................................................. 54
2.6 Imputation des données ........................................................................................... 54 2.7 Rééquilibrage des classes ......................................................................................... 55
2.8 Entraînement des modèles ....................................................................................... 55 2.9 Calcul de la performance ......................................................................................... 56
Chapitre 3 : Diagnosticité dans des tâches simples ........................................................... 59 3.1 Particularités de méthodologie ................................................................................. 61
3.1.1 Participants ........................................................................................................ 61
3.1.2 Tâches expérimentales ...................................................................................... 61 3.1.3 Devis ................................................................................................................. 62 3.1.4 Procédure ........................................................................................................... 63
vi
3.1.5 Paramètres d’apprentissage automatique .......................................................... 64
3.2 Résultats ................................................................................................................... 64
3.2.1 Analyse des réponses subjectives ...................................................................... 64 3.2.2 Analyse de la performance et de l’effort ........................................................... 68 3.2.3 Analyse des métriques physiologiques ............................................................. 72 3.2.4 Analyse des modèles d’apprentissage automatique .......................................... 75 3.2.5 Méta-analyse des classificateurs ....................................................................... 81
3.2.6 Analyses de paramètres supplémentaires .......................................................... 87 3.3 Discussion ................................................................................................................ 89
3.3.1 Discussion sur les mesures ................................................................................ 89 3.3.2 Discussion des modèles d’apprentissage automatique ...................................... 96 3.3.3 Discussion générale ......................................................................................... 104
3.3.4 Leçons pour la prochaine expérience .............................................................. 107
3.4 Conclusion ............................................................................................................. 108
Chapitre 4 : Diagnosticité en simulation de commandement et contrôle (C2) ................ 110 4.1 Particularités de méthodologie ............................................................................... 112
4.1.1 Participants ...................................................................................................... 112 4.1.2 Tâches expérimentales .................................................................................... 112
4.1.3 Devis ............................................................................................................... 114 4.1.4 Procédure ......................................................................................................... 116
4.1.5 Paramètres d’apprentissage automatique ........................................................ 116 4.2 Résultats ................................................................................................................. 119
4.2.1 Analyse des réponses subjectives .................................................................... 119
4.2.2 Analyse de la performance et de l’effort ......................................................... 122 4.2.3 Analyse des métriques physiologiques ........................................................... 124
4.2.4 Analyse des modèles d’apprentissage automatique ........................................ 127 4.2.5 Méta-analyse des classificateurs ..................................................................... 135
4.2.6 Analyse de paramètres supplémentaires ......................................................... 144 4.3 Discussion .............................................................................................................. 147
4.3.1 Discussion sur les mesures .............................................................................. 147
4.3.2 Discussion des modèles d’apprentissage automatique .................................... 153 4.3.3 Discussion générale ......................................................................................... 162
4.4 Conclusion ............................................................................................................. 165 Chapitre 5 : Discussion générale ..................................................................................... 166
5.1 Sommaire des résultats .......................................................................................... 166 5.2 Contributions théoriques ........................................................................................ 168
5.2.1 Introduction de nouvelles métriques physiologiques ...................................... 168
5.2.2 Redéfinition du rôle de l’exigence mentale .................................................... 170 5.2.3 Distinction entre l’effort mental et le stress .................................................... 172
5.3 Contribution méthodologique ................................................................................ 173 5.3.1 Avantage – Grand nombre de métriques physiologiques ............................... 173 5.3.2 Avantage – Méthode orientée vers la pratique ................................................ 174 5.3.3 Limites – Fatigue confondue avec d’autres facteurs ....................................... 176 5.3.4 Limite – Pas de comparaison de performance entre les modalités ................. 177
5.4 Contributions pratiques .......................................................................................... 178 5.4.1 Augmentation de l’accessibilité des mesures physiologiques ........................ 178
vii
5.4.2 Supporter la conception du travail et l’élaboration de contre-mesures cognitives
.................................................................................................................................. 180
5.4.3 Modèles interindividuels ................................................................................. 181 5.5 Défis à relever ........................................................................................................ 183
5.5.1 Augmenter la robustesse face aux mouvements et aux bruits du signal ......... 183 5.5.2 Augmenter la robustesse face à la parole ........................................................ 185 5.5.3 Considérer plus de dimensions ........................................................................ 186
Conclusion ....................................................................................................................... 189 Références ....................................................................................................................... 190
viii
Liste des tableaux
Tableau 1- Propriétés psychométriques et métrologiques utilisées ce projet ...................... 16 Tableau 2 - Synthèse des effets physiologiques des composantes de la charge mentale...... 32 Tableau 3 - Description des fonctions utilisées pour calculer les métriques
physiologiques ...................................................................................................................... 52 Tableau 4 - Utilisation des fonctions par type de signal physiologique ............................... 52
Tableau 5 - Sous-ensemble de métriques testées dans cette analyse .................................... 54 Tableau 6 - Exemple de prédiction d’un modèle pour deux catégories ............................... 57 Tableau 7 - Critères déterminant la qualité des classificateurs ........................................... 58 Tableau 8 - Définition des variables d’intérêt ...................................................................... 64 Tableau 9 - Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX
(partie 1/2) ............................................................................................................................ 67
Tableau 10 - Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX
(partie 2/2) ............................................................................................................................ 68 Tableau 11 - Scores moyens de performance dans les quatre conditions ............................ 70 Tableau 12 - Scores moyens de l’effort dans les quatre conditions ..................................... 72 Tableau 13 - Taille d’effet des métriques physiologique ...................................................... 74
Tableau 14 - Moyenne du d de Cohen par groupe de métriques physiologiques ................. 75 Tableau 15 - Vérification de l’indépendance des variables objectives ................................ 76
Tableau 16 - Vérification de l’indépendance des variables subjectives ............................... 76 Tableau 17 - Vérification de l’indépendance des variables objectives/subjectives ............. 77 Tableau 18 - Performance en test des variables en fonction des métriques utilisées
pour un classificateur SVM .................................................................................................. 78 Tableau 19 - Performance en test des réponses subjectives du NASA-TLX pour un
classificateur SVM ................................................................................................................ 79 Tableau 20 - Performance en test des variables en fonction des métriques utilisées
pour un classificateur linéaire .............................................................................................. 80 Tableau 21 - Performance en test des réponses subjectives du NASA-TLX pour un
classificateur linéaire ........................................................................................................... 81
Tableau 22 - Régression logistique multiple effectuée sur la performance en
classification ......................................................................................................................... 82
Tableau 23 - Pourcentage de la contribution des modalités physiologiques selon les
classificateurs ....................................................................................................................... 83 Tableau 24 - Métriques ayant les plus grands poids pour la classification de la classe
« Repos initial » .................................................................................................................... 85 Tableau 25 - Métriques ayant les plus grands poids pour la classification de la classe
« Difficulté » ......................................................................................................................... 85 Tableau 26 - Métriques ayant les plus grands poids pour la classification de la classe
« Stress » ............................................................................................................................... 86 Tableau 27 - Métriques ayant les plus grands poids pour la classification de la classe
« Tâche » .............................................................................................................................. 86 Tableau 28 - Métriques ayant les plus grands poids pour la classification de la classe
« Performance » ................................................................................................................... 87
Tableau 29 - Métriques ayant les plus grands poids pour la classification de la classe
« Effort » ............................................................................................................................... 87
ix
Tableau 30 - Performance des classificateurs en fonction du chevauchement des
époques ................................................................................................................................. 88
Tableau 31 - Régression logistique multiple effectuée sur la performance en
classification ......................................................................................................................... 89 Tableau 32 - Définition des variables d’intérêt .................................................................. 118 Tableau 33 - Tailles d’effet des ANOVA menées sur les réponses du NASA-TLX ............. 121 Tableau 34 - Coefficients de corrélation entre le temps passé sur la tâche et les
dimensions du NASA-TLX .................................................................................................. 122 Tableau 35 - Scores moyens de performance dans les quatre conditions .......................... 123 Tableau 36 - Scores moyens de l’effort dans les quatre conditions ................................... 124 Tableau 37 - Taille d’effet des métriques physiologique .................................................... 126 Tableau 38 - Moyenne du d de Cohen par groupe de métriques physiologiques ............... 127
Tableau 39 - Vérification de l’indépendance des variables objectives .............................. 128
Tableau 40 - Vérification de l’indépendance des variables subjectives ............................. 128
Tableau 41 - Vérification de l’indépendance des variables objectives/subjectives ........... 129 Tableau 42 - Performance en test des variables en fonction des métriques utilisées et
de la durée des époques pour un classificateur SVM ......................................................... 131 Tableau 43 - Performance en test des réponses subjectives du NASA-TLX en fonction
de la durée des époques pour un classificateur SVM ......................................................... 132 Tableau 44 - Performance en test des variables en fonction des métriques utilisées et
de la durée des époques pour un classificateur linéaire .................................................... 134 Tableau 45 - Performance en test des réponses subjectives du NASA-TLX en fonction
de la durée des époques ...................................................................................................... 135
Tableau 46 - Régression logistique multiple effectuée sur la performance en
classification (difficulté) ..................................................................................................... 136
Tableau 47 - Régression logistique multiple effectuée sur la performance en
classification (stress) .......................................................................................................... 137
Tableau 48 - Régression logistique multiple effectuée sur la performance en
classification (ordre des conditions) .................................................................................. 137 Tableau 49 - Régression logistique multiple effectuée sur la performance en
classification (ordre des époques) ...................................................................................... 138 Tableau 50 - Régression logistique multiple effectuée sur la performance en
classification (performance) ............................................................................................... 138 Tableau 51 - Régression logistique multiple effectuée sur la performance en
classification (effort) .......................................................................................................... 139 Tableau 52 - Pourcentage de la contribution des modalités physiologiques ..................... 140 Tableau 53 - Métriques ayant les plus grands poids pour la classification de la classe
« Repos Initial » .................................................................................................................. 142 Tableau 54 - Métriques ayant les plus grands poids pour la classification de la classe
«Stress » .............................................................................................................................. 142 Tableau 55 - Métriques ayant les plus grands poids pour la classification de la classe
« Ordre des conditions » .................................................................................................... 143 Tableau 56 - Métriques ayant les plus grands poids pour la classification de la classe
«Ordre des époques » ......................................................................................................... 143
Tableau 57 - Métriques ayant les plus grands poids pour la classification de la classe
«Effort (vies sauvées) »....................................................................................................... 144
x
Tableau 58 - Performance des classificateurs en fonction du type de classificateur et
de l’imputation .................................................................................................................... 146
Tableau 59 - Performance des classificateurs en fonction du type de classificateur et
du rebalancement des données. .......................................................................................... 147
xi
Liste des figures
Figure 1 : Représentation schématique du modèle de Wickens (2008). ................................ 4 Figure 2 : Exemple d’un électroencéphalogramme et d’un système de spectroscopie
proche infrarouge. ................................................................................................................. 21 Figure 3 : Synthèse méthodologique .................................................................................... 41 Figure 4 : Le Bioharness 3 .................................................................................................... 46
Figure 5 : Positionnement des électrodes électrodermales. .................................................. 47 Figure 6 : Lunette ASL Mobile Eye. .................................................................................... 48 Figure 7 : Exemple des signaux physiologique recueillis lors des séances
expérimentales. ..................................................................................................................... 49 Figure 8 : Exemple d’un découpage en époques. ................................................................. 50
Figure 9 : Exemple du tableau de données créé après le calcul des métriques. ................... 53
Figure 10 : Relation entre la performance et kappa pour deux seuils de hasard
différents. .............................................................................................................................. 58 Figure 11 : Représentation schématique de la tâche de n-back. ........................................... 62 Figure 12 : Exemple de la tâche de recherche visuelle (difficile). ....................................... 62 Figure 13 : Résultats du NASA-TLX lors du n-Back. ........................................................ 66
Figure 14 : Résultats du NASA-TLX lors de la recherche visuelle. .................................... 66 Figure 15 : Performance en fonction de la difficulté et de la tâche. ..................................... 70
Figure 16 : Performance en fonction du stress et de la tâche. .............................................. 71 Figure 17 : Score d’effort en fonction de la difficulté et de la tâche. ................................... 72 Figure 18 : Contribution des modalités physiologiques selon le classificateur. ................... 84
Figure 19 : Interface du logiciel de gestion de crise. .......................................................... 113 Figure 20 : Exemple d’un panneau montrant les propriétés d’un incident. ........................ 114
Figure 21 : Classificateurs de l’ordre des conditions. ........................................................ 119 Figure 22 : Résultats du NASA-TLX lors de la tâche de C2. ............................................ 120
Figure 23 : Temps de réponse en fonction de la difficulté et du stress. ............................. 123 Figure 24 : Contribution des modalités physiologiques selon le classificateur. ................. 141
xii
Liste des abréviations
- ADASYN : Algorithme d’échantillons synthétique (de l’anglais : Adaptive
Synthetic Sampling Approach for Imbalanced Learning)
- ANOVA : Analyse de la variance
- C2 : Commandement et contrôle
- ECG : Électrocardiogramme
- EDA : Relatif à l’activité électrodermale
- GAZ : Relatif à l’activité oculaire (de l’anglais : gaze)
- HF : Haute fréquence
- LF : Basse-fréquence
- NASA-TLX : Nom court du questionnaire subjectif NASA Task Load Index
- PUP : Relatif à l’activité pupillaire
- RR : Relatif aux intervalles entre les battements cardiaques
- RSP : Relatif à la respiration
- SVM : Machine à vecteur de support (de l’anglais : support vector machine)
- TSST : Trier Social Stress Task
- VLF : Très basses fréquences
xiii
Remerciements
Je tiens à remercier mon directeur de thèse, le Dr Sébastien Tremblay, pour son encadrement
lors de la réalisation de mon doctorat. Tout au cours de mon cheminement, Sébastien m’a
donné l’impression d’être son homme de confiance, ce qui est incontestablement le plus beau
souvenir que je vais garder de mon doctorat. Je me considère extrêmement chanceux d’avoir
eu un directeur aussi engagé à me voir me développer professionnellement. Grâce à lui, j’ai
été exposé à des projets des plus enrichissants. Il m’a également donné l’occasion de voyager,
de rencontrer et de collaborer avec des experts à travers le monde. J’en lui en suis
profondément reconnaissant.
J’aimerais également remercier les Drs François Vachon et Mickaël Causse pour leur rôle au
sein de mon comité de thèse. Merci à François pour sa rigueur et son expertise, sans qui des
failles méthodologiques et intellectuelles auraient certainement échappé à ma vigilance.
Merci à Mickaël pour ses commentaires toujours constructifs, pour les opportunités de projet
à l’ISAE et, plus particulièrement, pour m’avoir toujours traité avec beaucoup
professionnalisme.
La réalisation de ce doctorat a été pour moi l’occasion d’apprendre un grand nombre de
savoirs qui font aujourd’hui de moi, je l’espère, un meilleur scientifique. Une quantité
importante de ces acquis est due à la patience de mes collègues et collaborateurs à me
transmettre leur précieuse expertise. Je tiens à remercier mes prédécesseurs au laboratoire,
les Drs Cindy Chamberland, Jean-François Gagnon et Benoît Roberge-Vallières, pour leur
judicieux conseils et la générosité du temps qu’ils m’ont accordé. I wish to extend this
gratitude toward Dr Joel Suss for his truly appreciated mentoring. I would also like to thank
Dr Tiago H. Falk for giving me the opportunity to perform an internship at MuSAE lab, in
Montreal. This internship allowed me to significantly brush up my machine learning and
neurophysiological skills as well as exchange with his lab resourceful members. Je remercie
également le Dr Frédéric Dehais et les membres de l’ISAE, à Toulouse, pour leurs conseils
sincèrement appréciés.
xiv
Je tiens aussi à remercier les nombreux collègues universitaires avec qui j’ai eu le plaisir de
collaborer, mais qui ont également rendu le travail quotidien tellement plus agréable. Merci
à Catherine, Alexandre et Alexandre, Serge et Jean-Denis et tous les membres des
laboratoires Co-DOT et PACE de l’université Laval. Merci aussi aux membres de l’Unité de
Recherche Mixte en Sciences Urbaines pour leur chaleureuse compagnie.
En dehors du contexte professionnel, je tiens à souligner le support indéfectible de tous mes
amis pendant mes années d’études. Merci notamment à ma bonne amie Josée de m’avoir
continuellement encouragé et d’avoir écouté inconditionnellement mes idées (des plus
farfelues aux plus sérieuses). Merci à mes amis de longue date, Martin et Cyrille, pour leurs
encouragements. Merci à Stéphane, sans qui mes analyses ne seraient toujours pas terminées.
Finalement, je souhaite remercier ma famille, sans qui les moments sans espoir auraient eu
raison de moi. Merci à mes frères, Nicolas et Alex, pour tous les bons moments que je passe
avec vous. Merci à Jocelyn et à Susan. J’apprécie toujours votre présence et suis très
reconnaissant de la sagesse que vous me transmettez. Enfin, merci à ma mère France et à
mon père Marc. Être votre fils est une chance que je ne peux quantifier.
1
Introduction
Les applications, comme des systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen,
Carswell, Santhanam et Bailey, 2012) ou de système d’automatisation adaptative
(p.ex. Aricò et coll., 2016; Dixon & Wickens, 2006) sont généralement considérés comme
ayant un grand potentiel pour améliorer les conditions de travail humain et même sauver des
vies. La prémices de plusieurs de ces systèmes consiste souvent à adapter la conception ou
le fonctionnement du système en fonction d’une mesure de la charge mentale des individus.
Malgré les bénéfices promis de ces systèmes, certains auteurs suggèrent qu’il est nécessaire
de repenser la manière dont est mesurée la charge mentale (p.ex. Matthew, Reinerman-Jones,
Wohleber et coll., 2015), sans quoi ses applications ne pourront pas fonctionner à leur plein
potentiel. De plus, les applications concrètes tardent encore à être implémentées dans des
milieux de travail humain (Friedman, Brouwer et Nijholt, 2017).
La charge mentale est un concept très utile dans les domaines dont l’objet d’étude et
d’analyse est le travail et la performance humaine – la psychologie, les sciences cognitives,
et l’ergonomie. Depuis plusieurs années, un grand nombre de recherches sont effectuées afin
de quantifier la charge mentale liée au travail humain. La charge mentale peut se mesurer à
partir du comportement et de la performance des opérateurs humains. Toutefois, cette
approche a comme limite de ne pas permettre la mesure de la charge si aucun comportement
observable n’est réalisé. Il est également possible de mesurer la charge de travail à l’aide de
questionnaires. L’utilisation de questionnaires requiert soit des interruptions chaque fois
qu’une mesure est requise, soit une analyse post hoc. Les mesures neurologiques, comme
l’électroencéphalographie, peuvent permettre de contrer ces deux problèmes. Bien que des
progrès soient effectués afin de faciliter l’utilisation des mesures neurologiques, il n’est pas
toujours possible d’envisager leur utilisation dans des contextes de travail réel. Les mesures
physiologiques périphériques présentent un grand potentiel pour quantifier la charge mentale
et elles sont plus faciles à implémenter que les mesures neurologiques. Les mesures
physiologiques périphériques présentent toutefois, elles aussi, un problème : la charge
mentale peut se diviser en plusieurs sous-composantes et très peu de mesures physiologiques
permettent de distinguer avec précision l’influence de chacune de ces sous-composantes. Ces
sous-composantes, comme l’effort mental, le stress ou la fatigue, peuvent avoir des
2
implications différentes. Ainsi, dans un contexte de travail réel, un excès d’effort mental ne
sera pas réglé de manière identique à un excès de fatigue. Le problème de l’identification de
la source de la charge mentale réfère à un problème de diagnosticité. Ce projet de thèse vise
à établir si la physiologie périphérique a le potentiel de donner une mesure diagnostique de
la charge mentale.
Dans la première expérience de cette thèse, des participants ont été invités à accomplir des
tâches expérimentales simples pendant que leurs signaux physiologiques étaient enregistrés.
Dans cette expérience, deux sous-composantes de la charge mentale étaient modulées : le
niveau d’exigence mentale et le niveau de stress. Une approche d’apprentissage automatique
a été menée sur les signaux physiologiques. Cette analyse a permis de montrer qu’il était
possible de prédire l’exigence mentale, l’effort mental, le stress ainsi que la fatigue dans un
contexte de tâche expérimentale simple. Dans la deuxième expérience de thèse, les
participants étaient invités à compléter des scénarios de simulation de gestion de crise, plus
proches de ce qui peut être vécu dans un contexte de travail réel. Encore une fois, l’exigence
mentale et le stress étaient modulés. Le contre-balancement permettait cette fois-ci
d’investiguer l’effet de la fatigue. Le stresseur utilisé a également été modifié. Cette fois-ci,
un stresseur psychosocial a été retenu. Finalement, un plus grand nombre de participants ont
été évalués, et les séances expérimentales étaient plus longues, ce qui a permis une meilleure
taille du jeu de données. Les résultats suggèrent qu’il est possible, en n’utilisant que la
physiologie périphérique, de prédire l’effort mental, le stress ainsi que la fatigue d’un
individu réalisant une tâche de gestion de crise.
3
Chapitre 1 : Le concept et les mesures de la charge mentale
1.1 La charge mentale et ses composantes
La charge mentale est un concept très populaire en psychologie cognitive. La communauté
scientifique a commencé à étudier la charge mentale dans les années 70 (Wierwille, 1979)
mais le concept est devenu plus présent dans la littérature au cours de la décennie suivante
(voir Young, Brookhuis, Wickens et Hancock, 2015, pour une revue des écrits). À l’époque,
le terme charge de travail (anglais : workload) est utilisé pour décrire la quantité objective
de travail à réaliser, sans égards aux capacités et compétences de celui qui réalise le travail.
Le concept de charge mentale est subséquemment introduit afin de considérer les capacités
et compétences de l’humain à effectuer son travail (voir : Rouse, Edwards et Hammer.,
1993). Depuis le début des recherches sur le sujet, des centaines d’études traitant de la charge
mentale ont été publiées (voir Wickens, 2017). Young et coll. (2015) ont recensé une centaine
d’études publiées depuis 1980 et présentent les principaux thèmes à l’étude pour chaque
décennie : la mesure de la charge mentale dans les années 1980, l’amélioration de la
définition du concept dans les années 1990 et l’exploration d’applications concrètes dans les
années 2000. Encore aujourd’hui, des efforts sont investis à développer de nouvelles mesures
de la charge mentale de même qu’à préciser les définitions, qui ne font pas consensus (Young
et coll., 2015).
Dans sa forme la plus simple, la charge mentale peut être définie comme étant le ratio entre
les ressources cognitives utilisées et la capacité cognitive maximale d’un individu.
Lorsqu’une tâche est réalisée, celle-ci consommerait des ressources cognitives. Selon cette
vision, la performance et la quantité de ressources cognitives investie suivent une relation
linéaire. Lorsque la quantité de ressources cognitives consommée atteint la capacité
maximale d’un individu, la performance plafonne (ou même décline; Durantin, Gagnon,
Tremblay & Dehais, 2014; Matthews & Campbell, 2009) et l’individu atteint sa charge
mentale maximale. Malgré que cette conceptualisation unidimensionnelle de la charge
mentale soit attirante en raison de sa simplicité, elle a également fait l’objet de plusieurs
critiques. À titre d’exemple, le paradigme de la tâche secondaire (Wickens, 2008) permet
plutôt de suggérer que la charge mentale soit multidimensionnelle. Les résultats obtenus au
sein de ce paradigme suggèrent que dans certains cas, il est possible d’ajouter une tâche
4
secondaire à une tâche primaire sans pour autant affecter la performance. Ce patron de
résultats est en conflit avec la conceptualisation unidimensionnelle de la charge de travail
puisqu’il suggère qu’un individu peut avoir atteint une charge mentale maximale dans une
tâche tout en étant capable d’investir de nouvelles ressources cognitives dans une nouvelle
tâche. Ce phénomène a donné naissance à la théorie des ressources multiples. Selon cette
théorie, les tâches peuvent être catégorisées selon trois divisions : 1) le niveau de processus
(perception, cognition et réponse), 2) l’encodage (spatial ou verbal) et 3) la modalité (visuelle
ou auditive). Cette catégorisation est présentée visuellement à la Figure 1. Tant que deux
tâches n’utilisent pas les mêmes niveaux de chaque dimension, le déclin de la performance
devrait être faible, ce qui suggère plusieurs dimensions de la charge mentale.
Figure 1 : Représentation schématique du modèle de Wickens (2008).
Bien qu’il s’agisse d’un modèle fréquemment utilisé, la théorie des ressources multiples n’est
pas la seule qui aborde la multidimensionnalité de la charge mentale. Hoedemaeker (2002)
divise la charge mentale en trois composantes : la charge visuelle, la charge motrice et la
charge mentale. Au lieu de diviser la charge mentale en se basant sur son fonctionnement,
Hart et Staveland (1988) suggèrent de diviser la charge mentale selon les différentes manières
dont celle-ci peut être perçue de manière subjective par les individus. Pour certaines
5
personnes, la charge mentale provient de la difficulté de la tâche qu’ils sont en train de
réaliser. D’autres individus vont plutôt considérer le temps qui leur est alloué pour réaliser
cette tâche comme un indice de charge mentale (voir Hollnagel, 2002). Dans le questionnaire
de charge de travail qu’ils ont développé, le NASA-TLX, Hart et Staveland (1988) suggèrent
six dimensions à la charge mentale : l’exigence mentale, l’exigence temporelle, l’exigence
physique, la performance, l’effort et la frustration. Dans un autre questionnaire visant à
mesurer la charge de travail, Reid (1988) propose plutôt 3 dimensions : la charge temporelle,
l’effort mental et le stress psychologique. Contrairement à la théorie des ressources multiples
et à la division de Hoedemaeker (2002), les modèles de Hart et Staveland (1988) et Reid
(1988) incluent tous deux une composante plus affective que cognitive (respectivement : la
frustration et le stress psychologique). En plus des différentes dimensions proposées par ces
auteurs, plusieurs autres dimensions, telles que la fatigue, la motivation ou l’engagement,
peuvent être considérées comme des composantes de la charge mentale. Les sections
suivantes font un survol des différentes composantes de la charge mentale qu’il est possible
de retrouver dans la littérature.
1.1.1 Exigence, effort et motivation
La charge mentale prend sa source d’une exigence de travail à réaliser (anglais : task
demand). Cette exigence de travail occupe une place importante dans la conceptualisation de
la charge mentale puisqu’elle est souvent considérée comme l’un des premiers intrants dans
plusieurs modèles qui visent à expliquer la charge mentale (p. ex. : Moray, 2013,
Parasuraman et Hancock, 2001, Wickens, 2008). Lorsqu’on parle d’exigence mentale, il est
nécessaire de faire la distinction entre l’exigence réelle de la tâche de l’exigence perçue.
L’exigence réelle correspond à la quantité, l’intensité ou encore la difficulté objective d’une
tâche. L’exigence perçue, de son côté, correspond à l’évaluation subjective, que fait un
individu, de l’exigence réelle. L’exigence réelle d’une tâche est généralement facile à
quantifier. À moins que le travail à réaliser soit inconnu, l’exigence réelle correspond
généralement à la définition de la tâche. L’exigence réelle est très souvent manipulée
expérimentalement dans les études se penchant sur la charge mentale en augmentant la
difficulté des tâches ou en augmentant la quantité totale de travail à effectuer (p. ex., Backs
et Seljos, 1994; Bailey et Iqbal 2008; Carroll, Turner et Prasad, 1986; Engström, Markkula,
6
Victor et Merat, 2017; Galy, Cariou et Mélan, 2012). Tout comme l’exigence réelle, il est
possible de mesurer l’exigence subjective. Pour le faire, il est toutefois nécessaire d’utiliser
des outils de mesure, comme des questionnaires (p.ex. Delignières, Famose, & Genty, 1994;
Hart & Staveland, 1988) ou encore par l’observation du comportement et de la performance
des individus (voir Gawron, 2000).
Dans l’ensemble, il est possible d’affirmer que l’augmentation de l’exigence mentale (réelle
ou subjective) entraîne une hausse de la charge mentale (Ayres, 2006). L’exigence à elle
seule ne peut toutefois pas expliquer toutes les variations de la charge mentale. Par exemple,
Thomas et Tsai (2012), suggèrent que l’anxiété ressentie par les individus peut venir biaiser
leur perception de l’exigence. Selon leurs travaux empiriques, les individus anxieux
percevraient une exigence plus élevée. Les auteurs suggèrent également que la distance
psychologique (définie de manière similaire au niveau d’engagement envers la tâche) et
physique (comme la distance entre l’individu et son écran d’ordinateur) permet de mitiger
les effets de l’anxiété sur l’évaluation de l’exigence. De leur côté, Colle et Reid (1998)
démontrent comment l’exigence réelle peut biaiser l’évaluation de la charge mentale. Ils
expliquent que, lorsqu’on demande à un individu d’évaluer l’exigence d’un ensemble de
stimuli quelconques, celui-ci tend à diviser l’étendue de l’exigence en certaines catégories et
à regrouper les stimuli sous chacune de ces catégories. Ainsi, si l’étendue de l’exigence est
petite (c.-à-d. : s’il n’y a pas beaucoup de différence entre les niveaux de difficulté), les
individus vont quand même évaluer un grand contraste entre ces niveaux. Tel qu’expliqué
par les auteurs, ce biais provoque une inflation de la charge mentale perçue lorsque l’étendue
de l’exigence mentale est faible et une diminution de la charge mentale perçue lorsque
l’étendue de l’exigence mentale est grande.
L’exigence mentale peut aussi être modulée par la pression temporelle (c.-à-d., le temps
disponible pour effectuer la tâche). La pression temporelle affecte l’exigence mentale
(Hollnagel, 2002), en dégradant notamment la performance de la mémoire de travail
(Barrouillet, Bernardin et Camos, 2004). Certains auteurs suggèrent toutefois de la
différencier de l’exigence. Sweller, van Merrienboer et Pass (1998), qui s’intéressent au
domaine de l’apprentissage, font notamment la distinction entre charge intrinsèque et charge
7
extrinsèque. Selon cette théorie, la charge intrinsèque réfère aux éléments inhérents de la
tâche (p.ex., la difficulté, la quantité de travail à réaliser) alors que la charge extrinsèque
réfère aux facteurs externes (p.ex. l’environnement, le bruit et le temps accordé pour réaliser
la tâche). Il existe d’ailleurs des appuis empiriques permettant de différencier les effets
provenant de la charge intrinsèque et extrinsèque sur la charge mentale, ce qui suggère que
l’exigence mentale (associée plutôt à l’exigence intrinsèque) doit être différente du stress
associé plutôt à la charge extrinsèque (Galy, Cariou et Mélan, 2012).
Dans la plupart des recherches où l’exigence mentale est modulée, il est assumé que les
individus motivés vont augmenter l’effort investi au fur et à mesure que l’exigence augmente
(Gendolla et Wright, 2005). Certains indices empiriques laissent toutefois croire que
l’exigence et l’effort ne varient pas toujours en même temps. En effet, on peut supposer que
l’augmentation de la difficulté puisse décourager les individus, diminuer leur niveau de
motivation et, par le fait même, empêcher les individus d’investir plus d’effort (Capa,
Audiffren et Ragot, 2008). Il est également possible que les individus n’aient plus de
ressources cognitives disponibles, ce qui signifie qu’il leur est difficile de fournir plus
d’effort. Ces indices suggèrent donc que l’exigence mentale et l’effort mental sont
conceptuellement différents. Le concept d’effort mental a été popularisé par Kahneman
(1973). Sa vision de l’effort mental n’est pas sans rappeler la théorie du contrôle utilisée en
ingénierie (voir Skogestad et Postlehwaite, 2007). Kahneman suggère effectivement que
l’effort mental est le résultat d’une boucle de rétroaction faisant intervenir l’exigence de la
tâche, l’objectif souhaité et les capacités cognitives disponibles. Selon Kanheman (voir aussi
Gaillard, 1993; Hockey, 1997), l’exigence mentale et l’effort mental devraient être
considérés comme des concepts différents. Pourtant, la définition de ces concepts se recoupe
à certains niveaux. Wickens et Hollands (2000) définissent l’exigence mentale comme étant
« […] la quantité de ressources qui doit être allouée afin de maintenir la performance ».
Hockey (1993, 1997) définit quant à lui l’effort mental comme étant la stratégie
compensatoire qui vise à protéger la performance lorsque la demande de la tâche augmente.
Bien que similaires, ces deux définitions font ressortir une différence fondamentale entre
l’exigence mentale et l’effort mental. Alors que l’exigence mentale est associée à la
perception de la tâche imposée (ce que l’individu sent qu’il doit faire), l’effort mental est
8
plutôt vu comme étant la quantité réelle d’investissement cognitif fourni par l’individu (voir
aussi Matthews, Warm et coll., 2010; Paas et Van Merrienboer, 1993).
Gaillard (1993) détaille quelques éléments clés qui caractérisent l’effort mental. Tout
d’abord, l’investissement d’énergie par l’effort mental, perçue par la sensation « d’essayer
plus fort », représenterait la seule manière directe de changer l’état énergétique mental d’un
individu. Selon Gaillard (1993), les autres composantes de l’état énergétique mental, comme
la fatigue et les émotions, ne peuvent pas être directement modulées. L’effort mental se
distingue de l’activation (anglais : arousal). En effet, l’effort mental représente une forme
d’activation dédiée à exécuter un travail cognitif alors que l’activation est plutôt une
excitation générale du corps (provoqué par plusieurs sources comme la joie, la colère ou le
stress). Selon ce même auteur, il est nécessaire d’investir un effort mental lorsque l’activation
est faible (p.ex. par monotonie ou fatigue), mais également lorsque l’activation est élevée
(p.ex. sous l’effet du stress) afin de neutraliser ou ignorer ces distracteurs. Il est également
précisé que l’effort mental se distingue du travail effectué ou de la performance. En effet,
lorsqu’un processus cognitif est automatisé, il est reconnu pour ne requérir aucun ou peu
d’effort pour être réalisé. Contrairement à l’exigence, il peut être difficile d’obtenir une
mesure objective de l’effort mental. En effet, celui-ci est à la fois fonction de l’exigence
perçue et de la performance atteinte.
L’effort mental se rapproche au plan conceptuel de la motivation ou de l’engagement. La
théorie de la motivation de Brehm (Brehm et Self, 1989) est souvent citée en
psychophysiologie et distingue la volonté d’agir d’un individu (la motivation potentielle) de
son effort réel (l’intention de la motivation). Selon Matthews, Warm et coll. (2010),
l’engagement est défini par l’activation d’énergie, la motivation et la concentration. Malgré
l’intérêt qu’apporte l’identification de ces dimensions de la charge mentale, il n’en demeure
pas moins qu’elles sont difficiles à distinguer les unes des autres.
1.1.2 Stress, anxiété et frustration
Tel que relevé plus tôt, certains modèles de la charge mentale intègrent une composante
affective, comme la frustration (Hart et Staveland, 1988) ou encore le stress psychologique
9
(Reid, 1988). Le stress est un concept psychologique très étudié. Une simple recherche
utilisant le mot clé stress sur la plateforme APA PsycNET identifie 10874 articles de revues
scientifiques publiées en 2016. En opposition, les mots clés mental workload ou encore
simplement workload, obtiennent respectivement 102 et 366 résultats pour la même année.
L’intérêt massif porté envers le stress s’explique notamment par l’impact de ce dernier sur la
santé des individus (Jones, Latreille et Sloane, 2016). La plupart des chercheurs étudiant le
stress ne le considèrent pas à priori comme une composante de la charge mentale. Une revue
de l’historique de la recherche dans le domaine du stress permet toutefois de réaliser que les
deux concepts sont liés de près. Les chercheurs ont commencé à s’intéresser au stress date
au début du 20e siècle. Yerkes et Dodson (1908) sont souvent considérés comme ayant été
les premiers à se pencher sur ce phénomène (Staal, 2004). Leurs travaux ont éventuellement
mené à l’élaboration de la loi de Yerkes-Dodson1, qui suggère que l’augmentation de
l’activation augmente la performance de l’individu jusqu’à un certain point à partir duquel
une activation encore plus élevée fait diminuer la performance. À cette époque, il n’était pas
mention d’aucune dimension émotive du stress (on utilisait le terme « activation » plutôt que
« stress » d’ailleurs). Il est toutefois possible de remarquer que, tout comme la charge
mentale, la performance est centrale dans leur définition du stress. Hans Selye (1975) propose
de diviser le stress en deux composantes, soit l’eustress et la détresse. Selon Selye, un stress
qui contribue à la bonne performance se qualifie d’eustress, alors qu’un stress qui n’est pas
résolu est qualifié de détresse. Basé sur des travaux empiriques et des observations (souvent
faites chez des rats) du système endocrinologique, Selye suggère toutefois une réaction
physiologique unique au stress, qu’il s’agisse d’eustress ou de détresse.
Cette séparation dichotomique entre une composante plus cognitive et une composante plus
émotionnelle du stress est reprise par la théorie énergétique de Gaillard et Wientjes (1994),
également reprise par Dyregrov, Solomon, et Basso (2000). Cette théorie est basée sur la
manière dont le corps investit de l’énergie pour réguler ses états en vue d’atteindre une
1 Cette loi, aussi appelée « Loi en U inversée » (anglais : Inverted-U), est soutenue par plusieurs travaux (voir
Anderson, 1976; Andreano & Cahill, 2012; Bierman et coll., 2005; Johnston, Moreno, Regas, Tyler et Foreyt,
2012; Le, Oh et coll., 2011; Zajenkowski, 2013). Elle fait toutefois l’objet de nombreuses critiques (voir
Diamond et coll., 2007; Teigen, 1994; Winton, 1987).
10
performance optimale. Les auteurs proposent de distinguer deux types de demandes : la
charge mentale et le stress; ainsi que deux mobilisations énergétiques associées : l’effort et
la détresse. Selon eux, l’effort mental est défini comme un processus demandant de l’énergie
et de l’efficacité afin de réaliser une tâche. Selon cette définition, l’effort mental devrait
provoquer une émotion positive (comme un sentiment d’accomplissement) à la fin de la
tâche. D’un autre côté, les mêmes auteurs définissent également le stress comme un état où
l’individu se sent menacé et où il a peur de perdre le contrôle de la situation. Toujours selon
eux, la mobilisation d’énergie n’est pas efficace pendant une période de stress et mènerait
plutôt à ressentir en fin de tâche des émotions négatives, telles que l’anxiété. Contrairement
à l’approche de Selye, l’approche énergétique distingue toutefois les mécanismes associés à
l’effort et la détresse (Gaillard, Wientjes, 1994; Frankenhaeuser, 1986). Tel que relevé par
Staal (2004), certains auteurs préfèrent ne pas mentionner le stress et se fient plutôt à la
charge mentale pour expliquer la performance alors que d’autres vont parler de détresse en
référant plutôt à la pression temporelle (p.ex. Hendy, Farrell et East, 2001).
1.1.3 Fatigue, vigilance et ennui
Lorsque les individus passent un temps prolongé à effectuer une tâche, il est possible que ces
derniers subissent une baisse de vigilance ou encore souffrent d’ennui, ce qui peut venir
affecter leur charge mentale. Cette section fait un survol des composantes de la charge
mentale plutôt associées au temps passé sur la tâche, centrées notamment autour du concept
de la fatigue. Au sens large, la fatigue est définie comme une baisse de performance causée
par des contraintes physiologiques ou psychologiques (Kalsbeek, Merrow, Roenneberg et
Foster, 2012). Lorsqu’on parle de la fatigue, il est nécessaire de différencier deux concepts
parfois confondus : celui de la somnolence (ou privation de sommeil) et celui de la fatigue
mentale. La somnolence peut être définie comme un état similaire à la fatigue mentale, mais
provoquée par un manque de sommeil, un sommeil de mauvaise qualité ou un débalancement
des rythmes circadiens (May et Baldwin. 2009). La fatigue mentale, elle-même, peut être
définie de différentes manières. Pour Granjean (1979), la fatigue mentale est définie comme
un état d’épuisement et d’inhibition associé à une moins grande efficacité et à une moins
grande vigilance. Pour Boksem et Tops (2008), la fatigue est aussi un état d’épuisement, mais
elle serait également associée à une aversion à continuer l’activité en cours ainsi qu’une
11
diminution de l’implication dans ladite activité. Dans Shen et coll. (2006), les auteurs
relèvent que la fatigue mentale peut être aiguë (considérée comme normale et momentanée)
ou chronique. Si la fatigue chronique est, par définition, associée à un problème de santé, les
deux types de fatigue peuvent avoir de nombreux effets sur les individus. Suite à un sondage
effectué auprès de travailleurs américains (Ricci et coll. 2007), 38 % des individus ont
rapporté être fatigués. La majorité de ces individus ont rapporté avoir perdu du temps de
productivité en raison de la fatigue. La fatigue mentale serait associée à de nombreux
accidents (Baker, Olson, et Morisseau, 1994, Idogawa, 1991) de même qu’à des problèmes
de santé (Boksem, Meijman et Lorist, 2006; Chaudhuri et Behan, 2000; Lorist, Boksem et
Ridderinkhof, 2005; ten Caat et coll., 2008).
Typiquement, la fatigue mentale est causée par l’effort mental soutenu. Cet effort mental
soutenu n’a pas nécessairement besoin d’être long pour provoquer de la fatigue. Par exemple,
dans Matthews et Desmond (2002), les auteurs utilisent une tâche de conduite automobile
simulée afin d’étudier la fatigue mentale des conducteurs. Ils montrent une difficulté à
détecter la présence de piétons après seulement 24 minutes de simulation. Dans Pattyn et
coll. (2007), les auteurs démontrent, en utilisant une tâche expérimentale simple, que les
effets du temps passé à exécuter la tâche peuvent être visibles dès 30 minutes d’effort mental.
Les auteurs émettent l’hypothèse que la baisse de performance serait provoquée par l’ennui
plutôt que par la fatigue mentale provoquée par un effort soutenu. Toutefois, certains auteurs
suggèrent que les tâches typiques de vigilance sont cognitivement exigeantes, même en
présence d’ennui, ce qui suggère que les effets de la fatigue mentale peuvent être présents
même lorsque les tâches semblent monotones (Warm, Parasuraman et Matthews, 2008). De
plus, les mesures subjectives de la fatigue montrent que les individus ne sont pas toujours en
mesure de bien estimer leur degré de fatigue. Dans Lim et coll. (2010), les auteurs ne trouvent
pas de corrélation significative entre les variations de temps de réaction et les variations de
la fatigue autorapportée, et suggèrent donc que les individus ont du mal à évaluer l’impact
de la fatigue après une période de forte charge cognitive. Lorsqu’on demande aux individus
d’évaluer leur fatigue mentale, ces derniers se basent parfois sur le temps qu’ils ont investi
sur la tâche plutôt que d’estimer leur niveau réel de fatigue (Haga, Shinoda et Kokbun, 2002).
12
Il semble exister une interaction théorique entre l’exigence mentale, l’effort mental et la
fatigue mentale (tous selon les définitions de ce projet). La fatigue mentale provoque
généralement une baisse de l’effort mental (Borghini et coll. 2014, Hockey, 1997). Par
exemple, dans Wright et coll. (2003), les auteurs induisent soit une fatigue faible ou élevée
aux participants à l’aide d’une tâche d’arithmétique et leur demandent par la suite de réaliser
une seconde tâche. Les auteurs indiquent aux participants que si leur performance dépasse
un certain seuil, ils auront une plus grande récompense. Les résultats font ressortir que les
participants non fatigués fournissent un effort plus élevé si la récompense est élevée plutôt
que faible alors que l’inverse est observé pour les participants fatigués. Un résultat similaire
a été trouvé par Nolte et coll. (2008). Compte tenu des interactions précédemment énoncées,
il peut être possible de croire que la fatigue n’est en réalité qu’une absence d’effort. Certains
travaux empiriques laissent pourtant croire qu’il est quand même possible d’être fatigué et
de fournir un effort élevé. Boksem et Tops (2008) montrent que la fatigue est un signal
biologique qui survient lorsque le coût (l’effort) est élevé, mais que la perception de la
récompense est faible. Selon eux, ce mécanisme diminue la motivation qui, par la suite, tend
à faire diminuer l’effort. Ainsi, la fatigue est donc ressentie lorsque l’effort est jugé trop élevé
pour les bénéfices estimés. Dans Hockey (1997), les auteurs rapportent également deux
études (Holdings 1983, Meijman et coll., 1992) dans lesquels les auteurs ont démontré que
lors d’une période de fatigue mentale, les individus avaient tendance à choisir des stratégies
à effort moindre, mais qu’un certain effort pouvait néanmoins être mis en branle pendant de
brèves périodes. Mis à part une difficulté à investir de l’effort, la fatigue mentale peut mener
à une baisse d’attention (Boksem, Lorist et Meijman, 2005), des difficultés au niveau du
choix stratégique (Van der Linden, Frese et Meijman, 2003; Van der Linden, Frese et
Sonnentag, 2003), une diminution de la qualité de l’activité motrice (Duncan et coll., 2015)
ainsi qu’une diminution de la performance à des tâches d’effort physique soutenu.
1.2 Mesures de la charge mentale
Un effort considérable est investi afin d’élaborer des mesures de la charge mentale. Plusieurs
raisons justifient cet intérêt. Les mesures de la charge mentale peuvent guider la conception
d’interfaces ou de systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen, Carswell,
Santhanam et Bailey, 2012), aider à comprendre et optimiser l’apprentissage (p.ex. Wiebe,
13
Roberts & Behrend, 2010) ou encore, évaluer l’impact de changements organisationnels
(p.ex. Colligan, Potts, Finn et Sinkin, 2015). Ils peuvent également permettre la conception
de systèmes informatiques intelligents qui adaptent le niveau d’automatisation du travail afin
de garder la charge mentale de l’humain dans sa zone optimale (p.ex. Aricò et coll., 2016;
Dixon & Wickens, 2006). La section suivante vise donc à faire un survol des méthodes de
mesures de la charge mentale. Avant de détailler ces méthodes, une revue des considérations
psychométriques sera effectuée. Ces considérations permettent de qualifier différents aspects
des mesures de la charge mentale et, éventuellement, permettent de les comparer entre elles.
Par la suite, le chapitre couvrira les trois principaux types de mesure de la charge mentale :
1) les mesures comportementales, 2) les mesures subjectives et 3) les mesures
physiologiques.
1.2.1 Considérations psychométriques
Lorsqu’il est question de mesurer un concept psychologique, il est nécessaire de s’assurer de
ses propriétés psychométriques, telles que la validité, la fiabilité, la sensibilité et la
spécificité. La validité réfère au degré auquel un instrument (c.-à-d. un questionnaire, une
mesure physiologique) mesure réellement ce qu’il prétend mesurer2 (Chadha, 2009). La
fiabilité correspond au degré auquel un instrument donne un résultat constant lorsque la
mesure est répétée dans une situation similaire (Chadha, 2009), par exemple, en répétant la
mesure sur une même personne à un moment différent dans le temps. La fiabilité est
également très essentielle comme propriété psychométrique puisqu’elle qualifie l’erreur ou
l’incertitude qui est associée à la mesure. La sensibilité et la spécificité sont deux autres
propriétés psychométriques importantes, mais pourtant parfois négligées. La sensibilité est
la probabilité d’un instrument à retourner une valeur positive lorsque le résultat est positif
(Glaros et Kline, 1988)3. De manière analogue, la spécificité est la probabilité d’un
instrument à retourner une valeur négative lorsque le résultat est négatif (Glaros et Kline,
2 Le concept de la validité comporte plusieurs sous-divisions telles que la validité interne, externe ainsi que la
validité du test, elle-même sous-divisée en 3 (validité de contenu, de construit et de critère). Bien que cette
thèse soit étroitement associée à la validité externe et la validité de construit, d’autres termes plus adaptés au
domaine seront utilisés pour décrire ces caractéristiques (voir Chadha, 2009). 3 Le terme « sensibilité » peut avoir une signification différente en traitement de signal et métrologie
(voir Asch et coll., 2011). Ce document utilise la définition de « sensibilité » telle qu’utilisée en psychométrie.
14
1988). Pour distinguer les deux, on fait souvent appel à l’exemple du dépistage du cancer. Si
un test de dépistage est hautement sensible, il risque de repérer facilement tous les individus
ayant un cancer, mais il risque également de signaler un cancer chez des individus sains (c.-
à-d. générer beaucoup de faux positifs). À l’inverse, un test de dépistage hautement
spécifique a rarement tort lorsqu’il diagnostique un cancer, mais n’arrive parfois pas à repérer
un cancer lorsqu’il est présent. À titre d’exemple physiologique, il est généralement reconnu
que le rythme cardiaque est très sensible à l’activité physique. Lors d’un effort physique, la
probabilité d’observer un rythme cardiaque plus élevé est grande. Les exemples de spécificité
physiologique sont beaucoup plus rares. Au mieux, il est suggéré que certaines combinaisons
de signes physiologiques pourraient être spécifiques à un concept psychologique (Fairlough
et coll., 2009). Des instruments de mesure, qui seraient à la fois hautement sensibles et
hautement spécifiques, sont évidemment désirables puisqu’ils pourraient permettre, avec une
bonne certitude, la détection des composantes de la charge mentale. Cette combinaison
optimale de sensibilité et de spécificité, permettant de discriminer une hypothèse de ses
alternatives, est appelée la diagnosticité (Matthews, Reinerman-Jones, Barber et Abich.,
2015; Trope et Mackie, 1987). Une mesure hautement diagnostique peut permettre de repérer
les comportements, les états mentaux et les manifestations physiologiques de phénomènes
mentaux, c’est-à-dire l’ensemble des manifestations qui sont spécifiques à ces concepts. Par
exemple, si une telle mesure existait, il pourrait être possible de mesurer l’effort mental à
l’aide d’un ensemble de signes physiologiques, tout en garantissant qu’il ne s’agit pas de
stress ou encore de variables confondantes, comme la consommation de café, l’exercice
physique ou encore les particularités individuelles.
Mis à part les propriétés psychométriques classiques présentées jusqu’ici, certaines autres
propriétés métrologiques affectent également la mesure. Ces propriétés regroupent les
considérations temporelles, qui décrivent les temps et les délais requis pour effectuer une
mesure, ainsi que les considérations pratiques, qui décrivent comment l’outil de mesure peut
être efficace dans un contexte appliqué. Parmi les caractéristiques temporelles, trois
paramètres sont particulièrement importants : 1) la durée de prise de mesure, 2) le délai avant
l’obtention de la mesure et 3) la résolution temporelle de mesure. La durée de prise de mesure
correspond au temps requis par l’instrument avant de pouvoir fournir une mesure. Le délai
15
avant l’obtention de la mesure correspond au temps entre la fin de la prise de mesure et le
moment où la mesure est obtenue4. Finalement, la résolution temporelle de mesure
correspond au temps minimum qu’il est nécessaire d’attendre avant d’obtenir une seconde
mesure (Asch et coll., 2011). Il est nécessaire de préciser que les caractéristiques présentées
ici ne font pas nécessairement référence aux propriétés des appareils de mesure eux-mêmes,
mais plutôt aux propriétés des mesures de concepts psychologiques. À titre d’exemple, il est
possible d’utiliser un électrocardiogramme en prenant 1000 mesures par secondes, ce qui
correspond à une résolution temporelle très élevée. Toutefois, cela ne signifie pas que la
mesure de la charge mentale peut être renouvelée 1000 fois par seconde. Selon la méthode
utilisée, il faudra peut-être attendre plusieurs secondes avant d’obtenir une nouvelle mesure
de la charge mentale, ce qui diminue ainsi la résolution temporelle de la mesure
psychologique. Quant aux considérations pratiques, on peut distinguer : 1) la tolérance au
bruit, 2) la portabilité, 3) l’acceptabilité et 4) la facilité d’implémentation. La tolérance au
bruit est définie comme étant la capacité d’un instrument à fournir une mesure résistante aux
paramètres indésirables (le « bruit ») comme l’activité physique, les variations d’éclairage
ou les déplacements de l’appareil de mesure (Johnson, 2006). La portabilité représente la
capacité d’un appareil de mesure à être transporté facilement. L’acceptabilité représente le
degré de volonté d’un utilisateur à porter ou utiliser l’appareil de mesure (Matthews,
Reinerman-Jones, Barber et Abich, 2014). Quant à la facilité d’implémentation, elle regroupe
les considérations comme le coût, l’expertise requise et la complexité de l’implémentation
(Matthews, Reinerman-Jones, Barber et Abich, 2014). Le Tableau 1 synthétise les
informations précédentes.
4 La durée de prise de mesure et le délai ne sont pas des propriétés typiquement définies dans la littérature.
Toutefois, il est jugé nécessaire de les ajouter pour capturer des propriétés temporelles de mesure qui ne
peuvent pas être exprimées par la résolution temporelle.
16
Tableau 1-
Propriétés psychométriques et métrologiques utilisées ce projet
Propriété Description
Validité Degré auquel un instrument mesure réellement ce
qu’il prétend mesurer.
Fiabilité Degré auquel un instrument donne un résultat
constant lorsque la mesure est répétée.
Sensibilité Probabilité d’un instrument à retourner une valeur
positive lorsque le résultat est positif.
Spécificité Probabilité d’un instrument à retourner une valeur
négative lorsque le résultat est négatif
Diagnosticité Propriété d’une mesure à discriminer une hypothèse
de ses alternatives.
Durée de mesure Temps requis par l’instrument avant de pouvoir
fournir une mesure.
Délai d’obtention Temps entre la fin de la prise de mesure et le moment
où la mesure est obtenue.
Résolution temporelle Temps minimum qu’il est nécessaire d’attendre avant
d’obtenir une seconde mesure.
Tolérance au bruit Capacité d’un instrument à fournir une mesure
résistante aux paramètres indésirables.
Portabilité Capacité d’un appareil de mesure à être transporté
facilement.
Acceptabilité Degré de volonté d’un utilisateur à porter ou utiliser
l’appareil de mesure.
Facilité d’implémentation Coût, l’expertise requise et la complexité de
l’implémentation
1.2.2 Mesures comportementales
Les mesures comportementales regroupent toutes les mesures qui peuvent être prises en
observant les actions d’un individu. Il peut s’agir de mouvements physiques, de décisions ou
encore de la performance des individus à une tâche. Les origines des mesures
comportementales remontent aux tout débuts de la psychologie, notamment avec
l’émergence de la psychologie expérimentale et de la psychophysique (voir Wertheimer,
2012). Dans l’interprétation de concepts psychologiques de bas niveau, les mesures
comportementales peuvent être faciles à interpréter. Un des atouts des mesures
comportementales et son bon niveau d’acceptabilité. En effet, il existe plusieurs cas où il est
possible de mesurer le comportement ou la performance de l’individu sans avoir besoin de le
17
déranger, de l’interrompre et même sans affecter sa tâche. À titre d’exemple, il est possible
de mesurer l’interaction avec un ordinateur (c.-à-d. l’utilisation du clavier ou de la souris)
afin de prédire le niveau de fatigue de l’utilisateur (Pimenta, Carneiro, Neves et Novais,
2016) ou encore de mesurer les paramètres de conduite (Horberry et coll., 2006) sans que les
utilisateurs n’aient à faire quoi que ce soit. Ces mesures ont toutefois quelques limitations.
Le problème le plus proéminent des mesures comportementales provient du fait que de
nombreux phénomènes psychologiques n’élicitent pas, à tout coup, un comportement. À titre
d’exemple, un individu peut effectuer un effort mental (p.ex. planifier son travail, prédire
l’issu d’une situation) sans nécessairement que cela ne soit observable. En terme
psychométrique, cela revient à dire que les mesures comportementales ont parfois une faible
sensibilité. Cette limitation affecte également la résolution temporelle des mesures
comportementale puisqu’il est nécessaire d’attendre les actions avant de mettre à jour la
mesure.
Les mesures comportementales de la charge mentale peuvent être divisées en deux catégories
(Cain, 2007; Gawron, 2008). Premièrement, il est possible de se baser sur la performance de
la tâche principale des individus. Selon cette méthode, plus un individu est chargé
mentalement, plus la performance (c.-à-d. son temps de réaction ou encore sa précision)
diminue (Cain, 2007; Gawron, 2008). Tel que noté par Wierwille et Eggemeier (1993), les
mesures de la performance de la tâche principale peuvent avoir une bonne sensibilité sur le
niveau de charge mentale. Toutefois, comme les individus sont capables de s’adapter à leur
charge de travail, notamment à cause de leur entraînement, leurs expériences et leurs
stratégies (O’Donnell et Eggemeier, 1986) il est possible que cette sensibilité soit fortement
réduite et que la performance ne varie que très peu lorsque la charge de travail change.
O’Donnel et Eggemeier (1986) notent également que les mesures de la charge mentale par la
performance à la tâche principale sont biaisées lorsque la charge est très faible ou très élevée
et que ces mesures sont souvent non généralisables à d’autres tâches. Les mesures
comportementales peuvent également se baser sur la méthode de la tâche secondaire. L’idée
derrière cette méthode est d’introduire une tâche secondaire artificielle, plus courte et moins
complexe, à une tâche primaire et prédire la charge mentale à partir de la performance à cette
seconde tâche. Les tâches secondaires sont souvent des tâches expérimentales (tâches de
18
mémoire ou d’arithmétique; voir Cain, 2007). La méthode de la tâche secondaire est très
utilisée dans la recherche sur la charge mentale (Cain, 2007; voir par exemple Lansman et
Hunt, 1982; Merat, Jamson, Lai et Carsten, 2012; Weinger et coll., 1994) et plusieurs travaux
montrent que la performance à la tâche secondaire est parfois sensible aux variations de
charge mentale de la tâche principale (voir Wierwille et Eggemeier, 1993). Bien que cette
méthode convienne à une recherche en laboratoire, elle diminue fortement l’acceptabilité
dans des situations réelles puisqu’elle provoque des interruptions. Dans certains cas, il est
possible d’utiliser une tâche secondaire faisant partie du travail humain afin de mitiger les
effets sur l’acceptabilité. L’introduction d’une tâche secondaire peut également avoir comme
effet de changer les stratégies de la tâche principale (Meshkati et Hancock, 1995), ce qui
affecte également la validité de la mesure.
1.2.3 Mesures subjectives
Les mesures subjectives font référence aux questions qui visent à comprendre l’état
psychologique des individus tel que ressenti par ces derniers. Les mesures subjectives
peuvent être très structurées, comme avec un questionnaire, mais également plus informelles,
comme avec une entrevue. Il serait laborieux de faire une synthèse de toutes les formes de
mesures subjectives utilisées dans l’histoire de la psychologie. On peut toutefois souligner
que ces mesures sont utilisées dans la psychologie de la personnalité (p.ex. Ashton et Lee,
2007; Goldberg, 1992), dans le traitement de troubles psychologiques (p.ex. Duval et coll.,
2018; Lovibond & Lovibond, 1995), ou encore en psychologie cognitive et en facteurs
humains (voir Rubio, Diaz, Martín et Puente, 2004). Il peut être difficile de résumer la
performance en validité et fiabilité des mesures subjectives de manière globale. On peut
toutefois préciser qu’il existe de nombreuses méthodes statistiques permettant d’éprouver ces
questionnaires (voir Chadha, 2009). Une des plus grandes forces des mesures subjectives est
la haute diagnosticité qu’elles peuvent atteindre (Cain, 2007). Ce type de mesure bénéficie
également d’une très grande facilité d’implémentation à faible coût. Contrairement aux
mesures comportementales, les mesures subjectives peuvent être prises même en l’absence
d’actions physiques. De plus, il est possible d’élaborer des questionnaires qui ne sont pas
spécifiques à une tâche en particulier. Cet avantage permet de facilement comparer les tâches
entre elles. Ces mesures ont toutefois quelques désavantages. Étant donné la nature subjective
19
de cette méthode, il est impossible d’atteindre une validité absolue. Les mesures subjectives
sont reconnues pour être affectées par de nombreux biais cognitifs. Ces mesures dépendent
également de la mémoire des personnes interrogées. Plus le délai entre l’événement et la
mesure est long, plus l’individu doit se fier à sa mémoire pour répondre au questionnaire, ce
qui peut mener à des imprécisions. Tout comme l’introduction de tâches secondaires (voir
1.2.2), les mesures subjectives provoquent des interruptions. Les mesures subjectives ont des
caractéristiques temporelles qui peuvent être peu désirables. Des questionnaires trop élaborés
peuvent avoir une durée de mesure très longue. Dans certains cas, il n’est pas non plus
envisageable de répéter ces questionnaires plusieurs fois de suite.
Parmi les questionnaires les plus fréquemment utilisés afin de mesurer la charge mentale, on
retrouve l’échelle de Cooper-Harper (Cooper et Harper, 1969), le Subjective Workload
Assessment Technique (Reid, Eggemeier et Shingledecker, 1982) ou encore le NASA-TLX
(Hart & Staveland, 1988). Certains autres questionnaires peuvent également être utilisés pour
mesurer des sous-dimensions de la charge mentale. C’est le cas du Dundee Stress State
Questionnaire (Helton, Matthews et Warm, 2009), qui vise à distinguer l’engagement, la
détresse et l’inquiétude. Contrairement aux mesures comportementales, les mesures
subjectives de la charge mentale ne sont pas toujours des bons prédicateurs de la performance
(Vidulich, 1988; Yeh et Wickens, 1988). Tel que noté par Cain (2007), cette propriété n’est
toutefois pas vue comme un problème par tous les auteurs (p.ex. Brookhuis et de Waard,
2002). Étant donné la faible résolution temporelle de ces outils, les mesures subjectives sont
parfois jugées inefficaces pour relever des changements abrupts de charge de travail
(Wierwille, 1988).
1.2.4 Mesures physiologiques
Il est difficile de retracer les origines exactes des mesures physiologiques. Tel qu’écrit dans
Stern, Ray et Quigley (2001), la psychophysiologie à « une histoire courte, mais un long
passé », signifiant que malgré le jeune âge du nom psychophysiologie (vers les années 1950),
il est possible de retracer des exemples de mesures physiologiques jusqu’à l’antiquité. On
pourrait suggérer que les mesures physiologiques modernes ont débuté avec l’apparition
d’appareils tels que l’électroencéphalogramme (en 1926, voir Haas, 2003) ou
20
l’électrocardiogramme (en 1982, voir Birse, 2004) avant même l’apparition de la psychologie
expérimentale (Parot et Richelle, 1992). Depuis, un grand nombre de disciplines s’intéressent
aux mesures physiologiques (p.ex. l’endocrinologie, la pharmacologie, les neurosciences
cognitives et même, jusqu’à un certain égard l’intelligence artificielle; Rosenzweig,
Breedlove et Leiman, 2002). Contrairement aux mesures comportementales et subjectives, il
est très difficile de faire une synthèse des propriétés psychométriques des mesures
physiologiques, puisque celles-ci sont fortement dépendantes des différentes techniques
disponibles. Dans l’ensemble, on peut toutefois souligner que les mesures physiologiques ont
souvent le potentiel d’être prises en continu, un avantage qui n’est pas partagé par les mesures
comportementales et subjectives.
Les mesures physiologiques de la charge mentale peuvent se diviser en deux grandes
catégories : les mesures neurologiques et les mesures périphériques. Les mesures
neurologiques regroupent toutes les techniques qui permettent de mesurer directement
l’activité cérébrale, comme l’électroencéphalographie et la spectroscopie proche infrarouge.
L’électroencéphalographie mesure les variations du champ électrique causé par l’activité
neuronale. Pour ce faire, des électrodes sont placées sur la tête des individus. Bien que les
électrodes puissent être placées n’importe où, il existe une cartographie et une nomenclature
qui est souvent recommandée d’utiliser afin d’uniformiser les résultats et la discussion
scientifique (Homan, Herman et Purdy, 1987). Selon le modèle d’électroencéphalogramme,
il peut être nécessaire ou préférable de placer un gel conducteur entre la tête et les électrodes
afin d’améliorer la qualité de la mesure. La spectroscopie proche infrarouge est similaire à
l’électroencéphalographie. Toutefois, contrairement à l’électroencéphalographie, elle ne
mesure pas le champ électrique du cerveau, mais plutôt le niveau de réflexion de lumière
proche infrarouge de la tête. La spectroscopie proche infrarouge se base sur le fait que le
niveau d’oxygénation du cerveau change le degré auquel la lumière proche infrarouge est
reflétée. À l’aide d’une combinaison d’illuminateurs et d’optodes (c.-à-d. de capteurs de
lumière), la concentration d’oxygène des différentes parties du cerveau peut être estimée.
Comme mentionné plus haut, bien que les électrodes puissent être posées n’importe où sur
la tête, les optodes sont typiquement placées au niveau du cortex préfrontal (voir Coyle, Ward
et Markham, 2007; Ferrari, Motola et Quaresima, 2004; Siesler, Ozaki, Kawata et Heise,
21
2008). La Figure 2 montre un exemple d’un électroencéphalogramme et d’un système de
spectroscopie proche infrarouge.
Figure 2 : Exemple d’un électroencéphalogramme et d’un système de spectroscopie proche
infrarouge5.
Les mesures périphériques, quant à elles, sont celles qui ne mesurent pas l’activité cérébrale.
Les mesures périphériques peuvent aussi mesurer l’activité nerveuse, comme l’activité
sympathique et parasympathique (p. ex. Sztajzel, 2004) ou encore, mesurer l’activité
métabolique ou motrice (p. ex. Visser, Looze, De Graaff et Van Dieën, 2004). Parmi celles-
ci, on retrouve l’activité oculaire, la respiration, l’activité cardiaque, l’activité électrodermale
et l’analyse salivaire. L’activité oculaire est typiquement mesurée par des caméras. Ces
caméras peuvent être installées de différentes manières (p.ex. fixées au poste de travail, fixée
à l’écran d’ordinateur, installées sur une lunette) et servent à filmer l’œil. À l’aide d’une
forme de calibration, souvent requise avec ces appareils, il est possible d’estimer la direction
du regard, de mesurer le diamètre de la pupille et de repérer les clignements des yeux. La
respiration peut également être mesurée de plusieurs manières. Une des manières les plus
simples et les plus utilisées consiste à placer une bande autour du thorax de l’individu et de
mesurer l’étirement de cette bande causée par la respiration. L’activité cardiaque peut aussi
être mesurée par différentes techniques, la plus commune étant l’électrocardiographie. Cette
technique consiste à placer des électrodes sur l’individu (souvent au niveau de la poitrine)
5 À gauche; Kallioinen (2012); à droite; Walej (2017).
22
afin de mesurer les variations de champs électriques causées par les battements du cœur. Pour
l’activité électrodermale, des électrodes, qui sont souvent placées sur la main ou les doigts
des individus sont utilisés. Une fois installé, un faible courant électrique circule dans ces
électrodes et permet la mesure de la conductance électrique, laquelle varie avec le niveau de
sudation. Finalement, l’analyse salivaire est typiquement effectuée à l’aide d’une tige
cotonnée que les participants placent dans leur bouche de manière à recueillir un échantillon
de salive. Une fois le prélèvement salivaire terminé, une analyse chimique de l’échantillon
de salive prélevée est effectuée afin de déterminer la concentration des différents marqueurs
d’intérêt (p.ex. le cortisol salivaire).
1.3 Mesures physiologiques périphériques des dimensions de la charge mentale
Tel que noté dans la section précédente (1.2), chaque type de mesure offre des avantages et
des inconvénients différents. Les mesures physiologiques sont toutefois les seules pouvant
fournir une mesure continue, ce qui est très souhaitable dans la conception de système
adaptatif (Mehta et Parasuraman, 2013). De plus, des progrès technologiques récents ravivent
l’intérêt envers les mesures physiologiques en mitigeant les désavantages qui leur étaient
typiquement associés dans le passé. La miniaturisation des appareils (p.ex. comme le EyeX
de Tobii; Tobii, 2017) et la diminution de leur coût augmente de manière significative leur
facilité d’implémentation. La présence de plus en plus commune des téléphones intelligents
offre également la proximité d’une grande puissance de calcul et de stockage de donnée,
souvent requis pour les mesures physiologiques. Finalement, les progrès récents en
apprentissage automatique ouvrent la porte à une interprétation plus profonde et plus précise
des mesures physiologiques.
1.3.1 Le potentiel des mesures physiologiques périphériques
Puisqu’elles mesurent directement le centre de l’activité mentale, les mesures neurologiques
sont généralement considérées meilleures que les mesures périphériques pour prédire la
charge mentale des individus (Chanel, Kronegg, Grandjean et Pun, 2006; Christensen,
Estepp, Wilson et Russell, 2012; Hogervorst, Brouwer et van Erp, 2014). Toutefois, les
caractéristiques temporelles et pratiques (décrite plus haut, voir Tableau 1) des appareils
neurologiques amènent quelques désavantages à ce type de mesure. Certaines techniques,
23
comme l’analyse en composantes indépendantes, pour retirer les clignements du signal
électroencéphalographique (Makeig, Bell, Jung et Seknowski, 1996) et l’application de la loi
de Beer-Lambert (Kocsis, Herman et Eke, 2006) en spectroscopie imposent un délai
supplémentaire avant l’obtention de la mesure. De plus, malgré que les appareils
électroencéphalographiques et de spectroscopie proche infrarouge aient des résolutions
temporelles assez élevées, plusieurs mesures similaires sont parfois requises avant d’avoir
une mesure fiable, ce qui diminue un peu la résolution temporelle réelle de la mesure de la
charge mentale. En revanche, pour la plupart des mesures périphériques, le délai avant
l’obtention de la mesure est souvent faible puisque le traitement des données peut être simple.
Les mesures périphériques nécessitent toutefois des fenêtres d’analyses plus longues que les
mesures neurologiques.
Les mesures neurologiques ont également des désavantages majeurs lorsqu’il est question de
les utiliser en dehors des laboratoires. Notamment, ces mesures sont reconnues pour avoir
une faible résistance au bruit (Coffey, Brouwer et van Erp, 2012). Même de légères
perturbations, comme le clignement des yeux et le serrage des dents, amènent un bruit
considérable dans la mesure. La portabilité des systèmes électroencéphalographiques et
spectroscopiques aussi est variable. Les systèmes axés sur la recherche sont souvent filaires,
ce qui réduit grandement la mobilité. L’acceptabilité de ces systèmes est également faible à
moyenne. Pour la plupart des situations de travail réelles, il est inconcevable d’installer et de
porter un électroencéphalogramme pour une période de travail prolongé. Les systèmes les
plus portables peuvent être acceptables dans des situations particulières, par exemple
l’installation d’électrodes encéphalographiques dans le casque de militaires (von Rosenberg
et coll., 2016). Finalement, le coût élevé et la complexité de ces systèmes les rendent
généralement peu faciles à implémenter dans des contextes de travail humain.
En revanche, la tolérance au bruit des mesures périphériques est généralement meilleure que
pour les mesures neurologiques. En plus de l’activité cardiaque, des appareils de mesure
destinés aux athlètes, tels que le Bioharness de Zephyr (Bioharness, 2017), la veste Hexoskin
(2017) ou le capteur BSXinsight (2017), permettent de mesurer la température corporelle,
l’activité respiratoire ou encore le niveau d’acide lactique sanguin, et ce, malgré la présence
24
d’activité physique. Dans le domaine de la mesure oculaire, le EyeX de Tobii (Tobii, 2017),
qui permet de suivre le regard sur n’importe quel écran d’ordinateur standard, est déjà utilisé
dans le domaine du jeu vidéo afin d’altérer l’expérience de jeu. Il faut toutefois noter que
cette résistance au bruit n’est pas parfaite. Les mesures électrodermales, par exemple, sont
encore peu résistantes aux mouvements du corps et aux impacts, même faibles. Les mesures
pupillaires, quant à elles, sont toujours influencées par la luminosité ambiante et le
mouvement des yeux. La portabilité des systèmes périphériques peut être moyenne à
excellente. Certaines montres intelligentes disposent déjà de capacités de mesures
physiologiques périphériques (Lee, Lee et Chung, 2015; Nathan, Thomas et Jafari, 2017).
Les lunettes Tobii (Tobii, 2017), quant à elles, sont relativement portables. L’analyse
salivaire est maintenant également possible sur des téléphones intelligents (Zangheri et coll.,
2015). Cette portabilité est généralement bénéfique à une bonne acceptabilité en contexte de
travail réel. Finalement, le coût des mesures périphériques est généralement plus faible que
celui des mesures neurologiques. L’utilisation d’appareils périphériques grands publics tels
que le Fitbit (2017) et la présence d’applications mobiles pour interpréter les lectures
montrent que ces systèmes sont plutôt faciles à implanter. En attendant des améliorations
significatives sur les propriétés de mesure des appareils neurologiques, il devient essentiel de
développer des systèmes de mesure de la charge mentale n’utilisant strictement que des
modalités périphériques.
1.3.2 Justification des dimensions de la charge mentale
Tel que montré à la section 1.1, la charge mentale peut être divisée en plusieurs sous-
dimensions comme l’exigence, la pression temporelle ou la motivation. Ces dimensions ont
des définitions et implications différentes les unes des autres. Si ces dimensions sont
ignorées, il devient difficile de décrire précisément les effets physiologiques de la charge
mentale. Il est donc nécessaire de discuter des effets physiologiques des composantes de la
charge mentale plutôt que de la charge mentale elle-même. Cette implication amène toutefois
un autre problème. Les chercheurs n’utilisent ne divisent pas tous la charge mentale de la
même manière, ce qui rends difficile de décrire avec parcimonie les effets physiologiques de
la charge mentale. Il est donc nécessaire de choisir une division adéquate des dimensions de
la charge mentale, de manière à simultanément avoir précision et parcimonie. Dans ce projet,
25
quatre dimensions seront retenues, soit : 1) l’exigence mentale, 2) l’effort mental, 3) le stress
et 4) la fatigue.
L’exigence mentale est retenue comme dimension de la charge mentale. Deux raisons
justifient ce choix. L’exigence mentale est une composante majeure de plusieurs modèles de
charge mentale. Elle est souvent considérée comme le premier intrant de la charge mentale
et elle est un facteur très souvent manipulé dans les études portant sur la charge mentale (voir
section 1.1.1). Deuxièmement, il est nécessaire de conserver l’exigence mentale afin de
mettre à l’épreuve sa pertinence dans les modèles physiologiques. Dans les études
psychophysiologiques où l’exigence est manipulée, il est fréquent que les effets
physiologiques soient justifiés par ces autres composantes (p.ex. : l’effort mental, la
motivation). Toutefois, très peu de preuves empiriques permettent d’assurer que l’exigence
mentale à des effets physiologiques propres à elle. Tel que précisé dans la section 1.1.1,
l’exigence peut être objective ou subjective. Si l’exigence mentale a des effets
physiologiques, ils proviennent nécessairement de l’exigence subjective. Toutefois, il est
possible de se demander si les manifestations physiologiques sont réellement causées par
l’exigence ou s’ils ne sont pas plutôt provoqués par les autres composantes de la charge
mentale. Il est donc essentiel de séparer l’exigence des autres dimensions.
L’effort mental est retenu comme seconde dimension de la charge mentale. Plus précisément,
l’effort mental est défini comme étant la quantité de ressources cognitives réellement fournie
par l’individu pour répondre à l’exigence qui lui est imposée. Cette définition s’approche de
celles relevées dans Matthews et Campbell., 2010, de Pass et Van Merrienboer (1993) et de
Gaillard (1993). Encore une fois, plusieurs raisons motivent ce choix. Tout d’abord, cette
définition est fortement associée à une vision physiologique de la charge mentale. Les
travaux de Gaillard (1993) et Frankenhauser (1986) suggèrent qu’il existe des réactions
physiologiques propres à l’effort mental. Le concept d’effort mental est également
parcimonieux puisqu’il englobe toutes les formes d’effort qu’il est possible de fournir (p.ex.
l’effort mnémonique, la recherche visuelle, la vigilance). Finalement, la séparation entre
l’exigence et l’effort mental à une visée pratique. Dans un système intelligent où la quantité
de travail à effectuer est adaptée automatiquement, il peut être bénéfique d’adapter non
26
seulement selon l’exigence perçue par l’individu, mais également selon son niveau d’effort.
Si l’exigence et l’effort sont élevés, il est probable que l’individu ait simplement atteint sa
charge mentale maximale. Cependant, une situation où l’exigence perçue est élevée, mais
que l’effort est faible peut indiquer que l’utilisateur est peu motivé/engagé dans sa tâche ou
encore qu’il n’est pas capable de la réaliser. Étant donné la proximité conceptuelle (Matthews
et Campbell, 2010; Venables, Fairclough, 2009) entre l’effort et l’engagement (ou la
motivation), les dimensions d’engagement et motivation de seront englobées dans celle de
l’effort mental.
Le stress est également retenu comme dimension dans ce projet. Le stress sera défini de
manière similaire à la définition de Gaillard et Wientjes (1994) et représentera plutôt une
composante affective négative associée à la charge mentale. Ce choix est motivé par le fait
qu’il s’agisse d’une vision bien adaptée pour les mesures physiologiques (Frankenhauser,
1986). Le choix d’inclure le stress comme dimension est d’abord motivé par la place
importante qu’occupe le stress dans la littérature (voir section 1.1.2). Ce choix est également
influencé par la nécessité d’être capable de distinguer une composante affective négative des
composantes plutôt cognitives de la charge mentale (comme l’exigence et l’effort). En effet,
une situation où l’effort mental est élevé sans stress peut indiquer que l’individu est concentré
et qu’il est préférable de ne pas le déranger. À l’inverse, un stress élevé sans effort peut
vouloir suggérer, par exemple, que l’individu n’est pas en mesure de bien travailler et qu’il
a besoin d’assistance. Cette distinction ne serait pas possible si une seule mesure générale de
charge de travail était prise. Étant donné que peu de travaux ont investigué parallèlement les
différences physiologiques des sous-dimensions du stress lui-même, comme la pression
temporelle, l’anxiété, la frustration ou la peur, il est choisi de regrouper toutes ses sous-
dimensions dans un seul axe de stress.
Finalement, la fatigue est retenue pour quatrième et dernière dimension dans ce projet. Tel
que détaillé dans la section 1.1.3, la fatigue peut représenter la fatigue mentale, associée à un
effort mental soutenu, ainsi qu’à la somnolence, plutôt associée à un manque de sommeil.
Bien que la littérature fait ressortir des différences conceptuelles et physiologiques entre les
deux types de fatigue (voir : Borghini et coll., 2014; Shen, Barbera et Shapiro, 2006), ce
27
projet s’intéressera principalement à la fatigue mentale comme dimension de la charge
mentale. Conceptuellement, la fatigue est un peu plus distincte des autres dimensions
utilisées dans ce projet. Elle n’est d’ailleurs pas toujours considérée dans les modèles de la
charge mentale. D’inclusion de cette dimension permettra toutefois de vérifier si la fatigue
se distingue physiologiquement de l’absence d’effort ou si ces deux concepts sont bels et
bien différents.
1.3.3 Effets physiologiques des dimensions de la charge mentale
Il est difficile de décrire avec exactitude les effets physiologiques des composantes de la
charge mentale puisque ceux-ci sont rarement élicités indépendamment des autres. Cette
section fait un survol des effets physiologiques qui sont typiquement associés à ces
composantes. Puisque ce projet se concentre sur les mesures périphériques, les mesures
neurologiques ne seront pas détaillées dans cette section.
1.3.3.1 Exigence mentale
Dans Carroll et coll. (1986), les auteurs mesurent le rythme cardiaque au repos de même qu’à
trois niveaux de difficulté (facile, difficile et impossible) dans le cadre de deux tâches
mentales différentes. Ils montrent que le rythme cardiaque augmente entre le repos et la tâche,
mais qu’il semble également augmenter avec la difficulté. Ces effets sont également observés
dans des travaux plus récents (Fairclough, Venables, Tattersall, 2005). En plus du rythme
cardiaque, certains travaux suggèrent que la variabilité cardiaque est augmentée par
l’exigence mentale (Stuiver et Mulder, 2014), quoique ces variations ne seraient pas toujours
observables (Wilson, 1992), possiblement à cause de différences dans la nature exacte de la
charge mentale qui est imposée aux individus. Quelques recherches montrent que l’exigence
fait augmenter le ratio des basses sur les hautes fréquences de la variabilité cardiaque
augmente (Durantin, Gagnon, Tremblay et Dehais, 2014; Hjortskov et coll., 2004) ainsi que
la pression sanguine (Hjortskov et coll., 2004; Papadelis et coll., 2003). Toutefois, il est
incertain si cette augmentation est causée par l’exigence ou l’effort investi (voir section 1.1.1
pour définitions de ces concepts). Le rythme respiratoire de son côté semble diminuer lors
des périodes d’exigence ou d’effort mental (Bernardi et coll., 2000). Certains résultats
suggèrent que l’exigence mentale entraîne des variations au niveau de la réponse
28
électrodermale, notamment lorsque des métriques classiques liées à l’activité électrodermale
sont utilisées, comme la durée de la réponse et la probabilité d’observation d’une réponse
électrodermale (Collet, Salvia et Petit-Boulanger, 2014; Galy, Cariou et Mélan, 2012). Plus
précisément, ces deux métriques ont tendance à augmenter avec l’exigence de la tâche. Des
variations de la réponse électrodermale sont également observées avec l’utilisation
d’analyses fréquentielles, moins communes pour ce genre de signal (Shimomura et coll.,
2008). L’exigence mentale affecte le diamètre pupillaire (Beatty, 1982), à la fois lorsqu’il est
mesuré pendant la durée d’une activité (Palinko, Kun, Shyrokov et Heeman, 2010) ou associé
à des événements particuliers (Reiner et Gelfeld, 2014). Dans Wilson (2002), il est montré
que l’exigence mentale est associée à une diminution de la fréquence de clignement. Cette
diminution est toutefois typiquement associée à une charge visuelle (Veltman et Gaillard,
1996) et n’est pas généralisée à toutes les augmentations de l’exigence ou du niveau d’effort
(Recarte et coll., 2008).
1.3.3.2 Effort mental
Tout comme pour l’exigence mentale, il est généralement accepté que l’augmentation de
l’effort mental est associée à une augmentation du rythme cardiaque et de la fréquence
respiratoire. Toutefois, certains travaux obtiennent des résultats divergents. Dans Fairclough
et Houston (2004), une augmentation de l’effort mental diminue le niveau de glucose
sanguin, un indice associé à la consommation d’énergie pour fournir un effort, sans pour
autant affecter le rythme cardiaque ou la variabilité cardiaque. En utilisant deux tâches à
niveaux d’effort différents (une tâche de surveillance et un jeu vidéo) Hoover, Singh, Fishel-
Brown et Muth (2012) suggèrent de leur côté que la variabilité cardiaque est affectée par
l’effort. Dans Bernardi et coll. (2000), les auteurs suggèrent que l’effort mental affecte
l’activité respiratoire, mais que cette variation est fortement influencée par la parole. Selon
les auteurs, le simple fait de lire un texte en silence diminue la vitesse de respiration et la
variabilité respiratoire. Lorsque l’activité mentale requiert une vocalisation, la vitesse
respiratoire est encore modifiée, mais les effets sur la variabilité peuvent être plus difficiles
à cerner. Le diamètre pupillaire peut aussi renseigner sur le niveau d’effort mental (Beatty,
1982; Kahneman, 1973; van der Wel & van Steenbergen, 2018). Dans Peysakhovich, Causse,
Scannella et Dehais (2015), il est suggéré que l’amplitude de la variation du diamètre
29
pupillaire est fonction de l’effort mental. Il est également proposé qu’une analyse
fréquentielle permette de renseigner sur le niveau d’effort sans pour autant être affecté par la
luminosité ambiante.
1.3.3.3 Stress
Au niveau cardiaque, le stress est associé à une augmentation du rythme et un changement
(parfois positif, parfois négatif) de variabilité cardiaque (Castaldo et coll., 2015; van Hedger,
Necka, Barakzai, Norman, 2017). Dans Dishman et coll. (2000), il est suggéré que les
individus ayant eu une semaine stressante ont une diminution de la composante des hautes
fréquences (0,15 à 0,50 Hz) et ce, peu importe leur âge, genre, anxiété rapportée et leur forme
physique. Dans leur étude, Dishman et coll. (2000) suggèrent que l’anxiété rapportée
n’affecte aucune métrique de la variabilité cardiaque. Ce résultat n’est pas nécessairement
partagé par tous les auteurs (Watkins, Grossman, Krishnan et Sherwood, 1998). Selon les
auteurs, cette absence d’effet pourrait être causée par le type de stress utilisé dans leur étude.
Cette hypothèse est supportée par les travaux de Schubert et coll. (2009) qui suggèrent qu’un
stress chronique, similaire à celui investigué dans Dishman et coll. (2000), est associé à moins
d’effets sur les métriques de variabilité cardiaque qu’un stresseur à court terme (une tâche
d’exposé oral). Dans Schubert et coll. (2009), il est montré que les stresseurs chroniques sont
aussi négativement corrélés aux hautes fréquences cardiaques (toutefois de manière non
significative). Pour un stresseur court terme, à l’inverse, les hautes fréquences cardiaques
sont augmentées. Dans (Hjortskov et coll., 2004), il est observé que le ratio des basses sur
les hautes fréquences de la variabilité cardiaque augmente lors de la présence d’un stresseur
à court terme, une fois de plus, ce résultat n’est pas partagé par tous les auteurs (Castaldo et
coll., 2015). Le stress est également associé à une augmentation de la pression sanguine
(Räikkönen et coll., 1999; Schnall et coll., 1998). Au niveau respiratoire, le stress (anxiété et
inquiétude) est généralement associé à une augmentation du rythme respiratoire, une
augmentation du volume respiratoire, un rythme respiratoire plus irrégulier ainsi qu’une
respiration plus thoracique qu’abdominale (Boiten, Frijda et Wientjes, 1994; Grossman,
1983). Les émotions comme la tristesse et la peur sont également associées à une respiration
rapide et de faible amplitude (Bloch, Lemeignan et Aguilera, 1991). Le stress est lié à
l’activité électrodermale. Selon Ax (1953), la colère fait augmenter la fréquence des réponses
30
électrodermales alors que la peur fait augmenter le niveau de sudation général. Ces résultats
sont répliqués dans des études plus récentes (Carrillo et coll., 2001; Reinhardt, Schmahl,
Wüst et Bohus, 2012; Silvestrini et Gendolla, 2007). Ces résultats ne sont toutefois pas
toujours observables avec constance (Boucsein, 1992). Le lien entre l’activité pupillaire et le
stress est également investigué dans certains travaux de recherche et démontre notamment
que stress augmente le diamètre pupillaire (p.ex. Pedrotti et coll., 2014). Les métriques de
l’activité pupillaire sont sensibles à la valence (plaisante ou déplaisante) de capsules vidéo
(Soleymani, Pantic et Pun, 2012) ou de sons plaisants/aversifs (Partala et Surakka, 2003).
Suite à l’immersion de leur main dans l’eau glacée (le stresseur « cold-pressor-test »), il a
été montré que le diamètre pupillaire suivait une augmentation dans les 30 premières
secondes suivies d’une diminution dans les minutes suivantes (Tassorelli et coll., 1995).
1.3.3.4 Fatigue
La signature physiologique de la fatigue mentale, quant à elle, est plutôt différente des trois
précédentes. Lagory et coll. (2011) ont recruté des participants et ont d’abord fait passer un
questionnaire de fatigue (Krupp et coll., 1989) pour déterminer les individus fatigués et non
fatigués. Ils ont ensuite demandé aux participants de réaliser une tâche d’arithmétique
échelonnée sur quatre niveaux de difficulté. Ils rapportent que les individus peu fatigués ont
un rythme cardiaque plus faible au repos. Lors de la tâche, le rythme cardiaque des
participants non fatigués augmente avec la difficulté, plafonne à la condition difficile et est
à son plus faible à la condition impossible. Pour les participants fatigués, le patron est
similaire, mais plafonne plutôt à la condition moyenne. La pression sanguine, aussi mesurée
dans leur expérience, présente généralement une augmentation plus faible entre le repos et la
tâche pour les participants fatigués. Ces résultats peuvent suggérer que les individus fatigués
ont une activité cardiovasculaire plus prononcée pour compenser les effets de la fatigue, mais
que ces derniers rencontrent une limitation à investir de l’effort lorsque la difficulté
augmente. En plus du rythme cardiaque, il est suggéré que la variabilité cardiaque soit aussi
affectée par la fatigue mentale. Selon Patel et coll. (2011), le ratio des basses fréquences sur
les hautes fréquences cardiaques est plus faible après une fatigue générée par une tâche de
conduite simulée (d’une durée non précisée; Patel, Lal, Kavanagh et Rossiter, 2011). Ces
résultats ne sont toutefois pas corroborés par Tran et coll. (2009). Dans cette étude, les auteurs
31
invitent les participants à réaliser une autre tâche de conduite simulée et enregistrent les
métriques de la variabilité cardiaque au début et à la fin de la tâche. La tâche est arrêtée
lorsqu’un évaluateur externe juge que le participant présente des signes de fatigue (la durée
moyenne n’est pas précisée). Ils suggèrent que le ratio des basses fréquences sur les hautes
fréquences cardiaques augmente avec la fatigue. Si la durée de la tâche et leur niveau de
monotonie peuvent être retenus comme facteurs explicatifs, cette contradiction montre
principalement que la signature cardiovasculaire de la fatigue mentale n’est pas triviale. Dans
Pattyn et coll. (2008), une tendance semble suggérer que la respiration augmente avec le
temps passé sur la tâche, mais les auteurs indiquent que l’analyse statistique réfute cette
augmentation. Wu, Wanyan et Zhuang (2015) montrent plutôt que la respiration ralentie avec
le temps passé sur la tâche. Cette hypothèse est également supportée par Tran et coll. (2009).
Dans un contexte de tâches expérimentales, Mizuno et coll. (2011) suggèrent que la puissance
des hautes fréquences cardiaques diminue et le ratio des basses fréquences sur les hautes
fréquences cardiaques augmente après huit heures de tâches mentales. Le lien entre la fatigue
et l’activité électrodermale est largement investigué au niveau de la fatigue chronique, mais
semble peu investigué avec la fatigue mentale. Dureman et Bodén (1972) ont utilisé une tâche
de conduite simulée et enregistré le niveau et la fréquence de réponses électrodermales lors
de 12 périodes de 10 minutes de tâches. Les résultats suggèrent une diminution du niveau
électrodermal au travers le temps. Dans Wu, Wanyan et Zhuang (2015), il est rapporté que
le niveau électrodermal de participants effectuant une tâche de pilotage simulée découpée en
10 phases de 10 minutes. Contrairement à Dureman et Bodén (1972), les auteurs rapportent
qu’aucun effet n’est décelé entre le temps et l’activité électrodermale. Un grand nombre de
recherches montre également des liens entre la fatigue et l’activité oculaire. La fatigue est
associée à un diamètre pupillaire plus faible (Morad, Lemberg, Yofe et Dagan, 2000), une
augmentation de la durée du clignement des yeux, du temps de fermeture et d’ouverture lors
des clignements (Caffier, Erdmann et Ullsperger, 2003) ainsi qu’une diminution de la
fréquence de clignements (Borghini et coll., 2014). Ces travaux portent toutefois sur la
somnolence plutôt que la fatigue. La littérature suggère finalement que le taux de clignement
des yeux est associé à la fatigue (Fukuda, Stern, Brown et Russo, 2005).
32
1.3.4 Synthèse
Le Tableau 2 fait une synthèse des effets physiologiques périphériques des composantes de
la charge mentale selon les travaux cités précédemment. Cette revue ne se veut pas
nécessairement une preuve définitive des effets physiologiques de chaque dimension, mais
plutôt un rassemblement d’observations qui sont typiquement observées. En observant le
Tableau 2, il est possible de remarquer que de nombreuses combinaisons de manifestation
physiologiques et de dimensions de charge mentale sont encore peu étudiées. On peut
également constater que même avec plusieurs marqueurs physiologiques différents, il peut
être très difficile de cerner avec précision les dimensions de la charge mentale qui sont en
cause.
Tableau 2 -
Synthèse des effets physiologiques des composantes de la charge mentale
Marqueur physiologique Exigence Effort Stress Fatigue
Cardiaque
Rythme ↑ ● ↑ ↓
Variabilité ↑ ● ●
Ratio LF/HF ↑ ↑ ● ●
Électrodermal
Niveau ↑ ●
Durée de réponse ↑
Probabilité de réponse ↑ ↑
Fréquentiel ↑
Respiratoire
Fréquence ↑ ↑ ↑ ●
Amplitude ↓
Volume ↑
Variabilité ↑ ↑
Oculaire
Diamètre pupillaire ↑ ↑ ● ↓
Amplitude de variation ↑ ●
Basses fréquences ↑ ↑
Hautes fréquences ↓
Fréquence clignements ● ● ● ↑
Durée de clignements ↑
Note. ↑ : Augmentation, ↓ : Diminution, ● : Effets contradictoires ou complexes,
(case vide) : non étudié ou non relevé dans cette synthèse. Pour les références, consulter les
quatre sections précédentes (1.3.3.1 à 1.3.3.4).
33
1.4 Problématique
Les mesures physiologiques périphériques ont un potentiel très intéressant pour mesurer la
charge mentale. Deux problématiques majeures limitent toutefois leur utilisation. Cette
section détaillera ces limitations.
1.4.1 Manque de diagnosticité
Tel qu’il est possible d’observer à la lumière de la section précédente, les mesures
physiologiques souffrent d’un problème de diagnosticité. En effet, il est rapidement possible
de remarquer que plusieurs sous-dimensions de la charge mentale (telles que définies dans
ce projet) élicitent les mêmes effets physiologiques et que certains devis expérimentaux ne
permettent pas d’affirmer s’il s’agit d’une dimension ou d’une autre. Cette vision est
également partagée par certains auteurs (Matthews, Reinerman-Jones, Barber et Abich,
2015). Rappelons que la diagnosticité est définie par la qualité d’une mesure à discriminer
une hypothèse et ses alternatives. Dans le cas spécifique de la charge mentale, ce problème
signifie que les mesures physiologiques périphériques ne sont pas en mesure de distinguer
quelle sous-composante de la charge mentale est à l’origine de cette dernière. La diagnosticité
est pourtant primordiale afin de raffiner la manière dont les individus ou les systèmes
intelligents répondent aux variations de la charge mentale. Un effort mental moyen sans
stress peut indiquer que l’utilisateur est en période bénéfique de flow (Csikszentmihalyi,
1991; Shernoff et coll., 2003). À l’inverse, un stress intense sans effort peut indiquer un
besoin d’assistance pour réaliser une tâche. Il peut également être bénéfique de distinguer
l’exigence mentale de la fatigue mentale afin d’identifier les périodes où des pauses sont
nécessaires sans pour autant en suggérer lorsque l’individu est prêt à faire un travail exigeant.
Une partie du problème de diagnosticité provient de la confusion qu’il existe entre les termes
définissant les composantes de la charge mentale. Dans plusieurs études, la difficulté
(l’exigence mentale) est manipulée et il est assumé que cette manipulation augmente l’effort
mental (Gaillard, 1993). Même en supposant que les participants augmentent leur effort avec
l’exigence, il est impossible de le garantir seulement par leur participation à une condition
plus difficile. Une autre confusion peut être remarquée dans certains articles qui utilisent le
terme mental stress (p.ex. Boonnithi et Phongsuphap, 2011; Castaldo et coll., 2015;
34
Shimomura et coll., 2008; Vuksanović, 2007), confondant ainsi l’exigence mentale et le
stress.
Mis à part la question des termes, une autre composante critique du problème de la
diagnosticité provient de la signature physiologique des sous-composantes (exigence, effort,
stress et fatigue) de la charge mentale. Plusieurs exemples peuvent être rapportés pour
illustrer ce problème. Tel que noté dans la section 1.3, le rythme cardiaque et respiratoire
augmente pour l’exigence mentale, l’effort ainsi que pour le stress. Dans l’exemple de Carroll
et coll. (1986), où les participants doivent réaliser la tâche à trois niveaux de difficulté (facile,
difficile et impossible), les manifestations physiologiques sont rapportées comme ayant été
causées par l’exigence mentale. Toutefois, l’effort et le stress peuvent aussi avoir contribué.
Il est d’ailleurs possible de spéculer que la condition impossible provoque une baisse d’effort
(si les participants réalisent que la tâche est impossible) ainsi qu’une augmentation du stress
(si les participants ne réalisent pas que la tâche est impossible). Le ratio des basses fréquences
sur les hautes fréquences cardiaques est souvent associé à l’effort mental. Plus précisément,
une augmentation du ratio est associée à une hausse de l’effort mental (Bernadi et coll., 2000;
Durantin, Gagnon, Tremblay et Dehais; 2015). Toutefois, l’augmentation du ratio peut être
produite par des stresseurs à court terme, comme le Trier Social Stress Task ainsi que des
stresseurs chroniques (Lucini, Fede, Parati et Pagani, 2005). Matthews, Reinerman-Jones,
Barber et Abich, (2015) suggèrent aussi que certaines manipulations de l’effort mental et du
stress provoquent les mêmes réactions physiologiques (voir aussi Castaldo et coll., 2015).
Certaines dimensions de la charge mentale sont un peu plus faciles à distinguer les unes des
autres. Plusieurs études ont démontré que l’effort mental augmentait le rythme cardiaque, le
ratio des basses et des hautes fréquences cardiaques et la pression sanguine (Durantin et coll.,
2014; LaGory, Dearen, Tebo et Wright, 2011; Mehler, Reimer et Coughlin, 2012). À
l’inverse, la fatigue mentale est généralement reconnue pour diminuer ces mêmes métriques
(Patel, Lal, Kavanagh et Rossiter, 2011). Toutefois, ces études montrent également que plus
la fatigue mentale augmente, plus il est difficile de mesurer l’effort mental. Un système
diagnostique de la charge mentale pourrait déterminer si la fatigue n’est en réalité qu’une
35
absence d’effort mental combiné avec du temps passé sur la tâche ou si ces deux concepts
coexistent de manière indépendante.
Il est pratiquement impossible d’associer une seule métrique (p.ex. rythme cardiaque, niveau
électrodermal, diamètre pupillaire) physiologique avec une seule dimension de la charge
mentale. L’article de Fairclough et Houston (2004), mentionné précédemment, est un
exemple de mise en garde contre les indicateurs physiologiques uniques. De tels articles
montrent que pour atteindre une bonne diagnosticité de la charge mentale, il est nécessaire
d’utiliser plusieurs métriques provenant de plusieurs modalités physiologiques. En plus
d’utiliser plusieurs modalités, il peut également être bénéfique de reconsidérer l’approche
statistique traditionnelle. Malgré la problématique de diagnosticité, les articles détaillés dans
la section 1.3 sont essentiels puisqu’ils renseignent sur la manière dont le corps réagit aux
différentes dimensions et permettent d’enrichir notre compréhension des mécanismes
psychophysiologiques. Cette approche traditionnelle limite toutefois notre capacité à établir
des modèles robustes pouvant prédire la charge mentale.
En réponse à cette limitation, certains auteurs utilisent plutôt une approche par apprentissage
automatique. Plusieurs exemples illustrant cette approche peuvent être retrouvés dans la
littérature. Dans Casson (2014), la charge mentale d’individus effectuant une tâche de vol
simulé est classifiée à l’aide d’un réseau de neurones artificiel entraîné sur des données
électroencéphalographiques. Malgré la précision satisfaisante du classificateur à différencier
une charge mentale facile et difficile (86 %), le classificateur ne renseigne pas sur la
diagnosticité de la charge mentale. Dans Soleymani, Pantic et Pun (2012), les auteurs
entraînent un classificateur sur des données oculométriques et électroencéphalographiques
pour prédire le niveau émotionnel de participants regardant des vidéos. Contrairement à
l’article précédent, la classification se fait cette fois sur deux axes différents, celui de
l’excitation (anglais : arousal) et de la valence. Dans Mühl, Jeunet et Lotte (2014),
l’apprentissage automatique est utilisé pour classifier deux dimensions, cette fois associées à
la charge mentale : l’exigence et le stress. Leurs résultats suggèrent que la classification des
deux dimensions reste possible. Toutefois, comme pour l’expérience de Casson (2014),
seulement l’électroencéphalographie est utilisée, ce qui peut limiter l’applicabilité en
36
contexte de travail réel. Sano et Picard (2013) montrent qu’il est possible de prédire le stress
à l’aide de senseurs intégrés à un téléphone mobile. Dans Arnrich et coll. (2010), des senseurs
portables et peu intrusifs sont utilisés, cette fois pour classifier le stress de l’exigence mentale.
Leurs résultats montrent qu’il est possible de distinguer les deux dimensions en utilisant
seulement des capteurs de pression intégrés dans une chaise. Toutefois, leur classificateur
distingue entre stress et exigence, et non pas les différents niveaux de stress et d’exigence
simultanément. Cette conceptualisation limite le caractère diagnostique du classificateur et
rend impossible, par exemple, la détection de situations où l’individu est à la fois stressé et
soumis à une haute exigence mentale. La classification des composantes de la charge mentale
ne se limite pas à l’exigence et au stress. Si l’électroencéphalographie est souvent utilisée
pour classifier la fatigue (Borghini et coll., 2014), certains auteurs suggèrent d’utiliser
uniquement des mesures périphériques. Patel et coll. (2011), par exemple, utilisent la
variabilité cardiaque pour classifier la fatigue de conducteurs. Dans Pedrotti et coll. (2014),
les auteurs entraînent des réseaux de neurones n’utilisant que le diamètre pupillaire afin de
déterminer, de manière diagnostique, la source du stress. Malgré un bon succès en
classification, les auteurs indiquent eux-mêmes que leur système ne serait pas aussi robuste
s’il était mis à l’essai dans des contextes de travail réels. À la lumière de la revue de littérature
effectuée, aucune étude n’a préalablement tenté de classifier simultanément quatre
dimensions de la charge mentale (exigence, effort, stress et fatigue) simultanément en
utilisant uniquement des modalités physiologiques périphériques.
1.4.2 Difficulté à intégrer dans des milieux de travail humain
Les situations de travail humain font généralement intervenir une multitude de processus
cognitifs différents (p.ex. l’attention, la mémoire à court terme). Les recherches visant à
décrire ces processus sont souvent menées dans des environnements contrôlés (c.-à-d. des
laboratoires) et utilisent des tâches expérimentales simples (p.ex. : tâche de Stroop, de
rotation mentale, n-back ou encore recherche visuelle). Par exemple, afin d’étudier le lien
entre la consommation de café et la vigilance, les expérimentateurs peuvent demander aux
participants d’éviter la consommation de café une journée avant l’expérience et fournir eux-
mêmes une tasse de café aux participants le jour de l’expérience. De plus, afin de s’assurer
que le processus investigué est bel et bien la vigilance, les chercheurs peuvent décider
37
d’utiliser une tâche très simple (p.ex. : repérer des lettres dans une plus longue chaîne de
lettres; Frewer et Lader, 1991) au lieu d’une simulation de conduite de voiture, qui fait
intervenir d’autres facteurs confondants comme l’expertise ou la dextérité manuelle. L’étude
isolée des composantes de la cognition humaine est parfois appelée microcognition (Hoffman
& McNesse, 2009). Cette approche a l’avantage de permettre un grand contrôle des variables
d’intérêt et des variables confondantes à l’étude (Brewer, 2000). Elle a toutefois une limite,
celle de risquer de manquer de validité écologique. En d’autres mots, il est possible que les
résultats obtenus lors de ces expériences se transposent mal aux situations de travail réelles.
En réponse à ces limitations, certains chercheurs ont commencé à s’intéresser à la cognition
humaine dans des environnements de travail réels. Cette approche est plutôt dite macro-
cognitive. À l’inverse de la microcognition, la macro-cognition s’intéresse à l’étude de la
cognition humaine lorsque celle-ci requiert simultanément plusieurs processus différents. En
plus du réalisme et des facteurs confondants, l’approche macro-cognitive s’intéresse
également à la complexité du travail humain. Une tâche complexe peut, par exemple, contenir
plusieurs sources d’information (Zhang, Li, Wu et Wu, 2009), plusieurs solutions possibles
(Lazzara, Pavlas, Fiore et Salas, 2010), des conflits entre les tâches à réaliser (Braarud et
Kirwan, 2010) ainsi que de l’ambiguïté (Braarud et Kirwan, 2011; Lazzara et coll., 2010).
L’intégration de la macro-cognition est un enjeu essentiel à considérer pour les mesures
physiologiques de la charge mentale. Cependant, un grand nombre de recherches dans ce
domaine utilisent une approche microcognitive (Brindle et coll., 2017; Caywood et coll.,
2017; Dierolf et coll., 2017, Durkee et coll., 2013, Jansen et coll., 2016; Mühl, Jeunet et
Lotte, 2014; Reiner et Gelfeld, 2014; Scanlon, Sieben, Holyk et Mathewson, 2017). Tel que
précisé plus haut, ces recherches ne sont pas non-pertinentes puisqu’elles permettent de
mieux contrôler les facteurs confondants. Elles laissent toutefois beaucoup de doutes sur leur
transférabilité aux contextes réels et complexes. Les recherches en contexte appliqué ne sont
pas non plus inexistantes, mais présentent parfois quelques problèmes. Par exemple, une
grande proportion de la recherche sur la charge mentale en contexte appliqué est dédiée aux
domaines du transport (Young et coll., 2015) tel que le pilotage d’avions (Gateau et coll.,
2015, Wu, Wanyan et Zhuang, 2015) ou encore la conduite automobile (Brookhuis et de
38
Waard, 2010; Brookhuis et coll., 2009; Lansdown, Brook-Carter et Kersloot, 2004) alors que
d’autres domaines sont relativement peu explorés.
Malgré le nombre élevé d’études menées sur les mesures physiologiques de la charge
mentale, certains chercheurs croient que trop peu d’entre elles s’intéressent aux contextes de
travail réels. C’est le cas de Friedman, Brouwer et Nijholt (2017) qui suggèrent que les
interfaces cerveau-humains ou corps-humain ne sont encore que très peu répandues dans les
domaines non médicaux. Ils suggèrent aussi que l’émergence d’interfaces grand public à
faible validité scientifique risque d’induire le public en erreur quant aux portées réelles de
tels systèmes. En bref, aucune étude ne semble avoir présentement exploré les limites de la
diagnosticité physiologique de la charge mentale avec une approche macro-cognitive. Il est
donc incertain d’à quel point la variabilité de l’expérience subjective des individus influence
les mesures physiologiques de la charge mentale et s’il en reste possible d’en distinguer ses
composantes.
1.5 Objectif de la thèse
Les mesures physiologiques périphériques représentent l’une des meilleures avenues pour
prédire la charge mentale de manière non intrusive et continue. Toutefois, tel que présenté
précédemment, plusieurs problèmes limitent sévèrement l’utilisation de ces mesures. Cette
thèse a comme objectif d’investiguer un système physiologique prédictif de la charge mentale
abordant simultanément les deux limitations majeures de ce genre de système. Tout d’abord,
et principalement, cette thèse vise à déterminer s’il est possible d’atteindre une diagnosticité
de la charge mentale à l’aide de capteurs physiologiques périphériques. Le groupement de
différents construits psychologiques différents, tel que l’exigence, l’effort mental, le stress
ou encore la fatigue, sous un seul concept générique (la charge mentale) est inadéquat. Les
définitions, implications et conséquences de ces différents construits ne sont pas les mêmes.
Une vision unidimensionnelle de la charge mentale contredit un ensemble de nouvelles
preuves empiriques et rappelle l’ère de l’activation (Yerkes et Dodson, 1908) de laquelle la
psychologie s’est distancée depuis quelques années. Puisque l’utilisation de marqueurs
physiologique unique, comme le ratio des basses et hautes fréquences de la variabilité
cardiaque, ne permet pas d’atteindre une bonne diagnosticité, cette thèse s’inscrit dans une
39
approche d’apprentissage automatique qui peut mieux gérer la complexité de la signature
physiologique des sous-dimensions de la charge mentale. Pour déterminer à quel point les
mesures physiologiques de la charge mentale sont diagnostiques, deux expériences, dans
lesquelles chaque dimension est manipulée, sont effectuées. Subséquemment, diverses
analyses sont utilisées afin d’identifier les dimensions de la charge mentale qui peuvent être
significativement prédites par l’apprentissage automatique.
Deuxièmement, ce projet de thèse vise à vérifier si la diagnosticité des mesures
physiologiques périphériques est encore atteignable dans un contexte similaire à celui du
travail humain. Pour vérifier cette hypothèse, deux expériences sont menées. La première
s’inscrit dans une approche microcognitive afin d’atteindre une diagnosticité physiologique
optimale. En complément, la seconde expérience s’inscrit plutôt dans une approche macro-
cognitive réaliste dans laquelle l’intégration du système prédictif est évaluée dans un contexte
pouvant être affecté par des variables externes confondantes.
Mis à part ces deux objectifs, ce projet de thèse tente de répondre à diverses sous-questions
de recherche. L’exploration de ces sous-questions permettra d’enrichir la connaissance sur
les mesures physiologiques périphériques de la charge mentale. Le projet vise notamment à
vérifier la contribution des différentes modalités physiologiques sur la diagnosticité de la
charge mentale. Ultimement, l’exploration de cette sous-question de recherche pourrait
permettre de diminuer la complexité et les coûts d’un système de prédiction de la charge
mentale en suggérant, par exemple, un ensemble de métriques issues d’une seule modalité
physiologique ayant le potentiel d’être diagnostique par elle seule. Le projet de thèse vise
également à explorer l’effet de certains choix techniques sur la performance en diagnosticité.
Ces choix techniques, comme la durée des signaux utilisés ou l’algorithme d’apprentissage
automatique, sont parfois choisis de manière arbitraire par les chercheurs. L’exploration des
effets de ces choix peut permettre de guider les recherches futures sur le sujet.
40
Chapitre 2 : Stratégie méthodologique
Tel que montré précédemment, d’un faible nombre de métriques physiologiques peut rendre
difficile la diagnosticité de la charge mentale. Les études suggèrent plutôt qu’il faut tenir
compte de plusieurs indices physiologiques de différentes modalités dans le but d’atteindre
cette diagnosticité. Afin de tirer profit de la contribution de chaque type de modalité
physiologique et d’utiliser simultanément plusieurs métriques physiologiques, cette thèse
utilisera une approche par apprentissage automatique. La méthodologie générale de ce cette
thèse se résume à :
1) Mesurer l’activité physiologique sous plusieurs combinaisons différentes de
composantes de la charge mentale.
2) Calculer un grand nombre de métriques physiologiques.
3) Fournir ces métriques à un système d’apprentissage automatique afin de vérifier s’il
peut apprendre à prédire correctement les diverses combinaisons de charge mentale.
La Figure 3 synthétise l’approche méthodologique utilisée dans cette thèse. Les sections
subséquentes décriront ces étapes plus en détail.
41
Figure 3 : Synthèse méthodologique
Expériences
• Une expérience utilisant des tâches simples
• Une expérience utilisant une simulation fonctionnelle
Mesures
• 5 modalités physiologiques (cardiaques, respiratoires, électrodermales, pupillaires et oculaires)
• Mesures subjectives, de performance et d'effort
Découpage et prétraitement
• Époques à durée fixe (120 ou 300 secondes)
• Prétraitement simple de l’activité physiologique
Calcul de métriques
• Total de 180 métriques physiologiques
• 4 sous-ensembles de métriques
Organisation en schèmes
• Test des données en validation croisée : prédiction d’un participant à la fois à partir des données des autres participants
Imputation des données
• Imputation des données manquantes par une analyse des composantes principales itérative
Rééquilibrage des classes
• Utilisation d’une implémentation ADASYN de MATLAB
Entraînement des modèles
• Machine à vecteur de support
• Modèle linéaire
Calcul de la performance
• Calcul de la précision
• Calcul du Kappa de Cohen
42
2.1 Expériences
Tel que décrit précédemment, peu d’études investiguent les mesures physiologiques de la
charge mentale avec une approche macro-cognitive, ce qui retarde l’implémentation
d’interfaces corps-ordinateur en dehors des laboratoires. Il est donc primordial d’élaborer un
devis expérimental focalisant sur le réalisme et la complexité d’une tâche réelle de travail
humain. L’applicabilité hors laboratoire n’est toutefois pas le seul objectif de cette thèse.
Celle-ci vise également à examiner la diagnosticité de mesures physiologiques en utilisant
strictement des mesures physiologiques périphériques. Afin d’explorer à quel point ces
objectifs sont atteignables, une première expérience est menée par une approche
microcognitive. Cette première expérience utilise une combinaison de tâches expérimentales
classiques, qui se comparent facilement aux résultats d’autres travaux de recherche dans ce
domaine. Il existe différentes tâches expérimentales utilisées en psychologie comme la tâche
de Stroop (MacLeod, 1991; Mattia, Heimberg et Hope, 1993), la rotation mentale (Peters et
coll., 1995; Vandenberg et Kuse, 1978), la tâche de n-back (Brouwer et coll., 2012; Herff et
coll., 2014; Jansma, Ramsey, Coppola et Khan, 2000) ou encore la recherche visuelle
(Recarte, Pérez, Conchillo & Nunes, 2008). Bien que souvent utilisée, la tâche de Stroop
requiert que les participants vocalisent leur réponse, ce qui peut influencer la réponse
physiologique (Bernardi et coll., 2000). Quant à la tâche de rotation mentale, il est suggéré
qu’il existe des différences importantes sur la performance entre les hommes et les femmes
(Jordan et coll., 2002; Moè, 2009). Cette tâche n’est donc pas retenue. Dans ce projet, on
utilisera plutôt les tâches de n-back et de recherche visuelle. La tâche de n-back est déjà
largement utilisée en psychologie cognitive et peut être présentée de différentes manières
(voir p.ex. Mandrick et coll., 2016). Bien que faisant intervenir la vision, la tâche de n-back
est peu stimulante au niveau de la charge visuelle. Étant donné que la charge visuelle est
souvent considérée comme une composante de la charge mentale, il est essentiel de faire
intervenir une seconde tâche, plutôt axée sur la composante visuelle de la charge mentale.
C’est pour cette raison que la tâche de recherche visuelle est également retenue. Dans les
deux cas, la difficulté des tâches peut facilement être modulée de manière objective. Les deux
tâches présentent également comme bénéfice de pouvoir être effectués devant un écran
d’ordinateur, demandent peu de mouvement physique pouvant interférer avec les mesures
43
physiologiques et peuvent être conçues de manière à garder constante la luminosité de l’écran
(un enjeu important pour les mesures pupillaires).
La seconde expérience de ce projet vise à vérifier à quel point la diagnosticité de la charge
mentale à l’aide de mesures périphériques reste possible dans un contexte de tâche réaliste et
complexe. Il peut cependant être difficile de mener une expérience directement sur le terrain
avec une approche purement macro-cognitive. En effet, il est souvent difficile d’avoir accès
à un nombre suffisant de professionnels, ce qui pourrait être désirable dans la conception de
systèmes corps-ordinateurs destinés aux situations de travail. Dans un contexte de mesures
physiologiques, il peut aussi s’avérer complexe de procéder à l’installation de capteurs
physiologiques sans risquer de déranger les sujets dans leur tâche. Finalement, il est rarement
possible de manipuler directement les variables d’intérêt (c.-à-d. l’exigence mentale, le
stress) dans un contexte réel sans faire appel à un devis quasi expérimental. Dans le but
d’obtenir un compromis se rapprochant de la macro-cognition, mais ayant quand même
l’avantage du contrôle expérimental de la microcognition, ce projet de thèse utilisera une
simulation fonctionnelle. Une simulation fonctionnelle consiste à recréer, en laboratoire, une
tâche très similaire à celle qui peut être vécue dans un travail réel (Cacciabue et Hollnagel,
1995). Selon Cacciabue et Hollnagel (1995), la simulation fonctionnelle doit être une
représentation isomorphique de la tâche réelle, c’est-à-dire qu’elle doit préserver la même
forme que la tâche investiguée, mais à une échelle plus petite. Tel que précisé par les auteurs,
la simulation fonctionnelle est idéale lors qu’on investigue les effets de la cognition, plutôt
que la cognition elle-même, ce qui est le cas dans cette seconde expérience. Il s’agit une
approche méthodologique qui permet de capturer les composantes essentielles d’une tâche
réelle tout en limitant l’influence de facteurs indésirables. La simulation fonctionnelle permet
une manipulation directe des variables expérimentales. Elle permet également la création de
scénarios expérimentaux qui peuvent être répétés entre les participants et pour lesquels les
données peuvent facilement être enregistrées pour analyses futures. Les simulations
fonctionnelles sont utilisées depuis plusieurs années (p.ex. Grandlund, 2003; Major, Hedlund
et Philipps, 1997; Vachon et coll., 2016; voir aussi Gray, 2002, pour d’autres exemples).
Dans Grandlund (2003), on suggère que la simulation fonctionnelle capture les aspects
cruciaux de la tâche d’experts tout en étant suffisamment simple et motivante pour que des
44
non-experts puissent l’exécuter. Dans cette expérience, la simulation fonctionnelle est une
réplique d’un environnement de commandement et contrôle en sécurité urbaine. Dans Gray
(2002), propose cinq niveaux différents de simulation fonctionnelle, passant de la simulation
à haute-fidélité de systèmes complexes (le type de simulation le plus immersif) jusqu’à la
tâche de laboratoire (la simulation la moins immersive). Le présent projet se situe
possiblement au second niveau de l’échelle de Gray (2002), c’est-à-dire un micromonde.
Toujours selon l’auteur, les micromondes permettent un peu de réalisme, sans toutefois
contraindre la généralisation des résultats obtenus à un domaine particulier, ce qui est
souhaitable dans le cas présent. En effet, le but de cette étude n’est pas tant de valider une
mesure physiologique en contexte de gestion de crise, mais plutôt d’évaluer une mesure
physiologique de la charge mentale dans un contexte de travail générique. De plus, les
micromondes ont comme bénéfice de pouvoir être compris et vécus par des non-experts, ce
qui est aussi le cas dans la présente étude. Le micromonde utilisé dans cette étude pourra
permettre d’induire, avec un haut niveau de contrôle expérimental, différentes dimensions de
la charge mentale. Celles-ci pourront toutefois être vécues de manières subjectives, comme
il peut être le cas dans un environnement de travail réel. Le détail exact des tâches mises de
l’avant se retrouve au Chapitre 3 et au Chapitre 4.
2.2 Mesures
La section suivante détaille les mesures brutes qui sont effectuées dans ce projet.
Premièrement, les mesures subjectives (questionnaires), les mesures de performance ainsi
que les mesures d’effort investi sont décrites. Ensuite, les différents appareils de mesure
physiologique utilisés sont détaillés.
2.2.1 Mesures subjectives et comportementales
Trois autres types de mesures sont effectués pendant les séances expérimentales : 1) des
mesures subjectives, 2) de performance et, 3) d’effort. Les mesures subjectives permettent
de valider les manipulations expérimentales effectuées, ou d’expliquer les effets de la
manipulation sur le ressenti des participants. Le questionnaire NASA-TLX est retenu pour
mesurer la charge mentale. Ce questionnaire a l’avantage d’être largement utilisé, ce qui
permet d’en comparer les résultats avec d’autres études. Sa courte durée permet de le passer
45
à plusieurs reprises pendant une expérience sans trop interrompre le participant.
Ordinairement, le NASA-TLX est composé de six questions (six dimensions) de la charge
mentale, soit : l’exigence mentale, l’exigence temporelle, l’exigence physique, l’effort, la
performance, la frustration. Dans ce cas-ci, puisqu’aucune manipulation de l’exigence
physique n’est prévue dans les expériences, la question est retirée. Dans le but de couvrir
directement toutes les dimensions de ce projet, deux autres dimensions sont adjointes au
questionnaire, soit le stress et la fatigue. Finalement, une troisième question est ajoutée afin
de capturer la charge mentale globale du participant (appelée « état général »). En plus des
mesures subjectives, des mesures de performance sont aussi effectuées. Puisque ces mesures
sont spécifiques aux tâches utilisées, celles-ci seront décrites dans les chapitres dédiés aux
expériences (voir Chapitre 3 et Chapitre 4). Finalement, des mesures de l’effort mental sont
effectuées. Comme l’effort mental est fonction à la fois de l’exigence mentale et de la
performance, il est difficile d’en obtenir une mesure objective. Afin d’estimer l’effort mental,
une formule arbitraire est proposée (de manière similaire à l’équation de l’efficacité mentale
dans Galy, Cariou et Mélan, 2012). Deux propositions guident cette formule. 1) Si la tâche
est jugée facile et que la performance est faible, il est probable que le participant fournisse
un effort faible. 2) Si la tâche est jugée difficile et que la performance est élevée, il est
probable que le participant fournisse un effort élevé. En tenant compte de ces deux extrêmes,
il est possible de proposer que les situations de tâches jugées faciles pour lesquelles la
performance est élevée, ou les situations de tâches jugées difficiles pour lesquelles la
performance est faible aient des valeurs d’effort mental moyen. Pour calquer ce
comportement, il est suggéré que l’effort mental représente le produit entre l’exigence
mentale et la performance (voir Équation 1). Pour tenir compte de l’exigence perçue, la
valeur brute de l’évaluation de l’exigence mentale obtenue par le NASA-TLX est utilisée.
Effort mental = Exigence perçue × Performance
Équation 1 : Équation de l’effort mental
2.2.2 Mesures physiologiques
Le Bioharness 3 de Zephyr, une bande thoracique, est utilisé pour mesurer l’activité
cardiaque et respiratoire (voir Figure 4). L’appareil fournit une mesure
46
électrocardiographique échantillonnée à 250 Hz. La mesure électrocardiographique effectuée
par le Bioharness 3 est plutôt tolérante au bruit, notamment à l’exercice physique. Cette
propriété fait en sorte que les mesures cardiaques ne subissent que très peu de perte de signal.
La respiration est mesurée par l’extension de la bande thoracique et échantillonnée à 18 Hz.
La mesure de la respiration par le Bioharness 3 est, elle aussi, tolérante au bruit. Toutefois,
l’appui sur le dossier de chaise peut altérer l’élasticité de la ceinture et dégrader le signal de
la respiration. Pour cette raison, certaines pertes peuvent être observées.
Figure 4 : Le Bioharness 3
L’activité électrodermale a été mesurée par un Biopac MP100. Des électrodes sont placées
sur les phalanges médiales de l’index et du majeur sur la main non dominante du participant
(voir Figure 5). Le Biopac MP100 fournit une mesure échantillonnée à 1000 Hz. La mesure
de l’activité électrodermale par le Biopac MP100 est très sensible aux mouvements de la
main. Les participants reçoivent comme instruction de poser leur main sur la table de travail
et de limiter, le plus possible, tout mouvement ou contraction inutile.
47
Figure 5 : Positionnement des électrodes électrodermales.
L’activité pupillaire est mesurée avec une lunette ASL Mobile Eye (voir Figure 6). Cette
lunette utilise une caméra infrarouge qui filme le reflet de l’œil dans un monocle. Le logiciel
de capture fournit une mesure du diamètre pupillaire à un taux d’échantillonnage de 30 Hz.
La mesure pupillaire reste bonne malgré les mouvements du participant. Les participants ne
doivent pas toucher la lunette, mais certains ont du mal à respecter cette consigne. Le port
d’un casque d’écoute, superposé aux lunettes, rend difficile l’immobilisation de la lunette.
En plus du mouvement, le diamètre pupillaire est sensible à la luminosité ambiante, aux
lentilles cornéennes, au maquillage, à la morphologie du visage et à la couleur de l’œil. Les
mesures du diamètre pupillaire ont donc parfois été perdues momentanément. Les
mouvements oculaires sont aussi mesurés avec la lunette ASL Mobile Eye. Le logiciel fournit
une mesure de la position du regard, elle aussi échantillonnée à 30 Hz.
48
Figure 6 : Lunette ASL Mobile Eye.
La Figure 7 est une capture d’écran issue du programme MATLAB utilisé pour effectuer les
analyses. Cette figure montre un exemple des signaux physiologiques obtenus par les
appareils précédemment détaillés6. Dans cet exemple, 20 seconde de signaux physiologiques
sont représentés. Le signal électrocardiographique (haut-gauche), est utilisé pour calculer la
durée entre les battements cardiaques (milieu-gauche). Le graphique des mouvements
oculaires (bas-droite) présente deux courbes puisque la lunette d’oculométrie enregistre la
position horizontale et verticale des yeux.
6 Note concernant la figure : RR = Activité cardiaque, RSP = Activité respiratoire, EDA = Activité
électrodermale, PUP = Activité pupillaire, GAZ = Position du regard (de l’anglais gaze).
49
Figure 7 : Exemple des signaux physiologique recueillis lors des séances expérimentales.
2.3 Découpage en époque et prétraitement des signaux
Lorsqu’un participant a terminé l’expérience, les signaux physiologiques sont découpés de
manière à ne garder que ceux qui couvrent les tâches expérimentales ou les périodes de repos
initial (anglais : baseline). Les signaux couvrant des périodes extérieures aux tâches et au
repos initial, comme le début de l’expérience et les pauses, ne sont pas analysés. Chaque
signal est ensuite redécoupé en sous-divisions (appelés « époques ») ayant une durée fixe.
Dans ce projet, deux longueurs d’époques sont retenues, soit 120 et 300 secondes. Ce choix
est déterminé par l’activité cardiaque, qui nécessite typiquement un minimum de 120 ou 300
50
secondes pour permettre des analyses fréquentielles. Toutes les modalités physiologiques
utilisent ces durées d’époques. La modalité cardiaque a été retenue pour guider la durée des
époques (voir Pereira, Almeida, Cunha et Aguiar, 2017) puisque les autres modalités peuvent
très bien être utilisées avec des époques plus courtes. Les époques sont découpées à partir du
début des conditions expérimentales (les tâches, qui seront détaillées aux Chapitre 3 et
Chapitre 4). Les portions de signal présentes à la fin des conditions expérimentales, qui n’ont
pas la durée requise pour faire une époque, sont rejetées. Les portions rejetées sont minimes
(5% du signal appartenant aux conditions expérimentales au plus). Il est jugé préférable de
perdre la fin que le début afin de bien capturer la transition entre le repos et la condition
expérimentale. À moins d’avis contraire lors d’une analyse, il est choisi de n’avoir aucun
chevauchement entre les époques, c’est-à-dire que chaque époque débute là où la précédente
se termine. La Figure 8 montre le processus de découpage en époque pour un signal arbitraire.
Dans cette figure, une condition expérimentale de 5 minutes est découpée en deux époques
de 2 minutes.
Figure 8 : Exemple d’un découpage en époques.
Les signaux physiologiques subissent un prétraitement afin de diminuer l’influence du bruit
et des pertes de mesure. Pour l’activité cardiaque, les battements qui sont jugés trop courts
(moins de 0,375 seconde) ou trop longs (1,5 seconde) sont retirés et estimés. Pour la
respiration, un filtre passe-bas est appliqué au signal (fréquence de passage : 0,80 Hz,
fréquence de coupure : 1,00 Hz). Ce filtrage permet de préserver les fréquences pertinentes
de la respiration, qui se situent entre 0,20 Hz et 0,33 Hz (Lindh et coll., 2013). Un filtre passe-
bas est également appliqué au signal électrodermal (fréquence de passage : 0,50 Hz,
fréquence de coupure : 0,75 Hz; Boucsein, 2012). Pour la pupille, les valeurs du diamètre
pupillaire trop petites et trop grandes (en dessous de 60 et au-dessus de 120 pixels) sont
retirées et estimées. Un filtre passe-bas (fréquence de passage : 1,00 Hz, fréquence de
Condition expérimentale (5 min) Pause Pause
Époque 1 (2 min) Époque 2 (2 min) Perte (1 min)
51
coupure : 2,00 Hz) est par la suite appliqué. Quant aux mouvements oculaires (les
coordonnées X et Y de la position des yeux), une moyenne mobile basée sur les 60 derniers
échantillons (environ 2 secondes) est appliquée afin de réduire le bruit présent dans les
mouvements des yeux.
2.4 Calcul des métriques physiologiques
À ce point, les signaux des cinq modalités physiologiques sont découpés autour des moments
d’intérêt (les conditions expérimentales). Ces signaux sont toutefois des courbes difficiles à
interpréter à l’œil nu. De plus, les algorithmes retenus dans ce projet ne peuvent en faire
usage. De ce fait, Il est nécessaire de calculer des métriques à partir de ces courbes. La
moyenne, l’écart-type ou le maximum d’un signal de 5 minutes représentent des exemples
de métriques qui peuvent être calculées. Le calcul des métriques est effectué par cinq
fonctions programmées en MATLAB. Elles fournissent chacune un nombre prédéterminé de
métriques (voir Tableau 3). Certaines fonctions ont la capacité d’être appliquées sur plus
d’une modalité physiologique. Le Tableau 4 montre quelle fonction est appliquée sur chaque
type de modalité physiologique et indique le nombre total de métriques par modalité
physiologique. Au total, 180 métriques physiologiques sont calculées. Pour chaque époque
découpée précédemment, un échantillon contenant les 180 métriques physiologiques est créé.
Les échantillons peuvent être vus comme les lignes d’un tableau, alors que les métriques
peuvent être considérées comme les colonnes. Chaque échantillon demeure associé à des
métadonnées comme le numéro du participant, la condition expérimentale, l’ordre de
passation/d’époque ainsi que les mesures subjectives, de performance et d’effort. La Figure
9 montre un exemple du tableau de données créé à ce point. Il est important de noter que les
métriques physiologiques sont normalisées (transformées en variables centrées réduites) par
participant.
52
Tableau 3 -
Description des fonctions utilisées pour calculer les métriques physiologiques
Fonction Description Nb. de
métriques
Statistiques
descriptives
Fournit des métriques de base comme la moyenne,
l’écart-type, le minimum et maximum. 10
Analyse de la
variabilité
cardiaque
Fournit des métriques relatives à la variabilité
cardiaque. 41
Analyse spectrale Fournit la puissance spectrale en 10 bandes. 10
Analyse des pics Détecte les pics et vallées dans le signal et fournit des
métriques comme leur nombre ou leur amplitude. 20
Analyse des
fixations/saccades
Fournit des métriques relatives aux fixations et
saccades oculaires. 9
Tableau 4 -
Utilisation des fonctions par type de signal physiologique
Fonction Type de signal physiologique
RR RSP EDA PUP GAZ
Statistiques descriptives 10 10 10 10
Analyse de la variabilité cardiaque 41
Analyse spectrale 10 10 10
Analyse des pics 20 20 20
Analyse des fixations/saccades 9
Nombre total de métriques physiologiques 51 40 40 40 9
Note. RR = Activité cardiaque, RSP = Activité respiratoire, EDA = Activité électrodermale,
PUP = Activité pupillaire, GAZ = Position du regard (de l’anglais gaze).
53
Métadonnées Métriques physiologiques
Par
tici
pan
t
Co
ndit
ion
exp
érim
enta
le
…
Ord
re
(co
nd
itio
n)
Ord
re
(ép
oqu
e)
Mét
riq
ue
1
Mét
riq
ue
2
…
Mét
riq
ue
179
Mét
riq
ue
180
1001 100 … 1 1 -0,88 -1,97 … 1,86 -0,91
1001 100 … 1 2 1,68 0,57 … 2,14 1,70
1001 100 … 1 3 0,97 2,49 … -0,83 0,99
1001 101 … 2 1 -1,78 -1,92 … -0,18 -0,36
1001 101 … 2 2 0,19 -0,91 … -1,92 1,71
1001 101 … 2 3 -1,16 1,42 … 1,52 -1,76
1001 110 … 3 1 -2,46 0,59 … -0,23 -2,14
1001 110 … 3 2 -1,17 1,46 … 2,48 2,10
1001 110 … 3 3 0,68 -0,96 … -2,43 0,64
1001 111 … 4 1 0,82 -1,27 … 0,24 2,43
1001 111 … 4 2 2,33 1,48 … -0,28 -1,51
1001 111 … 4 3 -1,34 1,50 … 1,57 1,70
1002 100 … 2 1 2,24 0,20 … -1,79 -0,91
1002 100 … 2 2 1,17 1,21 … 2,41 -0,20
1002 100 … 2 3 -0,96 0,60 … 2,45 -0,28
1002 101 … 3 1 -0,72 0,65 … -1,84 2,26
1002 101 … 3 2 0,47 -1,77 … 1,36 1,74
1002 101 … 3 3 -1,05 1,56 … -2,43 2,05
1002 110 … 4 1 0,24 -0,30 … 1,31 1,23
1002 110 … 4 2 -0,18 0,04 … -0,53 -1,60
1002 110 … 4 3 2,33 2,47 … 1,06 0,20
1002 111 … 1 1 -2,48 -0,43 … -2,31 -1,93
1002 111 … 1 2 -0,21 1,99 … -0,89 0,19
1002 111 … 1 3 1,05 -1,43 … -2,15 -1,98
Figure 9 : Exemple du tableau de données créé après le calcul des métriques.
Dans le cadre de la thèse, quatre sous-ensembles de métriques physiologiques sont testés. Un
premier sous-ensemble (RR-RSP-EDA-PUP-GAZ) contient les 180 métriques. Étant donné
que les métriques des mouvements oculaires sont, la plupart du temps, spécifiques à une
tâche (Van Orden, Limbert, Makeig et Jung, 2001), il est choisi de tester un ensemble
(RR-RSP-EDA-PUP) dans lequel elles ne sont pas incluses. Un troisième sous-ensemble
(RR-RSP-EDA) vise à tester un système sans oculométrie, plutôt axé sur la portabilité dans
un contexte de travail. Finalement, un dernier sous-ensemble (RR-RSP) vise à tester si un
seul appareil (le Bioharness 3) est suffisant pour prédire la charge mentale. Le Tableau 5
montre les sous-ensembles et le nombre total de métriques physiologiques qu’ils contiennent.
Un échantillon
(une ligne) est créé
par époque. 180 métriques
(colonnes) sont
calculées par
échantillons.
54
Tableau 5 -
Sous-ensemble de métriques testées dans cette analyse
Contenu du sous-ensemble Nombre de métriques
RR-RSP-EDA-PUP-GAZ 180
RR-RSP-EDA-PUP 171
RR-RSP-EDA 131
RR-RSP 91
2.5 Organisation des schèmes de classification
En apprentissage automatique, les échantillons sont typiquement divisés en trois groupes : le
groupe d’entraînement, le groupe de validation et le groupe de test. Le groupe d’entraînement
est généralement celui qui contient le plus d’échantillons. C’est avec le contenu de ce groupe
qu’on entraîne le modèle. Le groupe de validation sert à faire le choix des paramètres du
modèle. Afin de vérifier la performance du modèle, un ensemble de tests, contenant des
échantillons qui n’ont ni servi à entraîner le modèle ni servi à faire un choix des paramètres,
est finalement utilisé. Dans ce projet, il est désiré que les modèles puissent prédire les
résultats des nouveaux participants en utilisant les données d’autres participants. Pour ce
faire, un schème de classification à validation croisée est utilisé. Ainsi, les données de
l’ensemble de test sont toujours celles d’un seul participant et les données
d’entraînement/validation sont celles de tous les autres participants. Ce découpage est répété
pour chaque participant. Les données d’entraînement/validation sont par la suite redécoupées
à l’aide d’un autre schème de validation croisée en cinq groupes afin d’optimiser la qualité
du modèle. Ce découpage tient encore une fois compte des participants. À moins d’indication
contraire, tous les résultats présentés sont ceux des groupes de test.
2.6 Imputation des données
L’ensemble de données contient des valeurs manquantes. Lors des séances expérimentales,
les appareils peuvent temporairement perdre la mesure (p. ex. décollement des électrodes,
déplacement des caméras d’oculométrie). Les appareils peuvent également mesurer des
données aberrantes qui sont supprimées lors du prétraitement des données. Dans MATLAB,
l’algorithme d’apprentissage automatique utilisé ne peut pas recevoir de données
55
manquantes. Il est donc nécessaire d’effectuer un traitement sur les données manquantes
avant de procéder à l’entraînement des classificateurs. Dans ce projet, il a été choisi de
procéder à une imputation des données manquantes par analyses de composantes principales.
La boîte à outils MDI Toolbox 4 (Folch-Fortuny, Arteaga et Ferrer, 2016), programmée en
MATLAB, est utilisée afin de procéder à l’imputation. Afin d’éviter la contamination entre
les données d’entraînement, de validation et de test, l’imputation est effectuée
indépendamment sur chacun des ensembles.
2.7 Rééquilibrage des classes
Une fois les données séparées en sous-ensembles d’entraînement/validation/test, il est
possible que les valeurs de la variable d’intérêt (appelés « classes ») ne soient pas équilibrées.
Un sous-ensemble est jugé non équilibré si la variable d’intérêt n’y est pas représentée de
manière égale à travers les échantillons. Par exemple, si le sous-ensemble d’entraînement
contient 200 échantillons et que 170 d’entre eux appartiennent à la classe « 0 » (et que les
30 échantillons restants appartiennent à la classe « 1 »), il est possible de considérer que le
sous-ensemble n’est pas équilibré. De manière générale, une légère variation autour du point
d’équilibre n’est pas considérée comme problématique. Toutefois, un modèle construit avec
des données fortement déséquilibrées peut risquer d’être peu performant. Ce faisant, il est
nécessaire de s’assurer que les sous-ensembles d’entraînement soient équilibrés. Pour pallier
ces problèmes, il existe des techniques permettant la construction d’échantillons
supplémentaires (dits « échantillons synthétiques ») à partir des échantillons existants. Les
méthodes SMOTE et ADASYN sont des exemples d‘algorithmes pouvant faire ce genre de
manipulation (He et coll., 2008; Wang et coll. 2006). Dans ce projet, une implémentation
MATLAB de ADASYN (Seidhoff, 2015) est utilisée afin de rééquilibrer les sous-ensembles
d’entraînement. Les déséquilibres se situant entre 45 % et 55 % ne sont pas corrigés
puisqu’ils sont considérés comme de légères variations. Les ensembles de validation et de
test ne sont pas rééquilibrés afin de retourner une prédiction la plus juste possible.
2.8 Entraînement des modèles
Dans ce projet, deux méthodes d’apprentissage automatique sont utilisées. Ces deux
techniques sont basées sur les machines à vecteur de support (anglais : Support Vector
56
Machine). L’implémentation de cette technique est réalisée par les fonctions fitcsvm
(MATLAB-fitcsvm, 2018) et fitclinear de MATLAB (MATLAB-fitclinear, 2018). Dans le
premier cas, un noyau gaussien est utilisé. La seconde technique utilise une méthode linéaire
basée sur les machines à vecteur de support. Afin de simplifier le texte, le premier
classificateur est appelé « Modèle SVM » ou « Classificateur SVM » et le second « Modèle
linéaire » ou « Classificateur linéaire ». Les machines à vecteur de support sont retenues pour
leur tolérance à la haute dimensionnalité (les 180 métriques physiologiques), leur simplicité
et leur performance. Tout comme d’autres algorithmes d’apprentissage automatique, les
machines à vecteur de support sont sujettes au surapprentissage (anglais : overfitting). Pour
éviter ce problème, une recherche aléatoire sur différents paramètres est effectuée. Pour le
classificateur SVM, les paramètres C (anglais : box constraint) et KS (anglais : kernel scale)
sont utilisés. Pour le classificateur linéaire, le paramètre λ (paramètre de régularisation) est
utilisé. Ainsi, 50 recherches aléatoires sont effectuées pour les modèles SVM et 100 sont
effectués pour les modèles linéaires. Les autres paramètres sont maintenus aux valeurs par
défaut déterminées par MATLAB.
2.9 Calcul de la performance
Une fois l’entraînement du classificateur terminé, tous les ensembles de tests de chaque
participant sont regroupés et la valeur de sortie du modèle est comparée à la valeur réelle de
la variable d’intérêt. Le Tableau 6 montre un exemple de résultats possibles pour deux classes
d’une variable d’intérêt (k = 2), soit la classe « 0 » et la classe « 1 ». Entre les différentes
colonnes, la valeur de sortie du classificateur est affichée. Entre les différentes lignes, c’est
plutôt la valeur réelle de la variable qui est montrée. Le nombre inscrit dans chaque cellule
indique combien de fois la combinaison se produit. En prenant le rapport de la somme de la
diagonale sur le nombre d’éléments de la matrice (N), la précision du classificateur est
obtenue (c.-à-d. le ratio de fois où le classificateur prédit correctement la classe). Dans le cas
du Tableau 6, la précision du classificateur (po) est calculée à l’Équation 2.
57
Tableau 6 -
Exemple de prédiction d’un modèle pour deux catégories
Valeur réelle = 0 Valeur réelle = 1
Valeur prédite = 0 167 12 ∑ = 179
Valeur prédite = 1 19 48 ∑ = 67
∑ = 186 ∑ = 60 ∑ = 246
Note. Diagonale de la matrice en gris.
𝑝𝑜 =∑ 𝑑𝑖𝑎𝑔
𝑁=
167+48
167+12+19+48= 0,8740 ≅ 87 %
Équation 2 : Calcul de la précision d’une matrice de confusion.
Pour déterminer la qualité de cette précision, il est également important de connaître sa
différence par rapport au seuil du hasard. Le seuil du hasard est défini par la précision vers
laquelle un classificateur tend s’il est complètement aléatoire. Un classificateur ayant une
précision près du seuil du hasard est jugé comme étant mauvais alors qu’un classificateur
ayant une précision près de 100 % est jugé comme étant parfait. Comme différentes variables
d’intérêt peuvent avoir différents seuils de hasard, il est difficile d’utiliser la précision afin
de qualifier la qualité d’un classificateur. Pour résoudre ce problème et comparer la précision
des classificateurs, un second indice de performance : le Kappa de Cohen, est utilisé. Le
Kappa de Cohen (abrégé κ) est un indice qui tient compte du seuil du hasard. L’Équation 3
et l’Équation 4 montrent comment calculer le κ. Ainsi, pour une précision égale au seuil du
hasard, κ a une valeur de 0. Dans le cas d’une précision parfaite, κ a une valeur de 1. La
Figure 10 montre un exemple de la relation entre la précision et le κ pour deux valeurs de
seuil de hasard différent.
𝜅 ≡ 1 −1 − 𝑝𝑜
1 − 𝑝𝑒= 1 −
1 − 0,8740
1 − 0,6166= 0,6714
Équation 3 : Kappa de Cohen calculé sur la matrice de confusion du Tableau 6.
𝑝𝑒 =1
𝑁2∑ 𝑛𝑘1
𝑘
𝑛𝑘2 =1
2462(186 ⋅ 179 + 60 ⋅ 67) = 0,6166
Équation 4 : Seuil du hasard calculé sur la matrice de confusion du Tableau 6.
58
Figure 10 : Relation entre la performance et kappa pour deux seuils de hasard différents.
Il existe des guides pour interpréter la valeur de κ (Landis et Koch, 1977). Toutefois, tout
comme pour le calcul d’une taille d’effet, il est important de tenir compte du domaine afin
d’établir un barème réaliste. Dans ce cas-ci, le barème est assoupli pour s’adapter au projet.
Afin d’avoir la certitude que les classificateurs font mieux que le hasard, la probabilité
d’erreur (le « p » critique) est calculée. Pour les modèles, une valeur de probabilité d’erreur
sévère (soit p < 0,001) est choisie. Pour toutes les autres analyses effectuées dans ce
document, les effets pour lesquels p < 0,05 sont retenus. Ce choix est justifié par le fait que
ces analyses ne sont pas les hypothèses principales défendues par ce projet. Le Tableau 7
montre de quelle manière la qualité d’un classificateur est jugée en fonction de κ et p. À
moins d’avis contraire les barres d’erreurs présentes sur les graphiques montrent un intervalle
de confiance de 95% autour de la moyenne (Masson et Loftus, 2003).
Tableau 7 -
Critères déterminant la qualité des classificateurs
Qualité du classificateur k p
Mauvais - > 0,05
Tendance - [0,001 – 0,05]
Acceptable < 0,2 <0,001
Bon > 0,2 <0,001
0 % 100 %
Précision du classificateur (hasard = 50 %)
-1 1
Kappa 0
50 %
0 % 100 %
Précision du classificateur (hasard = 33 %)
-1 1 Kappa
0
33 %
59
Chapitre 3 : Diagnosticité dans des tâches simples
Les mesures physiologiques présentent un grand potentiel pour prédire la charge mentale des
individus. Contrairement aux mesures comportementales et subjectives, les mesures
physiologiques offrent la possibilité de fournir une lecture continue de la charge mentale sans
qu’il soit nécessaire d’interrompre les individus. Bien que les mesures neurologiques offrent
typiquement un meilleur potentiel pour mesurer la charge mentale (Chanel, Kronegg,
Grandjean et Pun, 2006; Christensen, Estepp, Wilson et Russell, 2012; Hogervorst, Brouwer
et van Erp, 2014), les mesures périphériques ont comme avantage d’être plus résistantes aux
mouvements et sont moins dispendieuses, offrant ainsi un bon potentiel dans des situations
de travail réelles.
Plusieurs mesures issues de l’activité cardiaque, respiratoire, électrodermale et oculaire
montrent des différences significatives entre les différents niveaux de charge mentale.
Certains chercheurs développent déjà des systèmes pour tenter de prédire la charge mentale
à l’aide de capteurs physiologiques périphériques (p.ex. Arnrich, 2010; Patel et coll., 2011).
Toutefois, la charge mentale peut prendre source dans plusieurs sous-dimensions, comme
l’exigence, l’effort, le stress ou encore la fatigue. Tel que détaillé dans le chapitre précédent,
les différentes sous-dimensions peuvent fréquemment provoquer des réactions
physiologiques similaires. C’est notamment le cas pour la probabilité de réponse
électrodermale, qui est associée à la fois à l’exigence mentale (Galy, Cariou et Mélan, 2012)
et au stress (Reinhardt, Schmahl, Wüst et Bohus, 2012). En plus des similitudes entre les
sous-dimensions, les mesures physiologiques sont souvent inconsistantes au sein d’une
même dimension (p.ex. Castaldo, 2015). Très peu d’études se sont penchées sur les potentiels
diagnostiques des mesures physiologiques périphériques de la charge mentale. En d’autres
mots, il est présentement quasi-impossible de déterminer si une manifestation physiologique
périphérique est causée par l’exigence, l’effort, le stress ou la fatigue.
Pourtant, une mesure diagnostique de la charge mentale pourrait être bénéfique dans
plusieurs contextes. Les effets d’une fatigue trop élevée peuvent être mitigés par une pause
(Engelmann et coll., 2010; Li, Lim et Chen, 2016). Cette pause pourrait toutefois être peu
utile si c’est l’exigence mentale qui est trop élevée. Un système diagnostique peut également
60
être utile afin de maintenir les travailleurs dans leur « zone optimale » de charge mentale.
Bien que le stress soit souvent considéré comme néfaste pour la performance, certaines
études suggèrent qu’un niveau faible à moyen d’anxiété puisse bonifier la performance
(Carrier, Higson, Klimoski et Peterson. 1984; Moore et coll., 2013). Ainsi, un système
diagnostique de mesure de la charge mentale pourrait aider à préserver un stress minimum
sans toutefois empêcher l’effort mental des individus.
Le but de ce chapitre est donc de déterminer s’il est possible d’obtenir une mesure
diagnostique de la charge mentale dans un contexte de tâches simples. Par tâches simples, il
est question des tâches typiquement utilisées en laboratoire pour lesquelles un grand contrôle
expérimental est observé. Bien que la visée de ce projet de thèse ait une portée plutôt
appliquée aux situations de travail réel, il faut garder en tête que peu d’études ont investigué
la diagnosticité de la charge mentale avec des mesures physiologiques périphériques et qu’il
est difficile de se prononcer sur la magnitude exacte des résultats qu’il est possible d’obtenir.
Mis à part les particularités méthodologiques, détaillées plus bas, le reste de la méthodologie
suit ce qui a été décrit au Chapitre 2. Afin de recueillir des données physiologiques, un groupe
de participant a réalisé une expérience contenant deux tâches expérimentales simples.
Pendant l’expérience, l’exigence des tâches et le niveau de stress ont été modulés de manière
à faire varier la source de la charge mentale. Des modèles de prédiction sont construits pour
six variables d’intérêt, détaillés plus bas, ainsi que pour les dimensions du questionnaire de
charge mentale. Les résultats montrent que les six variables d’intérêt retenues sont
prédictibles avec des résultats plutôt satisfaisants, suggérant qu’il est possible d’atteindre une
mesure diagnostique de la charge mentale en utilisant la physiologie périphérique. En plus
de la performance des classificateurs, ce chapitre propose des suggestions supplémentaires
afin de mieux guider l’élaboration du chapitre suivant, portant cette fois-ci sur les situations
de travail réelles.
61
3.1 Particularités de méthodologie
3.1.1 Participants
Dans cette première expérience, 30 participants ont été recrutés à l’Université Laval et se
sont fait offrir une rémunération de 10$. Sur ces participants, deux ont été rejetés. Pour
participer à l’étude, les participants devaient avoir une vision normale ou corrigée, aucun
problème psychologique, tel qu’un déficit d’attention ou un trouble neurologique, ni aucun
problème cardiorespiratoire tel que l’asthme.
3.1.2 Tâches expérimentales
Deux tâches expérimentales ont été utilisées dans cette expérience. La première était une
tâche de n-back. Dans cette version, les participants utilisaient un ordinateur pour accomplir
la tâche. Des lettres blanches sur un fond gris étaient affichées une après l’autre. À chaque
lettre, le participant devait indiquer si la lettre était la même que la précédente (condition
facile dite « n = 1 ») ou la même que l’avant-précédente (condition difficile dite « n = 2 »).
Une représentation schématique de la tâche est affichée à la Figure 11. Pour signaler une
cible (c.-à-d. : indiquer que la lettre est la même), les participants devaient appuyer sur la
touche « M » du clavier. Les participants recevaient également l’instruction d’appuyer sur la
touche « Z » du clavier si la lettre présentée était non-cible. Seules les cibles correctes étaient
enregistrées comme des bonnes réponses. Les fausses alarmes, les cibles ratées, les omissions
et les entrées multiples étaient toutes considérées comme des erreurs. Chaque lettre était
présentée 2 secondes. Au total, 60 lettres étaient affichées par bloc expérimental. Bien que le
temps de réponse était aussi enregistré, seul le ratio de bonne réponse a été retenu comme
mesure de performance. La seconde tâche utilisée était une tâche de recherche visuelle
(Recarte, Pérez, Conchillo & Nunes, 2008). Dans les conditions faciles, les participants
avaient comme instruction d’appuyer sur l’unique lettre « A » présente sur l’écran (lettre
cible) au travers de lettres distractives (39 lettres). Dans les conditions difficiles, les
participants devaient appuyer sur la voyelle non inclinée (lettre cible) au travers de lettres
distractives, inclinées et non inclinées (encore 39 lettres) (voir Figure 12). Dans cette tâche,
60 recherches étaient effectuées par bloc expérimental. Pour cette tâche, la performance était
mesurée en calculant le temps de réponse moyen par bloc expérimental.
62
Figure 11 : Représentation schématique de la tâche de n-back.
Figure 12 : Exemple de la tâche de recherche visuelle (difficile).
3.1.3 Devis
La difficulté et le niveau de stress étaient tous deux manipulés lors de cette expérience. La
difficulté et le stress étaient divisés en deux niveaux (respectivement : facile/difficile;
calme/stressant). La difficulté était manipulée en alternant entre les conditions faciles et
63
difficiles décrites plus haut. Le stress était manipulé en introduisant une punition sonore
aversive. Le principe de la punition sonore aversive est de faire jouer un son désagréable dans
les écouteurs des participants (Patel et coll., 2015). Afin de maximiser la surprise et le
désagrément, le son aversif était joué de manière semi-aléatoire aux participants (c.-à-d. :
l’occurrence était aléatoire, mais un nombre fixé était garanti d’être joué au travers de la
condition stressante). Toujours dans le but de maximiser le niveau de stress, les participants
recevaient comme instruction que l’occurrence du son était associée à leur performance,
c’est-à-dire que moins bons ils étaient, plus le son allait être présent. En réalité, l’occurrence
du son n’était pas liée à la performance. Le son aversif avait une durée de 1 seconde et était
joué dans environ 75% des essais lors des blocs expérimentaux stressants. Chaque
combinaison de niveau de difficulté, de stress et de tâche était complétée par les participants
(pour un total de huit conditions expérimentales).
Au moment de la réalisation de l’étude, une plus grande importance était attribuée aux
facteurs de la difficulté et du stress. Ces deux facteurs étaient donc contrebalancés. Afin de
diminuer le nombre total de participants requis, il a été choisi de ne pas contrebalancer l’ordre
des tâches. Tous les participants commençaient donc par la tâche de n-back (4 conditions
contrebalancées : facile/calme; facile/stressant; difficile/calme; difficile/stressant) et
terminaient par la tâche de recherche visuelle (4 mêmes conditions).
3.1.4 Procédure
Les participants étaient accueillis par l’expérimentateur et étaient invités à lire et signer un
formulaire de consentement. Par la suite, l’expérimentateur procédait à l’installation des
capteurs physiologiques. Une fois fait, les participants remplissaient un questionnaire
démographique. Tous les participants commençaient par les 4 conditions de la tâche de n-
back, puis terminaient par les 4 conditions de la tâche de recherche visuelle. À la fin de
chaque condition expérimentale, les participants remplissaient le questionnaire NASA-TLX.
Avant de réaliser chaque tâche, les participants effectuaient deux séances de pratique (une
facile, une difficile). S’ils n’avaient pas bien compris la tâche, ils pouvaient recommencer la
pratique.
64
3.1.5 Paramètres d’apprentissage automatique
Les classificateurs utilisés dans cette étude sont tous binaires, c’est-à-dire qu’ils apprennent
à discerner entre seulement deux options. Il est donc nécessaire de définir comment chaque
variable d’intérêt est séparée en deux. Le Tableau 8 synthétise cette information. Comme
l’ordre des tâches est fixé, il n’est pas nécessaire d’entraîner un classificateur supplémentaire
d’ordre des conditions. De plus, comme les conditions expérimentales sont plutôt courtes, on
choisit de ne pas entraîner de classificateur pour l’ordre des époques à l’intérieur d’une même
condition. Pour les dimensions subjectives, les variables d’intérêt sont les neuf dimensions
du NASA-TLX et leur valeur est déterminée par l’infériorité ou la supériorité par rapport à
la moyenne du participant. Étant donné que les conditions expérimentales durent entre 120
et 160 secondes, on choisit des époques de 120 secondes sans chevauchement.
Tableau 8 -
Définition des variables d’intérêt
Nom de la
classe Description
Repos initial Détermine si le participant est en repos initial ou en condition
expérimentale.
Difficulté Détermine si la condition actuelle est facile ou difficile.
Stress Détermine si la punition sonore est absente ou présente.
Tâche Détermine si le participant est en n-back ou en recherche visuelle.
Performance Détermine si la performance de la condition est inférieure ou
supérieure à la moyenne de ce participant.
Effort Détermine si l’effort fourni pendant la condition est inférieur ou
supérieur à la moyenne de tous les participants.
3.2 Résultats
3.2.1 Analyse des réponses subjectives
La Figure 13 et la Figure 14 présentent les scores bruts des réponses au questionnaire
NASA-TLX pour les 2 tâches expérimentales. Une série d’ANOVAS à mesures répétées est
effectuée sur ces valeurs afin de déterminer les effets de difficulté, du stresseur et de la tâche.
65
Les résultats de ces ANOVAS sont présentés au Tableau 9 et au Tableau 10. L’analyse
montre que l’exigence mentale est augmentée par la difficulté (𝜂𝑝2 = 0,73; p < 0,001) et la
présence du stresseur (𝜂𝑝2 = 0,41; p = 0,0021). À l’inverse, l’augmentation de la difficulté et
du stress diminue la performance (𝜂𝑝2 = 0,62; p < 0,001; 𝜂𝑝
2 = 0,37; p = 0,0038) et l’état
général (𝜂𝑝2 = 0,64; p < 0,001; 𝜂𝑝
2 = 0,44; p = 0,0014). L’exigence temporelle est également
augmentée par la difficulté et le stresseur (𝜂 = 0,37 p < 0,0041; 𝜂𝑝2 = 0,54; p = 0,0002).
L’ANOVA suggère toutefois une interaction entre le stresseur et la tâche (𝜂𝑝2 = 0,49;
p < 0,001). Lorsque le stresseur est faible, l’exigence temporelle est plus élevée pour le
n-back. À l’inverse, lorsque le stresseur est présent, l’exigence temporelle est plus élevée
pour la recherche visuelle. L’ANOVA suggère que la difficulté a augmenté l’effort investi
(𝜂𝑝2 = 0,37; p = 0,0044) et la fatigue ressentie (𝜂𝑝
2 = 0,47; p < 0,001). Pour les dimensions de
la frustration et du stress, on décèle trois effets simples. Les participants ont rapporté une
frustration/stress plus élevée lors des tâches difficiles (𝜂𝑝2 = 0,64; p < 0,001; 𝜂𝑝
2 = 0,59;
p < 0,001), plus élevée lorsque le stresseur était présent (𝜂𝑝2 = 0,40; p = 0,0027; 𝜂𝑝
2 = 0,72;
p < 0,001) et plus élevée lors de la tâche de n-back (𝜂𝑝2 = 0,30; p = 0,0114; 𝜂𝑝
2 = 0,23;
p = 0,0319). Aucun effet n’a été rapporté pour la dimension du focus. Afin d’évaluer l’effet
du temps sur les dimensions du NASA-TLX, on effectue une série de corrélation linéaire.
Étant donné que la variable du temps est ordinale (l’ordre de passation des conditions
expérimentales), on utilise la corrélation de Spearman. Ces corrélations sont effectuées pour
les deux tâches individuellement. La corrélation pour toute l’expérience n’est pas calculée
étant donné que l’ordre des tâches est toujours le même et que l’effet entre les deux tâches
est couvert dans l’ANOVA. L’analyse suggère que le temps n’a affecté aucune dimension
du NASA-TLX lors de la tâche de n-back. L’effort (r = 0,19; p = 0,0498) et la frustration
(r = 0,21; p = 0,0252) ont augmenté avec le temps lors de la tâche de recherche visuelle.
66
Figure 13 : Résultats du NASA-TLX lors du n-Back.7 8
Figure 14 : Résultats du NASA-TLX lors de la recherche visuelle.
7 d/D = (difficulté faible / difficulté élevée); s/S = (stress faible / stress Élevé). 8 Il est pertinent de rappeler ici qu’à moins d’avis contraire, les barres d’erreurs représentent l’intervalle de
confiance à 95% (Masson et Loftus; 2003).
0
1
2
3
4
5
6
7
8
9
10
Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.
ds dS Ds DS
0
1
2
3
4
5
6
7
8
9
10
Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.
ds dS Ds DS
67
Tableau 9 -
Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX (partie 1/2)
Dimension Facteurs 𝜂𝑝2 p
Exigence mentale
D 0,7323 < 0,001
S 0,4165 0,0021
T 0,0393 0,4023
D x S 0,1073 0,1585
D x T 0,0814 0,2226
S x T 0,0063 0,7395
D × S x T 0,0631 0,2856
Exigence
temporelle
D 0,3752 0,0041
S 0,5405 0,0002
T 0,0013 0,8810
D x S 0,0002 0,9519
D x T 0,1192 0,1361
S x T 0,4906 < 0,001
D × S x T 0,0290 0,4731
Performance
D 0,6278 < 0,001
S 0,3793 0,0038
T 0,0038 0,7969
D x S 0,0853 0,2115
D x T 0,0937 0,1893
S x T 0,0330 0,4437
D × S x T 0,0056 0,7536
Effort
D 0,3701 0,0044
S 0,0503 0,3420
T 0,0011 0,8919
D x S 0,0881 0,2039
D x T 0,1240 0,1279
S x T 0,1332 0,1136
D × S x T 0,0002 0,9570
Frustration
D 0,6447 < 0,001
S 0,4019 0,0027
T 0,3060 0,0114
D x S 0,0070 0,7255
D x T 0,0048 0,7709
S x T 0,0684 0,2655
D × S x T 0,0162 0,5929
Note. D = Difficulté, S = Stresseur, T = Tâche, p < 0.05 en gras.
68
Tableau 10 -
Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX (partie 2/2)
Dimension Facteurs 𝜂𝑝2 p
Focus
D 0,1705 0,0704
S 0,1227 0,1301
T 0,0274 0,4858
D x S 0,0441 0,3744
D x T 0,0044 0,7815
S x T 0,0276 0,4838
D × S x T 0,0063 0,7391
Fatigue
D 0,4785 < 0,001
S 0,0062 0,7424
T 0,0005 0,9283
D x S 0,0003 0,9460
D x T 0,1396 0,1046
S x T 0,1202 0,1343
D × S x T 0,0074 0,7178
Stress
D 0,5979 < 0,001
S 0,7250 < 0,001
T 0,2312 0,0319
D x S 0,0793 0,2292
D x T 0,0318 0,4516
S x T 0,0010 0,8946
D × S x T 0,0266 0,4922
État général
D 0,6466 < 0,001
S 0,4409 0,0014
T 0,0110 0,6598
D x S 0,0431 0,3796
D x T 0,0596 0,2995
S x T 0,0141 0,6176
D × S x T 0,0516 0,3355
Note. D = Difficulté, S = Stresseur, T = Tâche, p < 0.05 en gras.
3.2.2 Analyse de la performance et de l’effort
Le Tableau 11 présente les scores moyens aux tâches expérimentales. Pour le n-back, le score
est exprimé sous forme de proportion de cibles atteintes (PC). Pour la recherche visuelle, le
score est présenté en temps de réponse inverse (1/s) afin de préserver le sens des données
(plus le score est élevé, meilleur est le participant). Exceptionnellement, la normalisation de
la performance se fait par la méthode « minmax », c’est-à-dire que chaque valeur de
performance représente une fraction entre le meilleur et le pire score brut (entre tous les
participants) pour la tâche. Ce choix est justifié par le désir de pouvoir ajouter le facteur
69
« tâche » lors de l’analyse de la variance (si les scores étaient normalisés par la moyenne et
l’écart-type, la moyenne des deux tâches serait nulle et on ne pourrait pas mesurer l’effet de
la tâche sur le score. Une performance globale, contenant les scores normalisés des deux
tâches, est également rapportée. Une ANOVA à mesure répétée par participants est menée
sur les scores normalisés globaux des deux tâches. Cette analyse rapporte des effets simples
de la difficulté (𝜂𝑝2 = 0,82; p < 0,001) et de la tâche (𝜂𝑝
2 = 0,84; p < 0,001). On dénote
toutefois une interaction entre ces deux facteurs (𝜂𝑝2 = 0,80; p < 0,001). La Figure 15, qui
détaille cette interaction, montre que la tâche de n-back est généralement plus difficile, mais
que l’augmentation de la difficulté dégrade davantage la performance lors de la recherche
visuelle. Une autre interaction, cette fois moins forte, est également présente entre le stress
et la tâche (𝜂𝑝2 = 0,22; p = 0,0356). La Figure 16 montre que la présence du stresseur semble
dégrader légèrement la performance lors du n-back, mais l’augmente tout aussi légèrement
lors de la recherche visuelle9. La faible puissance statistique de ce résultat permet toutefois
de douter la présence d’un effet réel du stresseur. Dans le but de déterminer l’effet du temps
sur la performance, on calcule le coefficient de corrélation de Spearman entre l’ordre de la
condition et la performance. Cette analyse montre que le temps n’a affecté la performance
d’aucune des deux tâches.
9 Bien que les barres d’erreur soient calculés par la méthode de Masson et Loftus (2003), l’utilisation d’un
devis à mesure répétée et la faible puissance statistique (p = 0,0356) empêche de voir l’interaction sur le
graphique.
70
Tableau 11 -
Scores moyens de performance dans les quatre conditions
Dimension Difficulté →
Stress ↓ Faible Élevée
Performance
n-back (PC)
Faible 0,9379 0,7727
Élevé 0,9176 0,7345
Performance
R.-Visuelle (1/s)
Faible 0,6900 0,1591
Élevé 0,7162 0,1883
Performance globale Faible 0,8163 0,4464
Élevé 0,8169 0,4614
Note. PC = Proportion de cibles atteintes. Scores normalisés par la méthode « minmax ».
Figure 15 : Performance en fonction de la difficulté et de la tâche.
0
0,2
0,4
0,6
0,8
1
Difficulté faible Difficulté élevée
Per
form
ance
norm
alis
ée
N-back
Recherche visuelle
71
Figure 16 : Performance en fonction du stress et de la tâche.
Une analyse similaire est effectuée sur les scores d’effort. L’effort était calculé en faisant le
produit de la performance (normalisée) et de l’évaluation (brute) de la dimension « exigence
mentale » du NASA-TLX. Le Tableau 12 rapporte l’effort pour les deux tâches séparées ainsi
que pour la combinaison des deux. Une ANOVA à mesure répétée par participant est
effectuée sur l’effort combiné des deux tâches afin de déterminer les contributions de la
difficulté, du stress et de la tâche. L’ANOVA suggère la présence d’un effet simple de la
tâche (𝜂𝑝2 = 0,77; p < 0,001) ainsi qu’une interaction entre la difficulté et la tâche (𝜂𝑝
2 = 0,73;
p < 0,001; voir Figure 17). L’interaction suggère qu’un effort similaire est investi lors des
deux tâches quand la difficulté est facile. Toutefois, l’augmentation de la difficulté fait
augmenter l’effort dans la tâche de n-back, mais fait diminuer cette dernière lors de la
recherche visuelle. Tout comme la performance, l’effort n’a pas varié avec le temps passé
sur chacune des deux tâches.
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Stress faible Stress élevé
Per
form
ance
no
rmal
isée
N-back
Recherche visuelle
72
Tableau 12 -
Scores moyens de l’effort dans les quatre conditions
Dimension Difficulté →
Stress ↓ Faible Élevée
Effort (n-back) Faible 0,3741 0,5261
Élevé 0,3957 0,5184
Effort (Recherche
visuelle)
Faible 0,2820 0,0835
Élevé 0,2990 0,1105
Effort global Faible 0,3289 0,2907
Élevé 0,3473 0,3145
Figure 17 : Score d’effort en fonction de la difficulté et de la tâche.
3.2.3 Analyse des métriques physiologiques
Étant donné le nombre élevé de métriques physiologique (180), il n’est pas réaliste de
présenter la variance de chacune d’entre elles pour les six variables d’intérêt de cette
expérience. Seulement quelques métriques physiologiques parmi les plus communes de la
littérature seront présentées. Pour l’activité cardiaque, on présente la moyenne de la durée
entre les battements (RRMoy), la variabilité cardiaque (RRSDNN), ainsi que le ratio LF/HF
(RRLF/HF). Pour la respiration, on présente la durée moyenne des respirations (RSPDur) ainsi
que l’amplitude moyenne des inspirations (RSPAMoy). Pour l’activité électrodermale, on
0
0,1
0,2
0,3
0,4
0,5
0,6
Difficulté faible Difficulté élevée
Eff
ort
N-back
Recherche visuelle
73
présente le niveau électrodermal moyen (EDAMoy) et la durée moyenne des réponses
(EDADur). Pour la pupille, on ne présente que le diamètre moyen (PUPMoy). Finalement, pour
les mouvements oculaires, on présente le nombre de fixations (GAZNF), ainsi que la durée
totale des saccades (GAZTotS). Des tests-t sont effectués afin de déterminer si les différences
sont significatives entre les deux niveaux de chaque variable d’intérêt. Les résultats sont
présentés au Tableau 13 (valeurs normalisées). Il est possible de voir que le RRMoy diminue10
entre le repos initial et la tâche, diminue avec l’augmentation de la difficulté ou de l’effort et
augmente lors de la tâche de recherche visuelle. Aucune différence significative n’est
observée pour la variabilité cardiaque (RRSDNN). Quant au ratio RRLF/HF, on peut voir que ce
dernier augmente entre la tâche de n-back et la recherche visuelle. La durée de respiration
(RSPDur)11 observée est plus courte lorsque la performance et l’effort sont élevés. Quant à
l’amplitude respiratoire (RSPAmoy), celle-ci est plus élevée lors des tâches, lorsque la
difficulté est élevée et lorsque la performance est faible. Au niveau de l’activité
électrodermale, l’analyse montre que toutes les variables d’intérêt présentent des différences
significatives. Plus précisément, le niveau électrodermal (EDAMoy) est plus élevé lors du
repos, lorsque la tâche est facile ou stressante, lors du n-back et lorsque la performance et
l’effort sont élevés. Un patron inverse est observable pour l’amplitude des pics
électrodermaux (EDADur), à l’exception du stress, pour lequel aucun effet n’est observé. Au
niveau pupillaire, il est montré que le diamètre pupillaire (PUPMoy) est plus élevé lorsque les
participants sont stressés, lorsqu’ils fournissent un effort et lors de la tâche de n-back.
Finalement, aucune variation significative n’est observée pour les deux métriques oculaires.
Une analyse est également effectuée afin de visualiser la variabilité de toutes les métriques
physiologiques en fonction des variables d’intérêt. Cette information est synthétisée au
Tableau 14. Le tableau présente la moyenne du d de Cohen pour chaque sous-ensemble de
métriques physiologique et chaque variable d’intérêt. Les d de Cohen sont calculés en valeur
absolue pour ne capturer que la magnitude de la taille d’effet (et non la direction). Le tableau
montre que presque tous les sous-ensembles de métriques physiologiques sont différents
10 Affirmer que le RRMoy diminue est l’équivalent de dire que le rythme cardiaque augmente (et vice versa). 11 Affirmer que le RSPDur diminue est l’équivalent de dire que le rythme respiratoire augmente (et vice versa).
74
entre le repos initial et la tâche. L’analyse des pics respiratoires, l’analyse statistique de
l’activité électrodermale ainsi que l’analyse pupillaire semblent présenter de la variance entre
les deux niveaux de difficulté. De manière générale, la variance physiologique semble faible
entre le stress faible et élevé. Les différences sont principalement observées dans l’analyse
des pics électrodermaux ainsi que dans l’analyse statistique pupillaire. Il semble y avoir une
variance très élevée entre les deux tâches, et ce pour presque tous les sous-ensembles de
métriques physiologiques. Pour la performance, la variance semble observable dans l’analyse
respiratoire, dans l’analyse statistique électrodermale ainsi que dans l’analyse fréquentielle
pupillaire. Quant à l’effort, la majorité des sous-ensembles physiologiques semblent
présenter de la variance entre l’effort faible et l’effort élevé.
Tableau 13 -
Taille d’effet des métriques physiologique
Métrique
d de Cohen
Repos
initial Difficulté Stress Tâche Perf. Effort
RRMoy 0,36 -0,33 -0,01 0,85 0,15 -0,42
RRSDNN 0,73 -0,15 0,18 0,14 0,07 0,05
RRLF/HF 0,13 0,18 -0,16 0,34 -0,21 -0,25
RSPDur 1,12 0,20 -0,13 0,13 -0,23 -0,25
RSPAMoy 1,66 0,39 0,01 0,05 -0,36 -0,18
EDAMoy 0,59 -0,60 0,35 -1,26 0,84 0,73
EDADur 0,07 0,27 -0,15 0,78 -0,28 -0,51
PUPMoy 1,86 0,15 0,86 -0,29 0,04 0,67
GAZNF 1,01 0,03 -0,04 0,07 -0,07 0,12
GAZTotS 0,94 0,04 0,12 -0,32 -0,02 0,08
Note. p < 0,05 en gras.
75
Tableau 14 -
Moyenne du d de Cohen par groupe de métriques physiologiques
Type de
métrique
Moyenne du d de Cohen
Repos
initial Difficulté Stress Tâche Perf. Effort
RR SD 0,45 0,17 0,11 0,55 0,11 0,25
VC 0,32 0,17 0,15 0,30 0,20 0,19
RSP
SD 0,41 0,23 0,07 0,37 0,32 0,27
AS 0,53 0,23 0,08 0,44 0,24 0,31
AP 0,83 0,27 0,08 0,36 0,29 0,29
EDA
SD 0,52 0,47 0,23 0,73 0,57 0,50
AS 0,12 0,13 0,21 0,06 0,13 0,13
AP 0,20 0,24 0,29 0,54 0,20 0,38
PUP
SD 1,51 0,27 0,28 0,45 0,23 0,33
AS 0,28 0,31 0,16 0,64 0,39 0,41
AP 1,29 0,17 0,11 0,34 0,17 0,11
GAZ FS 0,84 0,16 0,08 0,32 0,12 0,20
Global 0,58 0,22 0,15 0,40 0,24 0,26
Note. SD = Statistiques descriptives, VC = Variabilité cardiaque, AS = Analyse spectrale,
AP = Analyse de pics, FS = Analyse des fixations/saccades, d ≥ 0,25 en gras.
3.2.4 Analyse des modèles d’apprentissage automatique
Avant d’entraîner les modèles de classification, il peut être pertinent de présenter comment
chaque variable se distingue ou ressemble aux autres. Ainsi, pour chaque paire de variables
d’intérêt, on calcule le Kappa de Cohen. Si, par exemple, une paire présente un κ près de -1
ou près de 1, il n’est pas nécessaire d’entraîner deux classificateurs étant donné que ces
derniers sont presque identiques. Dans cette étude, on choisit que le seuil maximum entre
deux variables soit |κ| < 0,80; ce qui correspond à environ 90% de similitude entre les
variables. Le Tableau 15 montre que les variables de cette analyse sont plutôt différentes.
Aucune comparaison n’est faite avec la variable « Repos initial » étant donné qu’il n’existe
pas de niveaux de difficulté, de stress de performance et d’effort lors du repos initial. Il y a
une forte association négative entre la difficulté et la performance. Mais cette différence n’est
pas assez forte pour justifier de retirer l’une ou l’autre des deux variables. Le Tableau 16
présente les mêmes résultats, mais pour les variables subjectives. Encore une fois, aucune
variable n’est suffisamment associée à une autre pour justifier son retrait. Finalement, le
Tableau 17 présente la vérification de l’indépendance entre les variables objectives et
76
subjectives. Certaines paires, comme la difficulté et l’exigence mentale (κ = 0,48), la
difficulté et l’état général (κ = 0,48), la performance réelle et subjective (κ = 0,58) sont
moyennement associés, mais pas assez pour considérer les deux variables comme identiques.
Tableau 15 -
Vérification de l’indépendance des variables objectives
Stress Tâche Performance Effort
Difficulté 0,0118 0,2570 -0,7251 -0,1128
Stress -0,0154 -0,0271 0,1142
Tâche -0,3130 -0,3939
Performance 0,2800
Note. Mesure fournie en κ entre les variables.
Tableau 16 -
Vérification de l’indépendance des variables subjectives
Ex.T. Perf. Eff. Fru. Foc. Fat. Str. É.G.
Ex.M. 0,3255 -0,4070 0,3039 0,3246 0,1255 0,1441 0,3872 -0,4017
Ex.T. -0,2480 0,3624 0,2671 0,0318 -0,0611 0,4045 -0,1880
Per. -0,1410 -0,4687 -0,1537 -0,1977 -0,3518 0,4481
Eff. 0,2400 -0,0538 -0,1013 0,3364 -0,0254
Fru. 0,1910 0,1544 0,4490 -0,2286
Foc. 0,2342 0,1537 -0,1692
Fat. 0,0584 -0,2710
Str. -0,1915
Note. Mesure fournie en κ entre les variables.
77
Tableau 17 -
Vérification de l’indépendance des variables objectives/subjectives
Difficulté Stress Tâche Performance Effort
Ex.M. 0,4870 0,1735 -0,1068 -0,4150 0,3758
Ex.T. 0,2410 0,2936 0,0006 -0,1468 0,1988
Per. -0,5821 -0,2083 -0,0108 0,5861 -0,1644
Eff. 0,2251 0,1544 -0,0198 -0,0676 0,1904
Fru. 0,3477 0,3072 -0,2043 -0,3234 0,2610
Foc. 0,0930 0,1702 -0,0673 -0,1435 0,1624
Fat. 0,2399 0,0256 0,0811 -0,2823 0,0465
Str. 0,2499 0,4232 -0,2431 -0,2070 0,3217
É.G. -0,4853 -0,1516 -0,0505 0,5407 -0,0618
Note. Mesure fournie en κ entre les variables.
Le Tableau 18 présente la performance des classificateurs SVM pour l’ensemble de tests en
fonction de la classe et du sous-ensemble de métrique physiologique. Les variables du repos
initial et de la tâche présentent les performances les plus élevées (respectivement κ = 0,72 et
κ = 0,76; lorsque toutes les métriques sont fournies). Pour ces deux variables, les prédictions
restent significatives même lorsque le sous-ensemble le plus petit (RR-RSP) est utilisé. Le
classificateur de la difficulté atteint une performance plutôt bonne (κ = 0,38) et seul le groupe
RR-RSP n’a pas permis d’atteindre une classification significative. La performance du
classificateur de stress est légèrement plus faible (κ = 0,26) et n’est significative qu'avec les
groupes RR-RSP-EDA-PUP-GAZ et RR-RSP-EDA-PUP. Quant à la performance et l’effort,
la qualité de prédiction est également bonne (κ = 0,40 et κ = 0,34; respectivement) et la
prédiction n’est non significative que pour le groupe RR-RSP. Quant aux variables
subjectives (le NASA-TLX, voir Tableau 19), seule la dimension du stress s’est montrée
significative (κ = 0,29). Les résultats sont similaires pour la performance en prédiction pour
le classificateur linéaire (voir Tableau 20 pour les valeurs exactes). La différence la plus
importante se trouve au niveau de la classification du stress. En effet, seul le groupe
RR-RSP-EDA-PUP a pu atteindre une classification significative (κ = 0,38) pour cette
variable. Quant aux dimensions subjectives, le classificateur linéaire (Tableau 21) a été
capable d’atteindre une classification significative pour la dimension du stress (κ = 0,28) et
celle de l’exigence temporelle (κ = 0,22).
78
Tableau 18 -
Performance en test des variables en fonction des métriques utilisées pour un classificateur
SVM
Classe Métriques Époques de 120 secondes
κ p
Repos initial
RR-RSP-EDA-PUP-GAZ 0,7211 < 0,001
RR-RSP-EDA-PUP 0,6696 < 0,001
RR-RSP-EDA 0,4595 < 0,001
RR-RSP 0,4312 < 0,001
Difficulté
RR-RSP-EDA-PUP-GAZ 0,3855 < 0,001
RR-RSP-EDA-PUP 0,2925 < 0,001
RR-RSP-EDA 0,3237 < 0,001
RR-RSP 0,1722 0,0164
Stress
RR-RSP-EDA-PUP-GAZ 0,2635 < 0,001
RR-RSP-EDA-PUP 0,2969 < 0,001
RR-RSP-EDA 0,1761 0,0037
RR-RSP 0,0817 0,1710
Tâche
RR-RSP-EDA-PUP-GAZ 0,7676 < 0,001
RR-RSP-EDA-PUP 0,7389 < 0,001
RR-RSP-EDA 0,6334 < 0,001
RR-RSP 0,4786 < 0,001
Performance
RR-RSP-EDA-PUP-GAZ 0,4028 < 0,001
RR-RSP-EDA-PUP 0,3765 < 0,001
RR-RSP-EDA 0,3607 < 0,001
RR-RSP 0,1636 0,0063
Effort
RR-RSP-EDA-PUP-GAZ 0,3483 < 0,001
RR-RSP-EDA-PUP 0,3218 < 0,001
RR-RSP-EDA 0,3097 < 0,001
RR-RSP 0,1989 0,0021
Note. p < 0,001 en gras.
79
Tableau 19 -
Performance en test des réponses subjectives du NASA-TLX pour un classificateur SVM
Classe Métriques Époques de 120 secondes
κ p
Exigence mentale RR-RSP-EDA-PUP-GAZ 0,0451 0,4903
Exigence
temporelle RR-RSP-EDA-PUP-GAZ 0,1150 0,0750
Performance RR-RSP-EDA-PUP-GAZ 0,1099 0,1052
Effort RR-RSP-EDA-PUP-GAZ 0,1696 0,0096
Frustration RR-RSP-EDA-PUP-GAZ 0,0896 0,1707
Focus RR-RSP-EDA-PUP-GAZ 0,0035 0,9599
Fatigue RR-RSP-EDA-PUP-GAZ 0,0922 0,1651
Stress RR-RSP-EDA-PUP-GAZ 0,2999 < 0,001
État général RR-RSP-EDA-PUP-GAZ 0,1809 0,0059
Note. p < 0,001 en gras.
80
Tableau 20 -
Performance en test des variables en fonction des métriques utilisées pour un classificateur
linéaire
Classe Métriques Époques de 120 secondes
κ p
Repos initial
RR-RSP-EDA-PUP-GAZ 0,6483 < 0,001
RR-RSP-EDA-PUP 0,7223 < 0,001
RR-RSP-EDA 0,3703 < 0,001
RR-RSP 0,3605 < 0,001
Difficulté
RR-RSP-EDA-PUP-GAZ 0,2989 < 0,001
RR-RSP-EDA-PUP 0,2989 < 0,001
RR-RSP-EDA 0,1785 0,0078
RR-RSP 0,0997 0,1608
Stress
RR-RSP-EDA-PUP-GAZ 0,1967 0,0026
RR-RSP-EDA-PUP 0,3888 < 0,001
RR-RSP-EDA 0,1106 0,0687
RR-RSP -0,0252 0,6723
Tâche
RR-RSP-EDA-PUP-GAZ 0,7604 < 0,001
RR-RSP-EDA-PUP 0,7801 < 0,001
RR-RSP-EDA 0,5772 < 0,001
RR-RSP 0,5246 < 0,001
Performance
RR-RSP-EDA-PUP-GAZ 0,4273 < 0,001
RR-RSP-EDA-PUP 0,5076 < 0,001
RR-RSP-EDA 0,4051 < 0,001
RR-RSP 0,1113 0,0634
Effort
RR-RSP-EDA-PUP-GAZ 0,3393 < 0,001
RR-RSP-EDA-PUP 0,2797 < 0,001
RR-RSP-EDA 0,2318 < 0,001
RR-RSP 0,2442 < 0,001
Note. p < 0,001 en gras.
81
Tableau 21 -
Performance en test des réponses subjectives du NASA-TLX pour un classificateur linéaire
Classe Métriques Époques de 120 secondes
κ p
Exigence mentale RR-RSP-EDA-PUP-GAZ 0,0123 0,8507
Exigence
temporelle RR-RSP-EDA-PUP-GAZ 0,2211 < 0,001
Performance RR-RSP-EDA-PUP-GAZ 0,0517 0,4286
Effort RR-RSP-EDA-PUP-GAZ 0,1812 0,0065
Frustration RR-RSP-EDA-PUP-GAZ 0,0973 0,1394
Focus RR-RSP-EDA-PUP-GAZ -0,1222 0,0615
Fatigue RR-RSP-EDA-PUP-GAZ 0,1026 0,1165
Stress RR-RSP-EDA-PUP-GAZ 0,2871 < 0,001
État général RR-RSP-EDA-PUP-GAZ 0,1756 0,0072
Note. p < 0,001 en gras.
3.2.5 Méta-analyse des classificateurs
Les résultats présentés précédemment semblent suggérer que la classification est meilleure
lorsque plus de métriques physiologiques sont fournies. Afin de valider cette observation et
de mieux décrire la performance des classificateurs, une régression logistique multiple est
effectuée. Pour chaque échantillon testé par les classificateurs, l’exactitude de la
classification est retenue comme variable dépendante (une variable binaire ayant pour valeur
« 0 » si la classification est incorrecte ou « 1 » si la classification est correcte). Les variables
indépendantes retenues sont le niveau de difficulté, le niveau de stress, la tâche, le niveau de
performance, le niveau d’effort, le sous-ensemble de métriques physiologique ainsi que le
type de classificateur. Les résultats de cette analyse sont présentés au Tableau 22. L’analyse
suggère que la classification est moins bien réussie lorsque les participants fournissent un
effort élevé (β = -0,25; p < 0,001). L’analyse montre aussi que la probabilité de bien classifier
un échantillon augmente lorsque plus de métriques physiologiques sont fournies. Il ne semble
pas y avoir eu une grande différence sur la performance en classification entre le sous-
82
ensemble RR-RPS-EDA-PUP (β = 0,51; p < 0,001) et le sous-ensemble
RR-RSP-EDA-PUP-GAZ (β = 0,49; p < 0,001). Les autres facteurs n’ont pas eu d’influence
sur la performance de classification. On note toutefois une tendance non significative à mieux
classifier lorsque la difficulté est élevée (β = 0,13; p = 0,0834).
Tableau 22 -
Régression logistique multiple effectuée sur la performance en classification
Variable indépendante Coefficient (β)
Constante 0,5539
Difficulté élevée 0,1311
Stress élevé -0,0323
Recherche visuelle (vs. n-back) -0,0492
Performance élevée -0,0794
Effort élevé -0,2516
Métriques RR-RSP-EDA (vs. RR-RSP) 0,2948
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,5191
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,4963
Classificateur linéaire (vs. SVM) -0,0499
Note. p < 0,001 en gras.
La contribution particulière des métriques peut être examinée en analysant les poids
déterminés par les classificateurs. Cette analyse ne peut être effectuée que pour le
classificateur linéaire puisque l’utilisation du kernel rend difficile l’interprétation des poids
du classificateur SVM (Cornuéjols et Miclet, 2010). Le Tableau 23 présente le pourcentage
des poids de chaque modalité physiologique selon le classificateur et le sous-ensemble de
métrique physiologique. Ce pourcentage est ajusté au nombre de métriques présent dans
chaque type de modalité physiologique. Pour le repos initial, lorsque toutes les métriques
sont fournies, les contributions les plus importantes proviennent de la pupille et des
mouvements oculaires. Lorsque les mouvements oculaires sont retirés, la respiration devient
tout aussi importante que la pupille. Finalement, lorsque la pupille est retirée, la respiration
devient la principale source d’information pour le classificateur. Pour la difficulté, on
remarque que les poids sont répartis plutôt également, sauf pour les mouvements oculaires,
qui ne comptent que pour 6% de la contribution. Pour le classificateur du stresseur, la
majorité de la contribution provient de la pupille. Pour la tâche, les poids sont répartis plutôt
uniformément, sauf pour les mouvements oculaires (9%) et la respiration (entre 7% et 37%).
83
Encore une fois, les mouvements oculaires ne sont que peu utilisés pour la classification de
la performance (3%). Lorsque les métriques restantes sont RR-RSP-EDA, 57% des poids
proviennent de l’EDA. Quant à l’effort, la pupille et les mouvements oculaires sont très
utilisés lorsque toutes les métriques sont fournies. Les poids semblent répartis uniformément
pour tous les autres sous-ensembles de métriques. La Figure 18 présente graphiquement les
valeurs de ce tableau pour le groupe RR-RSP-EDA-PUP-GAZ.
Tableau 23 -
Pourcentage de la contribution des modalités physiologiques selon les classificateurs
Classe Métriques Pourcentage de contribution
RR RSP EDA PUP GAZ
Repos initial
RR-RSP-EDA-PUP-GAZ 3% 18% 2% 34% 44%
RR-RSP-EDA-PUP 6% 43% 7% 45% -
RR-RSP-EDA 3% 93% 4% - -
RR-RSP 17% 83% - - -
Difficulté
RR-RSP-EDA-PUP-GAZ 17% 11% 29% 37% 6%
RR-RSP-EDA-PUP 14% 13% 29% 44% -
RR-RSP-EDA n.s.
RR-RSP n.s.
Stress
RR-RSP-EDA-PUP-GAZ n.s.
RR-RSP-EDA-PUP 10% 7% 19% 63% -
RR-RSP-EDA n.s.
RR-RSP n.s.
Tâche
RR-RSP-EDA-PUP-GAZ 28% 7% 21% 35% 9%
RR-RSP-EDA-PUP 30% 7% 20% 43% -
RR-RSP-EDA 44% 15% 41% - -
RR-RSP 63% 37% - - -
Performance
RR-RSP-EDA-PUP-GAZ 14% 16% 37% 30% 3%
RR-RSP-EDA-PUP 11% 16% 39% 33% -
RR-RSP-EDA 21% 22% 57% - -
RR-RSP n.s.
Effort
RR-RSP-EDA-PUP-GAZ 13% 10% 15% 35% 27%
RR-RSP-EDA-PUP 20% 12% 17% 52% -
RR-RSP-EDA 31% 32% 37% - -
RR-RSP 56% 44% - - -
Note. Résultats rapportés seulement pour le classificateur linéaire. Seuls les classificateurs
ayant atteint le seuil de signification sont rapportés. Les autres sont marqués « n.s. ». À
cause de l’arrondissement des valeurs, la somme d’une ligne peut ne pas toujours donner
100%.
84
Figure 18 : Contribution des modalités physiologiques selon le classificateur.
Pour clore cette analyse, la liste des 10 métriques physiologiques les plus utilisées par chaque
classificateur est analysée (lorsque toutes les métriques sont fournies). L’analyse montre que
le repos initial (Tableau 24) est caractérisé par une pupille fortement dilatée (voir rang 1-2)
variant beaucoup de manière lente (rang 9-6 respectivement), un grand nombre de saccades
oculaires (voir rang 3) et une respiration profonde, irrégulière et lente (voir rang 4-5-8
respectivement). Une difficulté élevée (Tableau 25) est caractérisée par un rythme cardiaque
plus élevé (temps inter battement plus faible) (rang 1-4), une diminution des basses
fréquences de l’EDA (rang 2), une transition vers les hautes fréquences pupillaires (rang-3-
8-10) et une pupille initialement petite qui augmente de manière progressive avec la tâche
(rang 5-6). Le classificateur du stress (Tableau 26) a déterminé qu’un stress élevé faisait
augmenter le diamètre de la pupille (rang 1-2), faisait augmenter ses fréquences moyennes et
hautes (rangs 8-10 et 3-4 respectivement), faisait augmenter le maximum des basses
fréquences cardiaques (rang 4) et générait des pics amples d’activité électrodermale dans la
bande 70 à 80 mHz (rangs 6-7-9). Le classificateur de tâche (Tableau 27) montre que la tâche
de recherche visuelle, à l’instar de la tâche de n-back, était caractérisée par une pupille
initialement petite, croissante pendant la tâche (rangs 1-3) et variant de manière lente (rangs
7-8). On remarque également une diminution de l’EDA (rangs 2-10) et de l’activité cardiaque
(rangs 5-6) et une activité cardiaque étendue sur une plus grande plage (rangs 4-9). Une
performance (Tableau 28) élevée est caractérisée par une transition vers les basses fréquences
0%
10%
20%
30%
40%
50%
60%
70%
Repos initial Difficulté Stress Tâche Performance Effort
Po
urc
enta
ge
con
trib
uti
on
RR RSP EDA PUP GAZ
85
de l’EDA (rangs 1-3, le rang 9 contredit toutefois un peu cette suggestion), un EDA élevé
(rangs 2-4-8) et une diminution du diamètre pupillaire (rangs 5-6). Finalement, un effort élevé
(Tableau 29) est caractérisé par une pupille de grand diamètre (rangs 1-2), une transition vers
les basses fréquences pupillaires (rangs 4-5-9), un moins grand nombre de saccades (rang 6),
une respiration plus lente (rangs 7) et une activité cardiaque plus lente et irrégulière (rangs
3-8).
Tableau 24 -
Métriques ayant les plus grands poids pour la classification de la classe « Repos initial »
Rang Modalité Métrique βMoy
1 PUP Médiane 0,1120 ± 0,0267
2 PUP Moyenne 0,1100 ± 0,0254
3 GAZ Somme des saccades 0,1085 ± 0,0376
4 RSP Amplitude moyenne des pics 0,1009 ± 0,0330
5 RSP Écart-type des temps intervallées 0,0893 ± 0,0211
6 PUP Maximum du temps inter pic 0,0870 ± 0,0223
7 GAZ Écart-type du temps de saccades 0,0835 ± 0,0366
8 RSP Puissance de la bande 0.125 à 0.150 Hz 0,0693 ± 0,0298
9 PUP Écart-type 0,0672 ± 0,0212
10 RR Maximum bande VLF (Méthode Lomb-Scargle) 0,0614 ± 0,0245
Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.
Tableau 25 -
Métriques ayant les plus grands poids pour la classification de la classe « Difficulté »
Rang Modalité Métrique βMoy
1 RR Médiane -0,1434 ± 0,0241
2 EDA Puissance de la bande 20 à 30 mHz -0,1309 ± 0,0295
3 PUP Puissance de la bande 200 à 225 mHz 0,1303 ± 0,0259
4 RR Moyenne -0,1239 ± 0,0198
5 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1151 ± 0,0153
6 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1146 ± 0,0150
7 PUP Amplitude moyenne des pics -0,1121 ± 0,0315
8 PUP Puissance de la bande 150 à 175 mHz -0,1121 ± 0,0251
9 PUP Moyenne de la pente des pics -0,1008 ± 0,0318
10 PUP Puissance de la bande 175 à 200 mHz 0,0981 ± 0,0237
Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.
86
Tableau 26 -
Métriques ayant les plus grands poids pour la classification de la classe « Stress »
Rang Modalité Métrique βMoy
1 PUP Moyenne 0,2262 ± 0,0406
2 PUP Médiane 0,2260 ± 0,0384
3 PUP Puissance de la bande 200 à 225 mHz 0,1183 ± 0,0339
4 RR Maximum bande VLF (Méthode Welch) 0,1172 ± 0,0340
5 PUP Puissance de la bande 225 à 250 mHz 0,0993 ± 0,0305
6 EDA Amplitude moyenne des pics 0,0942 ± 0,0186
7 EDA Puissance de la bande 70 à 80 mHz 0,0925 ± 0,0233
8 PUP Puissance de la bande 175 à 200 mHz 0,0894 ± 0,0301
9 EDA Pente moyenne des pics 0,0851 ± 0,0190
10 PUP Puissance de la bande 150 à 175 mHz 0,0785 ± 0,0316
Note. Pour la classe « Stress », on utilise exceptionnellement le groupe de métrique
« RR-RPS-EDA-PUP » étant donné que le groupe « RR-RPS-EDA-PUP-GAZ » n’a pas
donné une classification satisfaisante. Intervalle de confiance calculé avec loi de Student,
α = 0,05.
Tableau 27 -
Métriques ayant les plus grands poids pour la classification de la classe « Tâche »
Rang Modalité Métrique βMoy
1 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,2068 ± 0,0226
2 EDA Minimum -0,1909 ± 0,0236
3 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1907 ± 0,0236
4 RR Minimum 0,1852 ± 0,0258
5 RR Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1812 ± 0,0255
6 RR Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1694 ± 0,0256
7 PUP Moyenne du temps de montée des pics -0,1694 ± 0,0218
8 PUP Puissance de la bande 0 à 25 mHz -0,1552 ± 0,0157
9 RR Maximum 0,1537 ± 0,0219
10 EDA Médiane -0,1460 ± 0,0249
Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.
87
Tableau 28 -
Métriques ayant les plus grands poids pour la classification de la classe « Performance »
Rang Modalité Métrique βMoy
1 EDA Puissance de la bande 20 à 30 mHz 0,1532 ± 0,0261
2 EDA Minimum 0,1343 ± 0,0156
3 PUP Puissance de la bande 200 à 225 mHz -0,1290 ± 0,0225
4 EDA Moyenne 0,1225 ± 0,0140
5 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1216 ± 0,0157
6 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1211 ± 0,0158
7 EDA Minimum des temps interpics -0,1167 ± 0,0187
8 EDA Médiane 0,1142 ± 0,0146
9 PUP Puissance de la bande 175 à 200 mHz 0,1115 ± 0,0210
10 RSP Minimum des temps interpics -0,1092 ± 0,0263
Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.
Tableau 29 -
Métriques ayant les plus grands poids pour la classification de la classe « Effort »
Rang Modalité Métrique βMoy
1 PUP Moyenne 0,1544 ± 0,0394
2 PUP Médiane 0,1488 ± 0,0408
3 RR Maximum bande LF (méthode Lomb-Scargle) 0,1115 ± 0,0341
4 PUP Puissance de la bande 0 à 25 mHz 0,0978 ± 0,0281
5 PUP Puissance de la bande 75 à 100 mHz -0,0846 ± 0,0361
6 GAZ Moyenne du temps de saccades -0,0842 ± 0,0343
7 RSP Puissance de la bande 0 à 25 mHz 0,0841 ± 0,0334
8 RR Asymétrie de la distribution 0,0822 ± 0,0286
9 PUP Puissance de la bande 175 à 200 mHz -0,0816 ± 0,0290
10 EDA Minimum du temps de montée de pics -0,0815 ± 0,0321
Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.
3.2.6 Analyses de paramètres supplémentaires
Lors de ces analyses, il a été nécessaire de faire certains choix techniques, tels que le
pourcentage de chevauchement des époques et le nombre de classificateurs entraînés pour
faire un choix de validation. Étant donné le temps de calcul, il n’est pas possible d’explorer
les effets de toutes les combinaisons de paramètres techniques sur la performance en
classification. Toutefois, quelques analyses supplémentaires simples peuvent être effectuées
afin de déterminer leur impact. Comme première analyse, on vérifie l’effet du
chevauchement des époques sur la performance en classification. Deux chevauchements
88
d’époques sont examinés, soit 0% (aucun chevauchement) et 50%. Les résultats sont
présentés au Tableau 30. Les données sans chevauchement sont tirées du Tableau 18 et du
Tableau 20 déjà décrit plus haut. La classe du repos initial n’est pas représentée pour
simplifier les analyses. Tous les modèles de ce tableau sont entraînés avec toutes les
métriques physiologiques. L’analyse montre que l’inclusion du chevauchement n’améliore
pas la qualité de la classification. On décèle même plutôt une tendance à la faire diminuer
(β = -0,09; p = 0,08). Comme relevé précédemment, l’effort élevé est associé à une moins
bonne qualité de classification. Cette fois-ci, on note un effet significatif de la difficulté
(β = 0,21; p = 0,0167). Il semble que lorsque les tâches sont difficiles, les classificateurs sont
plus performants.
Tableau 30 -
Performance des classificateurs en fonction du chevauchement des époques
Variable Classificateur Chevauchement des
époques
Époques de
120 secondes
κ p
Difficulté
SVM 0% 0,3855 < 0,001
SVM 50% 0,2677 < 0,001
Linéaire 0% 0,2989 < 0,001 Linéaire 50% 0,2952 < 0,001
Stress
SVM 0% 0,2635 < 0,001
SVM 50% 0,2409 < 0,001
Linéaire 0% 0,1967 0,0026
Linéaire 50% 0,2588 < 0,001
Tâche
SVM 0% 0,7676 < 0,001
SVM 50% 0,6224 < 0,001
Linéaire 0% 0,7604 < 0,001
Linéaire 50% 0,6803 < 0,001
Performance
SVM 0% 0,4028 < 0,001
SVM 50% 0,4000 < 0,001
Linéaire 0% 0,4273 < 0,001
Linéaire 50% 0,3788 < 0,001
Effort
SVM 0% 0,3483 < 0,001
SVM 50% 0,3204 < 0,001
Linéaire 0% 0,3393 < 0,001
Linéaire 50% 0,2566 < 0,001
Note. Résultats présentés avec toutes les métriques (RR-RSP-EDA-PUP-GAZ), (p < 0,001
en gras).
89
Tableau 31 -
Régression logistique multiple effectuée sur la performance en classification
Variable indépendante Coefficient
Constante 1.0208
Difficulté élevée 0,2140
Stress élevé -0,0252
Recherche visuelle (vs. n-back) -0,0414
Performance élevée -0,0891
Effort élevé -0,3624
Classificateur linéaire (vs. SVM) -0,0244
Chevauchement (vs. sans chevauchement) -0,0935
Note. p < 0,001 en gras.
3.3 Discussion
Les résultats présentés précédemment montrent qu’il a été possible d’entraîner des
classificateurs pouvant prédire différentes variables d’intérêt relatives à cette expérience. Il
est toutefois nécessaire de discuter des résultats obtenus afin de voir s’ils permettent bien
l’atteinte des objectifs de ce projet. La présente section discutera d’abord des différentes
mesures (subjectives, comportementales et physiologiques) qui ont été enregistrées. Cette
discussion permettra de mieux décortiquer les variations de la charge mentale telle qu’elle a
été vécue par les participants. La discussion poursuivra avec une analyse des classificateurs,
de leur performance ainsi que de leur fonctionnement. Finalement, un bref retour sur les
objectifs globaux et des suggestions pour l’expérience suivante concluront la section.
3.3.1 Discussion sur les mesures
Cette expérience avait pour but de provoquer diverses formes de charge mentale lors de la
réalisation de tâches expérimentales simples. Bien que les manipulations expérimentales de
difficulté, de stress et de tâches aient été faites de manière à être indépendantes les unes des
autres, l’expérience, telle que vécue par les participants, peut avoir été différente. Cette
section détaillera les diverses mesures, subjectives, comportementales et physiologiques, afin
de mieux comprendre comment les différentes composantes de la charge mentale ont évolué
au cours de l’expérience.
90
3.3.1.1 Discussion sur les mesures subjectives
Les résultats du NASA-TLX permettent de décortiquer la charge mentale subjective des
participants. Tel qu’on peut s’y attendre, l’augmentation de la difficulté a provoqué une
augmentation de l’exigence mentale perçue. Malgré que, dans cette étude, le stresseur retenu
visait à être distinct de l’exigence mentale, les participants ont indiqué que la présence du
stresseur augmentait aussi l’exigence mentale. Ce résultat est probablement causé par les
instructions qu’on reçut les participants. Ces instructions leur disaient que la présence de la
punition sonore aversive était causée par une mauvaise performance. Rappelons que cette
punition sonore était, en réalité, déclenchée de manière aléatoire. Cette augmentation de
l’exigence mentale n’est toutefois pas une erreur de conception de l’expérience. En effet, les
instructions précisaient aussi que la punition sonore n’était pas associée à une tâche plus
difficile. Il est donc possible que les participants n’aient pas cru les instructions ou qu’ils les
aient oubliés au moment de faire la tâche. Il est également possible que la présence du
stresseur ait créé une forme de charge extrinsèque (voir Galy, Cariou et Mélan, 2012) et que
les participants l’aient perçu ainsi au lieu de par le stress.
Un patron similaire a été observé pour l’exigence temporelle. La difficulté et le stress ont
tous deux augmenté l’exigence temporelle perçue. Une interaction a toutefois été observée
entre le stress et la tâche. Cette interaction peut facilement être expliquée en comparant les
deux tâches. La principale difficulté de la tâche de n-back provient possiblement de la charge
en mémoire qu’elle impose (Schoofs, Preuß, Wolf, 2008). Même si les participants recevaient
comme instruction de répondre le plus rapidement possible, ces derniers n’ont pas considéré
que la tâche était plus temporellement exigeante à la difficulté élevée. À l’inverse, la tâche
de recherche visuelle était beaucoup plus associée à une exigence temporelle puisque les
participants avaient très peu de temps pour effectuer leur recherche. L’exigence temporelle
est souvent associée au stress (p.ex. Matthews et Campbell, 2010). Étant donné que
l’exigence temporelle était plus élevée lors de la recherche visuelle, on pourrait faire
l’hypothèse que cette dernière était plus stressante. Les résultats des analyses montrent
toutefois le contraire. Dans l’ensemble, la tâche de n-back a été perçue comme plus stressante
et plus frustrante. Le stress et la frustration, bien que fortement influencée par la présence du
91
stresseur, ont également augmenté avec la difficulté, renforçant encore une fois la difficulté
à éliciter de manière indépendante de l’exigence ou du stress.
Étrangement, les participants ont indiqué qu’ils n’ont pas effectué un effort plus grand
lorsque le stresseur était présent, mais seulement lorsque la difficulté augmentait.
L’augmentation de l’effort provoqué par la difficulté est attendue. Ce résultat montre que la
charge mentale n’était pas maximale lors des conditions faciles, puisque les participants
avaient encore des ressources supplémentaires à investir lors des niveaux de difficulté élevés.
L’absence d’effort supplémentaire lors de la présence du stresseur peut laisser croire que
certains participants se sont doutés que la punition sonore n’était pas réellement associée à
leur performance puisqu’ils n’ont pas senti le besoin d’investir plus d’effort lorsque celle-ci
était présente. Cette punition « injustifiée » peut donc avoir été une source de frustration et
de dérangement chez les participants. Les scores de frustration et de stress sont d’ailleurs
plus élevés en présence du stresseur. Les corrélations entre le temps passé sur la recherche
visuelle et l’effort/la frustration NASA-TLX pourrait d’ailleurs être expliqués par le fait que
plus l’expérience progressait, plus les participants entendaient la punition sonore et plus ils
étaient frustrés l’entendre malgré leur performance. Malgré que la présence du stresseur n’ait
que très peu affecté la performance, les participants ont rapporté avoir eu une moins bonne
performance lors des conditions stressantes. L’hypothèse la plus probable pour expliquer ce
résultat se trouve probablement dans les instructions de la tâche, qui, encore une fois,
précisaient que la punition sonore était provoquée par leur mauvaise performance.
Quant à l’évaluation subjective de la fatigue, seul un effet de la difficulté a été observé.
Malgré que la tâche de recherche visuelle ait toujours passé en deuxième, les participants
n’ont pas rapporté être plus fatigués lors de cette dernière. La fatigue était aussi constante à
l’intérieur des quatre essais de chaque tâche. Cette absence d’effet est possiblement causée
par la faible durée totale de l’expérience. En effet, chaque essai prenait un peu plus de 2
minutes à compléter, ce qui fait que le temps total de passation, incluant les pauses et les
questionnaires, était de moins d’une heure.
92
3.3.1.2 Discussion sur les mesures comportementales
L’effet simple de la difficulté sur la performance est un indice qui suggère que la
manipulation expérimentale a été réussie et que l’exigence mentale était effectivement plus
élevée lors des conditions difficiles. Malgré que la tâche de n-back ait été jugée plus
stressante, plus frustrante et également plus exigeante, celle-ci a été mieux réussie que la
tâche de recherche visuelle. Il est possible de faire l’hypothèse que ce résultat est causé par
la fatigue des participants (étant donné que la recherche visuelle passait toujours en
deuxième). Les mesures subjectives et la courte durée de l’expérience laissent toutefois croire
que la fatigue n’a pas eu un effet considérable pendant l’expérience. L’interaction entre la
difficulté et la tâche suggère simplement que l’écart entre les niveaux de difficulté était plus
grand pour la tâche de recherche visuelle que pour le n-back. Mis à part les hypothèses
relatives à la charge mentale, il est important de garder en-tête que la performance des deux
tâches ont été obtenue en faisant une normalisation entre le meilleur et le pire score de chaque
tâche. Il est donc nécessaire d’être prudent dans la comparaison de la performance entre les
deux tâches.
Quant à la mesure de l’effort, les résultats montrent que celui-ci était plus élevé lors de la
tâche de n-back. Ils montrent également que l’effort augmentait avec la difficulté lors du
n-back, mais diminuait avec la difficulté lors de la recherche visuelle. En comparaison avec
l’exigence mentale, l’effort mental est rarement mesuré. Celui-ci est plutôt estimé avec des
marqueurs physiologiques (p.ex. Fairclough et Houston, 2004). Il est donc difficile de
comparer les résultats obtenus avec la littérature. Peu d’indices laissent croire que les
individus vont fournir moins d’effort à une tâche de recherche visuelle plutôt que de n-back.
Tout comme pour la performance, cette baisse pourrait être attribuable à la fatigue. Il est
également possible que l’évaluation subjective de l’exigence mentale ait été biaisée lors de
l’expérience. En effet, comme l’ordre des tâches n’était pas contrebalancé, ou encore que les
deux tâches n’étaient pas mélangées, il n’y avait qu’un seul moment dans toute l’expérience
où les participants passaient de n-back à la recherche visuelle, diminuant le nombre
d’occasions où ces derniers pouvaient comparer les deux tâches entre-elles. Quant à
l’interaction, elle suggère que l’augmentation de la difficulté, lors de la tâche de n-back, était
accompagnée d’une évaluation plus prononcée de l’exigence mentale. À l’inverse, la baisse
93
d’effort en recherche visuelle suggère que les participants avaient des résultats moins bons,
mais qu’ils ne considéraient pas que la tâche était plus difficile.
3.3.1.3 Discussion sur les mesures physiologiques
Afin de complémenter les mesures subjectives et comportementales, il est possible d’analyser
aussi les mesures physiologiques. Toutefois, il est important de garder à l’esprit qu’une des
problématiques de ce projet de thèse est le manque de diagnosticité des mesures
physiologiques périphériques de la charge mentale. Il est donc nécessaire d’interpréter les
manifestations physiologiques mesurées dans cette expérience avec prudence. Tel que décrit
dans la section des résultats, seulement 10 des 180 métriques physiologiques sont détaillées
plus en profondeur.
Malgré que la littérature détaille en grand nombre les effets de l’exigence et du stress sur les
diverses métriques cardiaques, et particulièrement celles associées à la variabilité cardiaque,
celles-ci, de manière générale, n’ont pas présenté de fortes différences entre les différents
niveaux de difficulté et de stress. Rappelons que trois métriques cardiaques ont été retenues
pour une analyse plus détaillée (la durée entre les battements cardiaques, la variabilité
cardiaque et le ratio des basses sur les hautes fréquences cardiaques). La durée entre les
battements cardiaque est, au mieux, un indicateur général de l’activation de l’individu (Betts,
2013). Il est donc normal que cette dernière diminue entre le repos et la tâche et qu’elle
diminue avec l’augmentation de la difficulté et de l’effort. Deux hypothèses peuvent être
retenues pour l’augmentation de la durée entre les battements cardiaques pour la tâche de
recherche visuelle (par rapport à la tâche de n-back). Il est d’abord possible de suggérer que
le simple fait de rester assis ait diminué le rythme cardiaque. Toutefois, Fairclough, Venables
et Tattersall (2005) suggèrent que le rythme cardiaque devrait être plus sensible à l’exigence
qu’au temps passé sur la tâche. Il est donc possible que la tâche de recherche visuelle ait été
moins exigeante et moins stressante. Il est toutefois difficile de se prononcer exactement sur
ce point; les mesures subjectives suggèrent que la recherche visuelle était moins stressante,
mais les mesures comportementales suggèrent qu’elle était plus difficile. Le stresseur n’a pas
eu d’effet sur les trois métriques cardiaques retenues. Ce résultat peut sembler étonnant
considérant que des travaux similaires (p.ex. Mandrick et coll., 2016) repèrent un effet du
94
stresseur sur le rythme et la variabilité cardiaque. Il est possible que l’absence d’effet soit
causée par la faible durée des essais expérimentaux. Typiquement, des périodes de 5 minutes
sont utilisées pour détecter la variabilité cardiaque (Kleiger, Stein et Bigger, 2005). La tâche
est la seule variable dépendante qui a influencé de manière significative le ratio des basses
sur les hautes fréquences cardiaques. Étant donné que le ratio des basses sur les hautes
fréquences est réputé augmenter avec l’exigence, le stress et l’effort et parfois même avec la
fatigue, le ratio des basses sur les hautes fréquences cardiaques permet difficilement de
contribuer au diagnostic.
Les métriques respiratoires obtenues à partir de l’analyse fréquentielle ont fait ressortir de la
variabilité pour plusieurs variables d’intérêt, notamment celles associées à la difficulté, à la
performance et à l’effort. La diminution de la durée respiratoire associée avec l’augmentation
de la performance et l’effort concorde avec Bernardi et coll. (2000). L’absence d’effet de la
difficulté et du stress permet de faire l’hypothèse que la durée respiratoire est un indicateur
un peu plus spécifique à l’effort mental réel investi et moins à l’exigence et au stress. Il est
toutefois possible que l’absence d’effet ait été causée par un faible écart entre les niveaux de
difficulté et une faiblesse du stresseur de manière générale. Quant à l’amplitude respiratoire,
celle-ci a augmenté avec la difficulté et la performance, mais pas avec l’effort. Cette
augmentation pourrait avoir été causée par les soupirs des participants, potentiellement plus
présents lors des tâches difficiles (Vlemincx et coll., 2011). Cet indice n’est toutefois pas une
preuve que les soupirs étaient présents ni que ces derniers sont spécifiques à la difficulté.
L’analyse des métriques retenues par les classificateurs pourra peut-être permettre de vérifier
cette hypothèse.
Au niveau électrodermal, les métriques provenant des statistiques descriptives semblent
celles qui ont présenté le plus de variabilité. L’analyse spectrale, de son côté, n’a pas permis
de faire ressortir un grand nombre de différences entre aucune condition. Il est possible que
la bande fréquentielle utilisée n’ait pas été suffisamment large. Dans Shimorura et coll.
(2008), il est précisé que l’analyse spectrale est effectuée entre 0,03 et 0,5 Hz; soit une bande
plus large que dans cette expérience (0 à 0,1 Hz). Toutefois, l’augmentation de la fréquence
de coupure supérieure aurait également eu comme effet d’augmenter la présence des artéfacts
95
du mouvement des mains, qui était déjà fortement présent sur les signaux. Il faut également
prendre en compte que l’analyse spectrale n’est pas typiquement populaire avec les mesures
électrodermales (Boucsein, 2012). Les deux métriques retenues pour la réponse
électrodermale ont présenté plusieurs différences significatives. La différence importante du
niveau électrodermal entre le repos initial et la tâche est possiblement due au fait que le repos
initial était effectué juste après l’arrivée du participant et l’installation des capteurs
physiologiques. Il est donc possible que le simple fait d’être resté assis sur une chaise pendant
l’expérience ait diminué le niveau électrodermal (Boucsein, 2012). Cette raison pourrait aussi
expliquer la baisse entre la tâche de n-back et la recherche visuelle (laquelle, rappelons-le,
était toujours effectuée après la tâche de n-back). L’effet du temps n’a toutefois pas empêché
le niveau électrodermal de remonter à certains moments. L’analyse montre en effet que la
présence du stresseur, la haute performance et l’effort élevé ont tous fait augmenter le niveau
électrodermal. Ce niveau a aussi significativement diminué lors de l’augmentation de la
difficulté. Les variables d’intérêt ont aussi eu plusieurs effets sur la durée des réponses
électrodermales. Typiquement, plus la durée est longue, moins il y a de réponses
électrodermales qui font remonter le niveau, ce qui signifie que les deux sont généralement
inversés. C’est ce qui est observé dans cette étude. À première vue, il est étonnant que le
stresseur n’ait pas diminué la durée des réponses (Carrillo et coll., 2001). Il est toutefois
possible qu’au lieu d’augmenter le nombre de réponses, la présence du stresseur ait provoqué
quelques réponses d’une très grande amplitude. L’analyse détaillée des classificateurs pourra
peut-être permettre de répondre à cette question.
Les métriques pupillaires, et particulièrement celles associées aux statistiques descriptives et
aux analyses fréquentielles, ont permis de détecter une forte variabilité pour la majorité des
variables d’intérêt. L’induction du stress a provoqué une forte augmentation du diamètre
pupillaire. Bien que certains travaux suggèrent que des stresseurs puissent augmenter le
diamètre pupillaire (p.ex. Partala et Surakka, 2003), un grand nombre de travaux documente
également que des distractions sonores puissent être à l’origine de ces augmentations (p.ex.
Marois, Labonté, Parent & Vachon, 2018; Nieuwenhuis et coll., 2011; Wang & Munoz,
2015). Il est intéressant de remarquer que, malgré l’absence d’effet de la difficulté et de la
performance, l’effort a été associé à une très forte augmentation du diamètre moyen, ce qui
96
suggère que le diamètre pupillaire pourrait être plus spécifique à l’effort que la difficulté de
la tâche.
Finalement, les métriques oculaires n’ont présenté que très peu de variabilité. L’absence
d’effet des variables d’intérêt sur les métriques oculaires (GAZNF et GAZTotS) peut
s’expliquer par deux raisons. Premièrement, les métriques des mouvements oculaires utilisés
dans ce projet sont rudimentaires. Deuxièmement, il a été choisi de n’inclure aucune métrique
basée sur la scène et les régions d’intérêt.
3.3.2 Discussion des modèles d’apprentissage automatique
Dans l’ensemble, les modèles d’apprentissage automatique ont atteint des performances très
intéressantes. Selon la méta-analyse des classificateurs, les meilleurs résultats ont été obtenus
par le sous-ensemble RR-RSP-EDA-PUP. La performance légèrement inférieure de
l’ensemble RR-RSP-EDA-PUP-GAZ est peut-être attribuable au fait que les métriques du
groupe GAZ n’ont que très peu contribué à la classification.
La méta-analyse des classificateurs a également révélé que lorsque les participants
fournissaient un effort élevé, la qualité de classification diminuait (pour tous les
classificateurs, pas juste ceux de l’effort). Ce résultat peut vouloir suggérer que la signature
physiologique de l’effort mental domine celles des autres dimensions. La revue de littérature
effectuée au Chapitre 1 ne permet pas de lier cette hypothèse à des travaux passés. Selon cette
revue de littérature, c’est plutôt la fatigue qui aurait une signature physiologique dominante
par rapport aux autres. Tel que relevé plus tôt, les résultats subjectifs et la faible durée de
l’expérience ne permettent pas de suggérer que la fatigue a eu des effets majeurs dans cette
expérience. Il est donc impossible de valider la dominance de la signature physiologique de
la fatigue. Mais l’apparence de dominance de la signature physiologique de l’effort, telle que
relevée dans cette étude, pourrait répondre à la moitié de la question. Il serait ainsi intéressant,
dans une étude subséquente, de vérifier si l’effort élevé et la fatigue élevée diminuent la
qualité de la classification. Un tel résultat pourrait peut-être signifier que l’effort mental et la
fatigue ne sont pas orthogonaux et qu’ils constituent plutôt un seul et même axe de la charge
97
mentale (c.-à-d. qu’il serait possible de faire un effort, ou d’être fatigué, mais pas de faire les
deux en même temps).
La méta-analyse des classificateurs a également révélé qu’aucune des deux méthodes de
classification (SVM ou linéaire) n’a permis d’atteindre une meilleure classification. Les
classificateurs SVM sont généralement réputés pour être moins tolérants à la haute
dimensionnalité (versus les classificateurs linéaires). Étant donné l’absence de différence, on
peut faire l’hypothèse que la haute dimensionnalité du présent projet n’a pas été nuisible au
classificateur SVM.
Quant au chevauchement des époques, l’analyse a montré que celle-ci n’affecte pas la qualité
de classification. L’inclusion du chevauchement dans les mesures physiologiques peut
apporter certains bénéfices. Celui-ci permet d’augmenter le nombre d’échantillons
disponibles pour l’entraînement, la validation et l’évaluation des classificateurs. Plus le
chevauchement est élevé, plus grand est le nombre d’échantillons supplémentaire qu’il est
possible d’ajouter. L’ajout du chevauchement permet aussi de capturer des comportements
physiologiques qui échappent parfois aux fonctions calculant les métriques. Dans ce projet,
il est possible que le nombre élevé de métriques ait déjà capturé l’information suffisante à la
classification, ce qui pourrait expliquer pourquoi le chevauchement n’a pas contribué à
l’amélioration de la classification.
3.3.2.1 Classificateurs du repos initial
Il était attendu que les classificateurs du repos initial atteignent une performance très élevée
(voir par exemple Gateau et coll., 2015; Girouard et coll., 2009; Healey et Picard, 2005).
Lors du repos initial, aucune exigence n’est imposée sur les participants et leur effort mental
est presque nul. Leurs niveaux de stress et de fatigue, bien que possiblement non nuls au
départ, n’ont pas encore été affectés par la tâche. Il est donc probable que l’état du repos
initial soit fortement différent de celui des tâches et donc, facilement classifiable.
Bien que le poids de tous les classificateurs n’ait pas été analysé, il semblerait que ce
classificateur est celui qui s’est le plus basé sur les mouvements oculaires pour prendre ses
98
décisions. Les résultats suggèrent que, pendant le repos initial, les individus effectuaient
beaucoup de saccades et que ces dernières avaient une durée plus variable que lors des tâches.
Mis à part de rester assis et au repos, les participants n’ont pas reçu d’instructions (p.ex.
regarder une croix de fixation sur l’écran). Il est donc probable que ces saccades soient
causées par le vagabondage oculaire des participants. L’écran noir, qui était présent lors du
repos initial, pourrait également expliquer l’augmentation du diamètre pupillaire et ses
grandes variations en contraste aux tâches. En plus du vagabondage oculaire, le classificateur
linéaire du repos initial s’est également basé sur des métriques cardiorespiratoires. Au niveau
cardiaque, le classificateur s’est partiellement basé sur une augmentation des très basses
fréquences cardiaques pour repérer le repos initial. Le rôle des très basses fréquences
cardiaques n’est pas bien cerné dans la littérature. Cette manifestation pourrait avoir été
provoquée par l’activité physique (mouvements) que les participants ont faite juste avant le
repos initial. Les très basses fréquences cardiaques pourraient, de manière analogue, avoir
diminué lors des tâches à cause de l’inactivité physique. Au niveau respiratoire, le
classificateur a notamment retenu que le repos initial était associé à une plus grande
variabilité dans la durée des respirations, ce qui concorde relativement bien avec la littérature
qui suggère que la respiration à une plus haute fréquence lors des périodes non chargées
(Bernardi et coll. 2000).
3.3.2.2 Classificateurs de difficulté
Dans le meilleur cas (classificateur : SVM, sous-ensemble : RR-RSP-EDA-PUP-GAZ), le
classificateur de la difficulté a atteint une performance qui correspond à une précision
d’environ 69%. Ce résultat signifie que les modèles développés dans ce projet atteignent
donc une performance similaire à ceux obtenus par des électroencéphalogrammes (71% lors
de la classification entre n-back 1 et 2, Liu et coll., 2017; 76% lors de la classification entre
n-back 0 et 2, Mühl, Jeunet et Lotte, 2014; bien que certains arrivent à des performances plus
élevés, Brouwer et al., 2012) et largement meilleure que les modèles utilisant la spectroscopie
proche infrarouge fonctionnelle (59,5% et 58,% lors de la classification entre n-back 1 et 2;
Liu et coll., 2017; Herff et coll., 2014; respectivement). Ces résultats sont très satisfaisants
considérant que les classificateurs de ce projet : 1) n’utilisent que des capteurs périphériques,
2) classifient la difficulté sans égard à laquelle des deux tâches est effectuée, 3) classifient la
99
difficulté malgré le niveau de stress des participants et 4) se généralisent sur de nouveaux
participants (ce qui n’était pas le cas dans Herff et coll. (2014) ni dans Liu et coll. (2017). Un
des classificateurs de la difficulté (classificateur : SVM, sous-ensemble : RR-RSP-EDA) a
également atteint une performance intéressante, cette fois-ci sans avoir besoin de
l’oculométrie (groupes PUP et GAZ). Ce résultat suggère qu’il pourrait être possible de
classifier l’exigence mentale à l’aide de systèmes très portables et faciles à implémenter dans
des milieux de travail.
La pupille était la modalité physiologique la plus utile pour discriminer les différents niveaux
de difficulté. Tout comme le classificateur de la difficulté du présent projet, Peysakhovich et
coll. (2015), suggèrent que l’augmentation de la charge mentale provoque une transition vers
les hautes fréquences pupillaires. La bande fréquentielle utilisée dans ce projet est plus large
dans Peysakhovich et coll. (2015), ce qui empêche de faire une comparaison précise. Le
passage vers les hautes fréquences pupillaires observé dans cette étude (175 à 225 mHz)
semble toutefois similaire à celui observé dans Murata et Iwase (1998), qui utilisent une
bande plus proche de ce projet. Bien que le diamètre pupillaire soit généralement associé à
l’exigence mentale (Beatty, 1982; Palinko et coll., 2010), le classificateur de la difficulté de
ce projet a plutôt retenu la croissance pupillaire (plutôt que le niveau moyen) comme
indicateur de difficulté. Ce résultat est peut être causée par la courte durée des segments de
tâches, qui n’a peut-être pas laissé le temps au diamètre de se stabiliser. Certaines métriques
cardiaques ont également contribué à la classification de la difficulté. Bien que typiquement
non spécifique à l’exigence mentale, la moyenne et médiane de la durée entre les battements
cardiaques ont fortement contribué à la classification de la difficulté. Tel qu’il était possible
de prévoir en observant la faible variabilité de métriques associées à la variabilité cardiaque,
celles-ci ne semblent pas avoir contribué énormément à la classification de la difficulté.
Encore une fois, la courte durée des époques est possiblement la cause de cette absence. À
l’inverse, malgré que les métriques spectrales de la réponse électrodermale aient présenté très
peu de variabilité, une de ces métriques a fortement influencé la classification de la difficulté.
Plus spécifiquement, l’augmentions de la difficulté semble avoir été associée à une baisse
d’une bande des très basses fréquences électrodermales. Ce résultat ne concorde pas avec la
baisse du niveau électrodermale et l’augmentation de la durée des réponses observée lors de
100
l’analyse des métriques physiologiques. En effet, la baisse constante observée pendant les
conditions difficiles devrait plutôt être associée à une augmentation des basses fréquences
électrodermales. Il est donc possible que la baisse du niveau électrodermale ait été réalisée
dans plusieurs bandes spectrales différentes, mais que celle repérée par le classificateur soit
un indice spécifique associée à la difficulté. D’autres travaux seront nécessaires pour
confirmer ce résultat.
3.3.2.3 Classificateurs de stress
La classification du stress aussi atteint des performances intéressantes. Pour le classificateur
SVM, la meilleure performance correspond à environ 65% de précision. Le classificateur
linéaire a atteint une performance plus élevée (environ 69%). Dans les deux cas, ces
performances ont été atteintes avec le sous-ensemble RR-RSP-EDA-PUP. Ces résultats sont
d’un ordre similaire à Parent et coll. (soumis pour publication) dans lequel les classificateurs
d’un stresseur similaire (c.-à-d. une punition sonore) ont atteint une performance de 63% en
se basant sur la spectroscopie proche infrarouge fonctionnelle. Il est difficile de fournir plus
de comparaison puisque de nombreuses études n’utilisent pas une définition de stress tel
qu’utilisé dans ce projet, mais plutôt un stress mental, correspondant plutôt à une variation
d’exigence (p.ex. Al-Shargie et coll., 2016; Zhai et Barreto, 2006).
Il est intéressant de noter que les sous-ensembles n’ayant pas accès à la pupille ne sont pas
parvenus à classifier correctement le stress. L’analyse des poids suggère d’ailleurs que
plusieurs métriques de la pupille ont contribué à la classification du stress. Contrairement au
classificateur de la difficulté, qui s’est basé sur l’augmentation du diamètre pupillaire, les
classificateurs du stress se sont basés sur le niveau moyen du diamètre pupillaire (un résultat
allant dans la même lignée que ceux de Pedrotti et coll., 2014). De plus, les résultats suggèrent
qu’au lieu d’une transition des basses vers les hautes fréquences pupillaires, le stress était
associé à une augmentation de la puissance de plusieurs bandes fréquentielles. Deux
hypothèses sont retenues pour expliquer la prévalence et le comportement de la pupille dans
la classification du stress. Premièrement, il est possible que les effets de l’exigence et du
stress sur la pupille soient sensiblement les mêmes. Tel que montré par Partala et Surakka
(2003), la pupille tend effectivement à avoir un plus grand diamètre lors des sons aversifs. Il
101
est donc possible que les classificateurs de la difficulté et du stress se soient basés sur des
critères similaires, mais qu’ils aient pu repérer des différences très subtiles (comme la
différence entre le niveau moyen et l’augmentation du niveau) afin de séparer les deux
concepts. Comme seconde hypothèse, il faut également envisager que la difficulté et le stress,
tel qu’induit dans cette expérience, aient tous deux provoqué un état mental similaire. Les
instructions données au participant précisaient que l’occurrence du stresseur (la punition
sonore) était associée à une mauvaise performance. Il est donc possible que l’augmentation
du diamètre pupillaire ait été provoquée par un effort mental plutôt qu’un état de détresse.
Finalement, il est également possible que la punition sonore ait provoqué une capture
attentionnelle, laquelle est connue pour avoir des effets sur le diamètre pupillaire (Marois,
Labonté, Parent et Vachon, 2018).
3.3.2.4 Classificateurs de tâche
Rappelons que dans ce projet, le type de tâche n’a pas été retenu comme dimension de la
charge mentale. Tel que décrit dans la section 1.1, certains auteurs suggèrent de diviser la
charge mentale selon la modalité de tâche. C’est par exemple le cas de Hoedemaeker (2002)
qui sépare entre autres la charge visuelle de la charge mentale. Néanmoins, il a quand même
été choisi d’entraîner et tester des classificateurs visant à prédire la tâche effectuée par les
participants. Banville (2015) rapporte la performance en classification entre sept différentes
tâches mentales à l’aide d’électroencéphalographie et de spectroscopie proche infrarouge
fonctionnelle. Selon ses résultats, la performance en classification binaire (c.-à-d. entre deux
des sept tâches) varie de κ = 0,40 à κ = 0,82 selon la paire de tâches observées, ce qui signifie
que les meilleurs résultats de classification de tâche dans cette expérience (κ = 0,78) sont
plutôt élevés, considérant qu’ils n’utilisent que des mesures périphériques. La classification
de la tâche est également restée plutôt bonne, même en absence de métriques oculaires.
Les tâches de n-back et de recherche visuelle diffèrent largement en termes d’exigence
visuelle. Le n-back ne requiert que peu de mouvements oculaires, puisque tous les stimuli
sont placés au même endroit, au centre de l’écran. À l’inverse, la tâche de recherche visuelle
demande un balayage visuel sur toute la surface de l’écran. Malgré cette différence majeure,
l’ajout du sous-ensemble de métrique GAZ, lequel regroupant les métriques relatives aux
102
fixations et saccades, n’a que peu contribué à la qualité de classification de la tâche. Dans le
cas du classificateur linéaire, la performance en classification est même moins bonne en
présence du sous-ensemble GAZ (en comparaison avec le sous-ensemble
RR-RSP-EDA-PUP). En analysant les poids des métriques du classificateur linéaire, on
confirme également que les métriques du groupe GAZ n’ont que très peu contribué à la
qualité de classification de la tâche. Bien qu’optimale avec le sous-ensemble
RR-RSP-EDA-PUP, la classification de la tâche a été quand même possible jusqu’avec le
plus petit sous-ensemble (RR-RSP). Ce résultat peut paraître étonnant vu les différences
importantes en termes d’exigence visuelle entre les tâches. Il est donc clair que des
manifestations cardiorespiratoires ont été suffisantes pour distinguer les deux tâches.
Quelques hypothèses peuvent être retenues pour expliquer ce résultat. Tout d’abord, l’ordre
des tâches n’étant pas contrebalancé, il est possible que le classificateur de tâche ait plutôt
regardé des marqueurs associés au temps passé à faire l’expérience. Lorsqu’on observe les
métriques ayant eu la plus grande importance pour ce classificateur, on remarque d’ailleurs
qu’elles correspondent aux manifestations de la détente et la relaxation, comme une baisse
du rythme cardiaque (Vuksanović et Gal, 2007) et baisse du niveau électrodermal dans la
tâche de recherche visuelle (Kappeler-Setz et coll., 2013). Il est également possible que le
classificateur de tâche ait plutôt été un autre classificateur d’effort mental. En effet, les
analyses subjectives et comportementales, ainsi que l’analyse de l’indépendance des classes
objectives, suggèrent toutes que la tâche de recherche visuelle était associée à une
performance et un effort mental plus faible, ce qui pourrait suggérer que les classificateurs
ont plutôt repéré des manifestations d’effort mental plutôt que de la tâche ou du temps passé
à faire la tâche.
3.3.2.5 Classificateurs de performance
L’analyse de l’indépendance des classes suggère une association très forte entre la difficulté
et la performance. Cette association est attendue puisque la normalisation de la difficulté s’est
faite de manière intraindividuelle. Il a donc été très fréquent que les conditions faciles
correspondent aussi aux performances qui étaient supérieures à la moyenne personnelle des
individus et que les conditions difficiles correspondent aux performances inférieures à leur
moyenne. Malgré cette association, les classificateurs de la difficulté et de la performance
103
semblent être très différents. Tout d’abord, les classificateurs de la performance ont obtenu
une performance en classification généralement plus élevée que les classificateurs de la
difficulté. Le meilleur classificateur de la performance a obtenu une performance de κ = 0,51
versus un κ = 0,30 pour l’équivalent en difficulté. Cette meilleure performance en
classification pourrait suggérer que les mesures physiologiques sont plus facilement
influencées par l’état réel de l’individu que dans la condition dans laquelle il se trouve.
Les classificateurs de performance et de difficulté ne se sont pas non plus basés sur les mêmes
métriques physiologiques pour établir leurs prédictions. Le classificateur de performance est
celui qui semble s’être le plus fortement basé sur la réponse électrodermale. Dans l’ensemble,
une performance élevée a été associée à une augmentation globale du niveau électrodermal
et une augmentation du nombre de réponses électrodermales. Ce résultat est attendu puisque
lorsque la difficulté est élevée (donc la performance souvent faible), on observe un patron
électrodermal inverse. Au niveau pupillaire, une performance élevée a été associée à une
diminution du diamètre pupillaire ainsi qu’une apparence de transition des hautes vers les
moyennes fréquences pupillaires, ce qui s’oppose encore une fois aux métriques retenues par
le classificateur de la difficulté.
3.3.2.6 Classificateurs d’effort
Les classificateurs d’effort ont été entraînés de manière à repérer les essais expérimentaux
pour lesquels les individus percevaient une exigence élevée et performaient quand même
bien. Contrairement à la performance, l’analyse de l’indépendance des classes a suggéré que
l’effort était très différent de la difficulté. C’est également le seul des trois classificateurs qui
a pu atteindre une performance significative avec le groupe de métrique RR-RSP, ce qui
suggère l’identification de métriques cardiorespiratoires associées à l’effort mental. Il est
difficile de comparer la performance des classificateurs d’effort avec d’autres travaux
puisque celui-ci est rarement défini de manière séparée à la difficulté dans la littérature. La
performance des classificateurs d’efforts a toutefois atteint des niveaux similaires aux
classificateurs de la difficulté; et ces derniers atteignent des performances similaires à des
systèmes n’utilisant que l’électroencéphalographie.
104
L’analyse des métriques montre que l’effort élevé était associé à un diamètre pupillaire plus
élevé. Ce comportement est similaire au classificateur du stress et renforce l’idée que les
deux classificateurs ont, en réalité, repéré la signature de l’effort mental plutôt que du stress.
Toutefois, les deux classificateurs n’ont pas retenu les mêmes bandes fréquentielles de
l’analyse pupillaire pour effectuer leur classification. Ces résultats pourraient avoir été causés
par la présence ou l’absence des punitions sonores. Au niveau cardiaque, l’effort mental était
associé à une augmentation de la bande des basses fréquences, ce qui concorde avec la
littérature qui suggère une augmentation de la bande des basses fréquences (Vuksanović et
Gal, 2007), et, indirectement, une augmentation du ratio des basses sur les hautes fréquences
(Cinaz et coll., 2013). L’effort élevé était également associé à des saccades oculaires plus
courtes. Cet indice renforce une fois de plus la validité du classificateur puisque des courtes
saccades oculaires sont parfois associées à une plus grande difficulté (Nakayama Takahashi
et Shimizu, 2002) et une plus grande efficacité (Ellis, 2009)
3.3.2.7 Classificateurs subjectifs
À la lumière de la revue de littérature effectuée dans ce projet, très peu de travaux de
recherche ont tenté de prédire la charge mentale subjective à l’aide de marqueurs
physiologiques. Bien que la majorité des dimensions du NASA-TLX n’ait pas pu être prédite,
les dimensions de l’exigence temporelle et du stress ont été prédites avec une performance
plutôt satisfaisante (κ > 0,2). L’analyse de l’indépendance des classes suggère aussi que ces
deux dimensions n’étaient pas fortement associées, ni entre elles ni avec les dimensions
objectives (voir Tableau 16 et Tableau 17). On peut donc suggérer que l’exigence temporelle
et le stress sont deux états mentaux que les individus sont capables d’évaluer de manière
consistante avec leurs réactions physiologiques.
3.3.3 Discussion générale
Le but de ce chapitre était de déterminer s’il est possible d’obtenir une mesure diagnostique
de la charge mentale dans un contexte de tâches cognitives « simples ». Pour qu’une mesure
soit diagnostique, deux conditions sont requises. Tout d’abord, il est nécessaire que le (ou
les) classificateur d’une dimension de la charge mentale atteigne une performance
satisfaisante en classification (sensibilité). Deuxièmement, il est nécessaire que le
105
classificateur de chaque dimension atteigne sa performance tout en ayant été exposé aux
variations des autres dimensions (spécifiques). Rappelons que quatre dimensions de la charge
mentale sont investiguées : l’exigence mentale, l’effort mental, le stress et la fatigue. La
section suivante discute de chacune de ces quatre dimensions en intégrant les classificateurs
qui sont les plus conceptuellement associés à chaque dimension.
Conceptuellement, les classificateurs les plus en lien avec l’exigence mentale sont sans aucun
doute ceux de la difficulté, de la performance ainsi que de l’exigence mentale et temporelle
subjective. Les résultats suggèrent que l’exigence mentale objective (la difficulté) est
beaucoup plus facile à prédire que l’exigence mentale subjective. S’il a été possible de prédire
l’exigence temporelle, les indices laissent plutôt croire que ce dernier était plutôt associé au
stress. Au niveau physiologique, bien que tous les classificateurs se soient fortement basés
sur la réponse pupillaire, il semble que la signature physiologique de l’exigence mentale soit
relativement distincte du celle associée au stress. Finalement, les résultats suggèrent qu’il est
peut-être préférable d’entraîner des classificateurs sur la performance des individus plutôt
que sur la difficulté de la tâche. Il faut garder en tête que les classificateurs obtenus dans cette
expérience ne se généraliseront possiblement pas bien dans d’autres contextes. En effet, bien
que deux tâches différentes (charge en mémoire et charge visuelle) aient été utilisées, il est
possible d’imaginer d’autres formes d’exigence mentale, comme la planification de stratégies
ou le travail multitâche, qui pourraient causer des réactions physiologiques différentes à
celles reconnues par les classificateurs de cette expérience. De plus, les classificateurs de
cette expérience n’ont pas été entraînés sur des périodes d’exigence mentale prolongées.
Toutefois, à la lumière des résultats obtenus, il semble réaliste d’utiliser les mesures
physiologiques périphériques pour prédire de manière diagnostique le niveau d’exigence
mentale dans des tâches expérimentales simples.
L’effort est, évidemment, associé aux classificateurs d’effort objectif et subjectif et, de
manière indirecte, à la classification de la performance objective et subjective. La
classification objective de l’effort a atteint des performances très intéressantes. De plus, le
choix des métriques physiologiques fait par le classificateur suggère que le concept
correspond bien à celui de l’effort mental. Comme pour tous les classificateurs de cette
106
expérience, il est fort possible que le classificateur de l’effort ne généralise pas bien à d’autres
contextes. Toutefois, le fait qu’il ait été possible de prédire l’effort uniquement avec les
métriques cardiorespiratoires suggère un certain potentiel à généraliser à d’autres contextes.
En effet, le sous-ensemble cardiorespiratoire est le plus parcimonieux, ce qui peut être un
indice d’une meilleure capacité à généraliser (Cornuéjols et Miclet, 2010). À la lumière des
résultats obtenus, il est possible d’affirmer que les mesures physiologiques périphériques
permettent de prédire de manière diagnostique le niveau d’effort mental dans des tâches
expérimentales simples.
Les classificateurs les plus en lien avec le concept de stress sont possiblement ceux du stress
(objectif), du stress (subjectif), de la frustration (subjective) et de l’exigence temporelle
(subjective). Malgré la bonne performance obtenue lors de la classification du stress objectif,
les résultats suggèrent d’être prudents sur la capacité diagnostique des classificateurs du
stress. En effet, le choix du stresseur semble avoir motivé les participants à fournir un effort
plus élevé lorsque ce dernier était présent. De plus, la signature physiologique repérée par le
classificateur du stress ressemble un peu à celle de l’effort. Il est donc possible que les
classificateurs de stress entraîné dans le cadre de la présente étude ne soient en réalité que
des classificateurs d’effort. Les classificateurs de stress subjectifs n’étaient pas associés
directement à la punition sonore. Il est donc possible de suggérer que la prédiction
diagnostique du stress, à l’aide des mesures périphériques, soit quand même réalisable. Des
travaux supplémentaires seront toutefois nécessaires pour s’en assurer.
Quant à la fatigue, les classificateurs les plus conceptuellement associés sont ceux de la tâche,
de la fatigue subjective et, partiellement, ceux du repos initial. Dans l’ensemble, les indices
laissent croire que la fatigue n’a pas fortement influencé les participants de cette expérience.
En effet, l’expérience avait une durée plutôt courte et les mesures subjectives et
comportementales révèlent peu d’effet causé par la fatigue. La classification subjective de la
fatigue n’a pas été fructueuse. La classification du repos initial a été réussie, mais peu
d’indices laissent croire que le classificateur soit spécifique à la fatigue. La classification de
la tâche a été bien réussie dans l’ensemble. Les classificateurs de la tâche n’ont pas retenu
fortement les métriques oculaires, ce qui permet de suggérer qu’ils ont classifié l’état des
107
individus plutôt que la tâche elle-même. Toutefois, il est difficile d’affirmer si cet état est bel
et bien la fatigue ou s’il s’agit plutôt d’une classification de la baisse d’effort observée dans
la recherche visuelle. Dans l’ensemble, on peut donc affirmer qu’il semble possible de prédire
la fatigue de manière diagnostique en utilisant la physiologie périphérique, mais qu’une
expérience supplémentaire sera nécessaire pour s’en assurer.
3.3.4 Leçons pour la prochaine expérience
Le stresseur retenu dans cette expérience a atteint son but en imposant un stress (tel que défini
dans ce projet) aux participants. Toutefois, les indices laissent croire qu’il a également
provoqué une augmentation de l’effort. Ce résultat n’est pas nécessairement une mauvaise
chose. Dans des contextes de travail réel, la détresse, l’anxiété et/ou la peur sont rarement
élicitées de manière indépendante. L’investissement de ressources cognitives accompagne
souvent le stress, soit pour résoudre le stresseur ou en mitiger ses conséquences. Ainsi, la
signature physiologique du stress telle qu’identifiée dans ce projet conserve une certaine
validité écologique. Toutefois, il serait intéressant d’augmenter l’orthogonalité entre l’effort
et le stress afin de mieux cerner la signature physiologique du stress. L’utilisation d’une autre
forme de stresseur pourrait également permettre de distinguer les effets physiologiques
causés par le stress de ceux causés par les distractions auditives.
L’analyse de l’indépendance des classes a montré que les variables d’intérêt retenues dans la
présente étude étaient, dans l’ensemble, différentes les unes des autres. Sans dépasser le seuil
retenu, la difficulté et la performance ont toutefois présenté une forte association. Étant donné
que la performance (telle que prédite par le classificateur) a été calculée en vérifiant si le
participant avait une performance supérieure ou inférieure à sa propre moyenne pour chaque
tâche, il a été très fréquent que les meilleures performances soient obtenues dans les
conditions faciles et que les pires performances soient obtenues dans les conditions difficiles.
Dans une expérience future, il pourrait être intéressant de prédire la performance à partir de
la moyenne de tous les participants afin d’éviter cette similitude.
La courte durée des époques (2 minutes) retenue dans cette expérience a possiblement causé
quelques problèmes. Les métriques physiologiques associées à la variabilité cardiaque ne
108
semblent pas avoir eu une grande pertinence, ce qui est étonnant considérant leur popularité
et leur taille d’effet typiquement plus grande que les métriques statistiques classiques. De
plus, malgré la bonne performance atteinte par la majorité des classificateurs, il est possible
que ces derniers ne généralisent pas à des tâches plus longues. C’est notamment le cas du
classificateur de la difficulté, qui a plutôt retenu l’augmentation du diamètre pupillaire (plutôt
que le diamètre moyen) comme indicateur de difficulté. En pratique, le diamètre pupillaire
ne peut pas augmenter indéfiniment. Il est toutefois possible d’imaginer un scénario où
l’exigence mentale reste élevée pendant de longues périodes. Afin de gagner en
généralisation, il serait pertinent de vérifier si des tâches et des époques plus longues rester
classifiables avec une précision satisfaisante.
Dans cette expérience, une régression logistique a été effectuée sur l’ensemble des
classificateurs afin de déterminer les paramètres qui améliorent ou diminuent la
classification. Dans la prochaine expérience, il pourrait être intéressant de faire une telle
analyse sans grouper les classificateurs (en d’autres mots, de faire une régression logistique
par variable d’intérêt retenue). Cette analyse pourrait permettre de déterminer si la signature
physiologique de certaines sous-dimensions de la charge mentale dominent (ou masques)
celle des autres sous-dimensions. Par exemple, si la signature physiologique de la fatigue est
bel et bien dominante, tel que suggéré à la section 1.3.3.4, alors la classification de toutes les
autres sous-dimensions risque d’être moins bonne lorsque la fatigue est élevée. De manière
similaire, si l’effort et la fatigue ne sont en réalité qu’un seul et même concept, la régression
logistique pourrait montrer que l’effort est difficile à classifier lorsque la fatigue est élevée
et, de manière analogue, que la fatigue est difficile à classifier lorsque l’effort est élevé.
3.4 Conclusion
Le patron de résultats obtenus a montré que les mesures physiologiques étaient capables de
prédire plusieurs dimensions distinctes de la charge mentale avec une précision qui approche
parfois celle obtenue à l’aide d’électroencéphalogrammes. Les résultats permettent entre
autres de bien dissocier la signature de l’exigence mentale et celle de l’effort, deux concepts
souvent regroupés ensemble dans la littérature. Les classificateurs ont aussi été capables de
prédire le niveau de stress objectif et même subjectif des individus. En plus de la bonne
109
performance atteinte par les classificateurs, il est important de garder en-tête que ceux-ci ont
été entraînés de manière à se généraliser à de nouveaux participants, ce qui est rarement tenté
dans les études de ce domaine. De plus, les classificateurs ont été entraînés sur deux tâches
différentes, ce qui permet de les rendre plus robustes à la modalité de tâche.
Au lieu de limiter les classificateurs à quelques métriques physiologiques, les modèles ont
été entraînés à partir d’un grand nombre de métriques souvent non spécifiques à la modalité.
Cette approche a permis de décortiquer les subtilités physiologiques qui sont propres à
chaque dimension de la charge mentale. Bien que les meilleures performances aient été
atteintes en combinant toutes les modalités physiologiques, les résultats suggèrent qu’il est
possible de prédire les dimensions de la charge mentale avec des appareils peu dispendieux
et hautement portables.
110
Chapitre 4 : Diagnosticité en simulation de commandement et
contrôle (C2)
Les tâches expérimentales, comme celles utilisées dans le chapitre précédent, permettent un
grand contrôle des variables d’intérêt et des variables confondantes à l’étude (Brewer, 2000).
Ces tâches souffrent toutefois d’un manque de validité écologique. Ce manque provient du
grand nombre de dimensions cognitives présentes dans les tâches réelles de travail humain.
Si on choisit d’observer, par exemple, une tâche de simulation de C2, des facteurs
confondants comme l’expérience avec les jeux vidéo peuvent faciliter la tâche de certains
individus (p.ex. en améliorant les aptitudes de recherche visuelle; Castel, Pratt et Drummond,
2005; Green et Bavelier 2006). Dans ce cas, ces expériences préalables peuvent augmenter
l’utilisation d’automatismes et diminuer l’effort mental à fournir (Boot et coll., 2008; Paas,
1992; Schlickum et coll., 2009). Dans un même contexte, l’utilisation d’un langage
émotionnellement chargé peut également influencer le stress ressenti de certains individus et
affecter leurs capacités cognitives (Kuhlmann et Wolf, 2005).
Pourtant, tel que détaillé dans la section 1.4.2, trop peu de recherches sur les mesures
physiologiques de la charge mentale sont menées dans des contextes de travail réels
(Friedman, Brouwer et Nijholt, 2017). Les études qui s’y intéressent favorisent d’ailleurs
souvent les mêmes domaines d’application, notamment, celui du transport (Young et coll.,
2015). De plus, certaines études investiguant la mesure physiologique de la charge mentale
en contexte appliqué sont contingentes aux particularités du domaine, ce qui limite la
transférabilité vers d’autres domaines et qui empêche l’établissement de signatures
physiologiques universelles des composantes de la charge de travail. À titre d’exemple,
Cohen, Brinkman et Neerincx (2015) proposent un modèle pour prédire la performance
d’étudiants utilisant un simulateur naval. Le modèle requiert, en entrée, des variables
physiologiques, mais également la difficulté objective des scénarios de simulation, ce qui
signifie que le modèle pourrait difficilement être utilisable en contexte réel où la difficulté
objective n’est pas toujours quantifiable.
111
En réponse à ces limitations, ce chapitre a comme objectif d’étudier la diagnosticité des
mesures physiologiques périphériques de la charge mentale en simulation de C2. Les
simulations sont des reproductions simplifiées des environnements de travail dans lesquels
les éléments pertinents à la recherche sont préservés. Les simulations présentent plusieurs
avantages en comparaison aux études menées directement dans les environnements de
travail. Puisque la simulation est une représentation isomorphique de la tâche (c.-à-d. qui
préserve la même forme que la tâche originale, mais à une plus petite échelle), il est possible
de recruter des non-experts pour la cueillette de données. Il est souvent difficile de recruter
un grand nombre d’experts. Au sein d’une seule ville, il est d’ailleurs possible que le nombre
d’experts C2 disponible soit d’ailleurs insuffisant pour former l’échantillon de donnée requis
pour l’apprentissage automatique. La passation de participants non experts offre comme
avantage d’obtenir un échantillonnage de données plus important. Les simulations permettent
également un plus grand contrôle expérimental. Contrairement au chapitre précédent, dans
lequel des tâches expérimentales simples étaient utilisées, il est attendu que la tâche de C2
provoque une plus grande étendue dans les expériences subjectives qui seront vécues. Il est
donc essentiel d’utiliser le potentiel de contrôle expérimental des simulations afin de
s’assurer qu’il existe au moins une base de comparaison entre les différents participants.
Dans ce chapitre, les participants sont invités à effectuer une simulation du travail d’un
gestionnaire de crise (Gagnon, Couderc, Rivest, 2013). La méthode utilisée dans ce chapitre
est similaire à la précédente. La difficulté et le stress sont manipulés afin de former 4
conditions expérimentales distinctes. Afin d’éviter les réactions physiologiques associées aux
distractions auditives, la punition sonore aversive est remplacée par un stresseur psychosocial
(c.-à-d. la présence d’un acteur). Contrairement au chapitre précédent, une seule tâche est
utilisée, ce qui permet d’éviter la confusion entre la fatigue et la tâche effectuée. La
simulation de travail étant plus longue que les tâches expérimentales, il est possible de tester
des époques plus longues et d’entraîner des classificateurs déterminant le temps passé sur la
tâche. Les époques testés dans ce chapitre ont une durée de 2 ou 5 minutes (respectivement,
7 ou 3 échantillons par condition de 15 minutes). Tel que prévu, les résultats de cette
expérience montrent que la diagnosticité de la charge mentale est plus difficile à atteindre
dans une simulation de travail. Les dimensions de la difficulté et de la performance, qui
112
étaient prédictibles dans le chapitre précédent, ne le sont plus maintenant. L’effort mental,
quant à lui, reste prédictible. L’analyse approfondie des classificateurs suggère que ces
derniers se sont mieux généralisés et donnent des résultats forts enrichissants sur les
dimensions physiologiques de la charge mentale.
4.1 Particularités de méthodologie
4.1.1 Participants
Quarante-huit participants (35 femmes, 19 à 57 ans) ont été recrutés à l’Université Laval et
se sont fait offrir une rémunération de 20 $. Pour participer à l’étude, les participants devaient
avoir une vision normale ou corrigée, aucun problème psychologique, tel qu’un déficit
d’attention ou un trouble neurologique, ni aucun problème cardiorespiratoire tel que
l’asthme.
4.1.2 Tâches expérimentales
Une seule tâche expérimentale a été utilisée dans cette expérience. La tâche était une
simulation de gestion de crise sur la plateforme SYnRGY de Thales (Gagnon, Couderc,
Rivest, 2013). Dans ce logiciel, les participants ont comme mission de répondre à divers
événements d’urgence comme des accidents de voiture, des incendies et des alertes à la
bombe. L’interface qui leur permet de répondre à ces incidents prend forme d’une carte
interactive. Les participants voient, sur cette carte, la localisation des unités d’urgence dont
ils disposent ainsi que la localisation des incidents. Un exemple de l’affichage type du logiciel
est montré à la Figure 19. À l’aide de divers panneaux, les participants peuvent afficher les
propriétés des événements (p.ex. : nombre de personnes impliquées, nombre de victimes,
rayon d’action de la bombe) ou encore des propriétés de leurs unités (p.ex. : vitesse de
déplacement, vitesse d’intervention, capacité à désamorcer des bombes) (voir Figure 20). En
plus de répondre aux incidents, les participants doivent continuellement monitorer et prioriser
leurs interventions. Dans certaines situations, il peut devenir avantageux d’annuler
l’assignation d’une unité pour la réaffecter à un nouvel événement plus grave. Par exemple,
l’occurrence d’une alerte à la bombe peut demander l’intervention de policiers déjà en route
vers un accident mineur de la route. De plus, les participants doivent coordonner les
différentes unités d’urgence dont ils disposent. Par exemple, lors d’un incendie, la présence
113
des pompiers est obligatoire pour sauver des victimes. Les ambulanciers et policiers peuvent
accélérer le sauvetage, mais seulement si les pompiers sont présents. Le logiciel calcule
diverses métriques lors de la simulation. Dans cette expérience, deux d’entre-elles ont été
retenues comme métriques de performance : 1) le pourcentage de victimes sauvées, calculé
en prenant le ratio entre le nombre de personnes sauvées et le nombre de victimes possibles
dans le scénario, ainsi que, 2) le temps de réponse moyen, calculé en prenant le temps entre
l’occurrence d’un événement et la présence sur les lieux d’une unité d’urgence.
Figure 19 : Interface du logiciel de gestion de crise.
114
Figure 20 : Exemple d’un panneau montrant les propriétés d’un incident.
Les participants devaient contrôler deux instances de SYnRGY, une instance pour les forces
policières et une autre pour les pompiers. L’ordinateur sur lequel était menée l’expérience
était muni de deux écrans. Chaque écran était dédié à une instance du logiciel de gestion de
crise. L’écran de gauche était toujours dédié aux forces policières, alors que l’écran de droite
était toujours dédié aux pompiers. Les deux instances du logiciel affichaient la même
simulation. Toutefois, il n’était pas possible de contrôler les forces policières sur l’instance
des pompiers (et vice-versa).
4.1.3 Devis
La difficulté et le stress étaient manipulés en deux niveaux dans cette expérience. Chaque
participant devait donc réaliser quatre simulations (une fois pour chaque combinaison de
niveau de difficulté et de stress). Chaque simulation avait une durée fixe de 15 minutes. Dans
les simulations faciles, le logiciel de gestion de crise imposait six incidents aux participants.
115
Dans les simulations difficiles, le logiciel imposait 12 incidents aux participants. Les
scénarios commençaient tous avec une période sans incident de quelques minutes, suivi par
une augmentation graduelle de la difficulté. Les scénarios devaient tous être différents pour
éviter une mémorisation. Toutefois, les scénarios ont été créés de manière à être les plus
équivalents possible : la distance entre les unités d’intervention et les incidents était similaire,
la gravité des incidents était similaire et les unités requises pour sauver les victimes étaient
aussi similaires. Dans les deux scénarios à détresse faible, le participant réalisait la tâche
alors qu’il était seul dans le local d’expérimentation. Dans les deux scénarios à détresse
élevée, un stresseur psychosocial était imposé au participant. Ce stresseur s’inspire du Trier
Social Stress Task (TSST) (Kudielka et coll., 2007), une tâche souvent utilisée en
psychologie afin d’augmenter le niveau de stress du participant. Typiquement, le TSST
consiste à faire croire au participant qu’un comité d’experts souhaite évaluer ses capacités
intellectuelles. Le participant est ainsi invité à faire une courte présentation orale et à résoudre
une tâche d’arithmétique devant le comité d’experts. En réalité, le comité d’experts est
composé d’acteurs, et la performance à la présentation orale et à la tâche d’arithmétique n’est
pas évaluée. Cette manipulation sert seulement à recréer un stresseur psychosocial. Dans
cette expérience, le stresseur psychosocial prenait une forme similaire. Avant de débuter les
deux simulations à haut niveau de détresse, l’expérimentateur indiquait au participant qu’un
étudiant au doctorat, spécialisé en gestion de crise, allait venir l’observer pendant deux
simulations. Avant la première simulation à haut niveau de détresse, l’expérimentateur
demandait au participant de préparer une courte présentation orale (2-3 minutes) pour vendre
ses talents en gestion de crise à l’acteur. L’expérimentateur laissait 2 à 3 minutes au
participant pour préparer sa présentation. L’acteur était ensuite présenté et le participant était
invité à faire sa présentation. Les participants qui faisaient des présentations trop courtes se
faisaient poser quelques questions par l’acteur afin d’assurer d’un temps similaire entre les
participants. Lorsque la présentation était terminée, le participant était invité à faire une des
quatre simulations de gestion de crise. Pendant cette simulation, l’acteur restait aux côtés du
participant et prenait des notes. À la fin de la simulation, le participant était invité à faire une
courte tâche d’arithmétique. L’acteur demandait au participant de débuter à partir du
nombre 2023 et de soustraire successivement 17 en donnant verbalement sa réponse à chaque
fois. En cas d’erreur, l’acteur informait le participant qu’il devait recommencer à partir d’où
116
il était rendu. L’acteur terminait la tâche lorsque le participant était rendu à 1683 ou lorsque
2 minutes s’étaient écoulées. Une fois la tâche d’arithmétique terminée, le participant était
invité à faire une autre simulation de gestion de crise. L’acteur restait à nouveau pour
observer et prendre (de manière fictive) des notes. À la fin de la deuxième simulation à haut
niveau de détresse, l’acteur quittait la salle. Les niveaux de difficulté, de stress et les scénarios
de simulation étaient tous contrebalancés de manière à éviter un effet d’ordre. Les deux
scénarios à haut niveau de stress étaient toutefois toujours passés un après l’autre de manière
à assurer un stress le plus élevé possible.
4.1.4 Procédure
Les participants étaient accueillis par l’expérimentateur et étaient invités à lire et signer un
formulaire de consentement. Par la suite, l’expérimentateur procédait à l’installation des
capteurs physiologiques. Une fois fait, les participants remplissaient un questionnaire
démographique. Avant de réaliser la tâche, les participants recevaient un entraînement sur le
logiciel de gestion de crise. Cet entraînement prenait la forme d’une présentation Powerpoint.
La présentation était accompagnée d’une voix et présentait plusieurs captures d’écran et
vidéos pour augmenter la qualité de l’apprentissage. En plus de la présentation, les
participants avaient accès à une instance du logiciel et pouvaient utiliser cette instance pour
pratiquer ce qu’ils apprenaient en temps réel. Les participants pouvaient interrompre la
présentation à tout moment pour interroger l’expérimentateur. À la fin du tutoriel,
l’expérimentateur utilisait une liste de vérification afin de s’assurer que le logiciel était bien
maîtrisé par le participant. Le participant complétait par la suite les 4 conditions
expérimentales. Entre chaque condition, le participant était invité à remplir un questionnaire
NASA-TLX et à prendre une courte pause.
4.1.5 Paramètres d’apprentissage automatique
Les classificateurs utilisés dans cette étude sont tous binaires, c’est-à-dire qu’ils apprennent
à discerner entre deux options seulement. Il est donc nécessaire de définir comment chaque
variable d’intérêt est séparée en deux. Ces définitions sont détaillées au Tableau 32. La seule
exception est la variable de l’ordre des conditions. On souhaite être capable de prédire dans
quelle condition, parmi les 4, le participant se retrouve. Comme les classificateurs sont
117
binaires, il est nécessaire d’entraîner plus d’un classificateur pour obtenir quatre valeurs
d’ordre possible. La Figure 21 montre comment trois classificateurs sont ainsi configurés
pour prédire cette variable. Un premier classificateur détermine si le participant a terminé sa
première condition. Un second classificateur détermine si le participant a terminé sa seconde
condition. Finalement, un dernier classificateur détermine si le participant a terminé sa
troisième condition. Pour faire un choix final, on effectue simplement la « somme » de ces
trois classificateurs. Il existe donc quatre sommes possibles : 0, 1, 2 et 3 (pour 1ère, 2e, 3e et
4e condition). Étant donné que les trois classificateurs sont entraînés séparément, il est
possible que les trois ne concordent pas lors de la phase de test. Par exemple, il est possible
que le premier classificateur indique « 0 » (première condition), que le 2e classificateur
indique « 0 » (1ère ou 2e condition) et que le 3e indique « 1 » (4e condition). Dans ce cas, la
somme serait quand même de 1. On dirait alors que le classificateur a déterminé que le
participant serait dans la 2e condition. Cette implication n’affecte pas la validité des résultats,
seulement le fonctionnement interne du classificateur. Des stratégies différentes pourraient
être appliquées pour obtenir quatre classes à partir de classificateurs binaires (voir Hsu et
Lin, 2002). Ce choix a été fait pour simplifier la classification.
Dans ce chapitre, il a été choisi de calculer la performance en la comparant (c.-à-d. en
normalisant) à ceux des autres participants pour le même scénario. Dans le chapitre
précédent, la performance était normalisée par participant, ce qui a provoqué une association
assez forte entre la performance et la difficulté. En normalisant entre les participants, on
entraîne le classificateur à reconnaître les meilleurs participants, plutôt que les meilleures
performances de chaque participant. L’effort est déterminé de la même manière au chapitre
précédent.
118
Tableau 32 -
Définition des variables d’intérêt
Nom de la
variable Description
Repos initial Détermine si le participant est en repos initial ou en condition
expérimentale.
Difficulté Détermine si la condition actuelle est facile ou difficile.
Stress Détermine si l’acteur est présent ou absent.
Ordre des
conditions
Détermine si le participant est à sa 1ère, 2e, 3e ou 4e condition
expérimentale.
Ordre des époques
Détermine si le participant est à la première époque (120 ou 300
secondes) de la condition expérimentale ou s’il a déjà passé cette
époque.
Performance
(% de vie)
Détermine si la performance du participant, basée sur le
pourcentage de vies sauvées, est supérieure ou inférieure aux autres
participants pour ce scénario.
Performance
(temps de
réponse)
Détermine si la performance du participant, basée sur le temps de
réponse, est supérieure ou inférieure aux autres participants pour ce
scénario.
Effort (% de vie)
Détermine si l’effort du participant, basé sur le pourcentage de vies
sauvées, est supérieur ou inférieur aux autres participants pour ce
scénario.
Effort (temps de
réponse)
Détermine si l’effort du participant, basé sur le temps de réponse
aux incidents, est supérieur ou inférieur aux autres participants pour
ce scénario.
Note. Pour, l’ordre des conditions, une configuration à trois classificateurs est utilisée. Voir
Figure 21.
119
Figure 21 : Classificateurs de l’ordre des conditions.
4.2 Résultats
4.2.1 Analyse des réponses subjectives
La Figure 22 présente les moyennes des différentes dimensions du NASA-TLX dans chacune
des conditions expérimentales. Une série d’ANOVA à mesures répétées sont menées ces
scores. Les variables indépendantes retenues pour ces ANOVA sont la difficulté et le
stresseur. Les résultats de ces ANOVA sont présentés au Tableau 33. Le tableau montre que
la variation de la difficulté a influencé plusieurs dimensions du NASA-TLX. Dans les deux
scénarios difficiles, les participants ont rapporté, avec une importante taille d’effet, une plus
grande exigence mentale (𝜂𝑝2 = 0,45; p < 0,001) et temporelle (𝜂𝑝
2 = 0,50; p < 0,001), une plus
faible performance (𝜂𝑝2 = 0,58; p < 0,001), une frustration (𝜂𝑝
2 = 0,45; p < 0,001) et un stress
(𝜂𝑝2 = 0,27; p < 0,001) plus élevé et ont rapporté être dans un moins bon état général
(𝜂𝑝2 = 0,38; p < 0,001). Les participants ont rapporté être légèrement plus fatigués après les
scénarios difficiles (𝜂𝑝2 = 0,12; p = 0,0177). La présence du stresseur semble avoir affecté
moins de dimensions. On peut déceler que les participants ont rapporté un stress
marginalement plus élevé en présence de l’examinateur (𝜂𝑝2 = 0,09; p = 0,0477). Finalement,
les participants ont rapporté être dans un moins bon état général en présence de l’examinateur
Classificateur 1 :
Est-ce que le participant a
terminé une condition?
Classificateur 2 :
Est-ce que le participant a
terminé 2 conditions?
Classificateur 3 :
Est-ce que le participant a
terminé 3 conditions?
Échantillon
Oui
Non
Oui
Non
Oui
Non
+1
+0
+1
+0
+1
+0
∑
+1
Ordre de
condition
120
(𝜂𝑝2 = 0,11; p = 0,0272). Aucune interaction significative n’a été relevée. Afin de vérifier
l’effet de la fatigue sur les réponses subjectives, des corrélations sont calculées entre le temps
passé sur la tâche et les scores bruts et NASA-TLX. Étant donné que le temps passé sur la
tâche est une variable ordinale, on utilise des corrélations de type Spearman. Les résultats de
ces corrélations sont présentés au Tableau 34. On peut y voir que le temps passé sur la tâche
a influencé plusieurs dimensions du NASA-TLX. Avec le temps passé sur la tâche, les
participants ont rapporté une diminution de l’exigence mentale (r = -0,21; p < 0,001) et
temporelle (r = -0,15; p < 0,001), une augmentation de la performance (r = 0,23; p = 0,0019),
une diminution importante de la frustration (r = -0,37; p < 0,001) et du stress (r = -0,31; p <
0,001) et une augmentation importante de la fatigue (r = 0,37; p < 0,001).
Figure 22 : Résultats du NASA-TLX lors de la tâche de C2.
0
1
2
3
4
5
6
7
8
9
10
Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.
ds dS Ds DS
121
Tableau 33 -
Tailles d’effet des ANOVA menées sur les réponses du NASA-TLX
Dimension Facteur 𝜂𝑝2 p
Exigence mentale
D 0,4523 < 0,001
S 0,0018 0,7784
D × S 0,0028 0,7279
Exigence
temporelle
D 0,5013 < 0,001
S 0,0237 0,3070
D × S 0,0067 0,5888
Performance
D 0,5836 < 0,001
S 0,0285 0,2623
D × S 0,0067 0,2394
Effort
D 0,0655 0,0860
S 0,0413 0,1756
D × S 0,0053 0,6291
Frustration
D 0,4497 < 0,001
S 0,0320 0,2344
D × S 0,0004 0,8862
Focus
D 0,0545 0,1185
S 0,0322 0,2326
D × S 0,0157 0,4067
Fatigue
D 0,1212 0,0177
S 0,0294 0,2543
D × S 0,0214 0,3317
Stress
D 0,2695 < 0,001
S 0,0862 0,0477
D × S 0,0012 0,8191
État général
D 0,3753 < 0,001
S 0,1061 0,0272
D × S 0,0064 0,5967
Note. D = Difficulté, S = Stresseur, p < 0.05 en gras.
122
Tableau 34 -
Coefficients de corrélation entre le temps passé sur la tâche et les dimensions du
NASA-TLX
Dimension rspearman p
Exigence mentale -0,2180 0,0033
Exigence temporelle -0,1571 0,0352
Performance 0,2304 0,0019
Effort -0,1196 0,1098
Frustration -0,3787 < 0,001
Focus 0,0362 0,6296
Fatigue 0,3872 < 0,001
Stress -0,3111 < 0,001
État général 0,0458 0,5419
Note. p < 0.05 en gras.
4.2.2 Analyse de la performance et de l’effort
Dans le but de vérifier l’effet des conditions expérimentales sur la performance, on effectue
à nouveau des ANOVA en utilisant cette fois les métriques de performance comme variables
dépendantes. Le Tableau 35 rapporte les valeurs moyennes des trois métriques de
performance. Une ANOVA est effectuée sur ces variables. Les résultats montrent que
l’augmentation de la difficulté a fortement diminué le pourcentage de vies sauvées
(𝜂𝑝2 = 0,93; p < 0,001). L’augmentation de la difficulté a également eu un faible effet sur le
nombre d’assignations (𝜂𝑝2 = 0,10; p = 0,0282). Quant au temps de réponse, il semble y avoir
eu une interaction entre les deux facteurs (𝜂𝑝2 = 0,12; p = 0,0146), un effet du stresseur
(𝜂𝑝2 = 0,09; p = 0,0342) et aucun effet de la difficulté. La Figure 23, qui détaille l’interaction,
suggère que la présence de l’examinateur faisait diminuer le temps de réponse, mais
seulement lorsque la difficulté était élevée. Les corrélations entre l’effet du temps passé sur
la tâche et la performance sont également calculées. Ces dernières montrent que plus les
individus passaient du temps sur la tâche, plus ils diminuaient leur temps de réponse
(r = -0,33; p < 0,001), plus ils sauvaient de vies (r = 0,21; p < 0,001) et plus ils effectuaient
d’assignations (r = 0,40; p < 0,001).
123
Tableau 35 -
Scores moyens de performance dans les quatre conditions
Dimension Difficulté →
Stress ↓ Faible Élevée
Nombre d’assignations Faible -0,1126 0,2103
Élevé -0,2248 0,1317
Pourcentage de vies
sauvées
Faible 0,7846 -0,7737
Élevé 0,6609 -0,6719
Temps de réponse Faible -0,1367 0,4409
Élevé -0,0873 -0,2168
Figure 23 : Temps de réponse en fonction de la difficulté et du stress.
Le Tableau 36 rapporte les valeurs moyennes de l’effort. Les métriques de l’effort étaient
calculées en prenant le produit entre les métriques de performance (normalisées par rapport
au meilleur possible par scénario) et l’évaluation brute de la dimension « Exigence mentale »
du NASA-TLX. Pour l’effort basé sur le temps de réponse, on ne décèle aucune interaction
ni aucun effet simple de la difficulté et du stress. Quant à l’effort basé sur le pourcentage de
vies sauvées, il semble y avoir eu un effet important de la difficulté (𝜂𝑝2 = 0,53; p < 0,001).
Le Tableau 36 suggère que, plus la difficulté était élevée, plus les participants fournissaient
un effort élevé. Il n’y a eu aucune interaction ni effet du stresseur pour cette mesure. Le temps
passé sur la tâche faisait diminuer l’effort investi par les participants. La corrélation est
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
Difficulté faible Difficulté élevée
Per
form
ance
(te
mps
de
réponse
)
norm
alis
ée
Stress faible
Stress élevé
124
significative pour l’effort basé sur le temps de réponse (r = -0,18; p = 0,0144), mais ne l’est
pas pour l’effort basé sur le pourcentage de vies sauvées.
Tableau 36 -
Scores moyens de l’effort dans les quatre conditions
Dimension Difficulté →
Stress ↓ Faible Élevée
Effort (vies sauvées) Faible 0,1813 0,3575
Élevé 0,1881 0,4995
Effort (temps de
réponse)
Faible 0,2058 0,2252
Élevé 0,2067 0,2980
4.2.3 Analyse des métriques physiologiques
Étant donné le nombre élevé de métriques physiologique (180), il n’est pas réaliste de
présenter la variance de chacune d’entre elles pour chaque variable d’intérêt de cette
expérience. Seulement quelques métriques physiologiques seront présentées. Pour l’activité
cardiaque, on présente la moyenne de la durée entre les battements (RRMoy), la variabilité
cardiaque (RRSDNN), ainsi que le ratio LF/HF (RRLF/HF). Pour la respiration, on présente la
durée moyenne des respirations (RSPDur) ainsi que l’amplitude moyenne des inspirations
(RSPAMoy). Pour l’activité électrodermale, on présente le niveau électrodermal moyen
(EDAMoy) et la durée moyenne des réponses (EDADur). Pour la pupille, on ne présente que le
diamètre moyen (PUPMoy). Finalement, pour les mouvements oculaires, on présente le
nombre de fixations (GAZNF), ainsi que la durée totale des saccades (GAZTotS). Des tests-t
sont effectués afin de déterminer si les différences sont significatives entre les deux niveaux
de chaque variable d’intérêt. Les résultats sont présentés au Tableau 37 (valeurs normalisées).
Le tableau montre que la durée moyenne des battements était plus faible lors du repos initial
que lors de la simulation de C2. Le temps passé sur la tâche (ordre des conditions) a augmenté
la durée moyenne des battements. Les battements étaient également plus longs lors de la
première époque de chaque condition. La durée entre les battements cardiaques n’a pas été
influencée par les conditions expérimentales (difficulté et stress), toutefois, cette dernière a
diminué lors des conditions où l’effort était élevé. La variabilité cardiaque était plus élevée
lors du repos initial que lors de la simulation et a augmenté avec le temps passé sur la tâche
125
(ordre des conditions). La variabilité cardiaque était aussi plus longue lors des premières
époques. La variabilité cardiaque était également plus haute lors des conditions où la
performance était élevée. À l’inverse, la variabilité cardiaque a diminué lors de la présence
du stresseur (l’évaluateur) et a diminué lorsque l’effort était plus élevé. Le ratio des basses
sur les hautes fréquences cardiaques n’a montré aucune variation détectable. Au niveau
respiratoire, les résultats montrent que la respiration était plus longue lors du repos initial et
lorsque le stresseur était présent. La durée respiratoire était toutefois plus courte lors des
conditions difficiles et lorsque la performance augmentait. La respiration était plus ample
lors du repos initial et lors de la première époque de chaque condition. L’amplitude
respiratoire diminuait toutefois entre les conditions. Un patron similaire était observé pour le
niveau électrodermal. En effet, ce dernier était plus élevé lors du repos initial et plus élevé
lors des premières époques. Tout comme l’amplitude respiratoire, le niveau électrodermal
diminuait entre les conditions. Les résultats montrent aussi que le niveau électrodermal
n’était pas affecté par les deux facteurs du devis (difficulté et stress), mais qu’il diminuait
lorsque la performance était faible et augmentait lorsque l’effort était élevé. Quant à la durée
des réponses électrodermales, celle-ci était plus courte lors du repos initial, plus longue
lorsque le stresseur était présent et plus longues vers la fin de l’expérience. Pour la pupille,
les résultats montrent que le diamètre pupillaire était plus grand lors du repos initial et qu’il
avait tendance à diminuer avec l’ordre des conditions. Le diamètre pupillaire était plus grand
lors des premières époques. Finalement, au niveau oculaire, les résultats montrent qu’il y a
eu plus de fixations lors du repos initial, plus de fixations vers les premières époques des
conditions et un peu plus de fixations lorsque le temps de réponse était élevé. À l’inverse,
l’effort (basé sur le temps de réponse) a semblé causer moins de fixations oculaires. Quant
au temps total passé en saccade, celui-ci était plus élevé lors du repos initial et vers les
premières époques de chaque condition. À l’inverse, il y avait un temps total de saccade plus
court lorsque le stresseur était présent et lorsque l’effort était élevé.
Une analyse est également effectuée afin de visualiser la variabilité de toutes les métriques
physiologiques en fonction des variables d’intérêt. Cette information est synthétisée au
Tableau 38. Le tableau présente la moyenne du d de Cohen pour chaque sous-ensemble de
métriques physiologique et chaque variable d’intérêt. Les d de Cohen sont calculés en valeur
126
absolue pour ne capturer que la magnitude de la taille d’effet (et non la direction). Ces tests
sont menés sur un découpage d’époques de 300 secondes. Mis à part pour le repos initial,
très peu de sous-ensembles de métrique physiologique ont montré une taille d’effet moyenne
élevée (supérieure au seuil de 0,25). Pour la variable du repos initial, tous les sous-ensembles
ont présenté des tailles d’effet moyennes élevées. Pour la difficulté, le stress, la performance
et l’effort, aucun sous-ensemble n’a dépassé le seuil fixé. Les sous-ensembles cardiaques,
électrodermaux, pupillaires et oculaires ont présenté une variabilité élevée entre la première
époque et les époques subséquentes de chaque condition. L’ordre des conditions, quant à lui,
a causé une variation plus importante au niveau des sous-ensembles cardiaques, respiratoires
et électrodermaux. Il est également possible de noter que cette variation était surtout observée
dans les sous-ensembles de statistique descriptive.
Tableau 37 -
Taille d’effet des métriques physiologique
Métrique
d de Cohen
R.Ini. Diff. Stress Ordre
cond.
Ordre
époq.
Perf.
(%)
Perf.
(temps)
Effort
(%)
Effort
(temps)
RRMoy -0,46 0,07 -0,05 1,18 0,36 0,16 -0,11 -0,28 -0,16
RRSDNN 0,63 -0,13 -0,31 0,92 0,54 0,22 0,00 -0,23 -0,22
RRLF/HF 0,21 -0,03 -0,15 0,07 0,07 0,03 0,05 0,00 0,03
RSPDur 1,19 -0,18 0,30 -0,09 0,03 -0,17 0,04 -0,14 -0,07
RSPAMoy 1,64 -0,06 0,10 -0,37 0,23 -0,05 0,00 0,11 0,05
EDAMoy 0,52 0,01 -0,12 -0,60 0,98 -0,27 0,09 0,30 0,20
EDADur -0,32 -0,03 0,20 0,19 -0,11 0,04 0,00 -0,15 -0,07
PUPMoy 1,35 0,16 0,00 -0,44 -0,82 0,09 0,08 0,12 0,10
GAZNF 2,04 -0,15 -0,16 0,06 0,29 -0,11 0,17 -0,12 -0,18
GAZTotS 2,58 -0,12 -0,22 0,12 0,45 -0,06 0,16 -0,10 -0,18
Note. p < 0,05 en gras.
127
Tableau 38 -
Moyenne du d de Cohen par groupe de métriques physiologiques
Type de
métrique
Moyenne du d de Cohen
R.Ini. Diff. Stress Ordre
(c.)
Ordre
(e.)
Perf.
(%)
Perf.
(temps)
Effort
(%)
Effort
(temps)
RR SD 0,48 0,08 0,15 0,58 0,31 0,10 0,06 0,21 0.13
VC 0,22 0,07 0,19 0,23 0,25 0,06 0,05 0,10 0.09
RSP
SD 0,62 0,07 0,12 0,28 0,18 0,06 0,07 0,15 0.12
AS 0,37 0,08 0,19 0,21 0,14 0,12 0,06 0,10 0.07
AP 0,88 0,10 0,16 0,20 0,11 0,08 0,08 0,09 0.08
EDA
SD 0,60 0,05 0,10 0,29 0,89 0,15 0,06 0,16 0.12
AS 0,44 0,13 0,17 0,03 0,31 0,02 0,10 0,06 0.04
AP 0,44 0,07 0,23 0,17 0,22 0,10 0,06 0,14 0.08
PUP
SD 1,07 0,15 0,09 0,18 0,72 0,08 0,06 0,14 0.13
AS 0,86 0,12 0,10 0,06 0,51 0,04 0,03 0,14 0.13
AP 0,67 0,12 0,16 0,08 0,23 0,07 0,07 0,10 0.11
GAZ FS 1,99 0,12 0,15 0,10 0,36 0,09 0,14 0,09 0.15
Global 0,61 0,09 0,16 0,20 0,30 0,08 0,07 0,12 0,10
Note. SD = Statistiques descriptives, VC = Variabilité cardiaque, AS = Analyse spectrale,
AP = Analyse de pics, FS = Analyse des fixations/saccades, d ≥ 0,25 en gras.
4.2.4 Analyse des modèles d’apprentissage automatique
Avant d’entraîner les modèles de classification, il peut être pertinent de présenter comment
chaque variable se distingue ou ressemble aux autres. Ainsi, pour chaque paire de variables
d’intérêt, on calcule le Kappa de Cohen. Si, par exemple, une paire présente un κ près de -1
ou près de 1, il n’est pas nécessaire d’entraîner deux classificateurs étant donné que ces
derniers sont presque identiques. Dans cette étude, on choisit que le seuil maximum entre
deux variables soit |κ| < 0,80; ce qui correspond à environ 90% de similitude entre les
variables. Le Tableau 39 montre la vérification de cette indépendance pour les variables
objectives. La variable de l’ordre des époques n’est pas présentée puisqu’il n’y avait pas de
variabilité avec les autres variables entre les époques d’une même condition. Dans
l’ensemble, le tableau suggère que ces variables sont fortement indépendantes. La seule
exception au tableau est l’association entre l’effort basé sur le pourcentage de vies et l’effort
basé sur le temps de réaction (κ = 0,71). Cette valeur reste toutefois considérablement sous
le seuil critique fixé. Le Tableau 40 présente la même analyse pour les variables subjectives.
Aucune paire de variables n’excède le seuil critique fixé. On note simplement que la valeur
128
maximale d’association entre deux axes du NASA-TLX est κ = 0,60 (entre l’exigence
mentale et temporelle). Finalement, le Tableau 41 présente la vérification d’indépendance
des variables entre les variables objectives et subjectives. Encore une fois, aucune variable
n’excède le seuil critique fixé. On note également une certaine association entre la difficulté
objective et la performance subjective (κ = -0,61). Les autres associations restent plutôt
faibles.
Tableau 39 -
Vérification de l’indépendance des variables objectives
Stress Ord. (c.) Per. (PV) Per. (TR) Eff. (PV) Eff. (TR)
Diff. 0,0055 0,0024 -0,0928 0,0490 0,1479 0,3477
Stress -0,0318 0,0709 -0,2049 0,0928 0,0929
Ord. (c.) 0,2380 -0,1337 -0,2130 -0,1842
Per. (PV) -0,0761 0,0587 -0,1206
Per. (TR) -0,0315 -0,0819
Eff. (PV) 0,7172
Note. Mesure fournie en κ entre les variables
Tableau 40 -
Vérification de l’indépendance des variables subjectives
Ex.T. Perf. Eff. Fru. Foc. Fat. Str. É.G.
Ex.M. 0,6048 -0,4356 0,2328 0,5045 0,0823 0,1586 0,5401 -0,3239
Ex.T. -0,3686 0,3209 0,3957 0,0352 0,0708 0,5181 -0,1919
Per. -0,1269 -0,5131 -0,1563 -0,1587 -0,4113 0,5192
Eff. 0,3754 0,0104 0,1146 0,3214 -0,1041
Fru. 0,0505 0,1038 0,4633 -0,3792
Foc. 0,1714 0,0986 -0,2251
Fat. 0,1803 -0,2459
Str. -0,3229
Note. Mesure fournie en κ entre les variables.
129
Tableau 41 -
Vérification de l’indépendance des variables objectives/subjectives
Diff Stress Ord. (c.) Per.
(PV)
Per.
(TR)
Eff.
(PV)
Eff.
(TR)
Ex.M. 0,4875 0,1266 -0,2095 -0,2328 -0,0216 0,5134 0,6349
Ex.T. 0,4212 0,1262 -0,1501 -0,1018 -0,0173 0,2488 0,3442
Per. -0,6179 -0,0381 0,2179 0,2363 -0,1334 -0,2014 -0,3327
Eff. 0,1365 0,1916 -0,1204 -0,0806 0,0315 0,2258 0,1647
Fru. 0,4111 0,0938 -0,4115 -0,1777 0,1440 0,1738 0,2718
Foc. 0,0392 0,1150 0,0133 -0,1427 0,0079 0,0337 0,0672
Fat. 0,1694 0,1148 0,3061 -0,0271 -0,0623 0,0385 0,1274
Str. 0,3552 0,1260 -0,2380 -0,1901 0,0315 0,2915 0,3852
É.G. -0,4208 -0,1912 0,0220 0,1697 -0,0400 -0,1365 -0,2692
Note. Mesure fournie en κ entre les variables.
Le Tableau 42 rapporte les résultats des prédictions des huit variables en utilisant un
classificateur SVM. Les résultats présentés sont en fonction de la durée des époques, soit 120
ou 300 secondes, ainsi que du sous-ensemble de métriques physiologiques utilisées. La
variable du repos initial est celle qui a présenté la meilleure performance. Les valeurs de
Kappa pour cette classe varient entre 0,61 et 0,78. Les résultats montrent que Kappa est
toujours plus élevé lorsque la durée des époques est de 300 secondes. De plus, la performance
augmente avec la quantité de métriques physiologiques utilisées. Pour la difficulté, aucun
classificateur n’est arrivé à atteindre le seuil de signification de p < 0,001, ni même le seuil
pour être considéré comme une tendance (p < 0,05). Pour le stress, les valeurs de Kappa
varient entre 0,10 et 0,19. La performance semble encore une fois positivement associée au
nombre de métriques fournies. Les résultats de prédiction de l’ordre des conditions sont
plutôt bons et constants. Dans les différents classificateurs, les valeurs de Kappa se
maintiennent entre 0,23 et 0,29; avec des valeurs de probabilité critique sous le seuil de
signification. La prédiction de l’ordre des époques est également plutôt élevée. La valeur de
Kappa varie entre 0,39 et 0,70. Encore une fois, la performance augmente avec le nombre de
métrique et semble plus grande avec des époques plus longues. La prédiction de la
performance s’est montrée plutôt infructueuse. Un seul classificateur a atteint le seuil pour
être considéré comme acceptable (RR-RSP-EDA-PUP, époques de 120 secondes, κ = 0,10;
p < 0,001). L’effort basé sur le nombre de vies sauvées a pu être prédit pour des époques de
300 secondes et les métriques RR-RSP-EDA-PUP (κ = 0,15; p < 0,001), et a presque atteint
130
le seuil de signification lorsque toutes les métriques étaient fournies. Quelques tendances ont
également pu être décelées, notamment pour le stress (RR-RSP-EDA et RR-RSP, époques
de 300 secondes, κ = 0,11; p = 0,0157 et κ = 0,11; p = 0,0073) et pour l’effort mental
(RR-RSP-EDA-PUP-GAZ, époques de 300 secondes, κ = 0,15; p = 0,0012). Quant à l’effort
basé sur le temps de réponse, les résultats sont plutôt infructueux. Le Tableau 43 rapporte les
résultats des prédictions des neuf questions du NASA-TLX. Seuls les résultats pour les
classificateurs ayant toutes les métriques physiologiques sont présentés. Contrairement aux
classes objectives, les classes subjectives semblent être plus faciles à prédire en utilisant des
époques de 120 secondes. Sur les neuf dimensions du NASA-TLX, aucune n’a pu être prédite
correctement avec des époques de 300 secondes. Seules les dimensions de l’exigence
mentale (κ = 0,12; p = 0,0164), de la frustration (κ = 0,09; p = 0,0428) et du stress (κ = 0,12;
p = 0,0071) ont présenté des tendances. Quant aux époques de 120 secondes, l’exigence
mentale (κ = 0,17; p < 0,001), la frustration (κ = 0,12; p < 0,001) et le stress (κ = 0,11;
p < 0,001) ont pu être prédits de manière significative.
131
Tableau 42 -
Performance en test des variables en fonction des métriques utilisées et de la durée des
époques pour un classificateur SVM
Classe Métriques
Époques de
120 secondes
Époques de
300 secondes
κ p κ p
Repos initial
RR-RSP-EDA-PUP-GAZ 0,7300 < 0,001 0,7850 < 0,001
RR-RSP-EDA-PUP 0,6601 < 0,001 0,6781 < 0,001
RR-RSP-EDA 0,6447 < 0,001 0,7696 < 0,001
RR-RSP 0,6116 < 0,001 0,6929 < 0,001
Difficulté
RR-RSP-EDA-PUP-GAZ 0,0568 0,0607 -0,0043 0,9263
RR-RSP-EDA-PUP 0,0345 0,2464 0,0500 0,2773
RR-RSP-EDA -0,0282 0,3273 -0,0227 0,6018
RR-RSP -0,413 0,1437 -0,0222 0,6105
Stress
RR-RSP-EDA-PUP-GAZ 0,1667 < 0,001 0,1923 < 0,001
RR-RSP-EDA-PUP 0,1496 < 0,001 0,2542 < 0,001
RR-RSP-EDA 0,1645 < 0,001 0,1061 0,0157
RR-RSP 0,1048 < 0,001 0,1148 0,0073
Ordre des
conditions
RR-RSP-EDA-PUP-GAZ 0,2808 < 0,001 0,2906 < 0,001
RR-RSP-EDA-PUP 0,2316 < 0,001 0,2889 < 0,001
RR-RSP-EDA 0,2868 < 0,001 0,2601 < 0,001
RR-RSP 0,2646 < 0,001 0,2939 < 0,001
Ordre des
époques
RR-RSP-EDA-PUP-GAZ 0,5626 < 0,001 0,7094 < 0,001
RR-RSP-EDA-PUP 0,4155 < 0,001 0,4610 < 0,001
RR-RSP-EDA 0,4453 < 0,001 0,4966 < 0,001
RR-RSP 0,4220 < 0,001 0,3948 < 0,001
Performance
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ 0,0473 0,1186 0,0453 0,3397
RR-RSP-EDA-PUP 0,0474 0,1138 0,0269 0,5746
RR-RSP-EDA 0,0588 0,0441 0,0454 0,3016
RR-RSP -0,0290 0,3150 0,0429 0,3227
Performance
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ 0,0114 0,7115 -0,0051 0,919
RR-RSP-EDA-PUP 0,1038 < 0,001 0,0660 0,148
RR-RSP-EDA 0,0579 0,0488 0,0789 0,0701
RR-RSP 0,0561 0,0466 0,0572 0,1845
Effort
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ 0,0731 0,0157 0,1497 0,0012
RR-RSP-EDA-PUP 0,0584 0,0489 0,1530 < 0,001
RR-RSP-EDA 0,0583 0,0463 0,097 0,0259
RR-RSP -0,0075 0,8008 0,0764 0,0839
Effort
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ 0,082 0,0075 -0,0252 0,5959
RR-RSP-EDA-PUP 0,0276 0,3580 0,0264 0,5773
RR-RSP-EDA 0,0307 0,3206 -0,027 0,5844
RR-RSP 0,0363 0,2070 0,0330 0,4623
Note. p < 0,001 en gras
132
Tableau 43 -
Performance en test des réponses subjectives du NASA-TLX en fonction de la durée des
époques pour un classificateur SVM
Classe Métriques
Époques de
120 secondes
Époques de
300 secondes
κ p κ p
Exigence
mentale RR-RSP-EDA-PUP-GAZ 0,1735 < 0,001 0,1293 0,0164
Exigence
temporelle RR-RSP-EDA-PUP-GAZ 0,0938 0,0031 -0,0095 0,8532
Performance RR-RSP-EDA-PUP-GAZ 0,0784 0,0102 0,0733 0,1133
Effort RR-RSP-EDA-PUP-GAZ -0,0604 0,0664 -0,0216 0,6571
Frustration RR-RSP-EDA-PUP-GAZ 0,1292 < 0,001 0,0967 0,0428
Focus RR-RSP-EDA-PUP-GAZ 0,0473 0,1266 0,0712 0,1239
Fatigue RR-RSP-EDA-PUP-GAZ 0,0715 0,0182 0,0885 0,0554
Stress RR-RSP-EDA-PUP-GAZ 0,1174 < 0,001 0,1286 0,0071
État général RR-RSP-EDA-PUP-GAZ -0,0087 0,7763 -0,0045 0,9239
Note. p < 0,001 en gras
Le Tableau 44 présente les mêmes résultats que le Tableau 42, mais cette fois en utilisant un
classificateur linéaire. Dans l’ensemble, les résultats sont comparables à ceux du
classificateur SVM. Toutefois, il semble que les résultats soient légèrement meilleurs pour le
classificateur linéaire, pour des époques de 300 secondes et pour un plus grand nombre de
métriques. Pour le repos initial, la performance varie entre 0,51 et 0,82. Encore une fois,
aucun classificateur n’a pu atteindre le seuil de signification pour la variable de la difficulté.
Pour le stress, tous les classificateurs ont atteint le seuil de signification avec des
performances variant entre 0,10 et 0,28. L’ordre des conditions a atteint des performances
entre 0,27 et 0,34 encore toutes significatives. L’ordre des époques atteint, encore une fois,
une très bonne classification lorsque toutes les métriques sont fournies et les époques sont
plus longues (κ = 0,72). Aucun classificateur de la performance ne s’est relevé significatif.
Pour l’effort basé sur le pourcentage de vies sauvées, deux classificateurs ont été capables
133
d’atteindre le seuil de signification, soit le classificateur RR-RSP-EDA-PUP-GAZ de
300 secondes (κ = 0,19; p < 0,001) et le classificateur RR-RSP-EDA-PUP de 300 secondes
(κ = 0,16; p < 0 ,001). Aucun classificateur de l’effort basé sur le temps de réponse ne s’est
montré significatif. Encore une fois, quelques tendances sont observées. Quelques
classificateurs arrivent presque à prédire la difficulté (κ = 0,08; p < 0,05), la performance
(pourcentage de vie et temps de réponse, RR-RSP-EDA-PUP-GAZ, époques de 300
secondes, κ = 0,12; p < 0,05) et l’effort selon le pourcentage de vies sauvées (RR-RSP-EDA,
époques de 300 secondes, κ = 0,12; p < 0,05). Quant à la classification des mesures du
NASA-TLX, celles-ci sont rapportées au Tableau 45. Encore une fois, aucun classificateur
n’a atteint le seuil suffisant pour être considéré comme significatif avec des époques de
300 secondes. L’exigence mentale (κ = 0,13; p < 0,001), la frustration (κ = 0,15; p < 0,001)
et le stress (κ = 0,19; p < 0,001) et la performance (κ = 0,10; p < 0,001) ont pu être prédits.
134
Tableau 44 -
Performance en test des variables en fonction des métriques utilisées et de la durée des
époques pour un classificateur linéaire
Classe Métriques
Époques de
120 secondes
Époques de
300 secondes
κ p κ p
Repos initial
RR-RSP-EDA-PUP-GAZ 0,7917 < 0,001 0,8235 < 0,001
RR-RSP-EDA-PUP 0,6556 < 0,001 0,7168 < 0,001
RR-RSP-EDA 0,5414 < 0,001 0,7179 < 0,001
RR-RSP 0,5199 < 0,001 0,6351 < 0,001
Difficulté
RR-RSP-EDA-PUP-GAZ 0,0751 0,0131 0,0085 0,8534
RR-RSP-EDA-PUP 0,0789 0,0070 0,0750 0,1010
RR-RSP-EDA -0,0216 0,4548 0,0492 0,2591
RR-RSP -0,0254 0,3674 0,0222 0,6070
Stress
RR-RSP-EDA-PUP-GAZ 0,1630 < 0,001 0,2821 < 0,001
RR-RSP-EDA-PUP 0,1847 < 0,001 0,1917 < 0,001
RR-RSP-EDA 0,1312 < 0,001 0,1856 < 0,001
RR-RSP 0,1095 < 0,001 0,1889 < 0,001
Ordre des
conditions
RR-RSP-EDA-PUP-GAZ 0,3040 < 0,001 0,3134 < 0,001
RR-RSP-EDA-PUP 0,3028 < 0,001 0,2833 < 0,001
RR-RSP-EDA 0,3079 < 0,001 0,3434 < 0,001
RR-RSP 0,2952 < 0,001 0,2715 < 0,001
Ordres des
époques
RR-RSP-EDA-PUP-GAZ 0,5188 < 0,001 0,7273 < 0,001
RR-RSP-EDA-PUP 0,5402 < 0,001 0,7345 < 0,001
RR-RSP-EDA 0,4903 < 0,001 0,6657 < 0,001
RR-RSP 0,2624 < 0,001 0,3779 < 0,001
Performance
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ 0,0287 0,3431 0,1200 0,0096
RR-RSP-EDA-PUP 0,0973 0,0011 0,0549 0,2289
RR-RSP-EDA 0,0726 0,0119 0,0323 0,4600
RR-RSP 0,0000 0,9724 0,0290 0,5122
Performance
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ 0,0901 0,0032 0,1143 0,0134
RR-RSP-EDA-PUP 0,0452 0,1320 0,0596 0,1981
RR-RSP-EDA 0,0627 0,0298 0,0670 0,1238
RR-RSP 0,0737 0,0106 0,1045 0,0193
Effort
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ 0,0796 0,0085 0,1994 < 0,001
RR-RSP-EDA-PUP 0,0897 0,0024 0,1642 < 0,001
RR-RSP-EDA 0,0821 0,0044 0,1221 0,0053
RR-RSP 0,0151 0,5951 0,0885 0,0427
Effort
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ 0,0480 0,1130 0,0437 0,3459
RR-RSP-EDA-PUP 0,0640 0,0321 0,0734 0,1090
RR-RSP-EDA 0,0129 0,6561 0,3240 0,4578
RR-RSP 0,0460 0,1439 0,0000 0,9962
Note. p < 0,001 en gras
135
Tableau 45 -
Performance en test des réponses subjectives du NASA-TLX en fonction de la durée des
époques
Classe Métriques
Époques de
120 secondes
Époques de
300 secondes
κ p κ p
Exigence
mentale RR-RSP-EDA-PUP-GAZ 0,1341 < 0,001 0,0716 0,1249
Exigence
temporelle RR-RSP-EDA-PUP-GAZ 0,0770 0,0114 0,0211 0,6476
Performance RR-RSP-EDA-PUP-GAZ 0,1060 < 0,001 0,0614 0,1839
Effort RR-RSP-EDA-PUP-GAZ -0,0147 0,6347 -0,0076 0,8701
Frustration RR-RSP-EDA-PUP-GAZ 0,1513 < 0,001 0,1522 0,0011
Focus RR-RSP-EDA-PUP-GAZ 0,0631 0,0398 0,0468 0,3116
Fatigue RR-RSP-EDA-PUP-GAZ 0,0816 0,0071 0,1399 0,0025
Stress RR-RSP-EDA-PUP-GAZ 0,1916 < 0,001 0,1179 0,0111
État général RR-RSP-EDA-PUP-GAZ -0,0195 0,5224 -0,0282 0,5426
Note. p < 0,001 en gras
4.2.5 Méta-analyse des classificateurs
Afin de déterminer les conditions qui favorisent une meilleure classification, une série de
régressions logistiques multiples sont effectuées. Contrairement à la première expérience, le
plus grand nombre d’échantillons disponible permet d’effectuer plusieurs régressions
logistiques multiples (au lieu d’une régression pour toutes les variables d’intérêt) tout en
préservant la puissance statistique nécessaire. Afin de simplifier l’analyse, les 2 variables
d’intérêt de l’effort et les 2 variables d’intérêt de la performance (basé sur le pourcentage de
vies sauvées/ basé sur le temps de réponse) sont groupées ensemble lors des régressions. Les
variables indépendantes retenues dans ces régressions sont les niveaux de difficulté et de
stress, l’ordre des conditions et des époques, le sous-ensemble de métriques physiologique,
le type de classificateur ainsi que la durée des époques.
136
Pour la difficulté (voir Tableau 44), les résultats montrent que cette dernière était
significativement mieux classifiée au fur et à mesure que l’ordre des conditions progressait
(donc, mieux classifiée vers la fin de l’expérience). Le stress (voir Tableau 45) était mieux
classifié lorsque le stresseur était présent lorsque l’effort était élevé. L’ordre des conditions
(voir Tableau 48) était mieux classifié lorsque la difficulté était élevée, lorsque le stress était
faible et était mieux classifié au début de l’expérience. Les classificateurs de l’ordre des
époques (voir Tableau 49) sont les seuls qui ont été influencés par les métriques
physiologiques et par la durée des époques. Dans l’ensemble, la classification de l’ordre des
époques était meilleure lorsque plus de métriques physiologiques étaient fournies et lorsque
des époques de 300 secondes étaient utilisées. La classification des époques était aussi
meilleure lorsque l’effort était élevé et devenait meilleure avec le temps (condition et
époques). La classification de la performance (voir Tableau 53), tout comme pour le stress,
était meilleure lorsque le stress et l’effort étaient élevés et au fur et à mesure que l’expérience
progressait. Finalement, la classification de l’effort (voir Tableau 54) était meilleure lorsque
le stress et la performance étaient élevés. L’effort était aussi mieux classifié au début de
l’expérience et à la fin des conditions expérimentales. L’effort était mieux classifié avec des
époques de 300 secondes. Le type de classificateur (linéaire ou SVM) n’a pas influencé la
qualité de la classification pour aucune variable.
Tableau 46 -
Régression logistique multiple effectuée sur la performance en classification (difficulté)
Variable indépendante Coefficient (β)
Constante -0,1855
Difficulté élevée 0,0233
Stress élevé -0,0293
Ordre des conditions 0,3673
Ordre des époques -0,0648
Performance (% de vies) 0,0472
Effort (% de vies) -0,0834
Métriques RR-RSP-EDA (vs. RR-RSP) -0,0023
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,1437
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,1194
Classificateur linéaire (vs. SVM) 0,0635
Époque de 300 secondes (vs. 120 secondes) -0,0186
Note. p < 0,001 en gras.
137
Tableau 47 -
Régression logistique multiple effectuée sur la performance en classification (stress)
Variable indépendante Coefficient (β)
Constante -0,0060
Difficulté élevée -0,0832
Stress élevé 0,1802
Ordre des conditions 0,1615
Ordre des époques 0,0086
Performance (% de vies) 0,0107
Effort (% de vies) 0,1319
Métriques RR-RSP-EDA (vs. RR-RSP) 0,0543
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,1288
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,1338
Classificateur linéaire (vs. SVM) 0,0295
Époque de 300 secondes (vs. 120 secondes) 0,0877
Note. p < 0,001 en gras.
Tableau 48 -
Régression logistique multiple effectuée sur la performance en classification (ordre des
conditions)
Variable indépendante Coefficient (β)
Constante 1,2487
Difficulté élevée 0,1172
Stress élevé -0,1636
Ordre des conditions -0,1004
Ordre des époques -0,2860
Performance (% de vies) 0,0263
Effort (% de vies) -0,0417
Métriques RR-RSP-EDA (vs. RR-RSP) 0,0868
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0404
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0340
Classificateur linéaire (vs. SVM) 0,0150
Époque de 300 secondes (vs. 120 secondes) -0,0491
Note. p < 0,001 en gras.
138
Tableau 49 -
Régression logistique multiple effectuée sur la performance en classification (ordre des
époques)
Variable indépendante Coefficient (β)
Constante 0,2365
Difficulté élevée 0,1052
Stress élevé -0,0582
Ordre des conditions 0,5763
Ordre des époques 0,4678
Performance (% de vies) 0,1137
Effort (% de vies) 0,2078
Métriques RR-RSP-EDA (vs. RR-RSP) 0,3823
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,4063
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,5802
Classificateur linéaire (vs. SVM) -0,0222
Époque de 300 secondes (vs. 120 secondes) 0,3721
Note. p < 0,001 en gras.
Tableau 50 -
Régression logistique multiple effectuée sur la performance en classification (performance)
Variable indépendante Coefficient (β)
Constante -0,0866
Difficulté élevée -0,0234
Stress élevé 0,0958
Ordre des conditions 0,1488
Ordre des époques -0,0792
Performance (% de vies) -0,0154
Effort (% de vies) 0,2142
Métriques RR-RSP-EDA (vs. RR-RSP) 0,0600
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0805
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0451
Classificateur linéaire (vs. SVM) 0,0060
Époque de 300 secondes (vs. 120 secondes) -0,0107
Note. p < 0,001 en gras.
139
Tableau 51 -
Régression logistique multiple effectuée sur la performance en classification (effort)
Variable indépendante Coefficient (β)
Constante -0,1872
Difficulté élevée 0,0390
Stress élevé 0,1062
Ordre des conditions -0,3045
Ordre des époques 0,1878
Performance (% de vies) 0,5415
Effort (% de vies) -0,0471
Métriques RR-RSP-EDA (vs. RR-RSP) 0,0328
Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0785
Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0810
Classificateur linéaire (vs. SVM) 0,0207
Époque de 300 secondes (vs. 120 secondes) 0,1147
Note. p < 0,001 en gras.
La contribution particulière des métriques peut être examinée en analysant les poids
déterminés par les classificateurs. Cette analyse ne peut être effectuée que pour le
classificateur linéaire puisque l’utilisation du kernel rend difficile l’interprétation des poids
du classificateur SVM (Cornuéjols et Miclet, 2010). Le Tableau 52 présente le pourcentage
des poids de chaque modalité physiologique selon le classificateur et le sous-ensemble de
métrique physiologique. Ce pourcentage est ajusté au nombre de métriques présent dans
chaque type de modalité physiologique. Seuls les classificateurs significatifs sont présentés.
Pour le repos initial, lorsque toutes les métriques sont fournies, les contributions les plus
importantes proviennent des mouvements oculaires. Lorsque les mouvements oculaires sont
retirés, la respiration devient la plus importante. Pour le classificateur stress, les poids
semblent répartis de manière uniforme entre les modalités. La classification de l’ordre des
conditions s’est principalement basée sur les métriques cardiaques. Pour l’ordre des époques,
ce sont les métriques électrodermales qui ont été les plus pertinentes. Lorsque ces dernières
étaient absentes, ce sont les métriques cardiaques qui ont été les plus utiles. Finalement, la
classification de l’effort a utilisé des métriques de toutes les modalités, mais les métriques
pupillaires étaient un peu plus pertinentes. La Figure 24 présente graphiquement les valeurs
de ce tableau pour le groupe RR-RSP-EDA-PUP-GAZ.
140
Tableau 52 -
Pourcentage de la contribution des modalités physiologiques
Classe Métriques Pourcentage de contribution
RR RSP EDA PUP GAZ
Repos initial
RR-RSP-EDA-PUP-GAZ 1% 13% 2% 1% 83%
RR-RSP-EDA-PUP 4% 87% 5% 3% -
RR-RSP-EDA 4% 89% 6% - -
RR-RSP 10% 90% - - -
Difficulté
RR-RSP-EDA-PUP-GAZ n.s.
RR-RSP-EDA-PUP n.s.
RR-RSP-EDA n.s.
RR-RSP n.s.
Stress
RR-RSP-EDA-PUP-GAZ 24% 28% 22% 21% 5%
RR-RSP-EDA-PUP 28% 26% 23% 23% -
RR-RSP-EDA 34% 36% 30% - -
RR-RSP 35% 65% - - -
Ordre des
conditions
RR-RSP-EDA-PUP-GAZ 45% 17% 22% 6% 9%
RR-RSP-EDA-PUP 62% 15% 16% 7% -
RR-RSP-EDA 64% 20% 16% - -
RR-RSP 64% 36% - - -
Ordre des
époques
RR-RSP-EDA-PUP-GAZ 10% 2% 50% 16% 21%
RR-RSP-EDA-PUP 13% 3% 63% 20% -
RR-RSP-EDA 20% 8% 82% - -
RR-RSP 71% 29% - - -
Performance
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ n.s.
RR-RSP-EDA-PUP n.s.
RR-RSP-EDA n.s.
RR-RSP n.s.
Performance
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ n.s.
RR-RSP-EDA-PUP n.s.
RR-RSP-EDA n.s.
RR-RSP n.s.
Effort
(pourcentage
de vies
sauvées)
RR-RSP-EDA-PUP-GAZ 19% 19% 16% 32% 13%
RR-RSP-EDA-PUP 23% 26% 21% 30% -
RR-RSP-EDA n.s.
RR-RSP n.s.
Effort
(temps de
réponse)
RR-RSP-EDA-PUP-GAZ n.s.
RR-RSP-EDA-PUP n.s.
RR-RSP-EDA n.s.
RR-RSP n.s.
Note. Résultats rapportés seulement pour le classificateur linéaire avec des époques de 300
secondes. Seuls les classificateurs ayant atteint le seuil de signification sont rapportés. Les
autres sont marqués « n.s. ». À cause de l’arrondissement des valeurs, la somme d’une ligne
peut ne pas toujours donner 100%.
141
Figure 24 : Contribution des modalités physiologiques selon le classificateur.
Pour clore cette analyse, la liste des 10 métriques physiologiques les plus utilisées par chaque
classificateur est analysée (lorsque toutes les métriques sont fournies). L’analyse montre que
le repos initial (Tableau 53) est caractérisé par un grand nombre de fixations et de saccades
(rangs 1-2-3 et 10). L’analyse montre que le classificateur a aussi repéré une respiration
ample et irrégulière (rangs 4-5-6-8) et un volume thoracique croissant (rangs 7 et 9). Le
classificateur du stress (Tableau 54) a retenu une respiration parfois lente (rang 1) et peu
profonde (rang 4). Au niveau cardiaque, le stress a provoqué une transition des très basses
fréquences vers les basses et hautes fréquences (rangs 2-5-7 et 8). La bande fréquentielle
pupillaire de 50 à 75 mHz a subi une diminution. Pour l’ordre des conditions (Tableau 55),
les classificateurs ont associé les dernières conditions à un rythme cardiaque plus lent (rang
1-2 et 4) et plus irrégulier (rangs 5 et 10). Le classificateur a aussi retenu un niveau
électrodermal plus faible (rangs 3-6 et 7) et une respiration plus basse et moins ample (rangs
8-9). Les premières conditions (Tableau 56) étaient caractérisées par un niveau électrodermal
élevé (rangs 1-3-9 et 10) subissant une forte baisse (rang 2). Les classificateurs ont également
retenu une augmentation de l’asymétrie de la distribution pupillaire (rang 4) et une baisse du
diamètre (rang 6). Les premières époques étaient aussi caractérisées par une plus grande
étendue et un plus faible minimum du rythme cardiaque (rang 5 et 7). Finalement, l’effort
élevé (Tableau 57) était associé avec une augmentation des plusieurs bandes pupillaires
(rangs 1-4 et 8), par une diminution du temps entre les pics pupillaires (rang 3) et par une
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Repos initial Stress Ordre (c.) Ordre (e.) Effort
Po
urc
enta
ge
con
trib
uti
on
RR RSP EDA PUP GAZ
142
plus faible distribution du diamètre pupillaire (rang 5). L’effort mental était aussi associé à
une plus grande asymétrie de la distribution des battements cardiaques (rang 2) et une baisse
des basses fréquences (rang 7).
Tableau 53 -
Métriques ayant les plus grands poids pour la classification de la classe « Repos Initial »
Rang Modalité Métrique βMoy
1 GAZ Ratio fixation/saccades 0,2277 ± 0,0095
2 GAZ Somme des saccades 0,1975 ± 0,0098
3 GAZ Moyenne des saccades 0,1820 ± 0,0150
4 RSP Écart-type du temps de montée des pics 0,1544 ± 0,0210
5 RSP Moyenne du temps de montée de pics 0,1326 ± 0,0170
6 RSP Amplitude moyenne des pics 0,0878 ± 0,0125
7 RSP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,0863 ± 0,0132
8 RSP Écart-type des temps inter-vallées 0,0727 ± 0,0146
9 RSP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,0698 ± 0,0128
10 GAZ Nombre de fixations 0,0642 ± 0,0146
Note. Poids présenté pour des époques de 300 secondes seulement.
Tableau 54 -
Métriques ayant les plus grands poids pour la classification de la classe «Stress »
Rang Modalité Métrique βMoy
1 RSP Maximum des temps inter-vallées 0,2098 ± 0,0182
2 RR Surface de la bande VLF (Méthode Lomb-
Scargle)
-0,1767 ± 0,0176
3 RSP Pente maximale des pics -0,1635 ± 0,0131
4 PUP Puissance de la bande 50 à 75 mHz -0,1617 ± 0,0167
5 RR Puissance de la bande HF (Méthode Lomb-
Scargle)
0,1601 ± 0,0112
6 EDA Puissance de la bande 40 à 50 mHz -0,1457 ± 0,0161
7 RR Maximum bande VLF (Méthode autorégressive) -0,1419 ± 0,0159
8 RR Maximum bande LF (Méthode Lomb-Scargle) 0,1411 ± 0,0174
9 PUP Puissance de la bande 150 à 175 mHz 0,1381 ± 0,0198
10 EDA Kurtosis de la distribution 0,1337 ± 0,0153
Note. Poids présenté pour des époques de 300 secondes seulement.
143
Tableau 55 -
Métriques ayant les plus grands poids pour la classification de la classe « Ordre des
conditions »
Rang Modalité Métrique βMoy
1 RR Moyenne 0,2009 ± 0,0258
2 RR Médiane 0,1934 ± 0,0262
3 EDA Minimum -0,1362 ± 0,0324
4 RR Maximum 0,1127 ± 0,0252
5 RR Écart-type 0,0794 ± 0,0217
6 EDA Médiane -0,0742 ± 0,0238
7 EDA Moyenne -0,0699 ± 0,0243
8 RSP Minimum -0,0579 ± 0,0200
9 RSP Amplitude moyenne des pics -0,0486 ± 0,0150
10 RR Étendue de la distribution 0,0465 ± 0,0169
Note. Comme la classification de « Ordre des condition » se fait avec trois classificateurs,
le tableau présente les poids et intervalles moyens de ces trois classificateurs. Note : Poids
présenté pour des époques de 300 secondes seulement.
Tableau 56 -
Métriques ayant les plus grands poids pour la classification de la classe «Ordre des
époques »
Rang Modalité Métrique βMoy
1 EDA Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,4046 ± 0,0128
2 EDA Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,4025 ± 0,0127
3 EDA Minimum 0,1870 ± 0,0226
4 PUP Asymétrie de la distribution 0,1612 ± 0,0223
5 RR Étendue de la distribution 0,1518 ± 0,0191
6 PUP Moyenne -0,1409 ± 0,0182
7 RR Minimum -0,1352 ± 0,0211
8 GAZ Moyenne des saccades 0,1309 ± 0,0236
9 EDA Médiane 0,1245 ± 0,0201
10 EDA Moyenne 0,1204 ± 0,0205
Note. Poids présenté pour des époques de 300 secondes seulement.
144
Tableau 57 -
Métriques ayant les plus grands poids pour la classification de la classe «Effort (vies
sauvées) »
Rang Modalité Métrique βMoy
1 PUP Puissance de la bande 225 à 250 mHz 0,1846 ± 0,0222
2 RR Asymétrie de la distribution 0,1702 ± 0,0242
3 PUP Minimum des temps inter-pics -0,1408 ± 0,0193
4 PUP Puissance de la bande 175 à 200 mHz 0,1197 ± 0,0180
5 PUP Étendue de la distribution -0,1019 ± 0,0165
6 EDA Étendue de la distribution 0,0990 ± 0,0165
7 RR Surface normalisée, bande LF (Méthode Lomb-
Scargle)
-0,0946 ± 0,0152
8 PUP Puissance de la bande 200 à 225 mHz 0,0946 ± 0,0148
9 RSP Écart-type de la pente des pics 0,0945 ± 0,0172
10 PUP Écart-type -0,0934 ± 0,0145
Note. Poids présenté pour des époques de 300 secondes seulement.
4.2.6 Analyse de paramètres supplémentaires
Lors de ces analyses, il a été nécessaire de faire certains choix techniques, tels que
l’imputation des données et l’utilisation d’échantillons artificiels pour balancer les classes
(ADASYN). Étant donné le temps de calcul, il n’est pas possible d’explorer les effets de
toutes les combinaisons de paramètres techniques sur la performance en classification. Pour
vérifier l’effet de ces paramètres, quelques analyses supplémentaires sont effectuées. Comme
première analyse, on vérifie l’effet de l’imputation de données contre quelques classificateurs
s’entraînant sur des ensembles sans imputation. Seulement une partie des variables d’intérêt
sont retenues pour cette analyse. Ces analyses sont faites en utilisant des époques de 300
secondes avec toutes les métriques physiologiques. Les résultats sont présentés au Tableau
58. Les résultats montrent que les variables qui n’étaient pas possibles de prédire ne le sont
toujours pas sans imputation. Une régression logistique multiple, similaire à celle effectuée
à la section 4.2.5 (variables indépendantes : difficulté, stress, ordre des conditions, ordre des
époques, type de classificateur et imputation), suggère que l’imputation n’a pas eu d’effet sur
la performance en classification (p > 0,05).
Comme seconde analyse, on investigue, de manière similaire, l’utilisation d’échantillons
synthétiques par ADASYN sur la performance en classification. Pour cette analyse, on retient
145
quatre variables d’intérêt pour lesquels les classes étaient fortement débalancées et pour
lesquelles des échantillons synthétiques ont été créés. Ces quatre variables sont celles du
repos initial, de l’ordre des époques ainsi que les sous-classificateurs « 1 » et « 3 » de l’ordre
des conditions (tel que détaillé à la Figure 21). Les résultats des deux derniers classificateurs
n’ont pas été présentés jusqu’à présent puisqu’ils étaient imbriqués dans le classificateur
l’ordre des conditions. Ils ont inclus dans cette analyse afin pour ne conserver que les
classificateurs fortement débalancés. Les résultats sont présentés au Tableau 59. À première
vue, aucune tendance particulière ne saute aux yeux. La régression logistique multiple
suggère toutefois que l’utilisation d’échantillons synthétique a eu un effet négatif sur la
performance en classification (β = -0,49, p < 0,001). Il est important de noter qu’étant donné
qu’aucun niveau de difficulté, de stress, d’ordre de condition et d’ordre d’époque d’est
déterminé pour le repos initial, les seules variables indépendantes utilisées dans cette
régression sont le type de classificateur et la présence (ou absence) du rééquilibrage des
classes.
146
Tableau 58 -
Performance des classificateurs en fonction du type de classificateur et de l’imputation
Classe Classificateur Imputation
Époques de
300 secondes
κ p
Difficulté
SVM Sans 0,0864 0,0134
SVM Avec -0,0043 0,9263
Linéaire Sans -0,0062 0,9115
Linéaire Avec 0,0085 0,8534
Stress
SVM Sans 0,2257 < 0,001
SVM Avec 0,1923 < 0,001 Linéaire Sans 0,2346 < 0,001 Linéaire Avec 0,2821 < 0,001
Ordre des
conditions
SVM Sans 0,3154 < 0,001
SVM Avec 0,2906 < 0,001 Linéaire Sans 0,2667 < 0,001
Linéaire Avec 0,3134 < 0,001
Ordre des
époques
SVM Sans 0,7597 < 0,001
SVM Avec 0,7094 < 0,001 Linéaire Sans 0,7390 < 0,001 Linéaire Avec 0,7273 < 0,001
Performance
(% de vies
sauvées)
SVM Sans 0,0635 0,2797
SVM Avec 0,0453 0,3397
Linéaire Sans 0,1102 0,0478
Linéaire Avec 0,1200 0,0096
Effort (% de
vies sauvées)
SVM Sans 0,0714 0,2153
SVM Avec 0,1497 0,0012
Linéaire Sans 0,1102 0,0478
Linéaire Avec 0,1994 < 0,001
Note. Époques de 300 secondes avec toutes les métriques physiologiques, (p < 0,0001 en
gras).
147
Tableau 59 -
Performance des classificateurs en fonction du type de classificateur et du rebalancement
des données.
Classe Classificateur Rebalancement
(ADASYN)
Époques de
300 secondes
κ p
Repos initial
SVM Sans 0,8340 < 0,001
SVM Avec 0,7850 < 0,001
Linéaire Sans 0,8000 < 0,001
Linéaire Avec 0,8235 < 0,001
Ordre des
époques
SVM Sans 0,7352 < 0,001
SVM Avec 0,7094 < 0,001
Linéaire Sans 0,6986 < 0,001
Linéaire Avec 0,7273 < 0,001
Ordre des
conditions
(1)
SVM Sans 0,3231 < 0,001
SVM Avec 0,3781 < 0,001
Linéaire Sans 0,3584 < 0,001
Linéaire Avec 0,3650 < 0,001
Ordre des
conditions
(3)
SVM Sans 0,4855 < 0,001
SVM Avec 0,4424 < 0,001
Linéaire Sans 0,4926 < 0,001
Linéaire Avec 0,4355 < 0,001
Note. Pour l’ordre des conditions, les classificateurs présentés ici sont les sous-
classificateurs de l’ordre des conditions utilisée dans les autres analyses. Données
présentées avec toutes les métriques physiologiques fournies et des époques de 300
secondes. (p < 0,001 en gras).
4.3 Discussion
4.3.1 Discussion sur les mesures
Cette expérience avait pour but de provoquer diverses formes de charge mentales lors d’une
simulation de C2. Malgré le devis expérimental, il est fort possible que la charge mentale
réelle des participants ait été différente de ce qui avait été prévu. Cette section détaillera les
diverses mesures, subjectives, comportementales et physiologiques, afin de mieux
comprendre comment les sous-dimensions de la charge mentale ont évolué au cours de
l’expérience.
148
4.3.1.1 Discussion sur les mesures subjectives
Tel qu’il est possible de s’y attendre, l’augmentation de la difficulté a provoqué une
augmentation de l’évaluation subjective de l’exigence mentale et temporelle et a provoqué
une diminution de la performance subjective. En effet, les scénarios difficiles comptaient
presque le double des événements des scénarios faciles et ils devaient être complétés dans le
même temps. Ce résultat suggère que la manipulation de la difficulté a bien été conçue.
L’augmentation de la difficulté a également augmenté l’évaluation subjective de la
frustration et du stress. Ce résultat semble contre-intuitif considérant que ces deux
dimensions sont plutôt conceptuellement associées au stress (voir section 1.1.2), d’autant
plus que la manipulation du stress n’a que très peu affecté ces dimensions. Il faut cependant
garder en-tête qu’il est difficile (voir impossible) d’augmenter l’exigence sans causer une
quelconque forme de stress (p.ex. Callister, Suwarno et Seals, 1992; Matthews, Campbell et
coll., 2002; Robinson, 2001). Il est intéressant de noter que l’augmentation de la difficulté
n’a eu qu’un très faible impact sur la perception de l’effort investi que les participants ont
ressenti. Ce résultat peut suggérer que les participants fournissaient déjà un effort maximum
dans la condition facile. Ainsi, il est possible que les participants n’aient eu que très peu de
ressources supplémentaires à investir lors des conditions difficiles.
En constatant le faible effet du stresseur psychosocial sur les réponses subjectives, il est
possible d’envisager que la présence de l’examinateur n’ait tout simplement pas eu l’effet
attendu. Bien que la manipulation du stress ait été basée sur un stresseur validé (Kudielka et
coll., 2007), l’implémentation de ce stresseur dans cette expérience ne suivait pas à la lettre
la procédure déjà établie. Toutefois, d’autres hypothèses peuvent également être retenues. Il
est possible que la tâche ait été tellement engageante que les individus ont oublié ou fait
abstraction de la présence de l’examinateur. Il est aussi possible de supposer que le stress
provoqué par la tâche ait été si important qu’il aurait fait ombre au stress provoqué par la
présence de l’examinateur. Bien que la présence du stresseur n’ait pas fait varier les
évaluations subjectives du stress et de la frustration, ce dernier a toutefois presque augmenté
l’évaluation subjective de l’effort. Ce résultat est intéressant considérant que les participants
ne recevaient aucune instruction de travailler plus fort lorsque l’évaluateur les observaient.
149
L’augmentation de la difficulté a également fait augmenter les évaluations subjectives de la
fatigue. Il est possible que ce résultat ait été causé par l’interprétation de la question du
NASA-TLX. Ainsi, au lieu d’évaluer leur fatigue de manière générale, les participants ont
possiblement évalué à quel point la condition expérimentale qu’ils venaient de compléter les
avait fatigués. L’analyse des corrélations entre le temps passé sur la tâche et les dimensions
du NASA-TLX suggère que la fatigue augmentait bel et bien au fil du temps. Toutefois, le
temps semble avoir provoqué une série d’autres changements au niveau subjectif. Plus
précisément, les participants ont rapporté ressentir une exigence plus faible, une meilleure
performance, une moins grande frustration et un moins grand stress. Ce résultat peut vouloir
suggérer un effet d’entraînement important. Malgré le tutoriel, la pratique et la vérification
de la part de l’expérimentateur, il est possible que les participants se soient trouvé des
stratégies qui ont facilité la réalisation des dernières conditions expérimentales.
4.3.1.2 Discussion sur les mesures comportementales
Dans l’ensemble, un nombre beaucoup plus important de victimes étaient sauvées dans les
conditions faciles en comparaison aux conditions difficiles, ce qui suggère une fois de plus
que la manipulation était réussie. Malgré qu’il y eût deux fois plus d’incidents dans les
conditions difficiles, l’augmentation du nombre d’assignations a été très faible. Ce résultat,
et le fait que les participants n’ont pas rapporté avoir investi beaucoup plus d’effort dans les
conditions difficiles, peut vouloir suggérer que les participants étaient déjà à capacité presque
maximale dans les conditions faciles et que la condition difficile était, en réalité, très difficile.
Toutefois, les mesures objectives de l’effort (basée sur le pourcentage de vies sauvées) ont
montré une grande sensibilité aux niveaux de difficulté.
La présence de l’évaluateur n’a pas affecté le temps de réponse dans les conditions faciles.
Toutefois, la présence d’une interaction sur la performance suggère que les participants
diminuaient leur temps de réponse lorsque l’évaluateur était présent (dans les conditions
difficiles) et l’augmentaient lorsque l’évaluateur était absent. Cette interaction peut
possiblement illustrer la dualité des stratégies court/long termes dans la simulation de C2.
Tel qu’introduit dans la section 4.1.2, les scénarios de simulation ont été conçus de manière
à forcer les participants à prioriser leurs interventions. Les participants pouvaient choisir des
150
stratégies orientées sur le court terme (p.ex. prioriser les incidents les plus près des unités
d’interventions) ou choisir des stratégies orientées sur le long terme (p.ex. concentrer les
unités sur des incidents majeurs, même s’ils sont plus distants). Dans les conditions à
difficulté faible, il est possible que les participants aient eu suffisamment d’unités pour gérer
les incidents sans adopter une stratégie spécifique. Toutefois, lors de la difficulté élevée, ce
choix était possiblement plus décisif. Ainsi, il est possible que la présence du stresseur ait
poussé les individus à des solutions plus rapides (Keinan, 1987; Starcke et Brand, 2016) et
que l’absence du stresseur ait laissé la liberté aux individus de trouver des solutions plus
élaborées et orientées vers le long terme. Il est toutefois pertinent de noter que ce choix
stratégique n’a pas influencé le nombre de vies sauvées.
Les corrélations effectuées sur les mesures de la performance et de l’effort renforcent la
suggestion que les participants devenaient meilleurs avec le temps. En effet, ceux-ci
démontraient une meilleure performance et un effort plus faible vers la fin de l’expérience.
4.3.1.3 Discussion sur les mesures physiologiques
Pour toutes les modalités, les métriques physiologiques ont présenté peu de variabilité face
aux variations de difficulté, de stress de performance et d’effort. Ce résultat peut sembler
étrange considérant que la littérature relève plusieurs effets des métriques cardiaques,
électrodermales, respiratoires et pupillaires/oculaires face à ces variables (voir section 1.3.3).
Il est possible que les tailles d’effets des métriques pertinentes aient été diluées au travers du
grand nombre de métriques utilisées (dont certaines pourraient avoir été impertinentes).
La baisse de la durée entre les battements cardiaque (c.-à-d. l’augmentation du rythme)
observée lors du repos initial peut possiblement s’expliquer par le fait que le repos initial a
été effectué juste après le tutoriel et la séance d’entraînement, ce qui a pu provoquer une
certaine forme activation. Il est intéressant de noter que, malgré l’absence d’effets de la
difficulté et du stresseur sur la durée entre les battements, ceux-ci étaient plus courts lorsque
l’effort était élevé et plus courts lors des dernières époques des conditions. Rappelons que les
dernières époques demandaient un effort considérablement plus élevé que la première
époque. Ces indices supportent la proposition que le rythme cardiaque soit associé à l’effort
151
mental (Kennedy et Schooly, 2000). Au niveau de la variabilité cardiaque, celle-ci a
augmenté dans les situations plus stressantes et les situations où l’effort requis était plus
élevé. Souvent, la variabilité cardiaque diminue en période de stress (Castaldo et coll., 2015).
Certains travaux empiriques utilisant un stresseur similaire à de cette expérience observe
toutefois une augmentation de la variabilité cardiaque (p.ex. Schubert et coll., 2009). La
revue de littérature de cette thèse n’a pas relevé d’études qui suggèrent une augmentation de
la variabilité cardiaque avec la fatigue (ou le temps passé à faire la tâche). Il est toutefois
possible de faire l’hypothèse que, dû à l’effet d’entraînement, l’effort mental a diminué avec
le temps, ce qui a fait augmenter la variabilité cardiaque. Étant donné que le ratio des basses
sur les hautes fréquences cardiaques est souvent utilisé en psychophysiologie, il est étonnant
de constater qu’aucune variable n’a provoqué de changement sur cette métrique. Il est
possible que cette insensibilité soit causée par la méthode de calcul du ratio12. Il est également
possible que les changements relativement rapides des sous-composantes de la charge
mentale aient empêché la stabilisation du ratio.
La métrique de la durée respiratoire a présenté quelques effets contradictoires avec la
littérature. La plus grande durée des respirations observée lors du repos initial ne concorde
pas avec le rythme cardiaque plus élevé qui a aussi été observé, ni avec les autres ouvrages
de la littérature qui montrent une augmentation de la durée respiratoire lors de la réalisation
de tâches mentales (Bernardi et coll., 2000). Ces indices laissent une fois de plus croire que
l’activité physiologique prise pendant le repos initial était teintée de la séance d’entraînement
qui la précédait. Bien que la diminution de la durée respiratoire associée à la difficulté soit
prévisible, l’augmentation de la durée respiratoire lors de la présence du stresseur est aussi
contre-intuitive à ce qui est typiquement relevé (Boiten, Frikda et Wientjes, 1994). Il faut
toutefois être prudent dans l’interprétation de ces résultats. Tout comme pour d’autres
modalités physiologiques, l’activité respiratoire est un système complexe sujet à de
nombreuses dynamiques non linéaires (Vlemincx et coll., 2013). Quant à l’amplitude
respiratoire, les résultats ont montré que celle-ci diminuait avec le temps passé sur la tâche.
12 Le code MATLAB utilisé pour calculer les métriques de la variabilité cardiaque offrait 3 méthodes
différentes (Burg, Lomb-Scargle et Ondelettes) pour le ratio des basses sur les hautes fréquences cardiaques.
152
À la lumière de la revue de littérature menée dans cette thèse, peu d’articles détaillent les
effets de la fatigue sur l’amplitude respiratoire. Selon Marcora, Staiano & Manning (2009),
l’amplitude respiratoire augmente avec la fatigue mentale. Leur étude se limite toutefois à
des périodes de 15 minutes. Il est possible qu’après un effort soutenu, l’amplitude respiratoire
diminue. Fairclough et Mulder (2011), suggère d’ailleurs que l’effort mental soutenu devrait
diminuer l’amplitude respiratoire.
Le niveau électrodermal a tendance à diminuer avec l’inactivité (Boucsein, 2012), ce qui
explique les diminutions entre le repos initial et la simulation, entre les conditions et entre la
première époque et les époques subséquentes. Le niveau électrodermal n’a pas varié avec la
difficulté, mais a diminué avec la performance et a augmenté avec l’effort. Tel que détaillé à
la section 1.3.3.1, l’activité électrodermale a tendance à augmenter avec l’exigence mentale
(Collet, Salvia et Petit-Boulanger, 2014; Galy, Cariou et Mélan, 2012). Toutefois, Boucsein
et Backs (2009) suggèrent que différentes formes d’activation peuvent provoquer différents
patrons de réponses électrodermales. Selon eux, les réponses plus affectives (dites fight or
flight, possiblement observées lorsque l’effort était élevé) seraient associées à plus de
réponses électrodermales de plus grande amplitude alors que l’activation de forme d’effort
mental (possiblement observés lorsque la performance était élevée) est associée à des longues
pauses entre les réponses (et donc, un niveau électrodermal plus faible). Les plus grandes
durées des réponses observées lorsque le stresseur était présent pourraient aussi être
expliqués par la plus grande amplitude des réponses électrodermales des réponses fight or
flight. Toutefois, ces hypothèses ne pourraient être validées que si toutes les métriques
électrodermales étaient analysées en profondeur.
La baisse du diamètre pupillaire observée au fil de l’expérience pourrait être due à la fatigue
(Morad, Lemberg, Yofe et Dagan, 2000). Alternativement, cette baisse pourrait aussi avoir
été causée par la baisse de l’exigence mentale perçue (Palinko, Kun, Shyrokov et Heeman,
2010). Cette hypothèse pourrait également expliquer pourquoi le diamètre pupillaire
augmentait lors des dernières époques des conditions (les époques où l’exigence et l’effort
étaient les plus élevés). Quant aux mouvements oculaires, le nombre de fixations semble
avoir diminué lorsque l’exigence était plus élevée (dernières époques des conditions, lorsque
153
l’effort était élevé et lorsque la performance était faible). Il est possible que l’exigence élevée
ait demandé une meilleure efficacité aux participants, ce qui peut expliquer le nombre
inférieur de fixations oculaires (Goldberg & Kotval, 1999). Selon Beck et coll., (2010), un
nombre élevé de fixation peut être un indicateur que des informations non nécessaires attirent
l’attention. Il est donc possible de faire l’hypothèse que les situations à exigence élevée ont
concentré leurs fixations sur l’information nécessairement seulement. L’hypothèse de
l’efficacité est également supportée par le temps de saccades plus court observé dans
certaines conditions (effort élevé, dernières époques des conditions et présence du stresseur;
Goldberg & Kotval, 1999).
4.3.2 Discussion des modèles d’apprentissage automatique
L’analyse des paramètres supplémentaires a permis d’investiguer l’effet de deux techniques
qui ont été utilisés dans ce projet de thèse : l’imputation des données et le rééquilibrage des
classes. Tel que détaillé à la section 2.6, l’imputation des données permet de conserver les
échantillons physiologiques pour lesquels une ou plusieurs métriques ne peuvent être
calculées. Malgré l’avantage théorique proposé par l’imputation des données, les résultats
suggèrent que celle-ci n’a pas influencé la performance des classificateurs. Quelques raisons
peuvent expliquer ce résultat. Tout d’abord, il est possible que la technique utilisée n’ait pas
été la plus adaptée pour cette situation. Les travaux de recherches sur l’imputation de données
suggèrent plusieurs méthodes différentes et recommandent généralement une analyse
approfondie des données avant de choisir une méthode (Schafer et Graham, 2002; Sinharay,
Stern et Russell, 2001). Il est également possible que les données manquantes n’aient pas été
réparties de manière suffisamment aléatoire, ce qui est requis avec la méthode utilisée dans
ce projet (Folch-Fortuny et coll., 2016). Finalement, il est possible que l’imputation ait été
majoritairement faite sur les ensembles EDA, PUP et GAZ alors que ceux-ci n’ont pas
contribué aussi fortement à la classification que les ensembles RR et RSP. Bien qu’aucune
analyse n’ait été effectuée sur l’origine des données manquantes, les rapports des
expérimentateurs et l’observation des ensembles de données suggèrent que le groupe
RR-RSP (obtenu par le Bioharness 3) était le sous-ensemble le moins affecté par les données
manquantes.
154
Le rééquilibrage des classes, tel que détaillé à la section 2.7, permet de créer des échantillons
synthétiques. Ces échantillons synthétiques permettent de supporter l’entraînement des
classificateurs pour lesquelles les classes sont fortement débalancées. Malgré que plusieurs
travaux de recherches montrent les bénéfices de telles pratiques (p.ex Batista, Prati et
Monard, 2004; He, Bai, Garcia et Li, 2008), les analyses de ce projet montrent que
l’utilisation d’échantillons synthétiques a plutôt été associé à une baisse de performance en
classification. Il est possible que ce résultat ait été amplifié par l’absence de nombreux
facteurs (comme la difficulté ou le stress) dans la régression logistique multiple.
Dans l’ensemble, l’imputation et le rééquilibrage des classes ont eu des effets moins
prometteurs que prévu. Il peut être quand même prudent et avantageux de néanmoins les
inclure dans la méthode. Dans un cas particulier de cette expérience, l’imputation a
notamment permis de rendre possible la prédiction de l’effort mental. L’inclusion de ces
méthodes doit toutefois être bien pesée : bien que les données relatives au temps
d’entraînement des classificateurs n’aient pas été présentées, les observations informelles
faites lors des analyses suggèrent que l’imputation et le rééquilibrage des classes ont
consommé un temps non négligeable lors de l’entraînement des classificateurs.
4.3.2.1 Classificateurs du repos initial
Comme il est observé dans d’autres travaux empiriques (p.ex. Gateau et coll., 2015; Girouard
et coll., 2009; Healey et Picard, 2005), la classification du repos initial s’est révélée être très
précise. Les métriques les plus pertinentes retenues pour la classification du repos initial était
principalement celles associées aux mouvements oculaires. Lors de la prise de mesure du
repos initial, les participants étaient invités à simplement attendre devant un écran noir, sans
aucune tâche à réaliser. Dans un tel cas, il est attendu que les métriques oculaires soient
différentes de celles de la tâche. Ces métriques suggèrent un fort vagabondage oculaire,
possiblement causé par le fait que les participants n’avaient rien de précis à faire lors du repos
initial. Il est possible de faire l’hypothèse que ce vagabondage ne soit pas typique de toutes
les formes de repos, ce qui diminue la capacité de généralisation du classificateur à d’autres
contextes. Toutefois, les résultats suggèrent que même avec le sous-ensemble RR-RSP, la
classification du repos initial était très bonne. Ce résultat suggère qu’un seul appareil, comme
155
le Bioharness 3 utilisé dans ce projet, pourrait être suffisant pour distinguer l’engagement
dans un contexte de travail similaire à celui de la gestion de crise, et ce, avec une précision
assez élevée. Lors du repos initial, la respiration était plus ample et plus irrégulière, ce qui
est semblable aux résultats d’autres travaux empiriques (p.ex. Bernardi et coll., 2000). Il est
donc possible de faire l’hypothèse que les classificateurs du repos initial ont le potentiel
généraliser à d’autres contextes similaires. Toutefois, puisque tous les niveaux de base ont
été pris avant l’expérience, le classificateur pourrait être confondu avec un autre classificateur
du temps passé sur la tâche.
4.3.2.2 Classificateurs de la difficulté
La classification de la difficulté n’a pas été concluante sous aucune condition, et ce, bien que
les indices suggèrent que la manipulation était réussie. Les travaux empiriques suggèrent que
les mesures physiologiques périphériques devraient être suffisantes pour classifier la
difficulté. La difficulté a d’ailleurs pu être classifiée avec une très bonne performance lors
du chapitre précédent.
L’explication de ce résultat se retrouve possiblement dans la différence entre l’exigence
objective et l’exigence subjective. Tel que détaillé à la section 1.1.1, ces deux formes
d’exigences ne varient pas toujours ensemble. Des facteurs, comme l’anxiété (Tsai, 2012) et
l’entraînement (Kalyuga, Chandler, Tuovinen et Sweller, 2001) des individus peuvent
provoquer différentes évaluations d’exigence pour une même tâche. Dans cette expérience,
il est donc possible que la perception l’exigence ait été très différente entre les individus. De
plus, tel que démontré plus tôt, la perception de l’exigence mentale n’a pas seulement été
modulée par la difficulté de la tâche, mais également par le temps passé sur la tâche. Les
classificateurs de la difficulté n’ont donc pas pu établir de lien entre les conditions
faciles/difficiles puisque cette distinction était possiblement trop peu représentative de
l’exigence mentale telle que perçue par les participants. Comme seconde hypothèse, il est
également possible d’envisager que les deux niveaux de difficulté aient tous deux étés trop
difficiles. Dans ce cas, il est possible que les signes physiologiques sensibles à la difficulté
aient plafonné ou même complètement changé de direction (voir Durantin, Gagnon,
Tremblay & Dehais, 2014).
156
4.3.2.3 Classificateurs de stress
Dans ce chapitre, le stress a été conceptualisé de manière à être le plus indépendant possible
des autres formes de charge mentale, comme l’exigence mentale, et indépendant d’autres
variables confondantes, comme la parole. La vérification de l’indépendance des classes
suggère d’ailleurs que le stress était différent des autres variables de cette expérience. Le fait
qu’il ait été possible de classifier cette variable suggère donc que la présence du stresseur
psychosocial (l’évaluateur) a bel et bien eu des effets physiologiques distincts sur les
participants. Ce résultat est particulièrement intéressant considérant que les mesures
subjectives n’ont pas décelé d’effets majeurs du stresseur. En d’autres mots, les participants
ont affirmé que la présence de l’évaluateur n’a pas affecté leur niveau de stress, mais les
classificateurs ont néanmoins été capables de détecter sa présence. Ces résultats mettent en
évidence les biais auxquels peuvent être soumis les mesures subjectives (Annett, 2002) et
montrent les avantages des mesures physiologiques contre ces biais.
Les résultats suggèrent que la classification du stress était possible même avec le plus petit
sous-ensemble (RR-RSP), ce qui implique qu’il pourrait être possible de classifier le stress
en contexte de C2 avec un seul appareil de mesure (le Bioharness 3). Malgré que la régression
linéaire multiple n’ait pas relevé de différences significatives entre les sous-ensembles, la
meilleure classification était obtenue lorsque toutes les métriques physiologiques étaient
fournies. Quant aux métriques retenues par le classificateur, celles-ci renforcent l’idée qu’il
s’agissait bien du stress qui était discriminé. L’augmentation des basses fréquences
cardiaques est en accord avec ce qui est principalement observé dans la littérature (Castaldo
et coll., 2015). Dans certaines études, les très basses fréquences cardiaques sont parfois
ignorées lorsque les périodes d’analyses sont courtes (p.ex. Herbert et coll., 2010; Hjortskov
et coll., 2004), mais les résultats suggèrent que cette métrique était très utile pour discriminer
le stress. Une diminution des très basses fréquences cardiaques peut notamment être observée
suite à un événement stressant comme un tremblement de terre (Huang et coll., 2001). Les
métriques respiratoires retenues pourraient être expliquées par la diminution des soupirs des
participants. Selon Vlemincx et coll. (2011), les soupirs sont typiquement observés après (et
non pendant) les périodes stressantes. Peu de travaux empiriques portant sur le stress
détaillent les deux métriques électrodermales retenues par le classificateur retenu (puissance
157
de la bande 40 à 50 mHz / kurtosis de la distribution). Toutefois, le fait que le kurtosis de
l’activité électrodermale était élevé lorsque le stresseur était présent peut suggérer que le
stress préservait le niveau électrodermal autour de la moyenne, possiblement par une série
de faibles réponses électrodermales. Bien qu’indirecte, cette manifestation est caractéristique
du stress (Carrillo et coll., 2001).
La classification du stress était meilleure lorsque les participants étaient sous l’influence du
stresseur. Étant donné que les effets physiologiques du stress mettent un certain temps à
disparaître (p.ex. Elzinga et Roelofs, 2005; Schoofs, Preuß et Wolf, 2008), il est possible que
le classificateur ait prédit que les participants étaient stressés même après que le stresseur ait
été retiré. Quant au fait que le stress était mieux classifié lorsque l’effort était élevé, il est
possible de faire l’hypothèse que les participants fournissant un effort étaient plus engagés
ou plus motivés à la tâche, les rendant simultanément plus enclins à vouloir bien performer
en présence de l’évaluateur.
4.3.2.4 Classificateurs de l’ordre des conditions
La classification de l’ordre des conditions a atteint de bonnes et plutôt constantes
performances au travers des différentes conditions. Toutefois, en comparaison à d’autres
travaux empiriques, cette performance s’est révélée plutôt faible. Il faut cependant considérer
que ces autres travaux empiriques utilisent des capteurs neurologiques (comme
l’électroencéphalogramme) (p.ex. Shen, Li, Ong, Shao et Wilder-Smith, 2008; Sun al. 2014),
des contrastes plus importants entre les niveaux de fatigue (p.ex. Riga, Goletsis, Bougia et
Fotiadis, 2011; Shen et coll., 2008) ou des définitions de la fatigue qui s’apparentent à
d’autres dimensions (telles que définies dans ce projet; Shen et coll., 2008).
La constance de performance entre les sous-ensembles de métriques est possiblement causée
par le fait que les métriques cardiaques étaient les plus déterminantes dans la classification
de l’ordre des conditions. Comme les métriques cardiaques étaient présentes dans tous les
sous-ensembles, l’ajout de métriques supplémentaires n’a pas contribué à offrir une meilleure
classification. Les classificateurs de l’ordre des conditions ont utilisé des métriques simples
qui peuvent concorder avec les travaux menés sur la fatigue mentale, notamment un
158
ralentissement du rythme cardiaque (Lagory et coll., 2001), et une respiration moins ample
Fairclough et Mulder (2011). La diminution du niveau électrodermal observée n’est pas
caractéristique de la fatigue (Wu, Wanyan et Zhuang, 2015), mais plutôt une conséquence de
l’inactivité (Boucsein, 2012). Considérant la diminution de l’effort qui a été observée entre
les conditions, il est également plausible que les signes physiologiques relevés par les
classificateurs des conditions soient ceux d’un effort mental plus faible. Cependant, les
classificateurs de l’effort mental (voir plus bas, section 4.3.2.7) ont relevé des manifestations
physiologiques très différentes des classificateurs de l’ordre des conditions.
La diminution de la qualité de classification de l’ordre des conditions observée au fur et à
mesure que le temps progressait peut s’expliquer par la stabilisation des signaux
physiologiques. Si l’activité électrodermale et le rythme cardiaque sont réputés diminuer
avec l’inactivité, il n’en reste pas moins que ces derniers doivent se stabiliser à un moment
ou un autre, ce qui peut avoir confondu le classificateur. La diminution de la qualité de
classification provoquée lors des périodes stressante peut possiblement s’expliquer par le fait
que le stress provoquait des réactions physiologiques qui s’opposaient à celles de l’ordre des
conditions (notamment au niveau de la variabilité cardiaque, voir section 1.3.3).
4.3.2.5 Classificateurs de l’ordre des époques
Les classificateurs de l’ordre des époques déterminaient si l’époque appartenait aux 120 ou
300 premières secondes d’une condition expérimentales. Tel que décrit dans la section 4.1.3,
chaque condition débutait avec une brève période de très faible intensité. Les résultats
montrent que les classificateurs ont atteint une très bonne performance en classification.
Comme première hypothèse, il est possible de suggérer que ces classificateurs repéraient
époques pour lesquelles le participant était engagé dans la tâche, mais pour lesquelles toutes
les sous-dimensions de la charge mentale étaient faibles. Les métriques physiologiques
retenues par ces classificateurs supportent d’ailleurs cette proposition. En effet, lors des
époques subséquentes (celles où la charge mentale était plus élevée), le diamètre pupillaire
était plus grand (Cabestrero, Crespo et Quirós, 2009). Il était également possible d’observer
un plus faible nombre de saccades oculaires, indiquant moins de recherche et plus
d’extraction d’information (Poole et Ball, 2005). Le niveau électrodermal des premières
159
époques subissait d’ailleurs une baisse plus constante que les époques subséquentes, ce qui
laisse suggérer que les époques subséquentes étaient sujettes à un plus grand nombre de
réponses électrodermales, elles aussi associées à une charge mentale plus élevée (Collet,
Salvia et Petit-Boulanger, 2014).
Les classificateurs de l’ordre des classifiaient mieux avec des époques de 300 secondes. Tel
que suggéré par l’analyse des poids des métriques, les classificateurs de l’ordre des époques
repéraient une importante baisse de l’activité électrodermale afin de déterminer s’il s’agissait
bien de la première époque d’une condition. Il est donc possible que cette baisse ait été plus
facile à repérer avec des époques plus longues. Les classificateurs de l’ordre des époques
sont les seuls pour lesquels la régression logistique multiple a confirmé qu’un plus grand
nombre de métriques physiologiques améliorait la classification. Ce résultat pourrait avoir
été provoqué par le fait que les changements entre la première époque et les époques
subséquentes étaient plus rapides (120 à 300 secondes) que pour le changement des autres
variables (lesquels nécessitaient plus de 15 minutes). Il est donc possible que les
classificateurs de l’ordre des époques s’appuyaient sur les modalités physiologiques ayant
une plus grande réactivité (activité électrodermale et mouvements oculaires) en comparaison
à celles qui prennent plus de temps pour varier (activité cardiaque et respiratoire). La
classification de l’ordre des époques était aussi meilleure lorsque l’effort mental était élevé
et lors des dernières époques (qui demandaient aussi un effort mental plus élevé). Tout
comme pour la classification du stress, il est possible que les périodes à effort faible aient été
représentatives de moments où le participant ne s’engageait pas dans la tâche et pour
lesquelles d’autres états psychologiques (p.ex. l’ennui ou le découragement) aient pu faire
varier les réactions physiologiques.
4.3.2.6 Classificateurs de la performance
Mis à part une seule exception, les classificateurs de la performance n’ont pas atteint le seuil
de signification dans leurs prédictions. Ce résultat est fort probablement causé par le nombre
trop important de facteurs qui influencent la performance dans une simulation de C2. Tel que
détaillé plus tôt, les expériences personnelles, les stratégies et même la chance peuvent avoir
influencé la performance. Étant donné la présence de quelques tendances, un nombre plus
160
élevé de participants aurait peut-être permis d’entraîner un classificateur de performance
valide.
4.3.2.7 Classificateurs de l’effort
Il est pertinent de rappeler que les classificateurs de l’effort étaient entraînés à repérer les
conditions pour lesquelles les participants atteignaient une bonne performance tout en
évaluant l’exigence mentale ressentie comme étant élevée. Contrairement à d’autres
variables, peu de combinaisons de paramètres sont parvenues à prédire l’effort mental.
Toutefois, les résultats suggèrent que les classificateurs qui y sont parvenus l’ont fait avec
une performance satisfaisante. Pour prédire l’effort mental, il semble critique que les
classificateurs aient accès aux métriques pupillaires. Ce résultat n’est pas surprenant
considérant les nombreux travaux empiriques qui suggèrent des liens entre le diamètre
pupillaire et l’effort mental (Alnæs, Sneve, Espeseth, Endestad et van de Pavert, 2014;
Kahneman, 1973; Karatekin, Couperus et Marcus, 2004; Laeng, Sirois et Gredebäck, 2012;
Peysakhovich, Causse, Scannella et Dehais, 2015). L’analyse des métriques suggère
également que les classificateurs d’effort ont une bonne validité conceptuelle. La diminution
des basses fréquences cardiaque est aussi observée dans d’autres situations demandant un
effort mental élevé (Hjortskov et coll., 2004; Tharion, Parthasarathy et Neelakantan, 2009).
La transition vers les hautes fréquences pupillaires est aussi caractéristique d’un effort mental
plus élevé (Murata et Iwase, 1998; Peysakhovich et coll., 2015).
Il est difficile de déterminer pourquoi l’effort n’était classifiable qu’avec des époques de 300
secondes. En effet, les indices suggèrent que la pupille était très utile pour la classification
de l’effort, mais les métriques pupillaires sont typiquement analysées à des échelles de temps
plus courtes (p.ex. 8 secondes, Peysakhovich et coll., 2015; 3 à 8 secondes, Alnæs et coll.
2014). Ce résultat suggère qu’il peut donc être bénéfique de calculer des métriques pupillaires
sur des époques de plus longue durée. De manière similaire au stress, l’effort semblait mieux
classifié lorsque les participants étaient plus engagés dans la tâche (c.-à-d. lorsque le stress
était élevé, lorsque la performance était bonne et lors des dernières époques des conditions).
Une fois de plus, ce résultat suggère que les participants qui étaient peu engagés ont peut-
être été influencés par d’autres états psychologiques qui venaient confondre la signature
161
physiologique de l’effort. Finalement, la classification de l’effort était moins bonne lors des
dernières conditions expérimentales. Il est possible que la fatigue mentale ait découragé les
participants de déployer plus d’effort lors de la fin de l’expérience (Holdings 1983, Meijman
et coll., 1992).
4.3.2.8 Classificateurs subjectifs
La classification des dimensions subjectives du NASA-TLX s’est révélée plutôt fructueuse.
Les dimensions de l’exigence mentale, de la performance, de la frustration et du stress ont
notamment pu être prédites avec une performance acceptable (κ < 0,2; p < 0,001). Le fait
qu’il ait été possible de prédire l’exigence mentale subjective, et non objective, renforce une
fois de plus l’hypothèse que la simulation de C2 a été vécue de manière très différente entre
les individus. L’analyse de l’indépendance des classes montre également que l’exigence
mentale subjective était modérément associée à la difficulté et l’effort, mais peu associée au
stress et à l’ordre des conditions, ce qui renforce sa validité conceptuelle. De manière
similaire, alors que la performance objective n’a pas pu être prédite, la performance
subjective a pu l’être. Il est intéressant de noter que la performance subjective était plus
associée à la difficulté qu’à la performance réelle des individus. On peut donc faire
l’hypothèse que le classificateur de la performance subjective est en réalité un autre
indicateur de l’exigence subjective des individus.
La frustration et le stress ont aussi pu être prédits. L’analyse de l’indépendance des classes
suggère que ces deux dimensions étaient modérément associées entre elles. Considérant aussi
que la dimension du stress était considérée lors de l’élaboration du NASA-TLX13 (Hart &
Staveland, 1988), il est possible de suggérer que ces deux classificateurs mesurent un concept
similaire. Il est toutefois pertinent de noter que ces deux classificateurs ne sont que très peu
associés à la présence du stresseur objectif (l’acteur évaluateur). On peut donc faire
13 La dimension du stress a finalement été englobée dans celle de la frustration à la fin de l’élaboration du
NASA-TLX.
162
l’hypothèse que ces deux classificateurs prédisent plutôt le stress tel que provoqué par la
tâche et non par les conditions dans laquelle elle est effectuée.
Finalement, il est intéressant de noter que seuls les classificateurs utilisant les époques de
120 secondes sont parvenus à prédire correctement les dimensions subjectives de la charge
mentale. Il est possible que ce résultat soit causé par le plus grand nombre d’échantillons
disponibles lors du découpage en époques de 120 secondes. En effet, les valeurs de kappa
des classificateurs sont similaires entre 120 et 300 secondes, mais les probabilités d’erreur
(p) sont plus élevées dans pour les classificateurs de 300 secondes. On peut supposer qu’avec
un nombre plus élevé d’échantillons, les classificateurs utilisant des époques de 300 secondes
auraient pu atteindre le seuil de signification fixé dans ce projet de thèse (p < 0,001).
4.3.3 Discussion générale
Au chapitre précédent, il a été déterminé que les mesures physiologiques périphériques
pouvaient fournir une estimation diagnostique de la charge mentale dans un contexte de tâche
simple. Ce chapitre visait à investiguer si cette diagnosticité était préservée dans un contexte
de simulation de C2. La section suivante discute de chacune des quatre dimensions de la
charge mentale (telle que définie dans ce projet) en intégrant les classificateurs qui sont les
plus conceptuellement associés à chaque dimension.
Les classificateurs les plus en lien avec l’exigence mentale sont ceux de la difficulté et de la
performance ainsi que ceux de l’exigence mentale et temporelle subjective. Les résultats ont
clairement montré que dans une tâche complexe comme une simulation de C2, il est
beaucoup plus facile de prédire l’exigence subjective que l’exigence objective. L’hypothèse
retenue pour expliquer ce résultat semble, à première vue, évidente : les réactions
physiologiques ne sont pas affectées directement par les propriétés de la tâche, mais par la
manière par laquelle les individus réagissent à ces tâches. Malgré cette suggestion, un grand
nombre de recherches visant à prédire l’exigence (ou plus généralement, la charge mentale)
entraînent des classificateurs sur les niveaux objectifs de difficulté plutôt que sur la
perception de l’exigence (p.ex. Casson, 2014; Henelius, Hirvonen, Holm, Korpela et Muller,
2009; Liu, Ayaz et Shewokis, 2017). Si cette pratique fonctionne dans des contextes de tâche
163
simple, cette expérience met en évidence le besoin de commencer à entraîner des
classificateurs subjectifs dans des contextes appliqués, comme celui du C2. Malgré qu’il ait
été possible de prédire l’exigence subjective, la qualité de prédiction était plus faible. De
plus, ce projet de thèse n’avait pas comme visée spécifique d’étudier la prédiction des états
subjectifs. Pour ces raisons, il est suggéré que la prédiction diagnostique de l’exigence
mentale en contexte de C2 est possible. Des travaux supplémentaires seront toutefois
nécessaires avant de pouvoir le confirmer avec certitude.
L’effort est associé aux classificateurs d’effort objectif et subjectif et, de manière indirecte,
à la classification de la performance objective et subjective. Les classificateurs de l’effort
objectif ont été les plus pertinents pour le prédire. Ce résultat n’est pas étonnant considérant
que les individus ont potentiellement eu du mal à estimer leur niveau d’effort lorsque
demandé dans le NASA-TLX. Les résultats montrent en effet que les estimations subjectives
de l’effort n’étaient que peu associées aux autres dimensions (comme celle de la
performance). En se basant sur l’effort objectif, les prédictions de l’effort mental ont été
possibles. Les métriques retenues par ce classificateur confirment que l’effort mental a bel et
bien sa propre signature physiologique. Il est d’ailleurs possible de remarquer que certaines
métriques retenues par le classificateur de l’effort objectif en contexte de C2 sont partagées
avec ceux des classificateurs de la difficulté en contexte de tâche simple (p.ex. une
augmentation des fréquences pupillaires entre 175 et 250 mHz) et aussi partagée avec ceux
des classificateurs d’effort en contexte de tâche simple (p.ex. l’asymétrie de la distribution
des battements cardiaques). En tenant compte de ces résultats, il est possible d’affirmer qu’il
est possible de prédire l’effort de manière diagnostique dans une tâche de C2.
Au niveau du stress, les classificateurs les plus conceptuellement associés sont ceux du stress
(objectif), du stress (subjectif), de la frustration (subjectif) et de l’exigence temporelle
(subjective). Mis à part pour l’exigence temporelle, les classifications de ces dimensions ont
obtenu des performances plutôt satisfaisantes. Trois leçons importantes sont retenues.
Premièrement, il a été possible de prédire une forme de stresseur qui n’est pas associée à une
exigence ou un effort plus élevé, qui n’est pas associé à la douleur physique (p.ex. Duncko,
Johnson, Merikangas et Grillon, 2009) et qui est distinct d’une capture attentionnelle (tel
164
qu’il a été possible dans le Chapitre 3 de cette thèse). Deuxièmement, il a été possible de
prédire le stress des individus en utilisant leurs réponses physiologiques malgré l’absence
quasi absolue d’effets subjectifs. Dans un contexte de C2, cela signifie qu’il pourrait être
possible de repérer les opérateurs qui sont soumis à de l’anxiété avant même que des
conséquences comme des erreurs (Elzinga & Roelofs, 2005; Hembree, 1988) ou, à plus long
terme, des problèmes de santé ne surviennent (Jones, Latreille et Sloane, 2016).
Troisièmement, il a été possible de prédire les stress subjectifs des individus, même si celui-
ci était différent du stress objectif et même s’il était associé à plusieurs sources différentes.
Ces résultats confirment que la dimension du stress, distincte de celle de l’exigence, de
l’effort et de la fatigue, est prévisible de manière diagnostique avec des mesures
physiologiques périphériques.
Finalement, les classificateurs les plus conceptuellement associés à la fatigue sont ceux de
l’ordre des conditions, de la fatigue subjective et, partiellement, ceux du repos initial.
Contrairement au chapitre précédent, il a été possible d’entraîner des classificateurs d’ordre
de conditions sans qu’ils soient confondus avec une tâche spécifique. Les résultats montrent
qu’il est possible de prédire la fatigue avec une bonne précision dans une tâche de C2. Ces
classificateurs ont pu détecter la fatigue dans un temps relativement restreint (un peu plus
d’une heure), ce qui est un avantage en comparaison aux classificateurs qui mesurent la
fatigue sur des grands contrastes seulement (p.ex. sur une période de 25 heures, Shen et coll.,
2008).
Les classificateurs de l’ordre des époques n’ont pas été associés à aucune des 4 dimensions
de la charge mentale. Les résultats suggèrent en effet que ces classificateurs prédisaient une
combinaison d’exigence, d’effort mental, de stress et de fatigue. En d’autres mots, il est
possible de faire l’hypothèse que les classificateurs de l’ordre des époques n’étaient en réalité
que des classificateurs génériques de charge mentale. Malgré l’impossibilité d’en faire une
mesure diagnostique, ce classificateur donne tout de même une leçon importante à retenir.
La classification des époques a pu être faite avec une très bonne précision. Ce résultat suggère
qu’il est possible d’utiliser la physiologie périphérique pour prédire, avec une précision
élevée, la charge mentale en contexte de C2.
165
4.4 Conclusion
Le domaine du C2 est caractérisé par des situations complexes, dynamiques et imprévisibles
qui peuvent provoquer différentes formes de charge mentale chez les opérateurs. Les mesures
physiologiques périphériques offrent le potentiel de prédire la charge de travail des
opérateurs de C2, offrant la possibilité de les supporter dans leur travail. Toutefois, peu de
travaux empiriques ont exploré le potentiel diagnostique des mesures physiologiques
périphériques de la charge mentale en contexte de C2. Ce chapitre visait à explorer le
potentiel d’un tel système. Les résultats de cette simulation ont montré que la charge mentale,
au sens global, peut facilement être prédite même en contexte de C2. Les sous-dimensions
de la charge mentale sont toutefois beaucoup plus difficiles à prédire en contexte de C2 qu’en
contexte de tâche simple, et ce, malgré une méthodologie similaire. Il n’a pas été possible de
prédire l’exigence objective de la tâche, mais bien seulement l’exigence subjective. En
revanche, il a été beaucoup plus facile de prédire l’effort mental des individus. La présence
d’un stresseur psychosocial a pu être prédite par la physiologique périphérique malgré
l’absence d’effets sur les mesures subjectives. Finalement, les résultats suggèrent qu’il est
possible d’utiliser la physiologie périphérique pour prédire la sous-dimension de la fatigue.
Des travaux supplémentaires seront toutefois requis afin de distinguer cette signature de celle
causée par la diminution de l’effort mental.
166
Chapitre 5 : Discussion générale
5.1 Sommaire des résultats
La première expérience avait comme objectif d’explorer la diagnosticité des mesures
physiologiques périphériques de la charge mentale dans un contexte de tâches expérimentales
simples. Les résultats ont montré que les mesures physiologiques périphériques sont en
mesure de prédire le niveau d’exigence mentale objectif d’une tâche, et ce, avec une précision
similaire à ce qu’il est possible d’obtenir avec un électroencéphalogramme. La performance,
étroitement associée avec la difficulté de la tâche, a été classifiée encore mieux que
l’exigence mentale, ce qui peut être prometteur dans des contextes de travail appliqués. Il a
également été possible de prédire l’effort mental avec une précision similaire. L’analyse des
métriques physiologiques a d’ailleurs relevé que la signature physiologique de l’effort mental
présentait des différences avec celle de l’exigence mentale, renforçant ainsi l’idée que les
deux concepts sont distincts. De manière générale, la pupille s’est avérée très utile pour
prédire l’effort. Les résultats ont aussi montré que les réactions physiologiques étaient
capables de prédire la présence ou l’absence d’un stresseur (une punition sonore aversive).
Malgré que la signature physiologique du stress relevée dans cette expérience concorde avec
plusieurs travaux similaires, il est difficile de confirmer avec certitude que cette dimension
est prévisible de manière diagnostique. Dans cette expérience, il a effectivement été relevé
que le stress pouvait être confondu avec l’effort mental. Il est également possible que les
classificateurs aient été entraînés à reconnaître la présence d’une capture attentionnelle
provoquée par le son plutôt que le stress. Dans l’ensemble, les résultats suggèrent que le
stress est possiblement prévisible de manière diagnostique par la physiologie périphérique.
Une seconde expérience était toutefois requise avant de le confirmer avec certitude. Quant à
la fatigue, les résultats suggèrent qu’elle n’a que très peu contribué lors de la première
expérience. De plus, les signes physiologiques retenus par les classificateurs de la fatigue
peuvent être confondus avec une baisse de l’effort mental. Tout comme pour le stress, les
résultats de cette expérience ont suggéré qu’il était possible de prédire la fatigue de manière
diagnostique, mais qu’une seconde expérience était nécessaire pour le confirmer. Les
résultats ont également montré que le stress, tel que mesuré par le NASA-TLX, pouvait aussi
être prédit par la réponse physiologique des participants. Dans l’ensemble, la classification
des sous-dimensions de la charge mentale était meilleure si un plus grand nombre de
167
modalités physiologiques étaient utilisées. Toutefois, les classificateurs ont typiquement été
capables de fonctionner même en l’absence de mesures pupillaires et de mouvements
oculaires. Certains classificateurs (exigence mentale et tâche) ont également été capable de
prédire correctement en n’utilisant seulement que les métriques cardio-respiratoires. Ce
résultat suggère qu’il est peut-être possible de prédire ces sous-dimensions en utilisant qu’un
seul appareil de mesure, ce qui pourrait être très avantageux en contexte de travail réel.
La méthode expérimentale de la seconde expérience était similaire à celle de la première, à
la différence qu’au lieu de tâches expérimentales simples, une simulation de C2 était utilisée.
La simulation de C2 était construite de manière à capturer les éléments essentiels d’une tâche
réelle. Les résultats ont montré que la charge mentale globale était prédictible avec une aussi
bonne précision que pour des tâches expérimentales simples. Toutefois, les sous-dimensions
de la charge mentale semblent beaucoup plus difficiles à prédire de manière diagnostique; la
précision des classificateurs était généralement moins bonne dans cette expérience et les
classificateurs souffraient plus rapidement du retrait des modalités physiologiques.
Néanmoins, les résultats ont permis de tirer plusieurs conclusions intéressantes. Dans la
simulation de C2, l’exigence mentale objective n’a pas pu être prédite; seule l’exigence
mentale subjective a pu l’être. Ce résultat peut indiquer que plusieurs facteurs, comme
l’expérience en jeu vidéo (Bialystok, 2006; Boot, Blakely, Simmons, 2011), viennent
changer les stratégies cognitives des individus, et, ultimement, la perception qu’ils ont de
l’exigence de la tâche. Ce résultat suggère également une prudence dans le potentiel de
transférabilité, de tâches simples vers les tâches complexes, des classificateurs de l’exigence
mentale. L’expérience a également démontré que l’effort mental était beaucoup plus facile à
prédire que l’exigence ou la performance. Encore une fois, la pupille s’est avérée très utile
lors de la classification de l’effort mental. Alors que la première expérience avait laissé un
doute sur la possibilité à prédire le stress de manière diagnostique, les résultats de la seconde
expérience suggèrent, de manière beaucoup plus robuste, que le stress est prévisible de
manière diagnostique. Le stresseur utilisé dans cette expérience était basé sur le Trier Social
Stress Task. Lors des conditions stressantes, les participants étaient observés par un acteur
prenant le rôle d’évaluateur. La présence du stresseur ne provoquait aucun bruit
supplémentaire et n’apportait aucune modification à la tâche. Quant à la fatigue, les résultats
168
ont montré qu’il était possible de la prédire dans un contexte de C2. Encore une fois, certains
signes physiologiques retenus par le classificateur de la fatigue concordent avec ceux
observés dans la littérature. Toutefois, il reste difficile de dire si ces signes sont provoqués
par la fatigue ou s’il ne s’agit pas de variable confondante comme le manque d’effort et/ou
simplement le temps passé sur la tâche. Encore une fois, le stress, tel que mesuré par le
NASA-TLX, a pu être prédit en utilisant les réponses physiologiques. Dans cette expérience,
il a aussi été possible de prédire l’exigence mentale subjective des participants. Plusieurs
classificateurs entraînés dans cette expérience ont été capables de prédire de manière
significative en n’utilisant que les métriques cardio-respiratoires. L’ajout de modalités
supplémentaires semble avoir amélioré la classification, mais les effets de cet ajout étaient
beaucoup moins importants que pour la première expérience.
5.2 Contributions théoriques
5.2.1 Introduction de nouvelles métriques physiologiques
Une des contributions théoriques les plus importantes de cette thèse est l’introduction de
métriques physiologiques peu utilisées dans la littérature qui se sont avérées très utiles pour
déterminer les signatures des sous-dimensions de la charge mentale. Le but de la thèse n'était
pas directement de tester ces nouvelles métriques, mais plutôt de vérifier s’il était avantageux
pour les algorithmes d’apprentissage automatique de s’entraîner avec des métriques plus
simples.
Certaines des métriques peu communes utilisées dans ce projet ressemblent à des métriques
qu’il est possible de retrouver dans la littérature, sans toutefois être totalement équivalentes.
C’est notamment le cas des métriques qui calculaient le minimum/maximum de certains
signaux. Le minimum/maximum des signaux est, en partie, associé à la moyenne. Pourtant,
le minimum/maximum a parfois eu un poids plus important que la moyenne ou la médiane
du signal. C’est par exemple le cas du classificateur de la tâche de la première expérience et
du classificateur de l’ordre des époques dans la seconde expérience. Ces deux classificateurs
ont retenu, avec un poids assez fort, le minimum du signal électrodermal comme métrique
physiologique. Typiquement, la conductance de la peau diminue doucement avec le temps et
remonte rapidement lors de l’activation du système sympathique. Les métriques souvent
169
retenues pour caractériser le signal électrodermal sont souvent le niveau (équivalent à la
moyenne dans cette thèse) ou encore les réponses électrodermales (équivalentes à l’analyse
des pics dans cette thèse) (voir Boucsein, 2012). Il est difficile de déterminer pourquoi
exactement le minimum a été retenu plutôt que ces métriques traditionnelles. Un minimum
faible peut peut-être simultanément indiquer à la fois l’absence de réponses électrodermales
et un niveau moyen faible. Quoi qu’il en soit, cet exemple montre l’intérêt de caractériser un
signal autrement que par des métriques traditionnelles.
Certaines autres métriques avaient, en revanche, très peu d’équivalents dans la littérature
psychophysiologique et se sont néanmoins retrouvés parmi les métriques les plus utiles des
classificateurs. C’est entre autres le cas de l’asymétrie cardiaque14. L’asymétrie cardiaque
s’est révélée être positivement associée à l’effort mental, à la fois en contexte de tâche simple
et en contexte de C2. Malgré qu’elle ne soit pas utilisée dans la littérature, l’asymétrie
cardiaque peut être considéré comme une forme de métrique de variabilité cardiaque
puisqu’elle explique un débalancement entre la densité de battements de courte et de haute
durée. Les influences de la charge mentale sur la variabilité cardiaque pourraient donc être à
l’origine de l’influence sur l’asymétrie cardiaque.
Finalement, certaines métriques fréquentielles se sont aussi avérées fortement utiles. Les
métriques fréquentielles ne sont pas nouvelles en psychophysiologie. La présente thèse a
toutefois choisi d’explorer la contribution de bandes fréquentielles très étroites couvrant de
très basses fréquences pour les signaux respiratoires, électrodermaux et pupillaires. Les
métriques fréquentielles de la respiration n’ont pas été particulièrement retenues par les
classificateurs. Il est possible que l’analyse des pics ait capturé des informations plus
pertinentes. Il est également possible que les bandes fréquentielles choisies (0 à 250 mHz)
aient été trop larges par rapport aux fréquences respiratoires habituelles de l’adulte (200 à
300 mHz; Lindh et coll., 2013). Les métriques fréquentielles électrodermales ont parfois été
retenues par les classificateurs. Ces résultats renforcent les études, peu nombreuses, qui
14 L’asymétrie cardiaque fait référence à l’asymétrie statistique (anglais : skewness) de la distribution de la
durée des battements et non à l’asymétrie morphologie cardiaque (p.ex. Ramsdell, 2005).
170
suggèrent que l’analyse spectrale du signal électrodermal a la possibilité de renseigner sur la
charge mentale (Shimomura et coll., 2008). Il est toutefois nécessaire d’être prudent avec ces
résultats; étant donné que la réponse électrodermale est fortement influencée par les
événements d’une tâche, il est possible que les fréquences retenues ne soient en réalité dictées
par une cadence d’événements issue des tâches. Les métriques fréquentielles pupillaires se
sont révélées particulièrement utiles pour plusieurs classificateurs, notamment ceux associés
à l’exigence et, plus encore, à l’effort mental. Plus précisément, l’effort mental semble avoir
été associé à une augmentation des fréquences pupillaires situées entre 150 et 250 mHz. Étant
donné qu’une analyse détaillée du spectre n’a pas été effectuée, il est difficile de confirmer
exactement le rôle de ces bandes fréquentielles auprès de l’effort mental. Il est possible que
ces bandes aient reflété les changements fréquentiels déjà observés dans une bande plus large
(0 à 1600 mHz; Peysakhovich et coll., 2015) et que n’importe quelle autre bande contenue
dans cette étendue (p.ex. 400 à 500 mHz) aurait elle aussi été retenue par les classificateurs.
5.2.2 Redéfinition du rôle de l’exigence mentale
Dans ce projet, l’exigence mentale a été définie comme la quantité de travail perçue par les
individus. Tel que détaillé à la section 1.1.1, l’exigence mentale peut être objective ou
subjective. Dans les deux expériences de cette thèse, l’exigence objective était basée sur la
difficulté de la tâche. De l’autre côté, l’exigence subjective était basée sur les évaluations
recueillies par le questionnaire NASA-TLX. L’exigence mentale objective a été bien
classifiée en contexte de tâche simple. Toutefois, seulement l’exigence subjective a été
classifiable en contexte de C2. Les chapitres précédents ont discuté de ce résultat. En bref, la
complexité de la tâche de C2, combiné aux diverses stratégies et expériences préalables des
participants, a possiblement causé une très forte variabilité dans le niveau d’exigence
subjective perçu, rendant la prédiction de l’exigence objective impossible et la prédiction de
l’exigence subjective possible. Ces résultats amènent toutefois une autre implication possible
pour l’exigence mentale : celle que l’exigence mentale n’a peut-être pas de contribution
spécifique au niveau de la physiologie périphérique. En effet, il est possible de suggérer que
l’exigence mentale est un construit de trop haut niveau pour avoir des répercutions
physiologiques périphériques qui n’entrecoupent pas celles des autres dimensions (comme
l’effort mental et le stress). Cela ne veut pas dire pour autant que l’exigence ne provoque pas
171
de réactions physiologiques. Après tout, cette thèse a montré qu’il était possible de prédire
l’exigence à partir de la physiologie et certains travaux empiriques montrent que l’exigence
mentale est caractérisée par des patrons d’activation cérébraux particuliers et que ces derniers
se distinguent, entre autres, de l’effort mental (Mulert et coll., 2007). Il est plutôt question de
proposer que cette signature physiologique pourrait être expliquée par d’autres sous-
dimensions plus appropriées.
Les analyses effectuées dans cette thèse ne permettent pas de garantir cette la proposition que
l’exigence mentale n’a pas de signature physiologique périphérique propre à elle. Toutefois,
en contexte de tâche simple, les métriques physiologiques retenues pour classifier l’exigence
mentale recoupent souvent celles des autres sous-dimensions. C’est notamment le cas pour
la bande de 20 à 30 mHz électrodermale (classificateur de la performance, possiblement
associée à l’effort mental), des fréquences pupillaires situées entre 175 et 225 mHz
(classificateur du stress) et de la modélisation linéaire pupillaire (classificateur de la
performance). Entre d’autres mots, les manifestations physiologiques périphériques de
l’exigence mentale pourraient possiblement être la combinaison de celles de l’effort et du
stress. L’impossibilité de classifier l’exigence objective en contexte de C2 vient également
suggérer que cette sous-dimension n’est pas appropriée pour la physiologie périphérique.
D’autres travaux empiriques menés sur le sujet supportent aussi indirectement cette
proposition. Par exemple, Yoshino et Matsuoka (2005) rapportent les effets du niveau de
difficulté d’une tâche d’arithmétique sur la variabilité cardiaque et la pression sanguine. Les
auteurs précisent, en discussion, qu’ils n’étaient pas en mesure de déterminer si les
participants étaient engagés à faire la tâche. Ils ajoutent qu’un stresseur (la punition de devoir
recommencer l’expérience) était imposé de manière à encourager les participants à s’investir
dans la tâche. Sans nécessairement remettre en question toute leur expérience, il est possible
de se demander si les effets mesurés ne sont pas, du moins partiellement, causés par le stress
plutôt que par l’exigence.
Cette constatation n’est pas nécessairement une exclusivité de cette thèse. Certains modèles
excluent déjà l’exigence mentale comme sous-dimension et plusieurs travaux empiriques
172
précisent, malgré la manipulation de la difficulté, que c’est l’effort mental (ou autre) qui est
mesuré. Cette proposition est plutôt soulevée comme mise en garde envers les nombreux
travaux, souvent issus des domaines plus appliqués/techniques, qui tentent de prédire
l’exigence mentale à l’aide de la physiologie : l’utilisation de l’exigence comme variable
d’intérêt risque de souffrir du même problème de diagnosticité que l’utilisation d’une charge
mentale non spécifiée.
5.2.3 Distinction entre l’effort mental et le stress
Les résultats de cette thèse permettent clairement de distinguer les effets de l’effort mental
de ceux du stress. Les classificateurs des deux sous-dimensions ont retenu des métriques dans
chacune des différentes modalités physiologiques. Toutefois, les classificateurs de l’effort
mental ont retenu plus particulièrement les métriques de la pupille, alors que ceux du stress
ont retenu des métriques cardio-respiratoires. Pour expliquer cette différence, il est possible
de retenir l’hypothèse que la vitesse d’action des deux mécanismes est différente. Bien que
l’effort mental ait des effets physiologiques périphériques, les effets les plus importants de
l’effort mental sont possiblement provoqués dans le système nerveux central. Étant donné
l’association rapprochée du système nerveux central et du système oculaire (Hong, Walz,
Sajda, 2014), il est possible que la pupille ait été mieux adaptée pour capturer les fluctuations
d’effort mental. Le stress, tel que défini dans cette étude, est plutôt associé au cortex surrénal
(Gaillard et Wientjes, 1994) et à une libération de cortisol, laquelle est plus distribuée dans
le temps (p.ex. Elzinga et Roelofs, 2005). Il est donc possible que les métriques cardio-
vasculaires soient mieux adaptées pour capturer ces fluctuations plus lentes. En contre-
argument, il serait possible de suggérer que les deux états distincts repérés par les
classificateurs ne soient pas réellement l’effort mental et le stress. Après tout, les participants
n’ont rapporté qu’avec une très faible proportion avoir été stressés par les deux stresseurs
utilisés et les résultats semblent suggérer que la présence du stresseur a encouragé les
participants à fournir plus d’effort. Il est donc possible que l’argument des deux « vitesses »
proposé au paragraphe précédent reste valide, mais qu’il représente plutôt deux différentes
formes d’effort mental : une manifestation plus instantanée (celle liée aux classificateurs de
l’effort mental) et une manifestation plus latente (celle liée aux classificateurs du stress). En
explorant la littérature sur l’effort mental, il est possible de cerner certains concepts
173
« candidats » pour cette deuxième forme, notamment l’engagement (Matthews et Campbell,
2010) ou l’état de préparation mentale (anglais : cognitive readiness; Bolstad, Cuevas,
Costello, & Babbitt, 2008). Il est toutefois nécessaire d’être prudent avec cette interprétation.
En effet, il existe déjà un grand vocabulaire parfois de la charge mentale parfois imprécis
(voir section 1.1) et il peut être contre-productive d’amener de nouveaux construits. Cet
argument laisse aussi pour contre les nombreux travaux qui suggèrent que les stresseurs
utilisés dans cette thèse provoquent bel et bien un état de stress (Kudielka et coll., 2007; Patel
et coll., 2015).
5.3 Contribution méthodologique
5.3.1 Avantage – Grand nombre de métriques physiologiques
Ce projet de thèse a favorisé l’utilisation d’une grande quantité de métriques, lesquelles
étaient parfois peu communes dans la littérature. Ce choix méthodologique peut présenter
des avantages et des inconvénients. L’utilisation d’un faible nombre de métriques
physiologique peut faciliter l’interprétation des résultats et permet de créer des modèles plus
parcimonieux. Dans un contexte d’apprentissage automatique, un faible nombre de métriques
physiologiques peut également faciliter l’entraînement en évitant les problèmes de haute
dimensionnalité (Cornuéjols et Miclet, 2010). À l’inverse, l’utilisation d’un nombre élevé de
métriques physiologiques, comme dans ce projet, peut rendre difficile l’interprétation des
résultats. Cependant, cette approche peut laisser le champ libre aux techniques
d’apprentissage automatiques de déterminer les métriques pertinentes à la classification (à
condition que ces techniques gèrent bien la dimensionnalité élevée). Ce choix
méthodologique était particulièrement important dans ce projet de thèse. Tel que relevé à la
section 1.3.3, un grand nombre d’études psychophysiologiques ont relevé les métriques qui
sont sensibles aux sous-dimensions de la charge mentale. Toutefois, ces études ne rapportent
que très rarement les combinaisons de métriques qui sont spécifiques aux sous-dimensions.
Même si les modalités physiologiques retenues dans ce projet sont toutes déjà largement
étudiées, il est difficile de déterminer à priori quelles métriques seront les plus adaptées pour
la spécificité. L’analyse des métriques physiologiques effectuée dans les deux expériences
de ce projet a d’ailleurs montré que les métriques qui avaient, dans le passé, démontré de la
sensibilité aux sous-dimensions de la charge mentale n’ont pas toujours été retenues par les
174
classificateurs. À titre d’exemple, le ratio des basses sur les hautes fréquences cardiaques,
souvent associé à la charge mentale (Cinaz et coll., 2013; Fallahi et coll., 2016; Miyake,
1998; Murai, Hayashi, Okazaki et Stone, 2008), n’a pas été retenu par aucun classificateur.
Cela ne signifie pas que les sous-dimensions de la charge mentale n’ont pas affecté le ratio
des basses sur les hautes fréquences. Il est toutefois possible de faire l’hypothèse que ce ratio
était affecté par toutes les sous-dimensions, ce qui le rend peu utile pour distinguer laquelle
en est à l’origine.
5.3.2 Avantage – Méthode orientée vers la pratique
La méthode utilisée dans cette thèse avait comme avantage d’être orientée vers les
applications pratiques. Ce choix méthodologique fait en sorte que la performance des
classificateurs utilisés dans cette étude est possiblement plus rapprochée de ce qu’il est
possible de trouver en contexte de travail réel. À titre d’exemple, les signaux physiologiques
n’ont pas été soumis à un prétraitement très complexe (voir section 2.3). Ce choix
méthodologique est un couteau à double tranchant. Un bon prétraitement des données peut
retirer le bruit présent dans les données physiologiques, augmenter la puissance statistique
des tests effectués et, comme dans le cas présent, faciliter l’entraînement des techniques
d’apprentissage automatique. Toutefois, un bon prétraitement des données peut risquer de
diminuer la validité écologique des résultats obtenus. Dans des contextes de travail réels, les
signaux physiologiques peuvent facilement être bruités (p.ex. par l’activité physique ou par
le déplacement des capteurs). Dans certains cas, il est possible de prévoir le type de bruit et
le prétraitement qui peut le contrer (p.ex. l’application d’un filtre passe-bas pour retirer les
artéfacts liés au mouvement dans les signaux électrodermaux). Il n’est toutefois pas possible
de prévoir toutes les formes de bruit qui peuvent être présentes sur les signaux. Ainsi,
l’inspection (visuelle ou analytique) des signaux peut introduire une forme de biais dans les
tailles d’effet (ou dans la qualité de classification) car cette inspection ne sera pas toujours
possible en contexte de travail réel. De plus, certaines techniques de traitement du signal
peuvent être exigeantes en termes de ressources informatiques, ce qui peut provoquer des
délais dans l’obtention de la mesure ou une consommation plus sévère de la batterie (dans le
cas de systèmes portables). Étant donné que ce projet de thèse visait, entre autres, à
investiguer le potentiel diagnostique des mesures physiologiques en contexte de travail réel,
175
il a été choisi de garder un prétraitement des données minimal, représentatif de ce qu’il est
possible de rencontrer dans de tels contextes. Malgré la simplicité de ce traitement, les
classificateurs sont parvenus à des résultats très satisfaisants.
Comme second argument supportant le côté pratique de la méthode, il est possible de retenir
la période de mesure de la charge mentale utilisée dans cette thèse. Dans certains autres
travaux de recherche, les sous-composantes de la charge mentale sont mesurées sur des
périodes très longues (p.ex. Sano et Picard, 2013). À l’inverse, certains travaux mesurent la
charge mentale de manière très instantanée (p.ex Liu et coll., 2017). Les durées trop longues
et trop courtes de mesure de la charge mentale peuvent causer des difficultés dans
l’implémentation des contre-mesures. Si les mesures sont trop lentes, il peut être difficile de
déterminer l’impact des contre-mesures, puisque les états physiologiques pourraient ne pas
changer assez rapidement. À l’inverse, si la mesure est trop courte, il devient difficile de
déterminer quelle contre-mesure appliquer, puisque l’état physiologique risque déjà d’avoir
changé lorsque la contre-mesure sera appliquée. Bien entendu, chaque situation de travail
réel est différente. Les mesures lentes et/ou très rapides de la charge mentale peuvent être
utiles dans certains cas. Toutefois, il peut être pertinent que la période de mesure utilisée par
les classificateurs (2 ou 5 minutes dans cette thèse) soit similaire à ce qui serait typiquement
utilisé avec des mesures subjectives ou des tâches secondaires, sans avoir les désavantages
des interruptions.
Finalement, la méthode utilisée offre une bonne flexibilité quant au domaine d’application.
Bien que les classificateurs des deux expériences n’aient pas été entraînés ensemble, ces
derniers ont démontré une certaine similitude au niveau des métriques retenues, ce qui
suggère une signature physiologique plus générique et non surspécialisée sur une tâche en
particulier. Malgré que la simulation de C2 ait été utilisée pour la 2e expérience, celle-ci était
plutôt complexe. Les participants avaient une certaine latitude quant à la manière dont ils
pouvaient répondre aux situations (p.ex. planifier la position des unités à l’avance ou attendre
les incidents, travailler sur plusieurs incidents à la fois ou les traiter en série, travailler
rapidement ou méticuleusement). Ces éléments font en sorte que les classificateurs ont
possiblement mieux généraliser au travail de C2 (être assis derrière un écran d’ordinateur à
176
coordonner des unités) plutôt qu’à un aspect précis de ce travail. La transférabilité intertâche
n’a pas été formellement testée. Il est donc nécessaire d’être prudent quant au potentiel réel
de la généralisation des classificateurs. Toutefois, il est proposé que la méthode employée
dans cette thèse était bien adaptée pour capturer les signatures physiologiques génériques des
sous-composantes de la charge mentale, plutôt que de se concentrer sur des spécificités
précises de certaines tâches. De plus, contrairement à certaines techniques, comme l’analyse
des réponses électrodermales spécifiques (Boucsein, 2014), l’analyse des réponses
pupillaires (p.ex. Brisson et coll., 2013) ou le technique des potentiels évoqués (Bressler et
Ding, 2006; Wang et coll., 2008), la méthode utilisée dans ce projet ne requiert pas de
synchronisation avec des événements particuliers de la tâche (mis à part le début et la fin de
cette dernière). L’étude des réponses associés à des événements peut offrir un grand potentiel
de mesure. Toutefois, ces méthodes ont parfois une validité écologique limitée. À titre
d’exemple, il être facile, dans un contexte de laboratoire, de déterminer le moment exact de
l’occurrence d’un son stressant (comme celui utilisé dans la première expérience de cette
thèse). Il peut toutefois être plus difficile de déterminer le moment exact du début du stresseur
dans un contexte réel de C2.
5.3.3 Limites – Fatigue confondue avec d’autres facteurs
Pour développer des modèles diagnostiques de la charge mentale, il est nécessaire que les
modèles de chaque sous-dimension considèrent les réactions physiologiques qui sont
provoquées par les autres sous-dimensions. Bien que simple à première vue, il peut être très
difficile de développer une méthode expérimentale dans laquelle toutes les combinaisons de
charge mentale sont explorées. Dans cette thèse, un soin particulier a été dédié afin de
générer, au mieux possible, ces combinaisons. Malgré cette attention, certaines combinaisons
ont été plus difficiles à cerner que d’autres.
La fatigue est possiblement la sous-dimension de la charge mentale qui a été la plus ambiguë
à mesurer objectivement dans cette thèse. Bien que les résultats des deux expériences
suggèrent que la fatigue ait bel et bien été présente, il reste difficile de quantifier à quel point
elle a contribué réellement. Dans la première expérience, l’absence de contre-balancement a
rendu difficile la distinction entre les tâches et la fatigue. De plus, la faible durée des essais
177
expérimentaux ne permet pas de suggérer que les participants ont subi une très grande fatigue.
La performance, qui est aussi parfois utilisée pour déduire la fatigue (p.ex. Shen et coll.,
2008), n’a pas non plus subi de changement majeur à l’intérieur de chaque tâche. Les mesures
subjectives de la seconde expérience suggèrent que la fatigue a cette fois été ressentie.
Toutefois, l’augmentation de la performance et la baisse de l’effort laissent croire que
l’entraînement a joué un rôle significatif entre les conditions expérimentales, confondant
ainsi la fatigue avec la baisse d’effort. En effet, il est difficile de déterminer si chaque
participant a fourni moins d’effort parce qu’il était fatigué ou s’il a fourni moins d’effort
parce qu’il devenait meilleur.
Au niveau physiologique, il est intéressant de remarquer que malgré l’absence de contre-
balancement entre les tâches dans la première expérience, les classificateurs des tâches
(n-back vs. recherche visuelle) ont repéré des manifestations physiologiques très similaires
au classificateur de l’ordre des conditions de la seconde expérience. Ce résultat peut laisser
croire qu’il s’agit des manifestations spécifiques à la fatigue mentale. Toutefois, telle que
détaillé à la section 3.3.2.4, il est également possible que ces signes physiologiques ne soient
simplement que ceux du temps passé à faire la tâche.
5.3.4 Limite – Pas de comparaison de performance entre les modalités
Comme seconde limite, il est possible de soulever que ce projet de thèse ne compare pas
directement les différentes modalités physiologiques entre elles. Cette absence de
comparaison résulte du fait qu’il a été choisi de comparer des sous-ensembles d’équipement
de mesure plutôt que des sous-ensembles de modalités. Cette limite est partiellement résolue
par l’analyse des poids des classificateurs linéaires qui renseigne sur les modalités retenues
par les classificateurs dans les situations où toutes les modalités étaient présentes. Toutefois,
le projet de thèse ne permet pas, par exemple, de se prononcer sur la diagnosticité d’un
système basé uniquement sur la réponse électrodermale ou sur le diamètre pupillaire. Le
choix de comparer des sous-ensembles basés sur des équipements, plutôt que des modalités
physiologiques, a toutefois été fait de manière consciente lors de l’élaboration de la
méthodologie. La comparaison des différentes modalités est un aspect déjà abordé dans
d’autres travaux de recherche (p.ex. Banville, 2015; Hogervorst, Brouwer et van Erp, 2014;
178
Liu et coll. 2017). Le fait de comparer des sous-ensembles basés sur des équipements a
permis d’explorer des aspects plus pratiques et appliqués de la physiologie.
De plus, même s’il aurait été possible d’utiliser la présente méthode afin de former des sous-
ensembles basés sur les modalités, il est important de considérer le temps requis afin
d’entraîner les systèmes d’apprentissage automatique. Par souci de parcimonie, les détails
sur le temps de calcul d’apprentissage automatique n’ont pas été discutés dans cette thèse.
Brièvement, plusieurs mois ont été requis afin d’obtenir les résultats. Ce temps inclut la
préparation des données, la coordination de l’apprentissage automatique sur plusieurs
processeurs, les bogues informatiques ainsi que les nombreux résultats qui n’ont pas été
retenus dans la thèse. Ce temps pourrait être grandement réduit en parallélisant
l’entraînement des algorithmes (notamment en utilisant des processeurs graphiques) mais
cette optimisation demanderait toutefois aussi un temps de mise en place. Bref, la
comparaison des différentes modalités, ou à cet égard, la comparaison d’autres combinaisons
de métriques physiologiques reste possible, mais il est nécessaire de considérer à l’avance
les hypothèses à tester afin de garder le temps de calcul raisonnable.
5.4 Contributions pratiques
5.4.1 Augmentation de l’accessibilité des mesures physiologiques
Tel que détaillé dans la section 1.3.1, les mesures neurologiques sont souvent considérées
comme les mieux adaptés pour mesurer les états mentaux des individus. Les appareils de
mesure neurologiques, comme les électroencéphalogrammes et les systèmes de spectroscopie
proche infrarouge ont l’avantage important de mesurer directement le système nerveux
périphérique, centre de l’activité mentale. Toutefois, les appareils de mesure neurologiques
présentent des désavantages importants qui diminuent leur potentiel pratique. Ils peuvent
demander plusieurs répétitions avant l’obtention d’une mesure fiable, peuvent être très
sensibles au mouvement et au bruit et sont parfois encombrants. De plus, leur coût parfois
élevé peut diminuer leur intérêt pour des domaines de travail moins spécialisés. En revanche,
les mesures physiologiques périphériques sont plus portables, plus résistantes au bruit et,
dans certains cas, peuvent être beaucoup plus abordables.
179
Dans le présent projet de thèse, la priorité était mise sur la comparaison de combinaisons de
modalités physiologiques plutôt que la comparaison des modalités elles-mêmes. Les
appareils retenus comprenaient une ceinture thoracique (activité cardiaque et respiratoire),
des électrodes au niveau des doigts (activité électrodermale) et une lunette d’oculométrie
(diamètre pupillaire et mouvements oculaires). Bien que les équipements utilisés dans cette
thèse ne soient pas les seuls disponibles, il est possible de considérer que leur portabilité et
leur accessibilité (voir section 1.2.1) soient représentatives de ce qu’il est possible d’obtenir
sur le marché. Brièvement, en regard à ces deux aspects, les mesures oculaires sont les moins
intéressantes. En effet, les appareils de mesure oculaire peuvent soit être : 1) montés sur les
postes de travail (comme le Tobii EyeX, 2017; ou le système Smart Eye, 2018), ce qui limite
leur champ d’action à un poste de travail fixe; ou, 2) intégrés à des lunettes, ce qui augmente
leur portabilité, mais diminue leur accessibilité. Les résultats des deux expériences ont
montré que la combinaison de tous les appareils (nécessitant donc la mesure pupillaire et les
mouvements oculaires) offrait typiquement des meilleurs résultats. Ce résultat signifie que
pour atteindre la meilleure performance, les utilisateurs d’un tel système de mesure de la
charge mentale devraient porter les trois appareils de mesure utilisée dans cette thèse et, soit
rester à leur poste de travail, soit accepter de porter des lunettes d’oculométrie.
Les résultats montrent cependant que la pupille fournissait une contribution généralement
plus importante que les mouvements oculaires quant à la performance en classification. Étant
donné que la mesure des mouvements oculaire demandait une calibration, il pourrait être
envisageable de proposer un système sans mouvement oculaire, réduisant ainsi la complexité
du système et retirant la nécessité de procéder à la calibration des lunettes d’oculométrie.
Bien que la pupille ait contribué beaucoup à la performance en classification,
particulièrement dans la classification de l’effort mental, certaines sous-dimensions étaient
prédictibles en utilisant seulement l’activité cardiaque, respiratoire et électrodermale, et
même parfois seulement avec l’activité cardiaque et respiratoire seulement. C’est notamment
le cas de la prédiction de l’effort mental (en contexte de tâche simple) et du stress et de la
fatigue (en contexte de C2). Ce résultat est particulièrement intéressant puisqu’il ouvre la
porte à une mesure diagnostique portable de la charge mentale. La ceinture thoracique utilisée
(le Bioharness 3, 2012) est en effet portable et la mesure de l’activité électrodermale, bien
180
que non portable dans ce projet de thèse, peut facilement être prise par un bracelet portable
comme le E3 de Empatica (2018).
5.4.2 Supporter la conception du travail et l’élaboration de contre-mesures cognitives
L’obtention d’une mesure de la charge mentale peut être bénéfique pour la compréhension
théorique de la cognition humaine. Toutefois, plusieurs auteurs considèrent que les mesures
de la charge mentale possèdent un grand potentiel d’améliorer la performance en contexte de
travail réel. Les mesures de la charge mentale peuvent guider la conception d’interfaces ou
de systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen, Carswell, Santhanam et
Bailey, 2012), aider à comprendre et optimiser l’apprentissage (p.ex. Wiebe, Roberts &
Behrend, 2010), évaluer l’impact de changements organisationnels (p.ex. Colligan, Potts,
Finn et Sinkin, 2015) et permettre la conception de systèmes informatiques intelligents
(p.ex. Aricò et coll., 2016; Dixon & Wickens, 2006).
L’une des contributions les plus importantes de cette thèse est la démonstration qu’il est
possible de déterminer la sous-dimension à l’origine à l’aide de la physiologie périphérique.
Si les mesures de la charge mentale peuvent être utiles pour supporter la conception du travail
et l’élaboration de mesures cognitives, une mesure diagnostique peut l’être encore plus. En
effet, la vision classique utilisée en milieu de travail réel consiste souvent à agréger ces
dimensions ensemble et déterminer si la charge mentale, dans son sens global, dépasse un
seuil critique (souvent appelé « zone rouge » ou « ligne rouge »; Grier et coll., 2008; Pickup
et coll., 2005). Lorsque ce seuil est dépassé, la vision classique suggère typiquement de
diminuer l’exigence imposée au travailleur de manière à faire diminuer sa charge mentale. Il
peut être proposé que cette vision est mal adaptée aux situations de travail réelles. Les
résultats de la seconde expérience de cette thèse démontrent clairement comment la théorie
de la ligne rouge peut être inappropriée. Dans la seconde expérience, la présence du stresseur
(l’acteur-évaluateur) n’a pas affecté le nombre de vies sauvées. La présence du stresseur a
même parfois amélioré le temps de réponse. Pourtant, le stresseur a provoqué des réactions
physiologiques caractéristiques au stress. En l’absence de données de performances, le
constat du stress élevé aurait pu être interprété comme un excès de charge mentale. Dans une
telle situation, l’abaissement de l’exigence n’aurait possiblement pas eu les effets souhaités
181
et aurait simplement fait en sorte qu’une quantité moins grande de travail aurait été réalisée
(ce qui est peu souhaitable en contexte de travail réel). Pour renchérir sur l’exemple
précédent, il est possible de suggérer que le fait de diminuer l’exigence mentale aurait
possiblement diminué un peu le stress. Toutefois, en contexte de travail réel, il pourrait être
pertinent de distinguer l’excès de stress afin de prévenir les effets néfastes de celui-ci sur le
long terme. Cette thèse n’a pas exploré les formes plus chroniques du stress. Un système
diagnostique mesurant la charge mentale pourrait cependant permettre d’agir sur les facteurs
qui sont à l’origine du stress (environnement de travail inadéquat, pression de performance
par les pairs) plutôt que d’agir sur l’exigence de travail.
5.4.3 Modèles interindividuels
Une autre contribution pratique non négligeable de cette thèse est l’utilisation de modèles
interindividuels. Dans plusieurs travaux de recherches similaires à celui-ci, dans lesquels
l’apprentissage automatique est utilisé pour déterminer la charge mentale, les modèles
physiologiques sont construits de manière intraindividuelle (p.ex Banville, 2015; Casson,
2014; Hogervorst, Brouwer et van Erp, 2014; Liu et coll., 2017). En d’autres mots, les
données d’un seul individu à la fois sont utilisées pour construire les modèles de la charge
mentale. De cette manière, chaque individu reçoit son modèle qui lui est propre. En procédant
ainsi, les caractéristiques individuelles sont plus facilement capturées et tenues en compte
par les algorithmes d’apprentissage automatique. Par exemple, si un individu a tendance à
avoir une sudation très faible (donc une activité électrodermale faible), celle-ci ne contribuera
pas à la détermination de la charge mentale de l’individu (assumant que le modèle est bien
construit). Seules les métriques physiologiques les plus pertinentes pour cet individu seront
retenues par le modèle. Puisque les modèles intraindividuels tiennent compte des
particularités propres à chaque individu, ceux-ci ont typiquement la possibilité d’offrir une
meilleure performance en classification. Il est pertinent de noter que cette opinion est
partagée par certains auteurs (p.ex Shen et coll., 2008). Ce choix méthodologique amène
toutefois trois désavantages majeurs.
Premièrement, les modèles intraindividuels sont moins adaptés pour déterminer la signature
physiologique propre à chaque composante de la charge mentale. Étant donné que les
182
modèles tiennent compte des particularités des individus, la signature physiologique des
composantes de la charge mentale devient confondue avec la signature physiologique des
individus. Cela ne veut pas dire qu’il est impossible de déterminer la signature physiologique
des composantes à l’aide de modèles intraindividuels, seulement qu’il est plus difficile de le
faire. À l’inverse, la construction de modèles interindividuels offre la possibilité de retirer les
caractéristiques des individus pour ne retenir que la signature physiologique commune à
chaque sous-dimension de la charge mentale.
Deuxièmement, les modèles interindividuels offrent l’avantage important de retirer, ou
minimiser, les besoins de calibration et de construction de modèle. En effet, dans un contexte
pratique (comme un contexte de C2), l’utilisation de modèles intraindividuels requiert qu’un
temps soit alloué à chaque employé afin de construire son modèle prédictif de la charge
mentale. À l’inverse, un modèle interindividuel, tel qu’utilisé dans cette thèse, peut prédire
la charge mentale d’un individu sans avoir aucune connaissance préalable de ce dernier.
L’entraînement de modèles intraindividuels peut-être une avenue valide dans des situations
où les ressources le permettent et où la précision de la prédiction est très importante (p.ex.
un pilote d’avion de chasse). Toutefois, dans des contextes où un grand nombre d’individus
sont mesurés et où les conséquences de la prédiction sont moins critiques, les modèles
interindividuels offrent un avantage indéniable.
Finalement, l’utilisation de modèles interindividuels permet de mitiger les effets des
changements physiologiques qui affectent les individus dans le temps. En effet, même si des
modèles intraindividuels sont utilisés, ceux-ci sont à risque de voir leur performance
diminuer avec le temps. Des facteurs, comme la faim, l’âge ou le stress chronique peuvent
venir affecter la physiologie. À moins que les modèles intraindividuels soient entraînés sur
une longue période, ceux-ci pourraient devenir désuets avec le temps. En revanche, les
modèles interindividuels, tels qu’utilisés dans cette thèse, sont entraînés sur des individus
ayant différents niveaux de faim, qui ont des âges différents et qui présentent des niveaux de
stress chronique plus variés. Ce qui augmente la robustesse des modèles.
183
5.5 Défis à relever
Malgré toute la recherche effectuée sur les mesures physiologiques et la charge mentale, la
diagnosticité est encore fortement négligée (Matthews et coll., 2014). La diagnosticité
physiologique est toutefois essentielle à étudier. Cette nécessité s’inscrit dans un désir
grandissant de développer des applications humain-machine qui améliorent la performance
humaine dans des contextes de travail réels. Malgré les récents progrès dans le domaine,
certains auteurs soulèvent un certain sentiment d’urgence face au développement de ces
applications en contextes réels. En effet, les progrès rapides, notamment dans le domaine de
l’apprentissage automatique, changent la réalité des milieux de travail et, par le fait même,
les attentes et besoins faces aux solutions fournies par la neuroergonomie et l’ingénierie
cognitive. À ce sujet, Burns (2018) affirme :
Refining human performance constructs and measurement and continuing to
improve the support for humans working with automated systems […] are
important developments in having a strong human factors science and
engineering […]. The elephant in the room would seem to be the question, “Can
we get there fast enough?” Partially automated vehicles are already on the road,
most designed with a rudimentary or experimental approach to how the vehicle
automation should interact with the driver. The technology is evolving rapidly.
By the time a federal investigation into a fatal accident with Tesla autopilot had
been completed (National Highway Traffic and Safety Administration, 2017), the
automation technology involved in that accident was already significantly
outdated.
L’atteinte d’une meilleure diagnosticité des mesures physiologiques est un atout dans cette
course vers des applications humain-machine puisqu’elle peut permettre des contre-mesures
mieux adaptées aux situations. Malgré les contributions apportées par ce projet de thèse, il
reste encore plusieurs défis à relever pour optimiser la diagnosticité des mesures
physiologiques.
5.5.1 Augmenter la robustesse face aux mouvements et aux bruits du signal
Un des défis les plus importants et urgent à relever est celui de la robustesse face aux
mouvements et aux bruits qu’il provoque sur les signaux. Même dans les situations de travail
de bureau, pour lesquelles une faible activité physique est attendue, il est inévitable que des
184
mouvements et déplacements soient effectués. Parmi ces mouvements et déplacements, on
retrouve entre autres l’utilisation du clavier et de la souris, la configuration du poste de
travail, les pauses et l’utilisation de la salle de bain, les déplacements vers les postes des
collègues / salles de réunions ou encore les mouvements involontaires, comme les
éternuements. La situation est encore plus complexe pour les situations de travail où le
mouvement fait partie intégrante du travail telles que les unités d’intervention d’urgence
comme les policiers et pompiers, les travailleurs du domaine de la santé comme les
infirmières et médecins ou encore tels que les opérateurs de machinerie lourde.
Les effets de l’activité physique sur les mesures physiologiques se divisent en trois niveaux.
À un premier niveau, les mouvements physiques viennent perturber les mesures
physiologiques en imposant une charge mentale supplémentaire. En effet, même si les
mouvements physiques sont de faible amplitude, les individus doivent investir des ressources
supplémentaires afin de coordonner leurs mouvements ou encore afin de consolider
l’apprentissage de ces derniers. Bien qu’on puisse faire l’hypothèse que cette augmentation
d’exigence physique provoque les certaines réactions physiologiques similaires à celle de
l’augmentation de l’exigence mentale, il est attendu que certaines réactions soient
complètement différentes. Au niveau cérébral, plusieurs recherchent montrent en effet
l’activation de régions distinctes lors de l’exécution ou de l’apprentissage de mouvement
physique (Deeny, Hillman, Janelle et Hatfield, 2003; Landers, Han, Salazar et Petruzzelo,
1994).
À un second niveau, les mouvements physiques provoquent des réactions physiologiques
destinées à supporter ces mouvements. L’activité physique est notamment accompagnée
d’une activation du système sympathique. Cette activation provoque entre autres une
augmentation du rythme cardiaque et de la pression artérielle de manière à fournir plus
d’énergie aux muscles. L’activité respiratoire est également amplifiée de manière à fournir
l’oxygène requis aux cellules musculaires et à évacuer l’excédent de dioxyde de carbone
produit. Quant à l’activité électrodermale, celle-ci est amplifiée de manière à mieux évacuer
l’excédent de chaleur produit par l’activité physique. Cette activation peut venir confondre
185
les prédictions de la charge mentale par les modèles se basant sur des signes physiologiques
similaires.
Finalement, les mouvements physiques peuvent introduire du bruit sur les signaux
physiologiques. Le bruit causé par le mouvement n’a pas été quantifié en détail dans cette
thèse, mais les signaux physiologiques recueillis dans les deux expériences ont
définitivement été altérés par le mouvement. Ces bruits peuvent provenir du déplacement des
capteurs ou encore de l’introduction d’artéfacts sur les signaux. On peut soulever, par
exemple, l’introduction de pics de haute amplitude sur les signaux
électroencéphalographiques par les clignements des yeux, le changement du niveau de base
sur le signal électrodermal lors d’un changement de position des électrodes ou encore les
pertes momentanées du signal oculaire lors du déplacement des lunettes d’oculométrie.
La recherche portant sur les mesures physiologiques de la charge mentale en contexte
d’activité physique est récente et encore plutôt limitée. Scanlon, Sieben, Holyk et Mathewson
(2017) rapportent être capables d’utiliser la technique des potentiels évoqués lorsque les
participants font une tâche mentale en faisant du vélo, mais soulèvent des limitations quant
à la puissance statistique et la résistance au bruit en contexte hors laboratoire. De plus, tel
que détaillé plus tôt (section 1.2.4), l’utilisation d’électroencéphalogramme, et encore plus
des potentiels évoqués, peut être difficile à transférer à des tâches réelles. Yontigan et coll.
(2018) rapportent qu’il est possible pour des participants de contrôler une interface cerveau-
ordinateur même lorsque ces derniers font de l’exercice physique. Malgré ce succès, cette
recherche est une fois de plus menée en contexte de laboratoire et s’appuie sur des mesures
neurologiques. À la lumière des recherches effectuées dans le cadre de cette thèse, aucune
recherche n’a tenté de mesurer la charge mentale à l’aide de capteurs physiologiques
seulement en contexte d’activité physique.
5.5.2 Augmenter la robustesse face à la parole
Un autre défi important à relever pour augmenter la diagnosticité des mesures physiologiques
est celui de reconnaître les contributions de la parole. Des travaux empiriques montrent que
la parole a des influences non négligeables sur la signature physiologique. Au niveau
186
respiratoire, la parole est reconnue pour diminuer la fréquence respiratoire et augmenter les
basses fréquences respiratoires (Bernardi et coll., 2000). Ces influences pourraient venir
diminuer la qualité des prédictions de la charge mentale pour les modalités se basant
fortement sur la respiration, comme pour le stress en contexte de C2. La parole est également
reconnue pour avoir des effets sur la variabilité cardiaque (Beda et coll., 2007; Bernardi et
coll., 2000), ce qui affecterait la décision de la majorité des classificateurs entraînés dans
cette étude. De plus, tel que discuté au Chapitre 3 (section 3.3.2.3), la capture attentionnelle
peut affecter le diamètre pupillaire. Il est donc possible que l’écoute d’un collègue de travail
qui attire l’attention de la personne mesurée affecte le diamètre pupillaire, flouant une fois
de plus les prédictions de la charge mentale. Pourtant, la communication par la parole est
essentielle dans plusieurs environnements de travail à charge mentale élevée comme les
salles d’opération (Lingard et coll., 2004; Moore, Butt, Ellis-Clarke et Cartmill, 2010),
l’aviation (Sexton et Helmreich, 2000) et, comme dans cette thèse, dans les situations de C2
(MacMillan, Entin et Serfaty, 2004). Il est donc nécessaire de développer des modèles
physiologiques de la charge mentale robuste à la parole.
La parole peut toutefois être reprise comme avantage dans la prédiction de la charge mentale.
En effet, plusieurs recherches ont déjà exploré le potentiel de la prosodie à prédire le niveau
de charge mentale (p.ex. Le, Ambikairajah, Epps, Sethu et Choi., 2011; Magnusdottir et coll.,
2017; Segbroeck, 2014). De plus, il est plausible de supposer que les progrès en
reconnaissance vocale pourraient permettre l’utilisation du contenu verbal comme intrant
dans les modèles prédictifs de la charge mentale. La combinaison de l’analyse verbale avec
la physiologie périphérique, encore peu explorée à ce jour, pourrait permettre d’augmenter
le potentiel diagnostique des mesures de la charge mentale.
5.5.3 Considérer plus de dimensions
Dans ce projet, la charge mentale a été divisée en quatre composantes (l’exigence, l’effort,
le stress et la fatigue). Cette division n’a pas été faite de manière à proposer un cadre
théorique de la charge mentale. Elle a plutôt été faite de manière à séparer des concepts
souvent confondus lorsqu’il est question de la charge mentale. Il pourrait toutefois être
intéressant de répéter un projet similaire, cette fois en suivant une division de la charge
187
mentale déjà validée par un autre modèle. Cette approche permettrait de rallier la popularité
de certaines mesures subjectives de la charge mentale avec l’objectivité des mesures
physiologiques. Dans cette thèse, les dimensions subjectives du NASA-TLX ont été prédites
par des classificateurs, mais n’étaient pas l’objet central de la thèse. Il pourrait ainsi être
pertinent de concevoir un devis expérimental visant à faire varier les dimensions du NASA-
TLX et faire une analyse plus poussée des modèles obtenus. Étant donné la popularité du
NASA-TLX, il serait peut-être d’ailleurs possible d’agréger les mesures physiologiques de
plusieurs expériences déjà effectuées pour lequel le NASA-TLX a été administré, évitant
ainsi la nécessité de développer un devis expérimental particulier pour ce projet. D’autres
modèles, comme celui de Matthews et Campbell (2010) (séparant l’effort, la détresse et
l’inquiétude) pourrait aussi être retenu. Dans une optique plus large, il pourrait être
intéressant de mener des travaux similaires en sortant du cadre de la charge mentale. Les
recherches sur la diagnosticité physiologique pourraient ainsi s’étendre aux émotions ou
encore à la personnalité.
L’approche utilisée dans cette thèse pourrait toutefois être réalisée de manière différente afin
d’étendre la théorie des sous-dimensions de la charge mentale. Dans cette thèse, les sous-
dimensions de la charge mentale ont été tenues pour acquises, dans le sens où il n’était pas
question de prouver leur existence/inexistence, mais bien de voir s’il était possible de les
mesurer de manière diagnostique. Pourtant, la plupart de ces construits (p.ex. l’effort mental,
le stress, la fatigue), tout comme de nombreux construits utilisés en psychologie, ne prennent
pas origine dans des mécanismes physiologiques, même s’ils sont associés à des
manifestations ou des mécanismes physiologiques. Par exemple, même si les mécanismes
physiologiques du stress ont été largement étudiés dans le dernier siècle (Hancock, Ganey et
Szalma, 2002; Sele, 1985; Staal, 2004; Yerkes et Dodson, 1908), il n’en reste pas moins que
le concept a été construit sur des bases plus comportementales (la performance) plutôt que
physiologiques. Ainsi, la combinaison de la physiologie et de l’apprentissage automatique
ouvre la porte à repenser la définition de plusieurs concepts utilisés en psychologie. Cette
thèse a utilisé des techniques d’apprentissage automatique supervisés. En d’autres mots, les
algorithmes disposaient à la fois d’intrants (les métriques physiologiques mesurées) et des
extrants (les valeurs objectives des sous-dimensions de la charge mentale), tels que définis
188
dans la littérature et par le devis expérimental. Toutefois, il serait également possible
d’utiliser des techniques d’apprentissage automatique non supervisés. Contrairement aux
techniques supervisés, les techniques d’apprentissage automatique non supervisés n’utilisent
que des variables d’intrant et créent, à partir de ces intrants, les différentes dimensions ou
catégories qui forment le modèle. L’utilisation de ces techniques pourrait permettre d’établir
un modèle de la charge mentale prenant directement ses bases dans les réactions
physiologiques des individus.
189
Conclusion
La charge mentale est un concept très utile en psychologie cognitive. Les différentes mesures
de la charge mentale, qu’elles soient comportementales, subjectives ou physiologiques,
permettent de quantifier le ratio entre les ressources cognitives utilisées et les ressources
cognitives maximales des individus. Bien que plusieurs modèles de la charge mentale
abordent le concept comme étant multidimensionnel, les mesures physiologiques de la charge
mentale se limitent souvent à la quantifier de manière unidimensionnelle. Cette limitation est
problématique; la charge mentale englobe effectivement plusieurs sous-dimensions (comme
le stress et la fatigue) qui nécessitent des contre-mesures différentes. De plus, un grand
nombre d’études tentent de mesurer la charge mentale en contexte de tâche simple,
typiquement retrouvées en laboratoire. Une attention trop faible est cependant portée aux
mesures physiologiques de la charge mentale dans des contextes de travail réels, ce qui limite
les possibilités d’applications concrètes.
Cette thèse montre qu’il est possible de déterminer les dimensions qui sont à la source de la
charge mentale à l’aide de capteurs physiologiques. Plus précisément, les résultats montrent
que cette diagnosticité est atteignable en n’utilisant seulement que des capteurs
physiologiques périphériques, lesquels sont plus abordables et plus résistants au bruit que les
mesures neurologiques. Bien que cette thèse suggère que la charge mentale soit plus facile à
mesurer en contexte de tâche simple, les résultats suggèrent qu’il est néanmoins possible de
le faire dans une simulation de commandement et contrôle bien plus complexe. Les résultats
montrent aussi que les sources de la charge mentale peuvent être prédites chez un individu
en utilisant des modèles construits à partir des données d’autres personnes, suggérant ainsi
des signatures physiologiques communes entre les différentes sous-dimensions de la charge
mentale.
En conclusion, les résultats de cette thèse apportent des contributions théoriques qui
permettent de distinguer la signature physiologique des sous-composantes de la charge
mentale. Le présent ouvrage suggère également une démarche novatrice et flexible pour
combiner les domaines de la physiologie et de l’apprentissage automatique. Finalement, cette
190
thèse ouvre la porte à des systèmes prédictifs de la charge mentale en milieu de travail réel
en n’utilisant strictement que des capteurs physiologiques périphériques.
Références
Alnæs, D., Sneve, M. H., Espeseth, T., Endestad, T., van de Pavert, S. H. P., & Laeng, B.
(2014). Pupil size signals mental effort deployed during multiple object tracking and
predicts brain activity in the dorsal attention network and the locus coeruleus. Journal of
vision, 14(4), 1-1.
Anderson, C. R. (1976). Coping behaviors as intervening mechanisms in the inverted-U
stress-perfor- mance relationship. Journal of Applied Psychology, 61, 30–34.
Andreano, J. M., & Cahill, L. (2012). Release and Glucocorticoid and Memory
Consolidation in Men and Women. Psychological Science, 17(6), 466–470.
Annett, J. (2002). Subjective rating scales: science or art?. Ergonomics, 45(14), 966-987.
Asch, G. (2011). Acquisition de données-3e éd.: Du capteur à l'ordinateur. Dunod.
Ashton, M. C., & Lee, K. (2007). Empirical, theoretical, and practical advantages of the
HEXACO model of personality structure. Personality and social psychology
review, 11(2), 150-166.
Ax, A. F. (1953). The physiological differentiation between fear and anger in humans.
Psychosomatic Medicine, 15, 433–442.
Ayres, P. (2006). Using subjective measures to detect variations of intrinsic cognitive load
within problems. Learning and Instruction, 16(5), 389-400.
Backs, R. W., & Seljos, K. A. (1994). Metabolic and cardiorespiratory measures of mental
effort: the effects of level of difficulty in a working memory task. International Journal
of psychophysiology, 16(1), 57-68.
Bailey, B. P., & Iqbal, S. T. (2008). Understanding changes in mental workload during
execution of goal-directed tasks and its application for interruption management. ACM
Transactions on Computer-Human Interaction (TOCHI), 14(4), 21.
191
Baker, K., Olson, J., & Morisseau, D. (1994). Work practices, fatigue, and nuclear power
plant safety performance. Human Factors, 36(2), 244–257.
Banville, H. J. (2015). Hybrid Brain-Computer Interfaces : Improving Mental Task
Classification Performance through Fusion of Neurophysiological Modalities Par.
INRS-EMT, Montreal, Canada.
Barrouillet, P., Bernardin, S., & Camos, V. (2004). Time constraints and resource sharing
in adults' working memory spans. Journal of Experimental Psychology: General, 133(1),
83.
Batista, G. E., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several
methods for balancing machine learning training data. ACM SIGKDD explorations
newsletter, 6(1), 20-29.
Beatty, J. (1982). Task-evoked pupillary responses, processing load, and the structure of
processing resources. Psychological bulletin, 91(2), 276.
Beda, A., Jandre, F. C., Phillips, D. I., Giannella‐Neto, A., & Simpson, D. M. (2007).
Heart‐rate and blood‐pressure variability during psychophysiological tasks involving
speech: Influence of respiration. Psychophysiology, 44(5), 767-778.
Bernardi, L., Wdowczyk-Szulc, J., Valenti, C., Castoldi, S., Passino, C., Spadacini, G., &
Sleight, P. (2000). Effects of controlled breathing, mental activity and mental stress with
or without verbalization on heart rate variability. Journal of the American College of
Cardiology, 35(6), 1462-1469.
Betts, J. G. (2013). Anatomy & physiology. 787–846. Consulté le 28 mars 2018.
Bialystok, E. (2006). Effect of bilingualism and computer video game experience on the
Simon task. Canadian Journal of Experimental Psychology/Revue canadienne de
psychologie expérimentale, 60(1), 68.
Bierman, E. J. M., Comijs, H. C., Jonker, C., & Beekman, a T. F. (2005). Effects of anxiety
versus depression on cognition in later life. The American Journal of Geriatric
Psychiatry : Official Journal of the American Association for Geriatric Psychiatry,
13(8), 686–693.
Bioharness. (2012). https://www.zephyranywhere.com/system/components
192
Birse, R. (2004). Muirhead, Alexander (1848–1920), electrical engineer. Oxford Dictionary
of National Biography.
Bloch, S., Lemeignan, M., & Aguilera-T, N. (1991). Specific respiratory patterns
distinguish among human basic emotions. International Journal of
Psychophysiology, 11(2), 141-154.
Boiten, F. A., Frijda, N. H., & Wientjes, C. J. (1994). Emotions and respiratory patterns:
review and critical analysis. International Journal of Psychophysiology, 17(2), 103-128.
Boksem, M. A., & Tops, M. (2008). Mental fatigue: costs and benefits. Brain research
reviews, 59(1), 125-139.
Boksem, M. A., Meijman, T. F., & Lorist, M. M. (2005). Effects of mental fatigue on
attention: an ERP study. Cognitive brain research, 25(1), 107-116.
Boksem, M. A., Meijman, T. F., & Lorist, M. M. (2006). Mental fatigue, motivation and
action monitoring. Biological psychology, 72(2), 123-132.
Bolstad, C. A., Cuevas, H. M., Costello, A. M., & Babbitt, B. (2008). Predicting cognitive
readiness of deploying military medical teams. In Proceedings of the Human Factors
and Ergonomics Society 52nd Annual Meeting (pp. 970–974). Santa Monica, CA:
Human Factors and Ergonomics Society.
Boonnithi, S., & Phongsuphap, S. (2011, September). Comparison of heart rate variability
measures for mental stress detection. In Computing in Cardiology, 2011 (pp. 85-88).
IEEE.
Boot, W. R., Blakely, D. P., & Simons, D. J. (2011). Do action video games improve
perception and cognition?. Frontiers in psychology, 2, 226.
Boot, W. R., Kramer, A. F., Simons, D. J., Fabiani, M., & Gratton, G. (2008). The effects
of video game playing on attention, memory, and executive control. Acta
psychologica, 129(3), 387-398.
Borghini, G., Astolfi, L., Vecchiato, G., Mattia, D., & Babiloni, F. (2014). Measuring
neurophysiological signals in aircraft pilots and car drivers for the assessment of mental
workload, fatigue and drowsiness. Neuroscience & Biobehavioral Reviews, 44, 58-75.
193
Boucsein, W. (2012). Electrodermal activity. Springer Science and Business Media.
Braarud, P. Ø., & Kirwan, B. (2010). Task complexity: what challenges the crew and how
do they cope. In Simulator-based Human Factors Studies Across 25 Years (pp. 233-
251). Springer, London.
Brehm, J. W., & Self, E. A. (1989). The intensity of motivation. Annual review of
psychology, 40(1), 109-131.
Bressler, S. L., & Ding, M. (2006). Event‐Related Potentials. Wiley encyclopedia of
biomedical engineering.
Brewer, M. B., & Crano, W. D. (2000). Research design and issues of validity. Handbook
of research methods in social and personality psychology, 3-16.
Brindle, R. C., Whittaker, A. C., Bibbey, A., Carroll, D., & Ginty, A. T. (2017). Exploring
the possible mechanisms of blunted cardiac reactivity to acute psychological
stress. International Journal of Psychophysiology, 113, 1-7.
Brisson, J., Mainville, M., Mailloux, D., Beaulieu, C., Serres, J., & Sirois, S. (2013). Pupil
diameter measurement errors as a function of gaze direction in corneal reflection
eyetrackers. Behavior research methods, 45(4), 1322-1331.
Brookhuis, K. A., & de Waard, D. (2010). Monitoring drivers’ mental workload in driving
simulators using physiological measures. Accident Analysis & Prevention, 42(3), 898-
903.
Brookhuis, K. A., & Waard, D. D. (2002). On the assessment of (mental) workload and
other subjective qualifications. Ergonomics, 45(14), 1026-1030.
Brookhuis, K. A., van Driel, C. J., Hof, T., van Arem, B., & Hoedemaeker, M. (2009).
Driving with a congestion assistant; mental workload and acceptance. Applied
ergonomics, 40(6), 1019-1025.
Brouwer, A. M., Hogervorst, M. A., Van Erp, J. B., Heffelaar, T., Zimmerman, P. H., &
Oostenveld, R. (2012). Estimating workload using EEG spectral power and ERPs in the
n-back task. Journal of neural engineering, 9(4), 045008.
194
BSXinsight, https://www.bsxinsight.com/
Burns, C. M. (2018). Automation and the Human Factors Race to Catch Up. Journal of
Cognitive Engineering and Decision Making, 12(1), 83–85.
Cabestrero, R., Crespo, A., & Quirós, P. (2009). Pupillary dilation as an index of task
demands. Perceptual and motor skills, 109(3), 664-678.
Cacciabue, P. C., & Hollnagel, E. (1995). Simulation of cognition: Applications. Expertise
and technology: Cognition and human-computer cooperation, 55-73.
Caffier, P. P., Erdmann, U., & Ullsperger, P. (2003). Experimental evaluation of eye-blink
parameters as a drowsiness measure. European journal of applied physiology, 89(3-4),
319-325.
Cain, B. (2007). A review of the mental workload literature. Defence Research And
Development Toronto (Canada).
Callister, R. O. B. I. N., Suwarno, N. O., & Seals, D. R. (1992). Sympathetic activity is
influenced by task difficulty and stress perception during mental challenge in
humans. The Journal of physiology, 454(1), 373-387.
Capa, R. L., Audiffren, M., & Ragot, S. (2008). The interactive effect of achievement
motivation and task difficulty on mental effort. International Journal of
Psychophysiology, 70(2), 144-150.
Carrier, C., Higson, V., Klimoski, V., & Peterson, E. (1984). The effects of facilitative and
debilitative achievement anxiety on notetaking. The Journal of Educational
Research, 77(3), 133-138.
Carrillo, E., Moya-Albiol, L., González-Bono, E., Salvador, A., Ricarte, J., & Gómez-
Amor, J. (2001). Gender differences in cardiovascular and electrodermal responses to
public speaking task: the role of anxiety and mood states. International Journal of
Psychophysiology, 42(3), 253-264.
Carroll, D., Phillips, A.C., Ring, C., Der, G., Hunt, K., 2005. Life events and hemodynamic
stress reactivity in the middle-aged and elderly. Psychophysiology 42:269–276.
195
Castaldo, R., Melillo, P., Bracale, U., Caserta, M., Triassi, M., & Pecchia, L. (2015). Acute
mental stress assessment via short term HRV analysis in healthy adults: A systematic
review with meta-analysis. Biomedical Signal Processing and Control, 18, 370-377.
Castel, A. D., Pratt, J., & Drummond, E. (2005). The effects of action video game
experience on the time course of inhibition of return and the efficiency of visual
search. Acta psychologica, 119(2), 217-230.
Caywood, M. S., Roberts, D. M., Colombe, J. B., Greenwald, H. S., & Weiland, M. Z.
(2017). Gaussian Process Regression for predictive but interpretable machine learning
models: An example of predicting mental workload across tasks. Frontiers in human
neuroscience, 10, 647.
Chadha, N. K. (2009). Applied psychometry. SAGE Publications India.
Chanel, G., Kronegg, J., Grandjean, D., and Pun, T. (2006). “Emotion assess- ment: arousal
evaluation using EEG’s and peripheral physiological signals,” in Multimedia Content
Representation Classification and Security. Springer Lecture Notes in Computer
Sciences, Vol. 4105, eds B. Gunsel, A. M. Tekalp, A. K. Jain, and B. Sankur (Berlin;
Heidelberg: Springer), 530–537.
Chaudhuri, A., & Behan, P. O. (2000). Fatigue and basal ganglia. Journal of the
neurological sciences, 179(1), 34-42.
Christensen, J. C., Estepp, J. R.,Wilson, G. F., and Russell, C. A. (2012). The effects of
day-to-day variability of physiological data on operator state classification. Neuroimage
59, 57–63.
Cinaz, B., Arnrich, B., La Marca, R., & Tröster, G. (2013). Monitoring of mental workload
levels during an everyday life office-work scenario. Personal and ubiquitous
computing, 17(2), 229-239.
Coffey, E. B., Brouwer, A. M., & van Erp, J. B. (2012, September). Measuring workload
using a combination of electroencephalography and near infrared spectroscopy.
In Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Vol. 56,
No. 1, pp. 1822-1826). Sage CA: Los Angeles, CA: SAGE Publications.
Collet, C., Salvia, E., & Petit-Boulanger, C. (2014). Measuring workload with
electrodermal activity during common braking actions. Ergonomics, 57(6), 886-896.
196
Colligan, L., Potts, H. W., Finn, C. T., & Sinkin, R. A. (2015). Cognitive workload changes
for nurses transitioning from a legacy system with paper documentation to a commercial
electronic health record. International journal of medical informatics, 84(7), 469-476.
Cooper, G. E., & Harper Jr, R. P. (1969). The use of pilot rating in the evaluation of
aircraft handling qualities (No. AGARD-567). Advisory Group for aerospace research
and development Neuilly-Sur-Seine (France).
Cornuéjols A., Miclet L. (2010). Apprentissage artificiel – Concepts et algorithmes, Paris,
Librairie Eyrolles.
Coyle, S. M., Ward, T. E., & Markham, C. M. (2007). Brain–computer interface using a
simplified functional near-infrared spectroscopy system. Journal of neural
engineering, 4(3), 219.
Csikszentmihalyi, M. (1991). Flow, The Psychology of Optimal Experience, Steps towards
enchancing the quality of life. HarperetRow, Publishers.
Deeny, S. P., Hillman, C. H., Janelle, C. M., & Hatfield, B. D. (2003). Cortico-cortical
communication and superior performance in skilled marksmen: An EEG coherence
analysis. Journal of Sport and Exercise Psychology, 25(2), 188-204.
Delignières, D., Famose, J. P., & Genty, J. (1994). Validation of a scale for the assessment
of perceived task difficulty. Staps, 34, 77–88.
Diamond, D. M., Campbell, A. M., Park, C. R., Halonen, J., & Zoladz, P. R. (2007). The
temporal dynamics model of emotional memory processing: a synthesis on the
neurobiological basis of stress-induced amnesia, flashbulb and traumatic memories, and
the Yerkes-Dodson law. Neural plasticity, 2007.
Dierolf, A. M., Fechtner, J., Böhnke, R., Wolf, O. T., & Naumann, E. (2017). Influence of
acute stress on response inhibition in healthy men: An ERP
study. Psychophysiology, 54(5), 684-695.
Dishman, R. K., Nakamura, Y., Garcia, M. E., Thompson, R. W., Dunn, A. L., & Blair, S.
N. (2000). Heart rate variability, trait anxiety, and perceived stress among physically fit
men and women. International Journal of Psychophysiology, 37(2), 121-133.
197
Dixon, S. R., & Wickens, C. D. (2006). Automation reliability in unmanned aerial vehicle
control: A reliance-compliance model of automation dependence in high
workload. Human factors, 48(3), 474-486.
Duncan, M. J., Fowler, N., George, O., Joyce, S., & Hankey, J. (2015). Mental fatigue
negatively influences manual dexterity and anticipation timing but not repeated high-
intensity exercise performance in trained adults. Research in Sports Medicine, 23(1), 1-
13.
Duncko, R., Johnson, L., Merikangas, K., & Grillon, C. (2009). Working memory
performance after acute exposure to the cold pressor stress in healthy volunteers.
Neurobiology of Learning and Memory, 91(4), 377–381.
Durantin, G., Gagnon, J. F., Tremblay, S., & Dehais, F. (2014). Using near infrared
spectroscopy and heart rate variability to detect mental overload. Behavioural brain
research, 259, 16-23.
Durkee, K., Geyer, A., Pappada, S., Ortiz, A., & Galster, S. (2013, July). Real-time
workload assessment as a foundation for human performance augmentation.
In International Conference on Augmented Cognition (pp. 279-288). Springer, Berlin,
Heidelberg.
Duval, J., Ensink, K., Normandin, L., Sharp, C., & Fonagy, P. (2018). Measuring reflective
functioning in adolescents: Relations to personality disorders and psychological
difficulties. Adolescent Psychiatry.
Dyregrov, A., Solomon, R., Bassoe, C.F. (2000). Mental mobilization processes in critical
incident stress situations. International Journal of Emergency Mental Health, 2(2), 73–
81.
Ellis, K. K. E. (2009). Eye tracking metrics for workload estimation in flight deck
operations. The University of Iowa.
Elzinga, B. M., & Roelofs, K. (2005). Cortisol-induced impairments of working memory
require acute sympathetic activation. Behavioral neuroscience, 119(1), 98.
Empathica. (2018). https://www.empatica.com/en-eu/
198
Engelmann, C., Schneider, M., Kirschbaum, C., Grote, G., Dingemann, J., Schoof, S., &
Ure, B. M. (2011). Effects of intraoperative breaks on mental and somatic operator
fatigue: a randomized clinical trial. Surgical endoscopy, 25(4), 1245-1250.
Fairclough, S. H., & Houston, K. (2004). A metabolic measure of mental effort. Biological
psychology, 66(2), 177-190.
Fairclough, S. H., & Mulder, L. J. M. (2011). Psychophysiological processes of mental
effort investment. How motivation affects cardiovascular response: Mechanisms and
applications, 61-76.
Fairclough, S. H., Venables, L., & Tattersall, A. (2005). The influence of task demand and
learning on the psychophysiological response. International Journal of
Psychophysiology, 56(2), 171-184.
Fallahi, M., Motamedzade, M., Heidarimoghadam, R., Soltanian, A. R., & Miyake, S.
(2016). Effects of mental workload on physiological and subjective responses during
traffic density monitoring: a field study. Applied ergonomics, 52, 95-103.
Ferrari, M., Mottola, L., & Quaresima, V. (2004). Principles, techniques, and limitations of
near infrared spectroscopy. Canadian journal of applied physiology, 29(4), 463-487.
Fitbit. (2017). Obtenu à : https://www.fitbit.com/
Folch-Fortuny, A., Arteaga, F., & Ferrer, A. (2016). Missing Data Imputation Toolbox for
MATLAB. Chemometrics and Intelligent Laboratory Systems, 154, 93-100.
Frankenhaeuser, M. (1986). A psychobiological framework for research on human stress
and coping. In Dynamics of stress(pp. 101-116). Springer, Boston, MA.
Frewer, L. J., & Lader, M. (1991). The effects of caffeine on two computerized tests of
attention and vigilance. Human Psychopharmacology: Clinical and Experimental, 6(2),
119-128.
Friedman, D., Brouwer, A. M., & Nijholt, A. (2017, March). BCIforReal: An application-
Oriented Approach to BCI Out of the Laboratory. In Proceedings of the 22nd
International Conference on Intelligent User Interfaces Companion (pp. 5-7). ACM.
199
Fukuda, K., Stern, J. A., Brown, T. B., & Russo, M. B. (2005). Cognition, blinks, eye-
movements, and pupillary movements during performance of a running memory task.
Aviation, Space and Environmental Medicine, 76(7), 75–85.
Gagnon, J., Couderc, F., & Rivest, M. (2013). Using SYnRGY to Support Design and
Validation Studies of Emergency Management Solutions. Proceedings of the 10th
International ISCRAM Conference, (May), 512–516.
Gaillard, A. W. K. (1993). Comparing the concepts of mental load and
stress. Ergonomics, 36(9), 991-1005.
Gaillard, A. W. K., & Wientjes, C. J. E. (1994). Mental load and work stress as two types
of energy mobilization. Work and Stress, 8, 141–152
Galy, E., Cariou, M., & Mélan, C. (2012). What is the relationship between mental
workload factors and cognitive load types?. International Journal of
Psychophysiology, 83(3), 269-275.
Gateau, T., Durantin, G., Lancelot, F., Scannella, S., & Dehais, F. (2015). Real-time state
estimation in a flight simulator using fNIRS. PloS one, 10(3), e0121279.
Gawron, V. J. (2000). Guide to measuring workload and situational awareness. In Human
Factors and Ergonomics Society 44th Annual Meeting, San Diego, CA, USA.
Gendolla, G.H.E., Wright, R.A., (2005). Motivation in social settings studies of effort-
related cardiovascular arousal. In: Forgas, J.P., Williams, K.D., Laham, S.M. (Eds.),
Social Motivation: Conscious and Unconscious Processes. Cambridge University Press,
New York, pp. 71–90.
Girouard, A., Solovey, E. T., Hirshfield, L. M., Chauncey, K., Sassaroli, A., Fantini, S., &
Jacob, R. J. (2009, August). Distinguishing difficulty levels with non-invasive brain
activity measurements. In IFIP Conference on Human-Computer Interaction (pp. 440-
452). Springer, Berlin, Heidelberg.
Glaros, A. G., & Kline, R. B. (1988). Understanding the accuracy of tests with cutting
scores: The sensitivity, specificity, and predictive value model. Journal of clinical
psychology, 44(6), 1013-1023.
200
Goldberg, L. R. (1990). An alternative" description of personality": the big-five factor
structure. Journal of personality and social psychology, 59(6), 1216.
Görges, M., Winton, P., Koval, V., Lim, J., Stinson, J., Choi, P. T., ... & Ansermino, J. M.
(2013). An evaluation of an expert system for detecting critical events during anesthesia
in a human patient simulator: a prospective randomized controlled study. Anesthesia &
Analgesia, 117(2), 380-391.
Grandjean, E. (1979). Fatigue in industry. Occupational and Environmental
Medicine, 36(3), 175-186.
Green, C. S., & Bavelier, D. (2006). Effect of action video games on the spatial distribution
of visuospatial attention. Journal of experimental psychology: Human perception and
performance, 32(6), 1465.
Grier, R., Wickens, C., Kaber, D., Strayer, D., Boehm-Davis, D., Trafton, J. G., & St. John,
M. (2008, September). The red-line of workload: Theory, research, and design. In
Proceedings of the human factors and ergonomics society annual meeting (Vol. 52, No.
18, pp. 1204-1208). Sage CA: Los Angeles, CA: Sage Publications.
Grossman, P. (1983). Respiration, stress, and cardiovascular
function. Psychophysiology, 20(3), 284-300.
Haas, L. F. (2003). Hans berger (1873–1941), richard caton (1842–1926), and
electroencephalography. Journal of Neurology, Neurosurgery & Psychiatry, 74(1), 9-9.
Haga, S., Shinoda, H., & Kokubun, M. (2002). Effects of task difficulty and time‐on‐task
on mental workload. Japanese Psychological Research, 44(3), 134-143.
Hancock, P. A., & Desmond, P. A. (2001). Stress, workload, and fatigue. Lawrence
Erlbaum Associates Publishers.
Hancock, P. A., Ganey, H. N., & Szalma, J. L. (2002). Performance under stress: A re-
evaluation of a foundational low of psychology. In 23rd Annual Army Science
Conference.
Hart, S. G., & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index):
Results of empirical and theoretical research. In Advances in psychology (Vol. 52, pp.
139-183). North-Holland.
201
Hart, S. G., & Staveland, L. E. (2005). Results of empirical and theoretical
research. Ergonomics: Skill, Displays, Controls, and Mental Workload, 2, 408.
He, H., Bai, Y., Garcia, E. A., & Li, S. (2008, June). ADASYN: Adaptive synthetic
sampling approach for imbalanced learning. In Neural Networks, 2008. IJCNN
2008.(IEEE World Congress on Computational Intelligence). IEEE International Joint
Conference on (pp. 1322-1328). IEEE.
He, Y., Luu, T. P., Nathan, K., Nakagome, S., & Contreras-Vidal, J. L. (2018). A mobile
brain-body imaging dataset recorded during treadmill walking with a brain-computer
interface. Scientific data, 5.
Healey, J. A., & Picard, R. W. (2005). Detecting stress during real-world driving tasks
using physiological sensors. IEEE Transactions on intelligent transportation
systems, 6(2), 156-166.
Hellhammer, D. H., Wüst, S., & Kudielka, B. M. (2009). Salivary cortisol as a biomarker in
stress research. Psychoneuroendocrinology, 34(2), 163-171.
Helton, W. S., Matthews, G., & Warm, J. S. (2009). Stress state mediation between
environmental variables and performance: The case of noise and vigilance. Acta
psychologica, 130(3), 204-213.
Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety. Review of
educational research, 58(1), 47-77.
Hendy, K.C., Farrell, P.S.E., & East, K.P. (2001). An information-processing model of
operator stress and performance. In P.A. Hancock, & P.A. Desmond (Eds.), Stress,
workload, and fatigue. Mahwah, NJ: L. Erlbaum.
Henelius, A., Hirvonen, K., Holm, A., Korpela, J., & Muller, K. (2009, September). Mental
workload classification using heart rate metrics. In Engineering in Medicine and Biology
Society, 2009. EMBC 2009. Annual International Conference of the IEEE (pp. 1836-
1839). IEEE.
Herbert, B. M., Pollatos, O., Flor, H., Enck, P., & Schandry, R. (2010). Cardiac awareness
and autonomic cardiac reactivity during emotional picture viewing and mental stress.
Psychophysiology, 47(2), 342-354.
202
Herff, C., Heger, D., Fortmann, O., Hennrich, J., Putze, F., & Schultz, T. (2014). Mental
workload during n-back task—quantified in the prefrontal cortex using fNIRS. Frontiers
in human neuroscience, 7, 935.
Hexoskin, https://www.hexoskin.com/
Hjortskov, N., Rissén, D., Blangsted, A. K., Fallentin, N., Lundberg, U., & Søgaard, K.
(2004). The effect of mental stress on heart rate variability and blood pressure during
computer work. European journal of applied physiology, 92(1-2), 84-89.
Hockey, G. R. J. (1997). Compensatory control in the regulation of human performance
under stress and high workload: A cognitive-energetical framework. Biological
psychology, 45(1), 73-93.
Hockey, G.R.J., (1993). Cognitive-energetical control mechanisms in the management of
work demands and psychological health. In: Baddeley, A.,Weiskrantz, L. (Eds.),
Attention: Selection,Awareness and Control. Clarendon Press, Oxford, pp. 328–345.
Hoedemaeker, M. (2002). Summary Description of Workload Indicators: WP1 Workload
Measures. Human Machine Interface and the Safety of Traffic in Europe Growth
Project. GRD1-2000-25361. HASTE. Institute for Transport Studies. Leeds, UK:
University of Leeds.
Hoffman, R. R., & McNeese, M. D. (2009). A history for macrocognition. Journal of
Cognitive Engineering and Decision Making, 3(2), 97-110.
Hogervorst, M. A., Brouwer, A. M., & van Erp, J. B. (2014). Combining and comparing
EEG, peripheral physiology and eye-related measures for the assessment of mental
workload. Frontiers in neuroscience, 8, 322.
Hollnagel, E. (2002). Time and time again. Theoretical Issues in Ergonomics Science, 3(2),
143-158.
Homan, R. W., Herman, J., & Purdy, P. (1987). Cerebral location of international 10–20
system electrode placement. Electroencephalography and clinical
neurophysiology, 66(4), 376-382.
203
Hong, L., Walz, J. M., & Sajda, P. (2014). Your eyes give you away: Prestimulus changes
in pupil diameter correlate with poststimulus task-related EEG dynamics. PLoS One,
9(3), e91321.
Hoover, A., Singh, A., Fishel-Brown, S., & Muth, E. (2012). Real-time detection of
workload changes using heart rate variability. Biomedical Signal Processing and
Control, 7(4), 333–341.
Hsu, C. W., & Lin, C. J. (2002). A comparison of methods for multiclass support vector
machines. IEEE transactions on Neural Networks, 13(2), 415-425.
Huang, J. L., Chiou, C. W., Ting, C. T., Chen, Y. T., & Chen, S. A. (2001). Sudden
changes in heart rate variability during the 1999 Taiwan earthquake. American Journal
of Cardiology, 87(2), 245-248.
Idogawa, K., 1991. On the brain wave activity of professional drivers during monotonous
work. Behaviormetrika 30, 23–34.
Jansen, R. J., Sawyer, B. D., van Egmond, R., de Ridder, H., & Hancock, P. A. (2016).
Hysteresis in mental workload and task performance: the influence of demand
transitions and task prioritization. Human factors, 58(8), 1143-1157.
Jansma, J. M., Ramsey, N. F., Coppola, R., & Kahn, R. S. (2000). Specific versus
nonspecific brain activity in a parametric N-back task. Neuroimage, 12(6), 688-697.
Johnson, D. H. (2006). Signal-to-noise ratio. Scholarpedia, 1(12), 2088.
Johnston, C. A., Moreno, J. P., Regas, K., Tyler, C., & Foreyt, J. P. (2012). The application
of the yerkes-dodson law in a childhood weight management program: Examining
weight dissatisfaction. Journal of Pediatric Psychology, 37(6), 674–679.
Jones, M. K., Latreille, P. L., & Sloane, P. J. (2016). Job Anxiety, Work‐Related
Psychological Illness and Workplace Performance. British Journal of Industrial
Relations, 54(4), 742-767.
Jordan, K., Wüstenberg, T., Heinze, H. J., Peters, M., & Jäncke, L. (2002). Women and
men exhibit different cortical activation patterns during mental rotation
tasks. Neuropsychologia, 40(13), 2397-2408.
204
Kahneman, D. (1973). Attention and effort (Vol. 1063). Englewood Cliffs, NJ: Prentice-
Hall.
Kallioninen, P. (Photo). (2012). Exemple d’un électroencéphalogramme. CC BY-SA 3.0.
Récupérée sur: https://commons.wikimedia.org/w/index.php?curid=18620756
Kalsbeek, A., Merrow, M., Roenneberg, T., & Foster, R. G. (2012). The Neurobiology of
Circadian Timing (Vol. 199). Elsevier.
Kalyuga, S., Chandler, P., Tuovinen, J., & Sweller, J. (2001). When problem solving is
superior to studying worked examples. Journal of educational psychology, 93(3), 579.
Kappeler-Setz, C., Gravenhorst, F., Schumm, J., Arnrich, B., & Tröster, G. (2013).
Towards long term monitoring of electrodermal activity in daily life. Personal and
ubiquitous computing, 17(2), 261-271.
Karatekin C. Couperus J. W. Marcus D. J. (2004). Attention allocation in the dual-task
paradigm as measured through behavioral and psychophysiological responses.
Psychophysiology, 41 (2), 175–185.
Keinan, G. (1987). Decision making under stress: Scanning of alternatives under
controllable and uncontrollable threats. Journal of personality and social
psychology, 52(3), 639.
Kennedy, D. O., & Scholey, A. B. (2000). Glucose administration, heart rate and cognitive
performance: effects of increasing mental effort. Psychopharmacology, 149(1), 63-71.
Kleiger, R. E., Stein, P. K., & Bigger, J. T. (2005). Heart rate variability: measurement and
clinical utility. Annals of Noninvasive Electrocardiology, 10(1), 88-101.
Kocsis, L., Herman, P., & Eke, A. (2006). The modified Beer–Lambert law
revisited. Physics in medicine and biology, 51(5), N91.
Kudielka, B. M., Hellhammer, H., & Kirschbaum, C. (2007). Ten years of research with the
trier social stress test. Social Neuroscience, (JANUARY), 56–83.
Kuhlmann, S., Wolf, O.T., 2006b. Arousal and cortisol interact in modulating memory
consolidation in healthy young men. Behav. Neurosci. 120, 217–223.
205
Laeng B. Sirois S. Gredebäck G. (2012). Pupillometry: A window to the preconscious?
Perspectives on Psychological Science, 7 (1), 18–27.
LaGory, J., Dearen, B. B., Tebo, K., & Wright, R. A. (2011). Reported fatigue, difficulty,
and cardiovascular response to an auditory mental arithmetic challenge. International
Journal of Psychophysiology, 81(2), 91-98.
Landers, D. M., Han, M., Salazar, W., & Petruzzello, S. J. (1994). Effects of learning on
electroencephalographic and electrocardiographic patterns in novice
archers. International Journal of Sport Psychology.
Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for
categorical data. biometrics, 159-174.
Lansdown, T. C., Brook-Carter, N., & Kersloot, T. (2004). Distraction from multiple in-
vehicle secondary tasks: vehicle performance and mental workload
implications. Ergonomics, 47(1), 91-104.
Lansman, M., & Hunt, E. (1982). Individual differences in secondary task
performance. Memory & Cognition, 10(1), 10-24.
Lazzara, E. H., Pavlas, D., Fiore, S., & Salas, E. (2010, September). A framework to
develop task complexity. In Proceedings of the Human Factors and Ergonomics Society
Annual Meeting (Vol. 54, No. 27, pp. 2338-2342). Sage CA: Los Angeles, CA: SAGE
Publications.
Le, H., Oh, I.-S., Robbins, S. B., Ilies, R., Holland, E., & Westrick, P. (2011). Too much of
a good thing: curvilinear relationships between personality traits and job performance.
The Journal of Applied Psychology, 96(1), 113–133.
Le, P. N., Ambikairajah, E., Epps, J., Sethu, V., & Choi, E. H. (2011). Investigation of
spectral centroid features for cognitive load classification. Speech
Communication, 53(4), 540-551.
Lee, B. G., Lee, B. L., & Chung, W. Y. (2015, August). Smartwatch-based driver alertness
monitoring with wearable motion and physiological sensor. In Engineering in Medicine
and Biology Society (EMBC), 2015 37th Annual International Conference of the
IEEE (pp. 6126-6129). IEEE.
206
Li, J., Lim, J., Chen, Y., Wong, K., Thakor, N., Bezerianos, A., & Sun, Y. (2016). Mid-task
break improves global integration of functional connectivity in lower alpha
band. Frontiers in human neuroscience, 10, 304.
Lim, J., Wu, W. C., Wang, J., Detre, J. A., Dinges, D. F., & Rao, H. (2010). Imaging brain
fatigue from sustained mental workload: an ASL perfusion study of the time-on-task
effect. Neuroimage, 49(4), 3426-3435.
Lindh, W. Q., Pooler, M., Tamparo, C. D., Dahl, B. M., & Morris, J. (2013). Delmar's
comprehensive medical assisting: administrative and clinical competencies. Cengage
Learning.
Lingard, L., Espin, S., Whyte, S., Regehr, G., Baker, G. R., Reznick, R., ... & Grober, E.
(2004). Communication failures in the operating room: an observational classification of
recurrent types and effects. BMJ Quality & Safety, 13(5), 330-334.
Liu, Y., Ayaz, H., & Shewokis, P. A. (2017). Mental workload classification with
concurrent electroencephalography and functional near-infrared spectroscopy. Brain-
Computer Interfaces, 4(3), 175-185.
Lorist, M. M., Boksem, M. A., & Ridderinkhof, K. R. (2005). Impaired cognitive control
and reduced cingulate activity during mental fatigue. Cognitive Brain Research, 24(2),
199-205.
Lovibond, P. F., & Lovibond, S. H. (1995). The structure of negative emotional states:
Comparison of the Depression Anxiety Stress Scales (DASS) with the Beck Depression
and Anxiety Inventories. Behaviour research and therapy, 33(3), 335-343.
Lucini, D., Di Fede, G., Parati, G., & Pagani, M. (2005). Impact of chronic psychosocial
stress on autonomic cardiovascular regulation in otherwise healthy
subjects. Hypertension, 46(5), 1201-1206.
MacLeod, C. M. (1991). Half a century of research on the Stroop effect: an integrative
review. Psychological bulletin, 109(2), 163.
MacMillan, J., Entin, E. E., & Serfaty, D. (2004). Communication overhead: The hidden
cost of team cognition. Team cognition: Process and performance at the interand intra-
individual level. American Psychological Association, Washington, DC.
207
Magnusdottir, E. H., Borsky, M., Meier, M., Johannsdottir, K., & Gudnason, J. (2017).
Monitoring Cognitive Workload Using Vocal Tract and Voice Source
Features. Periodica Polytechnica. Electrical Engineering and Computer Science, 61(4),
297.
Major, J. R. H. D. A., Hedlund, D. J. S. J., & Phillips, D. R. I. J. (1997). Team decision-
making accuracy under difficult conditions: Construct validation of potential
manipulations using the TIDE2 simulation. Team performance assessment and
measurement: Theory, methods, and applications, 111.
Makeig, S., Bell, A. J., Jung, T. P., & Sejnowski, T. J. (1996). Independent component
analysis of electroencephalographic data. In Advances in neural information processing
systems (pp. 145-151).
Mandrick, K., Peysakhovich, V., Rémy, F., Lepron, E., & Causse, M. (2016). Neural and
psychophysiological correlates of human performance under stress and high mental
workload. Biological psychology, 121, 62-73.
Marcora, S. M., Staiano, W., & Manning, V. (2009). Mental fatigue impairs physical
performance in humans. Journal of applied physiology, 106(3), 857-864.
Marois, A., Labonté, K., Parent, M., & Vachon, F. (2018). Eyes have ears: Indexing the
orienting response to sound using pupillometry. International Journal of
Psychophysiology, 123, 152-162.
Masson, M. E., & Loftus, G. R. (2003). Using confidence intervals for graphically based
data interpretation. Canadian Journal of Experimental Psychology/Revue canadienne de
psychologie expérimentale, 57(3), 203.
MATLAB-fitclinear (2018). Fit linear classification model to high-dimensional data.
Récupéré sur https://www.mathworks.com/help/stats/fitclinear.html
MATLAB-fitcsvm (2018). Train binary support vector machine (SVM) classifier. Récupéré
sur https://www.mathworks.com/help/stats/fitcsvm.html
Matthews, G. (2001). A transactional model of driver stress. In P.A. Hancock, & P.A.
Desmond (Eds.), Stress, workload, and fatigue. Mahwah, NJ: L. Erlbaum.
208
Matthews, G., & Campbell, S. E. (2009). Sustained performance under overload:
personality and individual differences in stress and coping. Theoretical Issues in
Ergonomics Science, 10(5), 417-442.
Matthews, G., & Campbell, S. E. (2010). Dynamic relationships between stress states and
working memory. Cognition and emotion, 24(2), 357-373.
Matthews, G., & Desmond, P. A. (2002). Task-induced fatigue states and simulated driving
performance. The Quarterly Journal of Experimental Psychology: Section A, 55(2), 659-
686.
Matthews, G., Campbell, S. E., Falconer, S., Joyner, L. A., Huggins, J., Gilliland, K., ... &
Warm, J. S. (2002). Fundamental dimensions of subjective state in performance settings:
task engagement, distress, and worry. Emotion, 2(4), 315.
Matthews, G., Reinerman-Jones, L. E., Barber, D. J., & Abich IV, J. (2015). The
psychometrics of mental workload: multiple measures are sensitive but
divergent. Human factors, 57(1), 125-143.
Matthews, G., Reinerman-Jones, L., Wohleber, R., Lin, J., Mercado, J., & Abich, J. (2015,
August). Workload Is Multidimensional, Not Unitary: What Now?. In International
Conference on Augmented Cognition (pp. 44-55). Springer, Cham.
Matthews, G., Warm, J. S., Reinerman-Jones, L. E., Langheim, L. K., Washburn, D. a, &
Tripp, L. (2010). Task engagement, cerebral blood flow velocity, and diagnostic
monitoring for sustained attention. Journal of Experimental Psychology. Applied, 16(2),
187–203.
Mattia, J. I., Heimberg, R. G., & Hope, D. A. (1993). The revised Stroop color-naming task
in social phobics. Behaviour Research and Therapy, 31(3), 305-313.
May, J. F., & Baldwin, C. L. (2009). Driver fatigue: The importance of identifying causal
factors of fatigue when considering detection and countermeasure
technologies. Transportation Research Part F: Traffic Psychology and
Behaviour, 12(3), 218-224.
Mehler, B., Reimer, B., & Coughlin, J. F. (2012). Sensitivity of physiological measures for
detecting systematic variations in cognitive demand from a working memory task: an
on-road study across three age groups. Human factors, 54(3), 396-412.
209
Mehta, R. K., & Parasuraman, R. (2013). Neuroergonomics: a review of applications to
physical and cognitive work. Frontiers in human neuroscience, 7, 889.
Merat, N., Jamson, A. H., Lai, F. C., & Carsten, O. (2012). Highly automated driving,
secondary task performance, and driver state. Human factors, 54(5), 762-771.
Meshkati, N., Hancock, P. A., Rahimi, M., & Dawes, S. M. (1995). Techniques in mental
workload assessment. Evaluation of human work. J. Wilson. London, GB, Taylor &
Francis, Ltd.
Miyake, S. (1998). 693 Multivariate workload evaluation—An integration of subjective and
physiological parameters. International Journal of Psychophysiology, 30(1-2), 262.
Moè, A. (2009). Are males always better than females in mental rotation? Exploring a
gender belief explanation. Learning and Individual Differences, 19(1), 21-27.
Moore, A., Butt, D., Ellis‐Clarke, J., & Cartmill, J. (2010). Linguistic analysis of verbal and
non‐verbal communication in the operating room. ANZ journal of surgery, 80(12), 925-
929.
Moore, L. J., Wilson, M. R., Vine, S. J., Coussens, A. H., & Freeman, P. (2013). Champ or
chump?: Challenge and threat states during pressurized competition. Journal of Sport
and Exercise Psychology, 35(6), 551-562.
Morad, Y., Lemberg, H., Yofe, N., & Dagan, Y. (2000). Pupillography as an objective
indicator of fatigue. Current eye research, 21(1), 535-542.
Moray, N. (Ed.). (2013). Mental workload: Its theory and measurement (Vol. 8). Springer
Science & Business Media.
Mühl, C., Jeunet, C., & Lotte, F. (2014). EEG-based workload estimation across affective
contexts. Frontiers in neuroscience, 8.
Mulert, C., Leicht, G., Pogarell, O., Mergl, R., Karch, S., Juckel, G., ... & Hegerl, U.
(2007). Auditory cortex and anterior cingulate cortex sources of the early evoked
gamma-band response: relationship to task difficulty and mental effort.
Neuropsychologia, 45(10), 2294-2306.
210
Murai, K., Hayashi, Y., Okazaki, T., Stone, L. C., & Mitomo, N. (2008, October).
Evaluation of ship navigator's mental workload using nasal temperature and heart rate
variability. In Systems, Man and Cybernetics, 2008. SMC 2008. IEEE International
Conference on (pp. 1528-1533).
Muse. (2017). Obtenu à : http://www.choosemuse.com/
Nakayama, M., Takahashi, K., & Shimizu, Y. (2002, March). The act of task difficulty and
eye-movement frequency for the'Oculo-motor indices'. In Proceedings of the 2002
symposium on Eye tracking research & applications (pp. 37-42). ACM.
Nathan, V., Thomas, S. S., & Jafari, R. (2017). Smart Watches for Physiological
Monitoring: A Case Study on Blood Pressure Measurement. In Anticipation and
Medicine (pp. 231-252). Springer International Publishing.
Nieuwenhuis, S., Aston-Jones, G., & Cohen, J. D. (2005). Decision making, the P3, and the
locus coeruleus-norepinephrine system. Psychological Bulletin, 131, 510–532.
Norman, D.A. & Bobrow, D.G. (1975). On data-limited and resource- limited processes.
Cognitive Psychology, 7, 44-64.
O'Donnell, RD, & Eggemeier, FT (1986). Workload assessment methodology. In KR Boff,
L. Kaufman, & JP Thomas (Eds.), Handbook of perception and human performance,
Vol. 2. Cognitive processes and performance (pp. 1-49). Oxford, England.
Paas, F. G. (1992). Training strategies for attaining transfer of problem-solving skill in
statistics: A cognitive-load approach. Journal of educational psychology, 84(4), 429.
Paas, F. G., & Van Merriënboer, J. J. (1993). The efficiency of instructional conditions: An
approach to combine mental effort and performance measures. Human Factors: The
Journal of the Human Factors and Ergonomics Society, 35(4), 737-743. Parasuraman,
Raja, and Peter A. Hancock. "Adaptive control of mental workload." (2001).
Palinko, O., Kun, A. L., Shyrokov, A., & Heeman, P. (2010, March). Estimating cognitive
load using remote eye tracking in a driving simulator. In Proceedings of the 2010
symposium on eye-tracking research & applications (pp. 141-144). ACM.
Papadelis, C., Kourtidou-Papadeli, C., Vlachogiannis, E., Skepastianos, P., Bamidis, P.,
Maglaveras, N., & Pappas, K. (2003). Effects of mental workload and caffeine on
211
catecholamines and blood pressure compared to performance variations. Brain and
cognition, 51(1), 143-154.
Parot, F., Richelle, M., (1992). Introduction à la psychologie – Histoire et méthodes, Paris,
Presses Universitaires de France
Partala, T., & Surakka, V. (2003). Pupil size variation as an indication of affective
processing. International journal of human-computer studies, 59(1), 185-198.
Patel, M., Lal, S. K. L., Kavanagh, D., & Rossiter, P. (2011). Applying neural network
analysis on heart rate variability data to assess driver fatigue. Expert systems with
Applications, 38(6), 7235-7242.
Patel, N., Vytal, K., Pavletic, N., Stoodley, C., Pine, D. S., Grillon, C., & Ernst, M. (2016).
Interaction of threat and verbal working memory in
adolescents. Psychophysiology, 53(4), 518-526.
Pattyn, N., Neyt, X., Henderickx, D., & Soetens, E. (2008). Psychophysiological
investigation of vigilance decrement: boredom or cognitive fatigue?. Physiology &
Behavior, 93(1), 369-378.
Pedrotti, M., Mirzaei, M. A., Tedesco, A., Chardonnet, J. R., Mérienne, F., Benedetto, S.,
& Baccino, T. (2014). Automatic stress classification with pupil diameter analysis.
International Journal of Human-Computer Interaction, 30(3), 220-236.
Pereira, T., Almeida, P. R., Cunha, J. P., & Aguiar, A. (2017). Heart rate variability metrics
for fine-grained stress level assessment. Computer methods and programs in
biomedicine, 148, 71-80.
Peters, M., Laeng, B., Latham, K., Jackson, M., Zaiyouna, R., & Richardson, C. (1995). A
redrawn Vandenberg and Kuse mental rotations test-different versions and factors that
affect performance. Brain and cognition, 28(1), 39-58.
Peysakhovich, V., Causse, M., Scannella, S., & Dehais, F. (2015). Frequency analysis of a
task-evoked pupillary response: Luminance-independent measure of mental
effort. International Journal of Psychophysiology, 97(1), 30-37.
212
Pickup, L., Wilson, J. R., Sharpies, S., Norris, B., Clarke, T., & Young, M. S. (2005).
Fundamental examination of mental workload in the rail industry. Theoretical issues in
ergonomics science, 6(6), 463-482.
Pimenta, A., Carneiro, D., Neves, J., & Novais, P. (2016). A neural network to classify
fatigue from human–computer interaction. Neurocomputing, 172, 413-426.
Poole, A., & Ball, L. J. (2005). Eye Tracking in Human-Computer Interaction and Usability
Research: Current Status and Future Prospects. Encyclopedia of Human-Computer
Interaction, 211–219.
Räikkönen, K., Matthews, K. A., Flory, J. D., Owens, J. F., & Gump, B. B. (1999). Effects
of optimism, pessimism, and trait anxiety on ambulatory blood pressure and mood
during everyday life. Journal of personality and social psychology, 76(1), 104.
Ramsdell, A. F. (2005). Left–right asymmetry and congenital cardiac defects: getting to the
heart of the matter in vertebrate left–right axis determination. Developmental biology,
288(1), 1-20.
Recarte, M. Á., Pérez, E., Conchillo, Á., & Nunes, L. M. (2008). Mental workload and
visual impairment: Differences between pupil, blink, and subjective rating. The Spanish
journal of psychology, 11(2), 374-385.
Reid, G. B., & Nygren, T. E. (1988). The subjective workload assessment technique: A
scaling procedure for measuring mental workload. Advances in psychology, 52, 185-218.
Reid, G. B., Eggemeier, F. T., & Shingledecker, C. A. (1982). Subjective workload
assessment technique. AIR FORCE FLIGHT TEST CENTER EDWARDS AFB CA.
Reiner, M., & Gelfeld, T. M. (2014). Estimating mental workload through event-related
fluctuations of pupil area during a task in a virtual world. International Journal of
Psychophysiology, 93(1), 38-44.
Reinhardt, T., Schmahl, C., Wüst, S., & Bohus, M. (2012). Salivary cortisol, heart rate,
electrodermal activity and subjective stress responses to the Mannheim Multicomponent
Stress Test (MMST). Psychiatry research, 198(1), 106-111.
Robinson, P. (2001). Task complexity, task difficulty, and task production: Exploring
interactions in a componential framework. Applied linguistics, 22(1), 27-57.
213
Rosenzweig, M. R., Breedlove, S. M., & Leiman, A. L. (2002). Biological psychology: An
introduction to behavioral, cognitive, and clinical neuroscience. Sinauer Associates.
Rouse, W. B., Edwards, S. L. & Hammer, J. M. (1993). Modelling the dynamics of mental
workload and human performance in complex systems. IEEE Transactions on systems,
cybernetics, 23, 1662-1671.
Scanlon, J. E., Sieben, A. J., Holyk, K. R., & Mathewson, K. E. (2017). Your brain on
bikes: P3, MMN/N2b, and baseline noise while pedaling a stationary
bike. Psychophysiology, 54(6), 927-937.
Schafer, J. L., & Graham, J. W. (2002). Missing data: our view of the state of the art.
Psychological methods, 7(2), 147.
Schlickum, M. K., Hedman, L., Enochsson, L., Kjellin, A., & Felländer-Tsai, L. (2009).
Systematic video game training in surgical novices improves performance in virtual
reality endoscopic surgical simulators: a prospective randomized study. World journal of
surgery, 33(11), 2360.
Schnall, P. L., Schwartz, J. E., Landsbergis, P. A., Warren, K., & Pickering, T. G. (1998).
A longitudinal study of job strain and ambulatory blood pressure: results from a three-
year follow-up. Psychosomatic medicine, 60(6), 697-706.
Schubert, C., Lambertz, M., Nelesen, R. a, Bardwell, W., Choi, J.-B., & Dimsdale, J. E.
(2009). Effects of stress on heart rate complexity--a comparison between short-term and
chronic stress. Biological Psychology, 80(3), 325–32.
Segbroeck, M. V., Travadi, R., Vaz, C., Kim, J., Black, M. P., Potamianos, A., &
Narayanan, S. S. (2014). Classification of cognitive load from speech using an i-vector
framework. In Fifteenth Annual Conference of the International Speech Communication
Association.
Seidhoff, D., (2015), https://www.mathworks.com/matlabcentral/fileexchange/50541-
adasyn--improves-class-balance--extension-of-smote-
Selye, H. (1975). Confusion and controversy in the stress field. Journal of human
stress, 1(2), 37-44.
214
Setz, C., Arnrich, B., Schumm, J., La Marca, R., Tröster, G., & Ehlert, U. (2010).
Discriminating stress from cognitive load using a wearable EDA device. IEEE
Transactions on information technology in biomedicine, 14(2), 410-417.
Sexton, J. B., & Helmreich, R. L. (2000). Analyzing cockpit communications: the links
between language, performance, error, and workload. Human Performance in Extreme
Environments, 5(1), 63-68.
Shen, J., Barbera, J., & Shapiro, C. M. (2006). Distinguishing sleepiness and fatigue: Focus
on definition and measurement. Sleep Medicine Reviews, 10(1), 63–76.
Shen, K. Q., Li, X. P., Ong, C. J., Shao, S. Y., & Wilder-Smith, E. P. V. (2008). EEG-based
mental fatigue measurement using multi-class support vector machines with confidence
estimate. Clinical Neurophysiology, 119(7), 1524–1533.
Shen, M., Carswell, M., Santhanam, R., & Bailey, K. (2012). Emergency management
information systems: Could decision makers be supported in choosing display
formats?. Decision Support Systems, 52(2), 318-330.
Shernoff, D. J., Csikszentmihalyi, M., Shneider, B., & Shernoff, E. S. (2003). Student
engagement in high school classrooms from the perspective of flow theory. School
Psychology Quarterly, 18(2), 158.
Shimomura, Y., Yoda, T., Sugiura, K., Horiguchi, A., Iwanaga, K., & Katsuura, T. (2008).
Use of frequency domain analysis of skin conductance for evaluation of mental
workload. Journal of physiological anthropology, 27(4), 173-177.
Siesler, H. W., Ozaki, Y., Kawata, S., & Heise, H. M. (Eds.). (2008). Near-infrared
spectroscopy: principles, instruments, applications. John Wiley & Sons.
Silvestrini, N., & Gendolla, G. H. (2007). Mood effects on autonomic activity in mood
regulation. Psychophysiology, 44(4), 650-659.
Sinharay, S., Stern, H. S., & Russell, D. (2001). The use of multiple imputation for the
analysis of missing data. Psychological methods, 6(4), 317.
Skogestad, S., & Postlethwaite, I. (2007). Multivariable feedback control: analysis and
design (Vol. 2, pp. 458-459). New York: Wiley.
215
Smart Eye. (2018). http://smarteye.se/
Soleymani, M., Pantic, M., & Pun, T. (2012). Multimodal emotion recognition in response
to videos. IEEE transactions on affective computing, 3(2), 211-223.
Staal, M. A. (2004). Stress, cognition, and human performance: A literature review and
conceptual framework.
Starcke, K., & Brand, M. (2016). Effects of stress on decisions under uncertainty: A meta-
analysis. Psychological bulletin, 142(9), 909.
Stuiver, A., & Mulder, B. (2014). Cardiovascular state changes in simulated work
environments. Frontiers in neuroscience, 8.
Sweller, J., Van Merrienboer, J. J., & Paas, F. G. (1998). Cognitive architecture and
instructional design. Educational psychology review, 10(3), 251-296.
Sztajzel, J. (2004). Heart rate variability: a noninvasive electrocardiographic method to
measure the autonomic nervous system. Swiss medical weekly, 134(35-36), 514-522.
Tassorelli, C., Micieli, G., Osipova, V., Rossi, F., & Nappi, G. (1995). Pupillary and
cardiovascular responses to the cold-pressor test. Journal of the autonomic nervous
system, 55(1-2), 45-49.
Teigen, K. H. (1994). Yerkes-Dodson: A Law for all Seasons. Theory & Psychology, 4,
525–547.
ten Caat, M., Lorist, M. M., Bezdan, E., Roerdink, J. B., & Maurits, N. M. (2008). High-
density EEG coherence analysis using functional units applied to mental fatigue. Journal
of neuroscience methods, 171(2), 271-278.
Tharion E., Parthasarathy S., Neelakantan N. (2009) Short-term heart rate variability
measures in students during examinations, Natl. Med., Mar-Apr(2), 63–66.
Tobii. (2017). https://tobiigaming.com/
Trope, Y., & Mackie, D. M. (1987). Sensitivity to alternatives in social hypothesis-
testing. Journal of Experimental Social Psychology, 23(6), 445-459.
216
Van der Linden, D., Frese, M., & Meijman, T. F. (2003). Mental fatigue and the control of
cognitive processes: effects on perseveration and planning. Acta Psychologica, 113(1),
45-65.
Van Der Linden, D., Frese, M., & Sonnentag, S. (2003). The impact of mental fatigue on
exploration in a complex computer task: Rigidity and loss of systematic
strategies. Human Factors, 45(3), 483-494.
van der Wel, P., & van Steenbergen, H. (2018). Pupil dilation as an index of effort in
cognitive control tasks: A review. Psychonomic bulletin & review, 1-11.
van Hedger, K., Necka, E. A., Barakzai, A. K., & Norman, G. J. (2017). The influence of
social stress on time perception and psychophysiological
reactivity. Psychophysiology, 54(5), 706-712.
Van Orden, K. F., Limbert, W., Makeig, S., & Jung, T. P. (2001). Eye activity correlates of
workload during a visuospatial memory task. Human factors, 43(1), 111-121.
Vandenberg, S., & Kuse, A. R. (1978). Mental rotations: A group test of three-dimensional
spatial visualization. Perceptual and Motor Skills, 47, 599–604.
Veltman, J. A., & Gaillard, A.W. K. (1996). Physiological indices of workload in a
simulated flight task. Biological Psychology, 42, 323–342.
Venables, L., & Fairclough, S. H. (2009). The influence of performance feedback on goal-
setting and mental effort regulation. Motivation and Emotion, 33(1), 63-74.
Vidulich, M.A. (1988). The cognitive psychology of subjective mental workload. Human
Mental Workload. P.A. Hancock and N. Meshkati. Amsterdam, NL, Elsevier Science
Publishers B.V. (North-Holland): 219-229.
Visser, B., De Looze, M. P., De Graaff, M. P., & Van Dieën, J. H. (2004). Effects of
precision demands and mental pressure on muscle activation and hand forces in
computer mouse tasks. Ergonomics, 47(2), 202-217.
Vlemincx, E., Abelson, J. L., Lehrer, P. M., Davenport, P. W., Van Diest, I., & Van den
Bergh, O. (2013). Respiratory variability and sighing: a psychophysiological reset
model. Biological psychology, 93(1), 24-32.
217
Vlemincx, E., Taelman, J., De Peuter, S., Van Diest, I., & Van Den Bergh, O. (2011). Sigh
rate and respiratory variability during mental load and sustained
attention. Psychophysiology, 48(1), 117-120.
Von Rosenberg, W., Chanwimalueang, T., Goverdovsky, V., Looney, D., Sharp, D., &
Mandic, D. P. (2016). Smart Helmet: Wearable Multichannel ECG and EEG. IEEE
journal of translational engineering in health and medicine, 4.
Vuksanović, V., & Gal, V. (2007). Heart rate variability in mental stress aloud. Medical
Engineering & Physics, 29(3), 344–9.
Walej (Photo). (2017). Système de spectroscopie proche infrarouge. CC BY-SA 4.0,
Récupérée sur: https://commons.wikimedia.org/w/index.php?curid=63505533
Wang, C.-A., & Munoz, D. P. (2015). A circuit for pupil orienting responses: Implications
for cognitive modulation of pupil size. Current Opinion in Neurobiology, 33, 134–140.
Wang, J., Xu, M., Wang, H., & Zhang, J. (2006). Classification of imbalanced data by
using the SMOTE algorithm and locally linear embedding. In Signal Processing, 2006
8th International Conference on (Vol. 3). IEEE.
Wang, Y., Gao, X., Hong, B., Jia, C., & Gao, S. (2008). Brain-computer interfaces based
on visual evoked potentials. IEEE Engineering in medicine and biology
magazine, 27(5).
Warm, J. S., Parasuraman, R., & Matthews, G. (2008). Vigilance requires hard mental work
and is stressful. Human factors, 50(3), 433-441.
Watkins, L. L., Grossman, P., Krishnan, R., & Sherwood, A. (1998). Anxiety and vagal
control of heart rate. Psychosomatic medicine, 60(4), 498-502.
Weinger, M. B., Herndon, O. W., Zornow, M. H., Paulus, M. P., Gaba, D. M., & Dallen, L.
T. (1994). An objective methodology for task analysis and workload assessment in
anesthesia providers. Anesthesiology, 80(1), 77-92.
Wertheimer, M. (2012). A brief history of psychology. Taylor & Francis.
218
Wickens, C. D. (2008). Multiple Resources and Mental Workload. Human Factors: The
Journal of the Human Factors and Ergonomics Society, 50(3), 449–455.
Wickens, C. D. (2017, June). Mental Workload: Assessment, Prediction and Consequences.
In International Symposium on Human Mental Workload: Models and Applications (pp.
18-29). Springer, Cham.
Wickens, C. D., & Hollands, J. G. (2000). Engineering psychology and human
performance (3rd ed.). Upper Saddle River, NJ: Prentice Hall.
Wiebe, E. N., Roberts, E., & Behrend, T. S. (2010). An examination of two mental
workload measurement approaches to understanding multimedia learning. Computers in
Human Behavior, 26(3), 474-481.
Wierwille, W. W. (1979). Physiological measures of aircrew mental workload. Human
Factors: The Journal of the Human Factors and Ergonomics Society, 21(5), 575-593.
Wierwille, W. W., & Eggemeier, F. T. (1993). Recommendations for mental workload
measurement in a test and evaluation environment. Human Factors, 35(2), 263-281.
Wierwille, W.W. (1988). Important remaining issues in mental workload estimation.
Human Mental Workload. P.A. Hancock and N. Meshkati. Amsterdam, NL, Elsevier
Science Publishers B.V. (North-Holland): 315-333.
Wilson, G. F. (1992). Applied use of cardiac and respiration measures: Practical
considerations and precautions. Biological Psychology, 34(2), 163-178.
Winton, W. M. (1987). Do introductory textbooks present the Yerkes-Dodson Law
correctly? American Psychologist, 42(1971), 202–203.
Wright, R.A., Martin, R.E., Bland, J.L., (2003). Energy resource depletion, task difficulty,
and cardiovascular response to a mental arithmetic challenge. Psychophysiology 40, 98–
105.
Wu, X., Wanyan, X., & Zhuang, D. (2015). Pilot's visual attention allocation modeling
under fatigue. Technology and health care, 23(s2), S373-S381.
219
Yeh, Y. and Wickens, C.D. (1988). Dissociation of performance and subjective measures
of workload. Human Factors 30(1): 111-120.
Yerkes, R. M., & Dodson, J. D. (1908). The relation of strength of stimulus to rapidity of
habit‐formation. Journal of comparative neurology, 18(5), 459-482.
Yoshino, K., & Matsuoka, K. (2005). Causal coherence analysis of heart rate variability
and systolic blood pressure variability under mental arithmetic task load. Biological
psychology, 69(2), 217-227.
Young, M. S., Brookhuis, K. A., Wickens, C. D., & Hancock, P. A. (2015). State of
science: mental workload in ergonomics. Ergonomics, 58(1), 1-17.
Zajenkowski, M. (2013). Energetic Arousal and Language: Predictions From the
Computational Theory of Quantifiers Processing. Human Factors: The Journal of the
Human Factors and Ergonomics Society, 55, 924–934.
Zangheri, M., Cevenini, L., Anfossi, L., Baggiani, C., Simoni, P., Di Nardo, F., & Roda, A.
(2015). A simple and compact smartphone accessory for quantitative
chemiluminescence-based lateral flow immunoassay for salivary cortisol
detection. Biosensors and Bioelectronics, 64, 63-68.
Zhang, Y., Li, Z., Wu, B., & Wu, S. (2009). A spaceflight operation complexity measure
and its experimental validation. International Journal of Industrial Ergonomics, 39(5),
756-765.
top related