mémoire master j zimmer : vision relief et interface homme-machine, quelle solution optimum ?
TRANSCRIPT
ITIN – 2ème année de Manager en Ingénierie Informatique Spécialisation SIBA
Promotion 2012
Mémoire de recherche M2i Vision relief et interface homme-machine,
quelle solution optimum ?
Julie ZIMMER et François-Xavier CORNEC
Sous la direction de M. Florent MICHEL
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 2
Remerciements
Je tiens à remercier et saluer le suivi régulier de mon directeur de mémoire, M.
Florent MICHEL. Le sujet abordé étant vaste, M. MICHEL m’a permis de m’aiguiller afin
que je ne me dirige pas dans de mauvaises directions. De plus, il a été une grande source
d’informations, ce qui a rendu possible la rédaction de ce mémoire.
Je remercie mon binôme, M. François-Xavier CORNEC pour notre collaboration lors
de la rédaction de la partie commune de ce mémoire.
Je tiens également à remercier l’ITIN de m’avoir donné la possibilité d’étudier un tel
sujet. Ce sujet, bien qu’éloigné des thèmes abordés cette année, me permet de m’ouvrir à
la compréhension de technologies que je n’ai fait qu’utiliser sans en comprendre forcément
les rouages. Ce mémoire m’offre donc la possibilité de compléter ma culture générale sur
un domaine technique passionnant.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 3
SOMMAIRE
1. INTRODUCTION ............................................................................................................................. 6
2. FONCTIONNEMENT DE LA VISION HUMAINE ................................................................................. 7
2.1. CAPTATION DE LA PROFONDEUR EN VISION MONOCULAIRE .......................................................................... 7 2.2. ACCOMMODATION ............................................................................................................................. 8 2.3. CONVERGENCE ................................................................................................................................... 9 2.4. PARALLAXE ...................................................................................................................................... 11 2.5. TABLEAU RECAPITULATIF .................................................................................................................... 12
3. TECHNIQUES DE RESTITUTION DU RELIEF .................................................................................... 13
3.1. TECHNOLOGIES MONOSCOPIQUES ........................................................................................................ 13 3.1.1. « Head-‐tracking » ................................................................................................................. 13
3.2. STEREOSCOPIE : TECHNOLOGIES AVEC LUNETTES ..................................................................................... 14 3.2.1. Stéréoscopie passive ............................................................................................................. 14 3.2.2. Stéréoscopie active ............................................................................................................... 15
3.3. STEREOSCOPIE : TECHNOLOGIES SANS LUNETTES ..................................................................................... 16 3.3.1. Auto-‐stéréoscopique ............................................................................................................ 16 3.3.2. Les auto-‐stéréogrammes ...................................................................................................... 17
3.4. TABLEAU RECAPITULATIF .................................................................................................................... 19
4. CONTRAINTES DES TECHNIQUES DE RESTITUTION ....................................................................... 20
4.1. DEFINITION ..................................................................................................................................... 20 4.1.1. Cinétose ................................................................................................................................ 20 4.1.2. Image en saillie ..................................................................................................................... 21 4.1.3. Image en profondeur ............................................................................................................ 21
4.2. CONTRAINTES DE PARALLAXE ............................................................................................................... 22 4.3. CONTRAINTES DE CADRAGE ................................................................................................................. 23 4.4. TABLEAU RECAPITULATIF .................................................................................................................... 24
5. CONCEPTION DE MEDIAS RELIEFS ................................................................................................ 25
5.1. PRISES DE VUES REELLES ..................................................................................................................... 25 5.2. SYNTHESES D’IMAGES ........................................................................................................................ 26 5.3. TABLEAU RECAPITULATIF .................................................................................................................... 28
6. INTERFACES HOMMES-‐MACHINES ............................................................................................... 29
6.1. TECHNOLOGIES TACTILES .................................................................................................................... 29 6.1.1. Résistif .................................................................................................................................. 29
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 4
6.1.2. Capacitif ............................................................................................................................... 29 6.1.3. Les autres ............................................................................................................................. 30 6.1.4. Principaux usages ................................................................................................................. 32 6.1.5. Exemples d’interfaces tactiles à vision relief ........................................................................ 33
6.2. TECHNOLOGIES A INTERFACES GESTUELLES ............................................................................................. 38 6.2.1. Les jeux ................................................................................................................................. 38 6.2.2. Principaux usages ................................................................................................................. 42 6.2.3. Exemple d’interface gestuelle .............................................................................................. 42
6.3. TABLEAU RECAPITULATIF .................................................................................................................... 44
7. CONCLUSION DE L’ETAT DE L’ART ................................................................................................ 46
8. INTERACTION AVEC DES INTERFACES .......................................................................................... 47
8.1. INTERACTION AVEC DU CONTENU 2D .................................................................................................... 47 8.1.1. Historique des périphériques de contrôle ............................................................................. 47 8.1.2. Recensement constats/inconvénients .................................................................................. 52 8.1.3. Tableau synthétique ............................................................................................................. 53
8.2. INTERACTION AVEC DU CONTENU 3D .................................................................................................... 54 8.2.1. Les écrans tactiles ................................................................................................................ 55 8.2.2. Prototype Microsoft ............................................................................................................. 56 8.2.1. Recherche Microsoft : The Holodesk .................................................................................... 57 8.2.2. Boitier usb de Leap Motion .................................................................................................. 58 8.2.3. Tableau synthétique ............................................................................................................. 60
9. EVOLUTION DE L’INTERACTION AVEC DE LA 3D ........................................................................... 61
9.1. USAGE PUBLIC .................................................................................................................................. 61 9.1.1. Evolution des caméras .......................................................................................................... 61 9.1.1. Limite de ces dispositifs ........................................................................................................ 63 9.1.2. Constat ................................................................................................................................. 64 9.1.3. Tableau synthétique ............................................................................................................. 65
9.2. USAGE PROFESSIONNEL ...................................................................................................................... 66 9.2.1. Evolution des souris .............................................................................................................. 66 9.2.2. Et demain ? ........................................................................................................................... 66 9.2.3. Une solution plus adaptée ? ................................................................................................. 68 9.2.4. L’immersion .......................................................................................................................... 70 9.2.5. Substitution du retour de force ............................................................................................ 70
9.3. FUTURS TECHNOLOGIES ...................................................................................................................... 72 9.3.1. Prototype Google : Project Glass .......................................................................................... 72
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 5
10. CONCLUSION DE LA THESE ......................................................................................................... 74
11. BIBLIOGRAPHIE ......................................................................................................................... 76
12. WEBOGRAPHIE .......................................................................................................................... 77
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 6
Etat de l’art
1. Introduction
Cet état de l’art, réalisé en binôme, consiste à comprendre le principe de
fonctionnement de la vision en relief, mais également celui des interfaces homme-machine
en matière de captation gestuelle dans le but de définir quelle solution est la plus adaptée à
l’homme.
Il faudra dans un premier temps, appréhender le fonctionnement de l’œil afin de
comprendre comment il est possible de voir le monde qui nous entoure en relief. La
compréhension de ce fonctionnement permettra alors de saisir le comportement des
différentes technologies d’hier, d’aujourd’hui et de demain permettant la diffusion relief sur
nos écrans ou tout autre support.
Dans un second temps il sera également nécessaire de saisir les mécanismes des
technologies actuelles en matière de captation gestuelle.
Ensuite, chacun se questionnera sur l’avenir des interfaces hommes machines pour
les dispositifs reliefs, avec toutefois des angles de vue différents. L’une traitera de
l’association des interfaces multi-touch et des diffusions reliefs, l’autre de l’usage de la
captation gestuelle pour interagir avec du contenu relief.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 7
2. Fonctionnement de la vision humaine
L’œil humain permet uniquement de voir et n’interprète pas ce qui est vu
contrairement au cerveau. L’œil est constitué de 4 éléments principaux :
• La cornée
• Le cristallin
• La rétine qui capte l'image au fond de l’œil à la manière d’un écran
• Les humeurs aqueuses et vitrées
1 Figure 1 : Globe oculaire gauche, vu du dessus.
La cornée et le cristallin sont deux lentilles qui forment sur le fond de la rétine l’image
inverse de ce qui est observé. La cornée est la lentille la plus puissante de l’œil et permet
de faire converger l’image vers la rétine. Le cristallin quant à lui, concentre les rayons
lumineux sur la rétine. Les muscles ciliaires peuvent modifier l’angle de courbure de cette
lentille afin de former une image nette sur la rétine. Ce phénomène est appelé
l’accommodation.
2.1. Captation de la profondeur en vision monoculaire
Le relief en vision monoculaire est possible grâces aux illusions d’optique, mais on
peut alors se demander comment tromper le cerveau de manière à lui donner la sensation
de profondeur ?
1 http://www.musees-des-techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-FICHE_ENSEIGNANT_3.pdf
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 8
Notre environnement joue un rôle important dans l’appréciation des distances. En
effet, certains éléments statiques sont immédiatement identifiés, les maisons par exemple,
donnent « l’échelle de largeur d’une vallée ». Certains éléments, quant à eux, peuvent être
en mouvements (une voiture par exemple) et cacher d’autres objets, ou au contraire, être
cachés eux mêmes. La façon dont ils circulent, mais également notre façon de nous
déplacer permettent d’apprécier les « distances relatives ».
La vitesse à laquelle ces objets circulent est donc importante et rend l’évaluation de
la distance difficile. En effet, plus les objets vont vite, moins nous sommes capable de les
identifier. Ceci est alors atténué par notre propre mouvement, mais peut former des
illusions d’optiques si les images de gauches et de droites observées sont alternées à
moins de vingt images par seconde. Les textures des objets permettent également de
déduire (d’interpréter) de quels objets il s’agit.
La perspective, quant à elle, joue un rôle dans la perception du relief. Des anciens
peintres et des décorateurs ont autrefois beaucoup utilisés la perspective comme « trompe
œil », il ne s’agissait en réalité que de peintures à deux dimensions et de surfaces planes.
Le relief de ces peintures a été possible grâce aux formes géométriques, celui-ci est alors
mis en évidence grâce à l’orientation et à la convergence que représentent les lignes de
ces formes.
Chaque objet n’étant pas directement exposé de face au soleil, ils connaissent une
zone d’ombre qui peut permettre de définir la forme d’un objet (lors d’une éclipse lunaire
par exemple).
Lorsque nous regardons la lune, elle nous paraît plate, mais lorsque l’éclipse lunaire
est totale, on peut voir apparaître sa forme d’origine. Ce sont ces illusions d’optiques
(« défaut d’uniformité de l’éclairage ») qui permettent d’apprécier la vision en relief. De la
même manière, il arrive que les reflets « contribuent à la perception du relief ».
2.2. Accommodation
L’accommodation est la capacité de l’œil à s’adapter aux distances afin d’assurer la
netteté de la vision. Celle-ci est réalisable grâce au cristallin. Sa puissance varie selon la
distance de l’objet observé. Quand on observe un objet à une grande distance, le cristallin
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 9
est au repos et inversement lorsque l’objet est proche. Les rayons lumineux renvoyés par
l’objet sont donc déviés par le cristallin vers la fovéa. La fovéa est le point central de la
rétine sur lequel l’image est « projetée ».
2 Figure 2 : Accommodation de l’œil.
Les appareils photos ont copiés ce principe de fonctionnement. Certains appareils
sont dits « autofocus », ces derniers sont capables de s’accommoder automatiquement à
l’objet de la scène. Certains photographes jouent sur cette particularité pour réaliser
certains effets stylistiques avec un objet en premier plan net puis le reste de la scène au
second plan est « flou », c’est ce que l’on appelle jouer sur la profondeur de champs.
Une relation est constatée entre l’accommodation et la convergence (voir chapitre
3.3), si bien que l’on ne peut savoir si c’est la convergence ou l’accommodation qui est
effectuée en premier. Une forte modification de celle relation fatigue la vision d’un individu.
2.3. Convergence
La convergence est la capacité des yeux à s’orienter pour se fixer sur un point précis
d’une scène. Ce principe fonctionne de paire avec l’accommodation. L’angle ainsi formé
par les deux yeux donne l’information nécessaire pour que l’accommodation puisse opérer.
L’accommodation et la convergence sont liées à la profondeur de l’objet observé, ce qui
démontre la relation naturelle qui existe.
2 http://www.sibylle-cache-son-oeil.com/site/index.php?option=com_content&task=view&id=17&Itemid=34
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 10
L’accommodation comme la convergence sont deux phénomènes qui s’effectuent
inconsciemment et qui ne sont pas innés chez l’homme. Ces dernières sont acquises
expérimentalement et inconsciemment pendant l’enfance. On peut considérer alors que
cette relation d’accommodation-convergence constitue le comportement par défaut ; mais
rien n’empêche l’Homme d’accommoder ou de converger artificiellement d’une manière
totalement différente. Par exemple, il est possible de « loucher » ou d’avoir le regard dans
le vide et de voir les objets « flous ». Toutefois, cela provoque une grande fatigue visuelle
et il faudra veiller à respecter ce comportement par défaut lors de la restitution d’objets en
relief.
Comportement par défaut : le fusionnement des images :
Figure 3 : Vision œil droit.
Figure 4 : Vision œil gauche.
3 Figure 5 : Images fusionnées.
3 http://www.musees-des-techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-FICHE_ENSEIGNANT_3.pdf
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 11
2.4. Parallaxe
On parle quelque fois d’erreur de parallaxe pour la lecture d’un appareil de métrologie
à aiguille. L’erreur de parallaxe est l’angle entre la direction du regard d’un observateur par
rapport à la perpendiculaire des graduations de l’appareil de mesure. Si l’angle est nul
(lecture perpendiculaire), il n’y a pas d’erreur de lecture. En revanche, plus l’angle est
grand, plus l’erreur de lecture est importante.
La parallaxe est donc l’impact induit par le changement de position d’un observateur
sur la manière dont est perçu un objet.
4 Figure 6 : Les trois cas de parallaxe
La parallaxe peut désigner également la distance qui sépare deux images du même
objet perçu par les deux yeux. Le schéma ci-dessus illustre les trois types de parallaxe
possibles. Sur chaque image, le point noir correspond à l’objet tel qu’il est perçu par le
spectateur par rapport à l’écran et les ronds de couleur sont les deux images de cet objet
nécessaire à la réalisation du relief. Dans le cas du milieu, les ronds de couleurs sont
confondus avec le rond noir. Dans les trois cas, l’accommodation se fera toujours au niveau
de l’écran, ce qui changera c’est la distance à laquelle se fera la convergence. Le premier
schéma est l’illustration d’une parallaxe négative, l’objet sera alors perçu comme étant en
saillie. Le second, quant à lui, correspond à une parallaxe nulle, l’objet est alors vu comme
étant au niveau de l’écran ; il n’y a donc aucune sensation de vision relief. Enfin, le dernier
schéma représente une parallaxe positive, l’objet est vu comme étant en profondeur.
4 http://fr.wikipedia.org/wiki/Parallaxe
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 12
Dans le cas de la vision relief, la parallaxe de mouvement par rapport à la scène
permet d’obtenir davantage d’informations sur l’objet observé, notamment sur sa forme.
Certaines technologies exploitent cette particularité afin de donner une sensation de
perspective ; c’est le cas de la technologie de Head-tracking (suivi de la tête en français, cf.
4.1.1).
2.5. Tableau récapitulatif
Informations à retenir Définitions/Explications
Cristallin/Cornée Cristallin : Lentilles restituant sur le fond de la rétine l’image
inverse de ce qui est observé.
Cornée : Lentille la plus puissante de l’œil permettant de
faire converger l’image vers la rétine.
Convergence Orientation des yeux vers un point précis d’une image.
Accommodation Mise au point effectuée par le cristallin. Il agit sur les rayons
lumineux, l’image observée est vue nettement par le cerveau.
Parallaxe Ecart entre deux points identiques d’une image
stéréoscopique. L’un vu sur l’image gauche et l’autre sur
l’image droite.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 13
3. Techniques de restitution du relief
3.1. Technologies monoscopiques
3.1.1. « Head-tracking »
Le Head-tracking a pour objectif de capter les mouvements de la tête d’un utilisateur
ou d’un spectateur. Cette captation peut se faire de différentes manières (capteurs
magnétiques, optiques, mécaniques, acoustique, inertiels…).
Connaître la variation du point de vue de l’utilisateur permet la simulation d’une vision
relief. En effet, l’image affichée sur l’écran est adaptée en temps réel en fonction de la
position de la tête par rapport à l’écran. Un dispositif permet de suivre la position de la tête
et adapte les images diffusées en fonction de ces mouvements. Les mouvements étant
captés par la caméra de l’appareil.
5
Figure 7 : Head-tracking sur iPhone.
6 Figure 8 : Head-tracking sur iPad.
Cette méthode utilise l’erreur de parallaxe abordée plus haut pour faire apparaître les
images en reliefs. En effet, l’angle formé par la direction du regard et la perpendiculaire à
l’appareil est plus ou moins important selon le changement du point de vue de la personne.
5 http://www.maxiapple.com/2011/04/3d-sans-lunettes-iphone-4-ipad-video.html 6 http://tech.mikeshouts.com/head-tracking-with-ipad-2-camera-enables-glasses-free-3d/
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 14
Il existe une relation proportionnelle entre l’angle ainsi formé et l’importance du relief
restitué par l’écran. Il est important de noter que la sensation de relief restitué n’est pas
induite par un point de vue particulier, mais par la modification permanente de ce dernier.
3.2. Stéréoscopie : technologies avec lunettes
3.2.1. Stéréoscopie passive
Deux techniques principales existent :
• Lunettes anaglyphe
On ne garde pour l'image de gauche que les composantes rouges et pour l'image de
droite que les composantes vertes et bleues. Les deux images sont superposées et à l'aide
d'une paire de lunettes anaglyphe, chaque œil dispose d'un filtre spécifique. L'œil gauche
ne voit que le bleu et vert et l'œil droit ne voit que le rouge. Ces images sont envoyées au
cerveau et ce dernier peut alors reconstituer la scène en relief.
• Lunettes à verres polarisés
La lumière est une onde. Les ondes sont polarisables, c'est-à-dire qu'il est possible
d'orienter la manière dont se "déplace" l'onde.
7 Figure 9 : Images gauches et droites polarisées différemment
Pour cette technique, deux projecteurs sont utilisés. L'un projette l'image de gauche
polarisée horizontalement et l'autre projette l'image de droite polarisée verticalement.
7 Les images en relief - Le Truc (Das Ding) (Michaël Le Meur, Fabrice Dugast)
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 15
Figure 10 : Paire de lunette polarisante
Il suffit alors de porter une paire de lunette polarisante. Le filtre de gauche ne laisse
passer que les ondes horizontales et le filtre de droite que les ondes verticales. Chaque œil
dispose donc de l’image qui lui est dédiée et le cerveau peut alors reconstituer la scène en
relief.
Toutefois la polarisation rectiligne présente un inconvénient majeur : il est nécessaire
de garder la tête bien droite sous peine que les deux verres ne filtrent plus correctement les
ondes verticales et horizontales. En effet, si l’utilisateur penche la tête d’un côté ou de
l’autre, les ondes qui étaient auparavant verticales ou horizontales ne le deviennent plus et
les images qui parviennent aux yeux du spectateur peuvent être mélangées. Pour résoudre
ce problème, la polarisation rectiligne a laissée place à la polarisation circulaire qui permet
de s’affranchir de la contrainte précédente.
3.2.2. Stéréoscopie active
La principale technique utilisée en stéréoscopie active avec une paire de lunette est
celle du décalage temporel. Le projecteur projette alternativement et très rapidement
l'image de gauche puis l'image de droite. Il faut alors porter une paire de lunette de manière
à ce que l'œil gauche et l'œil droit soient masqués alternativement de manière
synchronisée avec le projecteur. De la même manière que dans les cas précédents, ce
procédé permet de n’afficher les images de droites qu’à l’œil droit et les images de gauche
à l’œil gauche afin que le cerveau puisse reconstituer la scène en relief.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 16
8 Figure 11 : Affichage alterné grâce aux lunettes polarisantes
Les images ci-dessus illustrent le principe de fonctionnement de la technique décrite
plus haut. La paire de lunette dispose de deux verres à cristaux liquides capables de
s’obstruer lorsqu’ils sont traversés par un champ électrique. Les lunettes sont donc
alimentées par une pile et synchronisées avec les images projetées à l’écran. Il est ainsi
possible de n’afficher que les images de gauche à l’œil gauche et les images de droites à
l’œil droit. Cependant, cette technique nécessite une fréquence élevée afin que le
spectateur ne s’aperçoive de rien. L’idéal est de pouvoir afficher pour chaque œil 30
images par seconde. Il est donc nécessaire d’atteindre les 60 images par secondes pour
les deux yeux, soit 60 hertz. Le principal inconvénient de cette technologie réside dans le
fait qu’il faille alimenter ces lunettes et qu’elles deviennent de ce fait plus lourde et moins
confortables.
3.3. Stéréoscopie : technologies sans lunettes
3.3.1. Auto-stéréoscopique
L’auto-stéréoscopie permet de s'affranchir de paires de lunettes ou d’un quelconque
autre dispositif permettant de filtrer les images gauches et droites lié à l’utilisateur. Le
moyen de filtrer est alors "mutualisé" et non plus "dédié" comme avec les paires de
lunettes. Le principe réside dans le fait que le filtrage s'effectue directement sur l'écran.
Différentes solutions existent pour le filtrage, comme par exemple : à réseau lenticulaire, à
barrière de parallaxe, à illumination et à écran holographique. Le schéma ci-dessous
explique le fonctionnement de la solution à réseau lenticulaire :
8 Les images en relief - Le Truc (Das Ding) (Michaël Le Meur, Fabrice Dugast)
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 17
9 Figure 12 : Fonctionnement d’un réseau lenticulaire
La scène 3D est alors composée à chaque fois des deux images gauches et droites.
Ces images sont découpées en fines bandelettes et alternées. Les rouges sont dédiées à
l’œil gauche et les bleues à l’œil droit. Le réseau lenticulaire se trouvant par-dessus l’écran
se charge alors de rediriger la lumière de chaque bandelette à l’œil concerné.
L’imagerie lenticulaire a longtemps été utilisée sur des vignettes publicitaires pour
afficher des images différentes lorsque le support est incliné de bas en haut ou de droite à
gauche. Ce principe a été repris pour permettre une vision relief.
3.3.2. Les auto-stéréogrammes
Les auto-stéréogrammes ou images tridimensionnelles sont des images visibles
aussi bien en deux ou trois dimensions sans systèmes particuliers. Cependant, pour voir un
auto-stéréogramme en trois dimensions, cela nécessite d’effectuer un peu de gymnastique
avec ses yeux.
Précédemment, nous avons vu que la convergence était la capacité que les yeux ont
à s’orienter pour se fixer sur un point précis d’une scène. Ce mode de vision est naturel et
est réalisé inconsciemment. Toutefois, il existe d’autres modes de vision non naturels
nécessitant un peu de gymnastique oculaire qui sont : la vision parallèle (regard dans le
vide) et la vision croisée (lorsqu’on louche).
9 http://fr.wikipedia.org/wiki/Fichier:How_a_lenticular_lens_works.png
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 18
10 Figure 13 : Les trois modes de vision
Les images auto-stéréogrammes exploitent la vision parallèle afin de voir ces images
en trois dimensions. Il existe deux types d’images auto-stéréogrammes, les « camouflés »
représentant généralement des formes géométriques invisibles en deux dimensions et les
images figuratives pouvant être de « vraies » images.
Le principe de création d’une image auto-stéréogramme est la répétition de l’image
de base sur un plan horizontal. Cependant cette image de base est modifiée à chaque fois
pour que chaque œil puisse voir l’image lui correspondant.
11 Figure 14 : Exemple d'une image auto-stéréogramme
Pour regarder l’image auto-stéréogramme ci-dessus, il faut la regarder en vision
parallèle.
10 http://www.lajauneetlarouge.com/article/les-auto-stereogrammes-des-images-en-relief 11 http://www.lajauneetlarouge.com/article/les-auto-stereogrammes-des-images-en-relief
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 19
3.4. Tableau récapitulatif
Informations à retenir Définitions/Explications
Stéréoscopie Technique permettant de reconstituer une perception 3D
à partir d’images 2D.
Auto-stéréogramme Un auto-stéréogramme est une image visible en relief en
vision parallèle.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 20
4. Contraintes des techniques de restitution
4.1. Définition
4.1.1. Cinétose
La cinétose ou cinépathie est ce qu’on appelle le mal du virtuel. Ce mal du virtuel
peut s’apparenter au mal des transports. Ce phénomène se produit car l’individu concerné
s’adapte mal aux voyages terrestres, aériens ou maritimes. Celui-ci subit alors le syndrome
d’adaptation spatiale, c’est à dire que l’équilibre de l’individu est perturbé. Il existe donc une
incohérence entre le déplacement réel de l’individu et ce que son organisme perçoit.
Les vestibules, situées dans la partie la plus interne de l’œil jouent un rôle important.
En effet, celles-ci aident l’individu à trouver son équilibre et sont très sensibles. Certaines
personnes se sentent mal en avion car leurs vestibules perçoivent un déplacement alors
qu'elles ont la sensation d’être immobile. Le cerveau détecte une incohérence entre ces
deux informations et cela provoque des troubles du transport.
La cinétose est provoquée par une incompréhension du cerveau lors du traitement de
différents stimuli sensoriels lorsque deux sens semblent présenter des informations
contradictoires par exemple. Plusieurs éléments peuvent favoriser la cinétose : le
psychisme, l’alcool, la drogue, etc. A l’inverse, le degré d’immersion et l’habitude
d’utilisation d’un dispositif peuvent permettre d’éviter ou de réduire la cinétose.
Les producteurs de films 3D doivent faire attention au nombre d’images par secondes
affichées au spectateur. Nous avons vu précédemment que l’idéal est d’afficher les images
à une fréquence de 60 Hertz, soit 60 images par secondes. L’œil et le cerveau humain
n’est pas totalement habitué au relief artificiel. Bien que les techniques de restitutions
stéréoscopiques soient évoluées, elles ne permettent pas d’avoir une véritable cohérence
entre les informations transmises au cerveau par les différents sens. Dans le cas de la
vision, nous avons vu que les parallaxes positives ou négatives impliquaient une
accommodation et une convergence ne se faisant pas au même endroit, ce qui n’est pas le
cas en vision naturelle.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 21
Ainsi, pour ne pas fatiguer le spectateur, il faut veiller à alterner les plans en
profondeur et en saillie et éviter de les afficher pendant trop longtemps au spectateur. Une
des solutions apportée est d’intercaler entre certaines scènes d’autres dont la parallaxe est
proche de zéro. Jouer sur le degré d’immersion est également crucial, la qualité de la
bande sonore et de sa spatialisation est un grand plus.
4.1.2. Image en saillie
En vision stéréoscopique, un élément dit en sailli est vu comme étant dans l’espace
entre le plan de l’écran et l’observateur.
Exemple d’image en saillie :
12 Figure 15 : Image d'une fenêtre en saillie.
4.1.3. Image en profondeur
Les images en profondeur donnent l’impression inverse par rapport aux images en
sailli. Les images en profondeurs font penser que l’image s’étend aux arrières plans.
12 http://fr.dreamstime.com/photo-libre-de-droits-fen-ecirctre-en-saillie-image15556005
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 22
Exemple d’image en profondeur :
13 Figure 16 : Illustration de la perspective atmosphérique : les montagnes au loin paraissent estompées.
4.2. Contraintes de parallaxe
Nous avons vu précédemment qu’il existait trois types de parallaxe. La parallaxe
négative, qui permet d’afficher des images en saillie, la parallaxe nulle permettant d’afficher
les objets au niveau de l’écran et enfin la parallaxe positive permettant d’afficher des objets
en profondeur.
Le cerveau de humain n’est pas encore bien habitué à cette vision relief artificielle. Il
est donc crucial pendant le montage d’un film, de veiller à ne pas créer de malaise entre
l’œil et le cerveau sous peine de provoquer la cinétose. Nous avons vu précédemment que
l’accommodation se faisait toujours au niveau de l’écran. En revanche, lors de scènes
utilisant une parallaxe négative ou positive, la convergence ne se fera pas au niveau de
l’écran mais devant celui-ci ou derrière celui-ci. Il existe donc une incohérence entre
l’endroit où se fait la convergence et celui où se fait l’accommodation. Ces incohérences
entrainent une grande fatigue visuelle.
La recette utilisée par Walt Disney pour ne pas user psychologiquement le jeune
public est de faire suivre les scènes tristes par des scènes plus joyeuses accompagnées de
mélodies joyeuses.
Il est judicieux de copier ce principe dans le cinéma 3D et d’alterner les plans en
profondeur, en sailli et au niveau de l’écran afin d’éviter une trop grande fatigue visuelle.
13 http://fr.wikipedia.org/wiki/Perception_de_la_profondeur
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 23
4.3. Contraintes de cadrage
Nous avons vu précédemment deux exemples d’images. L’une en saillie et l’autre en
profondeur. Si nous devions représenter en relief une image en profondeur, le cadre ou le
bord de l’écran ne poserait aucun problème puisque nous aurions simplement la sensation
de regarder la scène à travers une fenêtre.
Les scènes et objets, bien qu’en sailli, sont représentés par projection à la surface de
l’écran. Les bords de l’écran constituent donc les limites au-delà desquelles il est
impossible de représenter les objets. Des objets en saillis ne peuvent donc pas sortir du
cadre puisque le cadre « couperait » ces derniers et provoquerait une incohérence entre ce
que voit l’œil et l’interprétation du cerveau.
Figure 17 : Saillie centrée
Figure 18 : Saillie hors cadre
Figure 19 : Saillie coupée
Sur la première image, « Saillie centrée », on s’aperçoit clairement qu’il est possible
d’afficher une image en saillie, si celle-ci n’est pas hors cadre. La contrainte qui se pose est
lorsque nous représentons un objet en saillie comme sur l’image « Saillie hors cadre ». En
effet, il est impossible de faire sortir l’objet de l’écran et ce qui sera en réalité affiché est
représenté sur la troisième image « Saillie coupée ». L’objet qui aurait dû « sortir » du
cadre et s’approcher de nous sera coupé par les bords du cadre.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 24
4.4. Tableau récapitulatif
Informations à retenir Définitions/Explications
Cinétose Malaise entre l’œil et le cerveau qui provoque un
déséquilibre de l’individu. Celui-ci ressent alors un
mal-être.
Image en saillie / en profondeur Saillie : Image perçue entre le plan et un individu.
Profondeur : Image en arrière plan.
Contraintes parallaxe Les points de convergence et l’accommodation des
yeux se font dans des directions différentes.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 25
5. Conception de médias reliefs
5.1. Prises de vues réelles
Les appareils photos à doubles objectifs copient le fonctionnement de la vision
stéréoscopique de l’Homme expliqué précédemment. En effet, ces appareils capturent
deux images avec une parallaxe similaire à celle des yeux de l’Homme. Le but de ces
appareils à doubles objectifs est donc de capturer les reliefs comme le feraient les deux
yeux de l’Homme.
Exemples d’appareils photo à doubles objectifs :
14 Figure 20 : Appareil photo LUMIX GF2.
15 Figure 21 : Appareil stéréo argentique : Kit Loreo
3D MKII stéréoscopique sur pellicule 24 x 36.
Les caméras permettent également de capturer des scènes en relief. Lors de
tournages vidéo 3D ce sont des caméras reliefs à doubles objectifs qui sont utilisées,
comme la caméra AG-3DA1 de Panasonic :
14 http://www.pc-boost.com/actualite-1295872482-1-La-Radeon-HD-6990-en-photo--Peut-%C3%AAtre-.html 15 http://fr.wikipedia.org/wiki/Appareil_st%C3%A9r%C3%A9oscopique
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 26
16 Figure 22 : Caméra AG-3DA1, la première caméra 3D intégrée
Certaines caméras 3D autorisent le réglage de la parallaxe. Cela signifie qu’il est
possible de régler l’écart entre les deux objectifs. Cela est notamment utilisé par les
producteurs afin de donner l’impression qu’un objet est plus ou moins près. Ces dernières
sont placées dans un « rig à miroir » 17. Les deux caméras sont disposées selon un angle
de 90°, et reliées entre elles par de nombreux moteurs. Un miroir semi-transparent est
placé entre les deux caméras et coupe les deux axes optiques à 45°. L’une des caméras
filme à travers le miroir tandis que l’autre filme l’image sur le miroir. Cela permet aux deux
caméras d’être très proches l’une de l’autre sans contraintes physiques de contact. Ce
principe est particulièrement utile pour les plans rapprochés.
5.2. Synthèses d’images
Les scènes que nous voyons actuellement dans les films d’animations ou encore
dans les jeux vidéo deviennent de plus en plus réalistes et immersives. Pourtant, celles-ci
ont été modélisées à partir d’images 2D et d’objets en 3D.
16 http://www.focus-numerique.com/video-test-panasonic-ag-3da1-premiere-camera-3d-integree-news-2368.html 17 http://www.commeaucinema.com/interviews/pina,195115-note-85369
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 27
18 Figure 23 : Les tours de Hanoï
Des logiciels aident aux développements de jeux vidéo en vue d’obtenir un rendu le
plus réaliste possible, tels que « Ogre 3D », « Irrlicht Engine », « Virtools » et « Unity » qui
sont les leaders du marché.
Des images sont spécialement imprimées pour être vues en relief grâce à des
lunettes anaglyphes décrites précédemment (filtres de couleurs différents). Ses images
sont alors elles-mêmes appelées images anaglyphe.
19 Figure 24: Vue anaglyphique, présentant un relief bien perceptible (lunettes bicolores nécessaires : le
rouge à gauche).
18 http://www.xgouchet.fr/blog/index.php/en 19 http://fr.wikipedia.org/wiki/Anaglyphe
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 28
D’autres sont utilisées dans la réalité augmentée :
20 Figure 25 : La réalité augmentée avec interrupteur
Les caméras utilisées fonctionnent alors comme des caméras relief ; deux images
identiques avec un point de vue différent. Une parallaxe en vision relief est donc présente
et réglable afin de jouer sur la contrainte de parallaxe détaillée plus haut. Le point de vue
est alors déplacé en temps réel (similaire à la technologie du Head-tracking).
5.3. Tableau récapitulatif
Informations à retenir Définitions/Explications
Caméras reliefs Utilisent le même principe que la vision
humaine pour reproduire le relief et
possèdent donc un double objectif.
Images en réalité augmentée Point de vue en mouvement et donc en
temps réel, utilisant le même principe de
fonctionnement que la technologie Head-
treacking.
20 http://www.teferic.de/video/2/video/%20artoolkit/xjmuis.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 29
6. Interfaces hommes-machines
6.1. Technologies tactiles
6.1.1. Résistif
La technologie résistive est la plus économique et la plus courante. Les écrans
tactiles résistifs sont composés de deux calques superposés et maintenus distants.
Lorsqu’une pression s’effectue, les deux calques se touchent et un courant électrique
circule. La variation dans les champs électriques permettent d’en déduire les coordonnées
x et y de la zone touchée. Cette technologie demeure cependant mono-point, mais permet
une utilisation autre qu’avec le doigt ; l’usage du stylet est par exemple possible. Certains
anciens smartphone ou PDA utilisent cette technologie.
21 Figure 26 : Ecran tactile résistif.
6.1.2. Capacitif
Les écrans capacitifs, quant à eux, sont constitués d‘une couche à base d’indium qui
est placée sur la plaque de verre. Lorsque l’on pose le doigt sur la plaque, certaines de ces
21 http://fr.wikipedia.org/wiki/%C3%89cran_tactile
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 30
charges sont transférées dans celui-ci. Ce déficit est quantifiable et est mesuré à partir de
chaque coin de l’écran ce qui permet d’en déduire les coordonnées x et y de la zone
touchée. Cette technologie peut-être considérée comme la suite logique de la précédente.
Elle participe à l’amélioration de l’ergonomie de certains dispositifs car elle autorise le
multipoint. Elle a notamment connu un essor particulier grâce à l’Iphone d’Apple. Depuis,
de nombreux autres smartphones et tablettes sont équipés de cette technologie.
22 Figure 27 : Ecran tactile capacitif.
6.1.3. Les autres
Infrarouge, Optique, FTIR, A jauges de contrainte, à onde de surface. Petit tour
d’horizon des autres technologies tactiles existantes. Quels sont les avantages ou les
contraintes par rapport aux deux principales technologies que sont le résistif et le
capacitif ?
Les technologies capacitives et résistives sont les principales technologies,
cependant il existe également d’autres types de technologies :
22 http://fr.wikipedia.org/wiki/%C3%89cran_tactile
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 31
Onde de surface
Une onde circule sur la surface de l’écran et lorsque l’utilisateur touche l’écran,
celle-ci s’en trouve modifiée. Grâce à l’analyse de l’onde modifiée récupérée, il est possible
de déduire les coordonnées x et y de la zone touchée.
Infrarouge
L’écran est constitué de rayons infrarouges disposés verticalement et
horizontalement. La détection de contact se fait lors de l’interruption des faisceaux de
lumière, il est alors possible de déduire les coordonnées x et y de la zone touchée.
Optique
L’optique est munie de deux caméras qui sont disposées dans les coins et une
triangulation permet de déduire les coordonnées x et y de la zone touchée.
FTIR (Frustrated Total Internal reflexion) 23
La surface supérieure de la plaque est éclairée par des diodes infrarouges. Lorsque
le doigt se pose sur la surface supérieure, la lumière est réfléchie dans toutes les directions
et principalement sur la surface inférieure de l’écran. Une caméra détecte alors un “point”
lumineux sur cette surface inférieure et les coordonnées x et y de la zone touchée peuvent
en être déduites.
NFI (Near Field Imaging)
Se base sur la création d’un champ électrostatique autour de l’écran, en approchant
un doigt de la surface, le champ s’en trouve courbé. Cette courbure permet de déduire les
coordonnées x et y de la zone touchée.
23 Jeff Han : http://cs.nyu.edu/~jhan/ftirtouch/
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 32
A jauges de contrainte
Quatre jauges de contraintes sont placées respectivement dans les quatre coins de
l’écran. Ces jauges permettent de déterminer la déflexion qu’induit la pression du doigt sur
l’écran. Il est alors possible de déterminer les coordonnées x et y de la zone touchée.
6.1.4. Principaux usages
Comme vous avez pu le constater plus haut, toutes ces technologies on un objectif
commun, celui de déterminer les coordonnées x et y de la zone sur l’écran touchée par
l’utilisateur. Cependant, elles ne possèdent pas toutes les mêmes avantages et les mêmes
inconvénients.
Technologies Avantages Inconvénients
Résistif • Faible coût
• Tous types de pointeurs
• Temps de réponse
• Recalibrage
fréquemment
nécessaire (fragilité)
• Peu lumineux (>= 75%)
• Adaptée aux écrans de
moyenne et petite taille
• Fragilité
Capacitif • Multi-touch
• Luminosité (>= 90%)
• Temps de réponse
• Adaptée aux écrans de
moyenne et petite taille
• Fragilité
Ondes de surface • Luminosité • Ecran sensible
(rayures, poussières,
tâches ...)
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 33
Infrarouge • Faible coût
• Ecran très résistant
(Adaptée aux utilisations
militaires)
• Luminosité
• Lente
• Détecte le contact
avant le toucher
Optique • Faible coût
• Adaptée aux grands formats
• Pas de multi-touch
FTIR • Faible coût • Beaucoup
d’éléments
nécessaires à la
création
• Peu répandu
NFI • Robuste
• Luminosité
• Pas de multi-touch
A jauge de
contraintes
• Robuste
• Luminosité
• Pas de multi-touch
Les technologies capacitives et résistives sont les plus répandues car elles sont bon
marché. Cependant, elles demeurent fragiles ce qui implique qu’elles aient une durée de
vie relativement limitée. Au contraire, les technologies optiques assurent une longévité plus
importante.
La technologie infrarouge, quant à elle, a le défaut de détecter un point de contact
avant même qu’il ne survienne. La technologie à ondes de surface a également un défaut
qui est d’être très sensible à toutes impuretés ou rayures présentes à la surface. Ces
dernières gênent la propagation des ondes.
6.1.5. Exemples d’interfaces tactiles à vision relief
Différentes solutions en matière d’interfaces tactiles à vision relief existent. Certaines
d’entre elles sont localisées sur le support relief, d’autres sont au contraire totalement
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 34
délocalisées du support et enfin certaines sont à mi chemin entre ces deux solutions et
proposent des solutions semi-délocalisées. Nous étudierons un exemple de chacune de
ces solutions et mettrons en exergue les avantages et inconvénients de ces dernières.
Solution localisée : iLight 3D Touch
La solution iLight a été développée dans le cadre du projet de recherche européen V-
City. Elle vise à développer un système collaboratif et innovant pour la visualisation
d’environnements urbains en 3D tels que des maquettes par exemple.
ILight est une table tactile permettant d’afficher deux points de vue différents sur le
même écran et en vision stéréoscopique. Cela est possible grâce à un système qui filtre les
images à représenter pour l’un ou l’autre point de vue par le biais de lunettes que portent
les deux utilisateurs. De plus, le système est couplé à une technologie de « Head-
tracking » à 6 degrés de libertés permettant d’observer les objets et maquettes sous tous
leurs angles et donc de proposer à l’utilisateur une expérience vraiment immersive.
24 Figure 28 : Les deux utilisateurs regardent le même écran, la même maquette mais selon leur propre
point de vue
ILight apporte une solution originale afin de contrer les problèmes de collisions entre
les objets en saillis et la main de l’utilisateur. ILight est capable de détecter le survol de la
main au dessus de la table tactile, le feedback visuel sur l’écran est alors représenté par
une ombre. Lorsque la main de l’utilisateur se rapproche de la surface de la table tactile, la
scène représentée à l’écran donne l’impression de « s’enfoncer dans la table ». Les objets
24 http://ilight-immersion.blogspot.com/
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 35
en saillis ne peuvent donc plus entrer en collision avec la main, car ils se retrouvent
« éloignés » de la main de l’utilisateur.
25 Figure 29 : La main est détectée au dessus de l'écran, iLight affiche une ombre sous la main symbolisée
par un cercle sombre au contour bleuté
Solution semi-délocalisée : Toucheo
La solution Toucheo a été réalisée en collaboration avec la société française
« Immersion » et les centres de recherches INRIA et CNRS. Le principal intérêt de cette
solution réside dans le fait qu’elle est « Semi-délocalisée ». C'est-à-dire qu’elle est
suffisamment délocalisée de manière à régler les problèmes d’occlusions et de collision
pouvant normalement intervenir avec d’autres solutions de visualisation stéréoscopique,
mais à la fois suffisamment proche des objets que l’on manipule avec cette technologie de
manière à proposer une solution la plus immersive possible.
25 http://ilight-immersion.blogspot.com/
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 36
Figure 30 : Occlusion de l'objet par la main
Figure 31 : Collision entre l'objet et la main
On peut alors se demander comment Toucheo a réussit ce pari. L’astuce utilisée
n’est pas si compliquée qu’elle en a l’air. Elle est le résultat de la combinaison d’un simple
écran 2D tactile surmonté d’une dalle semi-transparente. Alors que l’écran tactile
réceptionne les interactions de l’utilisateur telles que les translations, les rotations et les
agrandissements/réductions, la dalle semi-transparente se charge de représenter l’objet 3D
en stéréoscopie. L’image de l’objet est réfléchie sur la dalle semi-transparente et Toucheo
est couplé à un système de Head-tracking pour une totale immersion. Cette combinaison
permet à l’utilisateur de placer ses mains entre l’écran tactile et la dalle semi-transparente
et évite ainsi les occlusions et collisions potentielles avec les objets représentés.
2627 Figure 32 : Schéma de la solution Toucheo 1) Ecran stéréoscopique orienté vers le bas
2) Dalle semi-transparente sur laquelle l’image stéréoscopique est réfléchie 3) Image stéréoscopique de l’image réfléchie
4) Ecran tactile 2D capturant les gestes de l’utilisateur
26 http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf 27 http://www.labri.fr/perso/hachet/publications/Toucheo.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 37
Les six degrés de libertés sont respectés. Il est en effet possible de réaliser des
translations, des rotations et des déformations à l’aide de différents curseurs représentés
en 2 dimensions sur l’écran tactile.
28
Figure 33 : Les différents gestes à réaliser pour la rotation, translation et déformation (a) représente l’interface permettant de manipuler l’objet
(b) permet d’effectuer une rotation de l’objet sur l’axe Z en faisant tourner le disque (c) permet d’effectuer une rotation sur l’axe X ou Y selon la réglette utilisée
(d) permet d’étirer l’objet selon l’axe de la réglette utilisée (e) permet d’effectuer une translation de l’objet sur l’axe Z
Solution délocalisée : CubTile
Comme son nom l’indique, l’interface de la solution CubTile se fait à travers un cube.
CubTile a été développé par la société française « Immersion », leader en matière
d’innovation et d’intégration de solutions de réalité virtuelle. Cet objet cubique capte les
ombres des doigts sur toutes les faces. Ces données gestuelles sont alors transmises à un
ordinateur capable de traduire ces données en actions à réaliser.
29 Figure 34 : Le cube de la solution CubTile
28 http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf 29 http://www.ludovia.com/news/news_238_premiere-mondiale-immersion-presente-cubtile-l-inn.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 38
L’avantage de cette solution est qu’elle est très intuitive et très ergonomique puisque
les gestes à effectuer sur les faces du cube sont ceux que toute personne effectuerait lors
de la manipulation d’un objet réel. CubTile permet alors de réaliser pour chaque plan, une
translation et une rotation. Les six degrés de libertés sont alors totalement réalisables très
facilement.
Les possibilités offertes par CubTile sont nombreuses, on peut notamment imaginer
se déplacer dans une pièce à 3 dimensions, manipuler des objets, etc. L’intérêt est énorme
puisque CubTile permet très facilement d’appréhender les volumes.
6.2. Technologies à interfaces gestuelles
6.2.1. Les jeux
La Kinect
La Kinect est un système d’interface gestuelle conçu par Microsoft pour sa console
de jeu, la Xbox 360. Ce périphérique d’interface permet d’interagir avec la console par
reconnaissance de mouvement et d’image. Avec la Kinect, la manette devient le corps du
joueur et tous les mouvements associés.
Comment la Kinect est-elle capable de détecter la profondeur ? Celle-ci est
composée de deux éléments principaux qui sont un émetteur et un capteur infrarouge
espacés de quelques centimètres. L’émetteur infrarouge projette dans l’espace un motif de
points lumineux mais non visibles à l’œil nu, car ces derniers se trouvent dans la zone du
spectre lumineux non visible pour l’humain.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 39
30 Figure 35 : Motif de points lumineux créé par l'émetteur infrarouge
Lorsqu’un objet se déplace dans le motif de points lumineux créé par l’émetteur, le
motif change et se déforme. Le capteur infrarouge est alors capable de détecter cette
modification afin de l’interpréter. Le principe de fonctionnement est relativement simple. On
peut imaginer réaliser un capteur de profondeur avec deux faisceaux laser. Si les deux
points créés par le laser sont très éloignés l’un de l’autre, cela signifie qu’ils sont très
éloignés du capteur en revanche, s’ils sont très près l’un de l’autre, cela signifie qu’ils sont
proches du capteur. Voici le schéma permettant d’illustrer les précédentes explications :
Figure 36 : Capteur de profondeur simplifié
Connaissant l’angle entre les deux faisceaux lumineux et la distance à laquelle se
trouve le point bleu clair du point bleu foncé ou le point marron du point orange, il est alors
possible d’en déduire la profondeur.
30 http://www.cse.iitk.ac.in/users/rahule/thesis.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 40
Playstation Move
La Playstation Move est la solution de captation gestuelle développée par Sony. Alors
que la Kinect a fait le choix de faire disparaître les manettes de jeu, Sony a opté pour une
solution un peu plus classique, qui utilise toujours des manettes de jeu.
La Playstation Move est constituée du couple suivant : un capteur RGB (une caméra)
ainsi qu’une manette surmontée d’une sphère colorée et équipée d’un capteur
gyroscopique et d’accélération. Il est alors possible de détecter le mouvement du joueur à
l’horizontal et à la vertical en suivant le changement de position de la sphère lumineuse de
la manette de jeu à l’aide de la caméra. Mais comment la Playstation Move est alors
capable de détecter le changement de profondeur du joueur ? C’est une fois de plus grâce
à la sphère lumineuse qui surmonte la manette. Plus la sphère apparaît grosse plus cela
signifie qu’elle est proche de l’écran et inversement, plus la sphère est petite plus cela
signifie qu’elle en est éloignée.
Certains utilisateurs dénoncent l’aspect disgracieux de la sphère lumineuse de la
manette de jeu, mais elle n’a pas un rôle esthétique à proprement parler. Lorsque la
manette est éteinte, la sphère est blanche. A l’intérieur de cette sphère se trouve une diode
RGB 24bits capable de colorer la sphère. Le but de cette coloration est de maximiser la
précision du système Playstation Move. En effet, si le joueur désire jouer dans une pièce
peu ou pas éclairée, cela n’empêchera pas le capteur de repérer la manette. D’autre part,
la coloration de la sphère est déterminée par la console en fonction de l’éclairage de la
pièce mais également en fonction des couleurs dominantes de cette dernière.
La Wii
Le système de captation gestuelle utilisé par Nintendo se nomme Wii. La solution de
Nintendo est constituée des éléments suivants : une manette équipée d’un capteur
infrarouge et d’une barre équipée de quatre Leds infrarouges qui sont alignées.
Parmi les solutions de captations gestuelles décrites dans cette partie, la Wii est la
plus ancienne, mais a très largement inspiré les deux autres. Contrairement à la Playstation
Move où c’est le capteur RGB localisé au niveau de la console qui traque les manettes, la
Wii a choisi une solution différente. Ce sont les manettes qui observent la position de la
rampe de Leds. Cette solution a l’avantage de pouvoir différencier le positionnement de
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 41
chacune des manettes, puisque chaque manette communique à la console la position de la
rampe de Leds qu’elles ont repérées. Rappelons que dans le cas de la Playstation Move, la
distinction des manettes est effectuée par la couleur de la sphère de la manette de jeu.
A tout moment, la manette capture la position des 4 Leds infrarouges et transmet ces
informations à la console. La console est alors en mesure d’en déduire la position de la
manette dans un espace à 3 dimensions.
Figure 37 : Différents points de vue d'une manette de jeu
Sur l’image ci-dessus, nous apercevons respectivement ce que peut voir une manette
de jeu Wii située à gauche de l’écran puis à droite de l’écran.
Deux questions apparaissent alors. La première est, comment peut-on définir la
distance à laquelle la manette se trouve de l’écran ?
La solution réside, comme dans l’exemple précédent, grâce notamment à la taille et
l’intensité des Leds vue par la manette.
Figure 38 : Différents points de vue d'une manette de jeu
Les gros cercles dans le haut de l’image signifient que la manette est proche de
l’écran ; à contrario les petits cercles observés par la manette signifient que la celle-ci est
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 42
éloignée de l’écran. Lorsque nous sommes proches d’un objet il nous apparaît plus
volumineux que lorsqu’il est éloigné, c’est ce même principe qui est utilisé ici.
La seconde question concerne la manière dont il est possible de repérer la position
verticale de la manette. La manette est équipée d’un capteur gyroscopique lui permettant
de détecter l’inclinaison de cette dernière.
En combinant l’ensemble des données récupérées par la manette, il est alors
possible de déterminer la position de la manette dans un espace à 3 dimensions.
6.2.2. Principaux usages
Actuellement le jeu vidéo utilise énormément ces nouvelles technologies pour une
expérience de jeu encore plus immersive. Mais d’autres domaines sont ou seraient
susceptibles d’utiliser ces interfaces.
On peut noter par exemple les téléviseurs à venir. Certains constructeurs travaillent
déjà à l’intégration de la reconnaissance gestuelle afin de naviguer dans les menus de son
téléviseur.
6.2.3. Exemple d’interface gestuelle
Le projet SixthSense est un projet actuellement en cours de développement dans les
locaux du MIT, au MIT Media Lab. Ce sont Steve Mann, Pranav Mistry et Pattie Maes qui
sont en charge de son développement.
Ce projet a pour but de transformer les objets qui font partie de notre quotidien en
éléments d’« ordinateur semi-dématérialisé ». Ces objets deviennent alors eux-mêmes des
supports d’échanges d’informations ou d’interactions avec l’homme. Le but étant de pouvoir
créer une interface fluide et adaptée à tous, avec les objets physiques qui sont présents
dans notre vie de tous les jours.
C’est donc un projet informatique ubiquitaire : le traitement de l’information est
complètement intégré dans tous les objets.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 43
31 Figure 39 : Projet SixthSense : journal
Une caméra capte les gestes réalisés ainsi que le suivi des marqueurs de couleur
positionnés sur les doigts, ceux-ci sont ensuite restitués via un pico-projecteur sur différents
types de supports. Ci-dessous, les explications du prototype en image :
32 Figure 40 : Pranav Mistry, projet SixthSense : composition
Les informations que perçoit la webcam sont transmises à un appareil de calcul
pouvant être le téléphone portable de l’utilisateur. La webcam peut être positionnée sur une
casquette ou autour du coup de l’utilisateur. L’appareil de calcul interprète les informations
31 http://web.lefigaro.fr/monde-numerique.html 32 http://www.fubiz.net/2010/02/01/sixthsense-interface/
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 44
reçues et affiche le résultat via le projecteur. L’affichage peut ainsi se faire sur n’importe
quel support : mur, main, vitre, t-shirt…
L’avantage de cette technologie est l’horizon immersif qu’elle ouvre aux utilisateurs
de par sa mobilité et son caractère multi-touch. De plus, son prix ne représente en aucun
cas un quelconque frein puisqu’il pourrait avoisiner les 350 dollars.
6.3. Tableau récapitulatif
Informations à retenir Définitions/Explications
Technologie capacitive La principale technologie utilisée actuellement sur les écrans
tactiles des Smartphones.
ILight 3D touch Solution localisée contournant la contrainte de collision.
Toucheo Solution semi-délocalisée composée d’un écran 2D tactile
capturant les interactions de l’utilisateur et d’une dalle semi-
transparente représentant l’objet en 3D complété par la
technologie de Head-Tracking.
CubTile Périphérique de capture de déplacement dans un
environnement 3D.
La Kinect Dispositif projetant un motif de points lumineux dans l’espace
et capable interpréter les déformations du motif afin de
déterminer la position dans l’espace d’un objet ou d’une
personne.
La playstation move Dispositif permettant de repérer une manette dans un espace
3D à l’aide d’une simple caméra RGB. La captation en
profondeur se fait en observant la variation de la taille de la
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 45
sphère lumineuse qui surmonte la manette.
La Wii Le plus ancien des trois systèmes étudiés ici. La particularité
de ce système est que la captation n’est pas mutualisée
comme les précédents, mais est dédiée. Un capteur se trouve
dans chaque manette de jeu et chacun d’entre eux observe
une rampe de 4 leds infrarouge.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 46
7. Conclusion de l’état de l’art
Les évolutions quotidiennes des nouvelles technologies forcent les individus à suivre
le rythme et à évoluer en même temps. En effet, ce qui paraît nouveau et inhabituel
aujourd’hui pour un individu sera monnaie courante des années plus tard.
Prenons l’exemple de la télévision, lors de son apparition celle-ci changea le
quotidien du monde entier et a été perçue comme « une révolution ». Actuellement, pour la
nouvelle génération ayant grandi avec elle, celle-ci est quelque chose de normal et ne
suscite plus l’enthousiasme d’antan.
Prenons maintenant l’exemple des consoles de jeux telles que la Kinect ou la Wii,
celles-ci ont bouleversés notre quotidien et nous paraissent comme étant quelque chose de
révolutionnaire. Pour les générations futures, ces consoles de jeux seront tout simplement
dépassées tout comme la technologie qu’elles utilisent.
La capacité de l’Homme à s’adapter à ces nouvelles technologies, telle que la
restitution 3D décrite dans ce mémoire, provient de la capacité d’adaptation du cerveau. En
effet, si celui-ci est confronté à la vision relief artificielle, le mal-être qui a pu être ressenti
par les personnes témoins de ces nouvelles technologies n’est plus d’actualité.
Les médias et dispositifs communicants de demain utiliseront la diffusion de contenus
stéréoscopiques. De plus, ces dispositifs seront interactifs, c’est à dire qu’un ou plusieurs
utilisateurs pourront accéder à des informations complémentaires, faire évoluer les
contenus ou encore personnaliser les interfaces…
Nous pouvons ainsi nous demander comment nous interagirons avec du contenu
relief. Deux pistes seront traitées. La première concernera l’association d’une surface multi-
touch et d’une diffusion relief. La seconde quant à elle, traitera de l’association d’interfaces
gestuelles avec un contenu relief.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 47
Thèse : Interfaces gestuelles
8. Interaction avec des interfaces
8.1. Interaction avec du contenu 2D
Actuellement il existe différents moyens d’interagir avec du contenu 2D. En effet,
souris, télécommandes et écrans tactiles (ou encore la reconnaissance gestuelle),
permettent d’interagir avec du contenu non relief et étaient, au départ, conçus uniquement
que pour cela.
8.1.1. Historique des périphériques de contrôle
Même si ces périphériques ont été créés que pour interagir avec du contenu 2D, leur
utilisation avec la manette de jeux vidéo par exemple, a beaucoup évolué depuis quelques
années. Cette évolution apporte un avantage majeur à ces périphériques qui ne sont plus
destinés à un usage unique, mais à divers usages.
Les manettes de jeux, les télécommandes
Pour les joueurs, l’utilisation des manettes est très simple, car peu importe le type de
console de jeux, généralement, elles sont composées de boutons en croix. Elles
possèdent, en plus, d’autres boutons personnalisés selon la marque. La généralisation des
boutons en croix permet aux utilisateurs d’être familiarisés aux modes de fonctionnements
de ces différentes manettes. A ce moment-là, la plupart des gens possèdent plusieurs
manettes, une (au minimum) pour chaque console.
Voici comment une journée banale se passe : vous rentrez chez vous et voulez jouer
à un jeu vidéo. Pour ce faire, vous vous posez devant la télévision, vous l’allumez à l’aide
la télécommande faite à cet effet, puis vous allumez la console de jeux et attrapez la
manette pour jouer.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 48
Ce scénario n’est pas pratique pour le public dans le sens où il faut souvent changer
de manettes. C’est encore le cas actuellement, lorsque nous voulons jouer à des jeux
vidéo. Nous possédons tous des manettes adaptées à une console spécifique pour la ou
les télécommandes servant pour la télévision ou le magnétoscope et autres appareils. Au
cours des années, l’idée fut d’éviter de posséder plusieurs objets pour une même utilisation
et encore plus que ça, posséder un objet capable de réaliser plusieurs actions.
Ce phénomène s’appelle le principe de « Hub numérique »33 ou de « black box »
comme le définissait Henry Jenkins34. Le hub numérique se défini de façon progressive, en
effet, prenons comme exemple la Freebox. Sa télécommande est constituée de multiples
boutons, certains pour un usage dit de « base » de télécommande de télévision et d’autres
permettant de jouer à des jeux inclus dans la Freebox. La télécommande a été créée pour
répondre à l’interface de la Freebox qui permet à la fois de regarder la télévision, de vérifier
ses mails ou encore de jouer aux différents jeux proposés. Cette dernière est de ce fait
multi-usages. Mais cet exemple n’est qu’un premier niveau de centralisation des
commandes,
Ici, le scénario est le suivant : vous rentrez chez vous et voulez jouer à un jeu vidéo.
Pour ce faire, vous vous posez sur votre canapé, vous attrapez la télécommande de la
Freebox et allumez la télévision. Puis à l’aide de cette même manette, vous allumez la
33 http://lexpansion.lexpress.fr/high-tech/l-idee-du-hub-numerique-devient-realite_104949.html 34 http://henryjenkins.org/2006/06/convergence_and_divergence_two.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 49
console de jeux et jouer tout simplement à votre jeu, sans être obligé de changer de
télécommande.
Et inversement, les télécommandes de jeux vidéo servent également de plus en plus
comme télécommandes pour la télévision.
Cette vision des choses est donc beaucoup plus adaptée à une utilisation de
plusieurs appareils/consoles simplifiant l’utilisation de tous ces outils au quotidien.
Prenons maintenant un autre exemple, celui du Smartphone. Le Smartphone
représente avec plus de précisions ce qu’est le hub numérique, en effet, il permet de
téléphoner, mais également de se connecter à internet, de vérifier ses mails, de passer des
commandes directement sur le téléphone. Le fait de n’avoir qu’une seule manette pour
plusieurs usages ne fait pas seulement partie du hub numérique, mais est associé à
l’interface utilisateur qui nous permet à un centre d’informations, de médias.
Après les télécommandes, passons à la souris, celle-ci n’est plus simplement utilisée
sur des interfaces 2D, mais a évolué pour une interaction avec un contenu relief.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 50
Amélioration des souris
35
Figure 41 : Souris Logitech 2D
36
Figure 42 : Souris 3D
L’évolution des souris suit l’évolution des télécommandes ou des manettes pour
assurer une utilisation toujours plus poussée dans le but de répondre aux exigences des
utilisateurs. Après les « simples » souris où seuls les clics sont possibles, place aux souris
tactiles, telles les souris Apple pour laisser place aux souris permettant d’interagir avec un
contenu en relief.
L’interaction avec du contenu 2D s’étend également aux appareils tactiles.
Les écrans tactiles
Outre les téléphones portables, les consoles de jeux sont également tactiles, mais
avec la généralisation de la dématérialisation, « une baisse des marchés des jeux vidéo
traditionnels »37 est constatée.
La compagnie Nintendo a fait de cette généralisation un avantage en créant le
prototype de la Wii U. La Wii U est une nouvelle manette de la Wii, tactile, qui peut devenir
elle-même une console de jeux vidéo portable38. Elle est annoncée pour fin 2012 et a été
présentée lors du séminaire des jeux vidéo, l’E3, qui s’est déroulé le 5 juin 201239 à San
35 http://www.macgeneration.com/news/voir/136272/faire-fonctionner-votre-souris-logitech-sous-snow-leopard
36 http://www.3dconnexion.fr/products/what-is-a-3d-mouse.html 37 http://www.usinenouvelle.com/article/salon-e3-l-industrie-francaise-du-jeu-video-au-rendez-
vous.N175876 38 http://www.actu-jeu.fr/details-nouvelle-nintendo-wiiu-prix-video-sortie.html 39 http://www.nintendo.fr/NOE/fr_FR/news/e3_2012_49753.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 51
Francisco. La Wii U se base sur une technologie hybride. En effet, il y a une association
d’un écran tactile pour l’affichage d’informations multi-écrans et de capteurs de
reconnaissance gestuelle.
40
Figure 43 : Wii U manette et console de jeux Nintendo
Le système de Nintendo est un bon compromis entre l’utilisation d’une manette
unique et spécifique aux jeux et le jeu lui-même déporter sur la console. Une bonne idée
pour l’imiter le nombre de télécommandes, mais pas pour limiter le nombre de consoles. Le
« Hub numérique » est donc de plus en plus présent dans le système actuel, mais n’a pas
que des avantages.
La manette Wii U est universelle, en effet, grâce à une diode infrarouge, elle peut être
utilisée sur différents autres supports, tels que les télévisions ou encore des lecteurs DVD.
A noter, même si la console n’est pas allumée, la télécommande pourra quand même
s’utiliser.
40 http://lexpansion.lexpress.fr/high-tech/nintendo-degaine-la-wii-u-et-sa-manette-a-ecran-
tactile_256767.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 52
8.1.2. Recensement constats/inconvénients
Constats
Avec la dématérialisation des informations, un accès à ses informations est en
permanence possible, partout et avec le même appareil.
Le fait de n’utiliser qu’un seul appareil pour de multiples fonctions fait que ces
appareils sont simples d’utilisation puisqu’ils doivent s’adapter à toutes formes de supports,
tout en assurant un usage massif auprès du public.
Désormais se sont donc les outils qui s’adaptent un maximum au public et non
réellement l’inverse comme ce fut beaucoup le cas ces dernières années à chaque
nouvelle technologie. Nous pouvons prendre en exemple la grande évolution des souris.
Dans un même esprit d’assurer une utilisation de masse, les appareils, tels que les
manettes Wii U, sont compatibles avec tous les accessoires de la Wii, mais également les
télévisions, lecteurs DVD et autres supports. Une adaptation des nouveaux outils avec les
anciens est ainsi réalisée, dans le même but de permettre aux consommateurs de
s’adapter.
Avec toutes ces nouvelles technologies et ces nouveaux outils révolutionnaires, les
ventes des anciens produits baissent et les entreprises se voient obligées de baisser leurs
prix pour écouler leurs stocks. De cette manière, un large panel de gens est dans la
capacité de s’offrir ces technologies. L’utilisation de ces produits se banalise alors.
Inconvénients
Le principal problème avec les appareils tactiles est qu’il est obligatoire de les
toucher, peu importe la situation. Parfois en permanence comme les Smartphones. Les
mains sont une partie du corps qui sont sales la plupart du temps. Elles transportent donc
beaucoup de bactéries.
Exemple : lorsque les utilisateurs mangent dans des fast-foods, leurs mains sont
grasses, mais ils continuent de toucher leur écran pour diverses raisons, ce qui rend
l’utilisation de l’appareil plus compliquée.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 53
En plus de la graisse, il y a aussi le problème de l’occlusion. Pour rappel, l’occlusion
est le fait que les objets soient cachés lorsqu’on passe notre main au-dessus. Le fait de
devoir cliquer sur un écran cache donc une bonne partie de celui-ci. Ce qui implique que
sur une interface 3D, l’objet serait caché. C’est donc uniquement compatible avec une
interface en deux dimensions.
Un autre inconvénient de ces appareils à multiple utilisation est la casse. En effet,
lorsque l’appareil se casse, l’accès à ses informations devient assez difficile. De plus, vu le
prix de ces nouveaux outils, les ménages ne possèdent pas énormément d’« appareils de
rechanges ».
La multiple utilisation des outils est plus simple, mais une utilisation massive des
appareils fait qu’il est nécessaire de les charger très fréquemment, voir tout le temps.
Prenons, encore une fois en exemple les Smartphones : ils sont très pratiques, mais leur
tenue de charge est assez limitée et poussent à une charge régulière, pour ne pas dire
journalière. Ces outils sont donc plus adaptés à une courte utilisation qu’à une utilisation
quasi permanente.
8.1.3. Tableau synthétique
Limites Solutions
Utilisation de plusieurs appareils sur un
même support.
Hub numérique ou Black box : utilisation
d’un même dispositif sur tous types de
supports.
Création de nouvelles consoles de jeux
pouvant utiliser plusieurs support.
Interaction entre les souris et les
interfaces 2D uniquement.
Adaptation des souris pour interagir avec du
contenu 3D.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 54
Obligation de toucher l’écran pour
interagir avec du tactile, même avec les
mains sales.
Occlusion de l’objet.
Casse des appareils.
Recharge fréquente.
Utilisation les interfaces gestuelles.
L’innovation pour interagir avec du contenu 2D continue donc d’avancer. La
recherche d’interaction avec du relief, quant à elle, est également en pleine expansion.
8.2. Interaction avec du contenu 3D
Les outils ne cessent en permanence de s’adapter aux besoins des utilisateurs et
d’être, ainsi, « multimodaux ». Cette adaptation des outils se généralise donc de plus en
plus. Elle ne touche pas seulement les télécommandes ou encore les souris, mais
également tout ce qui concerne les contenus média (audio, jeux, fichiers..), pour une
compatibilité avec un écran relief par exemple, étant donné que leur utilisation sera
complètement différente.
Il est certain que le futur sera constitué de ces écrans et qu’une adaptation aux
diverses tailles des écrans sera donc utile. Les tailles des écrans actuellement utilisées
sont les suivantes :
1. Mobile : Smartphone, tablette
2. Portable : Ordinateur 15’ à 17’
3. Télévision
On constate que le relief passe par des écrans de très grandes tailles (écrans de
cinéma), et au contraire par des écrans de petites tailles (tablettes, Smartphones). Mais
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 55
comment savoir quels systèmes seront les plus adaptés pour interagir avec ce contenu en
relief ?
8.2.1. Les écrans tactiles
Ces différentes recherches ont mené à différents projets et les interfaces reliefs qui
en résultent sont plus intuitives et plus naturelles.
Rappel des différentes interfaces tactiles vu précédemment :
Solutions Explications
ILight 3D touch Solution localisée contournant la contrainte de collision.
Toucheo Solution semi-délocalisée composée d’un écran 2D tactile
capturant les interactions de l’utilisateur et d’une dalle semi-
transparente représentant l’objet en 3D complété par la
technologie de Head-Tracking.
CubTile Périphérique de capture de déplacement dans un environnement
3D.
Les écrans tactiles sollicitent les gestes du corps par le multi-touch ce qui évite la
fatigue musculaire. Cependant cette technique possède des inconvénients, tel que les
problèmes d’occlusions par exemple, et conviennent uniquement pour un usage 2D.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 56
8.2.2. Prototype Microsoft
4142
Figure 44 : Prototype de l’écran 3D transparent
Après l’invention du Kinect, Microsoft continue ses recherches dans ce sens et crée
un prototype d’écran 3D transparent. Cet écran est un écran OLED (Diode
électroluminescente organique), transparent, développé par la société Samsung. L’OLED
est un composant produisant de la lumière.
43
Figure 45 : OLED de test réalisée sur un support souple
Les caractéristiques de ce prototype sont :
• Un clavier derrière un écran transparent. L’utilisateur peut donc quand même
taper sur celui-ci.
• Une caméra placée derrière l’écran pour pouvoir « interagir avec le bureau
virtuel et bouger les éléments dans un environnement en trois dimensions ».
41 Voir interview avec M. Edmond BOYER en annexe, question treize 42 http://www.journaldugeek.com/2012/02/28/microsoft-invente-le-bureau-en-3d-transparent/ 43 http://fr.wikipedia.org/wiki/Fichier:OLED_EarlyProduct.JPG
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 57
Le head-tracking est également présent dans cette solution afin que l’affichage 3D
reste parfait, même en cas de mouvements de l’utilisateur.
Avantages/ Inconvénients
Ce prototype permet une grande avancée dans la combinaison entre l’interaction
avec contenu 3D et la captation gestuelle. En effet, les utilisateurs des ordinateurs
continuent de garder leurs habitudes en pouvant pianoter sur le clavier, mais peuvent, en
plus, « attraper » le contenu afficher sur le bureau transparent.
L’inconvénient de ce prototype reste le fait que le clavier se trouve derrière l’écran, ce
qui peu être perturbant puisqu’il faudrait en permanence regarder à travers l’écran. Un
sentiment de mal-être pourrait être éprouvé chez les utilisateurs. Un autre inconvénient
serait surement, en position assise, une position des bras non adaptée à long terme. Une
fatigue musculaire pourrait se produire. Imaginez vous devant votre écran d’ordinateur avec
vos main derrières ce même écran, à manipuler sens cesse du contenu relief. Ne pensez-
vous pas qu’au bout d’un moment une lassitude s’installerait ?
8.2.1. Recherche Microsoft : The Holodesk
44
Figure 46 : The Holodesk : interaction virtuelle avec de la 3D
Cette technologie de Microsoft pourrait s’annoncée comme l’évolution du prototype
de l’écran 3D transparent étant donné qu’il est, également, composé d’un Head-tracking et
44 http://design.org/blog/holodesk-microsoft-researching-virtual-3d-interaction
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 58
est basé sur la technologie du Kinect. Ce qui est différent sur ce futur prototype est
l’interaction avec les objets qui est beaucoup plus performante et précise. Ce prototype
sera donc plus réaliste que celui de l’écran transparent.
Autre amélioration, le prototype ne détecte pas seulement les mains, mais également
des objets, comme une feuille de papier ou encore un bol. Leur volume est pris en compte
et une interaction avec les objets virtuels projetés est possible. Malheureusement, ce
prototype ne sera peut-être pas sur le marché de si tôt. Pour le moment ce n’est qu’un
simple projet de recherche et il ne sera pas seulement destiné à être sur nos écrans de
télévisions, mais plutôt à être utilisé pour la création des films.
De plus, le problème des mains derrière l’écran est toujours présent.
8.2.2. Boitier usb de Leap Motion
41
Figure 47 : Fonctionnement du LEAP
45
Figure 48 : Boitier usb LEAP
Le boitier usb crée par la société Leap Motion46 et plus particulièrement par David
Holz (un mathématicien et ancien chercheur de la NASA), est un boitier usb permettant de
contrôler son ordinateur47 par les gestes. Son principe est donc basé sur celui du Kinect
mais capte uniquement la position des mains.
45 http://www.zone-numerique.com/news-12947-leap-motion-un-kinect-a-la-puissance-
100.html 46 http://live.leapmotion.com/ 47 http://korben.info/boitier-leapmotion.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 59
Avantages/Inconvénients
L’inconvénient de cette technologie est qu’elle se concentre uniquement sur le
mouvement des mains et non pas sur celui du corps entier. Cependant, elle est beaucoup
plus adaptée et puissante que le prototype de Microsoft. Aussi, en combinant ces deux
technologies (hors écran transparent), on pourrait aboutir à un système très performant,
mais également plus adapté à l’homme et donc plus facile d’utilisation.
Scénario
Imaginons, de la même manière que dans la partie des interactions avec du contenu
2D, le scénario suivant : une personne rentre du travail et désire allumer sa télévision, au
lieu de devoir appuyer sur un bouton de télécommande, de téléphone ou autres, il lui
suffirait de faire un geste spécifique pour que celle-ci s’allume ou s’éteigne toute seule.
Pareil en ce qui concerne le changement de chaînes ou l’augmentation du volume.
Ce qui pourrait être ajouté à cette association des deux technologies serait un clavier
virtuel sur un écran plus petit en cas d’éventuelles informations à saisir, sur une tablette
tactile par exemple. Nous avons vu précédemment qu’il existe différentes tailles d’écrans
(Mobile, Portable et Télévision), l’association de ces différentes tailles d’écrans permettrait
à l’utilisateur d’être plus à l’aise avec la saisie de diverses informations ou pour d’autres
usages. En effet, saisir de l’information sur un clavier est clairement plus simple à partir
d’une tablette tactile qu’à partir d’un grand écran de télévision. Cette façon d’interagir avec
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 60
plusieurs écrans fait que la tablette n’est plus qu’une simple tablette, mais devient un
clavier à par entière : l’affichage d’informations et l’interaction de l’utilisateur sont dédiés
pour la télévision est non pour la tablette elle-même. De la même manière que la console
Wii U, où les informations affichées sur l’écran peuvent être transposées directement sur la
manette et où l’on passe de cette façon d’un grand écran de télévision à un petit écran de
console de jeu de la taille d’une tablette tactile.
8.2.3. Tableau synthétique
Limites Solutions
Occlusion de l’objet, interaction avec du
contenu relief impossible.
Utilisation des interfaces gestuelles reliefs.
Clavier derrière l’écran. Utilisation d’un clavier virtuel ?
Captation que d’une partie d’une corps. Utilisation d’un capteur du corps entier.
Fatigue musculaire dû à de grands
gestes répétés.
Utilisation d’un écran plus petit pour
effectuer de plus petits gestes.
Utilisation d’un dispositif tactile de petite
taille.
Dans la partie suivante, nous allons parler de l’évolution des interactions avec du
contenu 3D, et ainsi, de l’évolution des différents dispositifs déjà existants.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 61
9. Evolution de l’interaction avec de la 3D
Des évolutions sur le gestuel et les caméras ont été faites pour une adaptation au
grand public, mais des problèmes pour un usage professionnel suscitent.
9.1. Usage public
Depuis le film Minority report, la façon de concevoir le gestuel à changer, c’est
pourquoi cette technologie se voit insérée dans tous types de matériels.
9.1.1. Evolution des caméras
Commander sa télévision par les gestes
Il n’y a pas seulement PrimeSense ou Microsoft qui s’intéressent à ce genre
d’utilisation, mais également la société Hubstart Paris.48
Le prototype Hubstart Live est un prototype de maquette présentant une interaction
avec diverses informations, Il présente « les ressources, les équipements, les
infrastructures, les projets » (avec animations) afin de rendre plus visible et plus lisible le
territoire de Paris Charles de Gaulle et Paris Le Bourget. Hubstart Live est également basé
sur la technologie du Kinect.
Le dernier scénario de ce mémoire imagine une personne qui rentre chez elle et qui
utilise sa télévision avec des gestes, et bien ceci n’est plus simplement un scénario, mais
existe à présent. Ce dernier scénario, rejoint ce que la société PrimeSense (société ayant
mis au point le Kinect pour Microsoft) est entrain de réaliser, la CES PrimeSense TV49. A
l’instar, cet outil utilise tous les mouvements du corps.
48 http://www.futur-en-seine.fr/prototype/hubstart-live/ 49 http://www.lesnumeriques.com/tv-televiseur/ces-2012-prime-sense-autre-reconnaissance-
mouvements-sur-tv-n23043.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 62
Limites:
N’oublions pas que des mouvements répétés à long terme pourraient fatiguer
l’utilisateur. Il pourrait revenir de lui-même à une ancienne utilisation avec un vrai clavier ou
encore avec un vrai dispositif tactile, de la même manière que Microsoft qui combine à la
fois un écran tactile et un vrai clavier. Cette façon d’interagir avec des écrans sera, peut-
être, plus habituelle et plus normale pour eux.
Commander son ordinateur par les gestes : Flutter
50
Figure 49 : Mise en pratique du logiciel Flutter, contrôler son mac avec les gestes
Le logiciel Flutter permet de contrôler son ordinateur Mac avec les gestes, de la
même manière que Minority report.
L’avantage de ce logiciel est qu’il est gratuit, mais malheureusement uniquement
disponible sur des Macintosh. Ce logiciel est un logiciel Play-Stop qui, pour le moment, fait
uniquement Play et Stop, aucune autre commande n’est possible.
Il est donc très bien adapté à une personne qui regarderait un film et qui aurait besoin
uniquement de mettre play ou pause, une à deux fois seulement.
50 http://www.nikopik.com/2012/03/controler-votre-mac-avec-des-gestes-grace-a-la-webcam-
integree.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 63
Minority report par John Underkoffler
51
Figure 50 : John Underkoffler, point sur les futures interfaces
Minority report en vrai ! John Underkoffler est le dirigeant de l’interface g-Speak
Spatial Operating Environment, mais également un ancien du laboratoire du MIT travaillant
sur l’holographie, l’animation et beaucoup d’autres thèmes. Sa société, Oblong, a
spécialement été créée pour reproduire de façon réelle la scène mythique de Minority
report. Cependant sa vision ne s’arrête pas seulement à reproduire ceci sur un écran, mais
également sur un micro-onde ou tout autre support possible52.
Inconvénient :
L’inconvénient de cette solution, semblable au film, est de devoir mettre un gant pour
que la captation des mouvements se fasse, ce qui forcerait les gens à mettre et à enlever
sans cesse ce gant lors de la manipulation du relief.
9.1.1. Limite de ces dispositifs
Certaines limites ont déjà été citées plus haut, telles que la fatigue des musculaires
qui ne serait pas adaptée aux professionnels du fait de la répétition des mouvements. Cette
fatigue pourrait également toucher les personnes âgées qui ne peuvent pas bouger très
longtemps dans l’espace.
51 http://www.ted.com/talks/john_underkoffler_drive_3d_data_with_a_gesture.html 52 http://www.ted.com/speakers/john_underkoffler.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 64
D’autres limites surviennent, notamment celle du prix. En effet, ces nouvelles
technologies ont un coût qui est souvent oublié par l’excitation que suscitent ces nouvelles
façons de vivre, de voir les choses. Leurs coûts étant prohibitifs, ils ne permettent pas
toujours au grand public d’en être propriétaire.
Autre limite qui n’a pas encore été abordée, celle de l’apprentissage. Certains
prototypes sont simples d’utilisation, c’est ce qu’on appelle un idiome. C’est-à dire qu’une
fois le logiciel pris en main, il n’est pas nécessaire d’avoir à nouveau des explications lors
des prochaines utilisations. Cependant, d’autres logiciels nécessiteront plus de maitrise,
donc plus d’apprentissage, ce qui risque de décourager certaines personnes, notamment
les personnes âgées qui ont déjà du mal à utiliser un ordinateur actuellement. Ces
personnes perdent patience car ces outils les énervent et préfèrent les abandonner.
De plus, certaines innovations risquent de manquer de précisions au niveau des
gestes. En effet, ce genre de technologies nécessite beaucoup d’espace afin d’effectuer de
larges mouvements. Nous avons pu le constater lors de l’arrivée de la Wii dans nos
maisons, beaucoup de gens n’avaient pas anticipé une place suffisante et des problèmes
sont apparus, comme des collisions avec des meubles et/ou avec d’autres personnes.
Aussi, dans un espace plus petit et plus confiné, la précision de ces technologies est
amoindrie.
Le retour de force, quant à lui, est également un point qui n’a pas beaucoup été
abordé, nous verrons dans la partie suivante comment celui-ci est substitué.
9.1.2. Constat
Toutes ces imites risquent d’être un frein à l’usage courant du gestuel dans l’espace.
Même si des limites sont constatées, toutes ces technologies ne cessent d’être
améliorées et sont en constance évolutions, toujours dans un même but, convenir au
maximum à un usage grand public.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 65
9.1.3. Tableau synthétique
Limites Solutions
Utilisation d’un gant ou tout autre objet
permettant la captation des gestes.
Utilisation d’un capteur Kinect.
Prix des nouvelles technologies
Découragement des utilisateurs du fait
de la difficulté de manipulation des
technologies.
Idiome : simplicité d’utilisation et donc
d’apprentissage d’un dispositif.
Espace et précision réduits. Utilisation d’appareils plus petits pour
effectuer des gestes plus petits et obtenir
une meilleure précision.
Nous avons vu que, parfois, des limites intervenaient au niveau des usages publics,
alors comment ces technologies s’adapte-t-elles à un usage professionnel ?
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 66
9.2. Usage professionnel
9.2.1. Evolution des souris
Nous avons vu dans une partie précédente que les souris s’étaient adaptées à
l’interaction relief sur les ordinateurs, permettant de passer d’une utilisation simple avec
des souris 2D à une utilisation plus évoluée et plus productive avec des souris 3D.
Ainsi, il serait possible de combiner à la fois une interaction gestuelle avec une
utilisation des souris 3D. Microsoft a compris ce besoin de combiner à la fois des
périphériques de pointages avec du gestuel lors de la création de son projet pour obtenir
un écran transparent, combiner avec un clavier.
Par la suite, on pourrait très bien imaginer combiner d’autres périphériques,
probablement de nouveaux périphériques spécialement inventés pour ce genre
d’utilisation.
9.2.2. Et demain ?
Une grande question de ce mémoire est de savoir comment les professionnels vont
pouvoir s’adapter à cette gestuelle dans l’espace, permanente et fatigante, si aucun
dispositif, tels que la souris ou le clavier, n’est ajouté.
Prenons en exemple le domaine de l’architecture, les architectes ont besoin de
dessiner des bâtiments et donc de créer des maquettes pour montrer le résultat qu’ils
envisagent à leurs clients. Dans cet exemple, on pourrait très bien utiliser du contenu 3D
combiner à une captation gestuelle pour créer et visualiser leurs futures constructions. Ceci
pourrait être étendu à d'autres domaines d'activité, comme la construction de voitures,
notamment pour l’ergonomie intérieure et/ou extérieure.
Dans plusieurs domaines d’activités oui, mais également sur plusieurs appareils. En
effet, ce projet pourrait être appliqué sur tous types de support ayant un dispositif de
captation gestuelle et une interface relief.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 67
Ces deux dispositifs étant en pleine expansion, il n’est pas exclu de les retrouver
dans quelques années, combiner à des claviers virtuels. Ceci réglerait les problèmes liés à
la fatigue musculaire du fait de la répétition du geste, mais également ceux liés à la
précision du mouvement, pour les professionnels ou encore pour les personnes âgées.
Un étudiant en design d’interactivité à l’école de design de Nantes, Gabriel Martzloff,
a émis une proposition de gestuelle53. Ci-dessous un extrait de cette proposition, nommé
« Le SALUT » et correspondant au démarrage d’une interface gestuelle à reconnaissance
gestuelle :
Figure 51 : Extrait "Le code de la communication appliqué aux interfaces naturelles", par Gabriel Martzloff
Cet extrait montre bien que les gestes les plus naturels de l’Homme, tel que
l’inclination de tête, peuvent être utilisés pour activer un dispositif gestuel. Ce naturel du
gestuel est visible quand nous parlons. En effet, nous avons tendance à utiliser nos mains
pour parler.
53 Source: Le code de la communication corporelle appliqué aux interfaces naturelles
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 68
La solution proposée par Gabriel Martzloff utilise parfois des mouvements que nous
reproduisons sans nous en rendre compte. Le problème réside dans le fait que ces gestes
non contrôlés risqueraient d’être interprétés par le capteur alors que ce n’était pas le but
recherché par l’utilisateur.
9.2.3. Une solution plus adaptée ?
Une solution plus adaptée serait de n’utiliser que des gestes spécifiques basés sur
des gestes naturels. Par exemple, au lieu de faire une simple inclinaison de tête de haut en
bas, ce geste pourrait être doublé ou même combiné à une autre inclinaison de la tête,
mais de droite à gauche cette fois-ci. De cette manière, il serait pratiquement impossible
que le dispositif confonde cette action avec un geste non voulu. Cette combinaison étant
simple à apprendre et à utilisée à un moment qui ne se produit pas forcément
consécutivement, comme le démarrage ou l’arrêt d’une télévision par exemple.
Reprenons notre exemple de l’architecte, celui-ci doit pouvoir interagir avec
l’interface, pour pousser une porte, pour attraper et tourner la structure du bâtiment qu’il
vient de construire ou encore pour d’autres choses. Pour faire cela de façon simple, on
pourrait utiliser les mouvements suivants :
Pousser une porte Attraper la structure Tourner la structure
Mettre la main ouverte
doigts serrés, face au
capteur et à la porte
désirée, tout en poussant
vers l’avant.
Mettre la main ouverte
doigts serrés, face au
capteur et à la structure
désirée, et sérer le point.
Une fois la structure
attrapée, faire tournoyer le
poignet ou l’avant bras.
Ces mouvements restent simples et contrôlés. Ils peuvent être fait en étant assis, ce
qui contribue à la résolution de la fatigue gestuelle. Ces gestes ne risquent pas d’être
confondus avec des gestes non contrôlés grâce à la vitesse à laquelle ils sont effectués. En
effet, lorsque nous parlons avec les mains, nous faisons des gestes rapides de une
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 69
seconde voir moins, ici l’idée est de mettre deux secondes à faire le geste. Pour appuyer ce
geste, il faut également associé un aspect visuel, c’est-à-dire qu’il faut que l’utilisateur
sache où il se situe sur l’interface et sur quelle partie il va interagir. Lors de l’usage d’une
souris sur un ordinateur, un curseur apparaît pour que l’utilisateur comprenne où ses
mouvements se situent par rapport à l’interface. Ce principe se retrouve également sur
l’état des boutons sur un site web qui change au moment où on clique dessus. On pourrait
imaginer ici que les objets voulus suivent l’utilisateur tout au long du mouvement, ou encore
que ces mouvements soient représentés par une main, c’est ce qu’on appel la
« proprioception ». Ici cette proprioception est assistée, c’est-à-dire que c’est à travers
l’interface que l’utilisateur reconnaisse sa posture, ses gestes.
Le gestuel permet aux personnes handicapées des membres supérieurs (mains,
bras) de communiquer avec le système malgré leur handicape, ce que ne permet pas le
tactile. En effet, si le démarrage d’un dispositif fonctionne avec un hochement de tête il peut
donc très bien fonctionner en tournant le buste de gauche à droite mais aussi en levant une
jambe ou un pied par exemple.
La captation gestuelle est bien plus adaptée que le tactile du fait que l’on se place à
l’endroit où se trouve l’objet virtuel avec lequel on désire interagir. Que ce soit dans le
prototype d’écran 3D transparent ou dans le projet de recherche, Holodesk, de Microsoft,
un placement au niveau de l’objet même est effectué afin d’interagir avec lui et seulement
lui. La captation gestuelle est également plus adaptée que le tactile. En effet, une multi-
utilisation ne poserait pas de problèmes car les corps des utilisateurs sont tous reconnus
séparément. Avec une tablette tactile, il faudrait un échange permanent entre les
utilisateurs ou plusieurs tablettes. C’est pourquoi, il est essentiel de représenter les
utilisateurs sur l’écran. Chacun doit savoir où il se situe et avec quels objets il interagit.
Avec une reconnaissance gestuelle, un gain de temps considérable serait fait et une
navigation dans le futur bâtiment serait possible. Dans notre exemple, ceci ne serait donc
pas utile uniquement pour l’architecte mais également pour ses clients qui pourraient
tourner les maquettes dans tous les sens et ainsi ressentir une plus grande immersion. En
effet, ils auraient l’impression d’être à l’intérieur du bâtiment et de pouvoir se balader tout
naturellement comme ils le faisaient en vrai. Des précisions sur la définition de l’immersion
sont décrites dans la partie suivante.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 70
9.2.4. L’immersion
L’immersion permet à un individu de se sentir présent dans un endroit qui est
totalement virtuel de sorte qu’il pense que ce mode virtuel est le monde réel54. Pour une
meilleure compréhension, reprenons l’exemple précédent de l’architecte. Grâce à
l’immersion les clients auront l’impression d’être à l’intérieur de leur futur domicile, alors
qu’en réalité ce n’est pas le cas. Ils pourraient, de ce fait, voir en temps réel et de façon
habituelle si l'agencement fait par l’architecte correspond bien à leurs attentes.
L’immersion peut également se faire d’une autre façon, par le son. Prenons pour
exemple le jeu Mario, pour faire comprendre à l’utilisateur que celui-ci ne dispose pas de
beaucoup de temps pour finir sa partie, la musique est accélérée et un pic de stress est
ainsi éprouvé par l’utilisation. Dans les films, la musique s’adapte à la scène pour susciter
la peur ou la tristesse. Les émotions peuvent donc être orientées de diverses façons.
Pour une utilisation encore plus réaliste, une immersion serait assez plaisante, mais
un retour de force serait essentiel, voir obligatoire.
9.2.5. Substitution du retour de force
Il existe plusieurs façons de substituer le retour de force. En effet, il est possible
d’ajouter des effets sur l’écran, cet usage est plus couramment utilisé sur les ordinateurs ou
les téléphones, où par exemple lorsqu’on clique ou appuie sur un bouton celui-ci s’enfonce
donnant l’impression qu’il a été réellement pressé. Ce qui n’est évidemment pas le cas.
Des effets comme des sortes de vibrations sont également ajoutés dans les jeux
vidéo lors de dégâts qui sont causés. Le joueur comprend qu’il vient de se faire tirer
dessus. Sur les Smartphones, ses vibrations ont également été mises directement sur le
support afin que l’utilisateur comprenne qu’il vient d’appuyer sur l’écran. Il ne se demande
pas si il a réellement appuyé ou non sur celui-ci.
54 Voir interview avec M. Edmond BOYER en annexe, questions trois et onze
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 71
Imaginons les gants de Minority report émettant des vibrations pour combiner à la fois
la partie sensorielle et la partie visuelle. Le retour de force peut être reproduit en utilisant un
autre sens que celui naturellement éprouvé par l’homme, lors qu’un réel contact physique
par exemple ou encore par d’autres éléments, vêtements.
Une autre manière de substituer le retour de force est souvent utilisée dans les jeux
vidéo : ajouter de la couleur. Prenons pour exemple un jeu de guerre où le but principal est
de tuer des gens. Pour faire comprendre à l’utilisateur qu’il a été touché la couleur rouge,
pour simuler le sang, est ajoutée. Un sentiment de peur et de nervosité est éprouvé lorsque
le joueur est touché et qu’il voit son sang à l‘écran. Le personnage virtuel de l’utilisateur
aurait alors des difficultés pour se déplacer. Faire ressentir un stimulus physique par un
signal visuel, c’est ce qu’on appelle la substitution sensorielle.
Toutes ces méthodes actuellement utilisées pour la 2D pourront également être
utilisées pour la captation gestuelle avec de la 3D. Reprenons en exemple les écrans 3D :
Lors d’une manipulation 3D, les seuls moyens de faire comprendre à l’utilisateur qu’il
« clique » à tel ou tel endroit, est de passer par un enfoncement sur les zones voulues. De
la même manière que lorsqu’on joue à la Wii ou la Kinect.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 72
9.3. Futurs technologies
9.3.1. Prototype Google : Project Glass
55
Figure 52 : Prototype des lunettes augmentant la réalité
Il n’y a pas uniquement Microsoft qui effectue des recherches. En effet, comme
l’INRIA56, tous les grands acteurs de l’économie numérique tente d’anticiper les futures
évolutions. Google, par exemple, a dévoilé son futur prototype, les lunettes augmentant la
réalité, le Project Glass.
Google cherche pour le moment à recenser les réactions des citoyens afin de savoir
si le concept sera approuvé ou non. Pour cela, il a effectué une « vidéo-concept » en ce
sens 55.
Ces lunettes seraient placées sur le haut de la tête et composées d’un capteur photo,
de plusieurs écouteurs, d’un microphone, d’une puce GPS, mais également d’une
connexion au réseau au quotidien. L’innovation de ces lunettes réside principalement dans
le fait qu’un affichage d’informations est prévu sur celles-ci, c’est ce que l’on appelle de la
55 http://www.macgeneration.com/news/voir/240022/project-glass-google-imagine-des-
lunettes-augmentant-la-realite 56 Voir interview avec M. Edmond BOYER en annexe, question deux
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 73
réalité augmentée. Ainsi, nous verrons en plus de notre chemin, les informations
demandées.
Ce prototype est constitué d’une reconnaissance vocale et gestuelle pour indiquer au
système les différentes actions désirées. Afin d’afficher les informations, il se constitue
également d’une interface utilisateur naturelle (NUI). Ces interfaces naturelles prennent en
compte la constitution de l’Homme, c’est-à-dire qu’elles ne fonctionnent pas simplement
avec des périphériques de sorties, mais avec la voix, le gestuel ou encore le toucher. La
« nature » de l’Homme est donc prise en considération dans l’interaction avec l’interface.
Le principe de ces lunettes est donc de vous faciliter la vie, notamment lorsque vous
vous baladez dans la rue. Grâce à des indications de localisation, des affichages d’horaires
ou encore par le fait de répondre au téléphone par exemple, visibles dans la vidéo-concept
effectué par Google.
Ce nouveau principe de lunette montre une association des différentes technologies
de ces dernières années :
• Remplace le téléphone portable
• Permet de tracer des itinéraires grâce à la géolocalisation
• Possède la reconnaissance gestuelle combiné avec du Head Tracking
• Traite les données en temps réel
• Utile internet pour des échanges d’informations
• …
Ce prototype montre donc qu’une association des différentes technologies permettrait
d’obtenir une solution innovante et adaptée à une utilisation quotidienne.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 74
11. Conclusion de la thèse
Le gestuel est encore perçu comme nouveau, mais avec l’évolution des recherches,
visible à travers les futurs télévisions 3D ou encore les lunettes de Microsoft, les politiques
de commercialisation se bases sur ces nouveautés technologiques. Dans quelques années
le gestuel deviendra quelque chose d’habituel, de courant.
La combinaison des différentes technologies vu précédemment, telles que la
captation audio et vidéo ou encore l’analyse comportementale et l’intelligence artificielle,
permettrait au gestuel de renforcer son utilisation et ainsi sa démocratisation au sein des
professionnels et du public. Ceci ne serait possible qu’en associant à la fois les nouvelles
technologies et les périphériques existants.
Ce mémoire démontre que cette multiple combinaison serait la plus adaptée sur nos
écrans reliefs pour l’interaction gestuelle avec du contenu 3D, du fait de l’absence
d’occultation, du multi-utilisateur et du fait qu’une interaction gestuelle est plus naturelle
pour interagir avec du contenu relief. Cependant, l’usage seul de la captation gestuelle ne
serait pas forcément la meilleure utilisation. En effet, combiner cette reconnaissance
gestuelle avec une tablette tactile, comme un clavier par exemple, comme ce fut décrit
dans des exemples de ce mémoire, constituerait un avantage certain.
Mais également sur d’autres domaines ou d’autres supports, tel que le prototype de
Google avec ces lunettes, qui permettent au public d’être mobile, tout en interagissant avec
leurs lunettes. Certes ces lunettes n’ont qu’une représentation 2D, mais pourquoi ne pas
imaginer les transposer en vision relief. Actuellement ce sont les utilisateurs qui doivent
apprendre à utiliser ces nouvelles interfaces, peut-être que dans les années futures se
seront les interfaces qui s’adapteront aux gestes des utilisateurs.
Bientôt, nous n’aurons même plus besoin de parler pour trouver notre chemin57,
contrairement aux lunettes de Google, il nous suffira de le penser. En effet, des chercheurs
et professeurs, tel que le professeur Tan LE, inventent des supports permettant de lire les
57 http://lexpansion.lexpress.fr/high-tech/le-jeu-video-controle-par-la-pensee-devient-une-
realite_157817.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 75
ondes cérébrales58, les interfaces qui en découlent s’appelle les BCI (Brain Computeur
Interface) ou ICN (Interface Cerveau Machine) en français. Ces recherches sont très
intéressantes et montrent que l’évolution des technologies est permanente.
Les nouvelles technologies évoluent si rapidement qu’on pourrait se demander de
quoi serait fait le monde de demain ? Un monde où l’on métriserait toutes les technologies
et où l’on pourrait les combiner sans limites ?
58 http://www.ladepeche.fr/article/2008/07/07/463088-des-jeux-video-controles-mentalement-
sont-desormais-une-realite.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 76
12. Bibliographie
• Benjamin Petit, Téléprésence, immersion et interaction pour la reconstruction 3D
temps-réel, 21 Février 2011, 144 pages
• Florent MICHEL, Vision et stéréoscopie, 2006, 18 pages
• Florent MICHEL, Stéréoscopie, 2006, 18 pages
• Fuchs, Moreau, Le traité de la réalité virtuelle T1, 380 pages
• Fuchs, Moreau, Le traité de la réalité virtuelle T2, 552 pages
• Gabriel Martzloff, Code de la communication corporelle appliqué aux interfaces
naturelles, 2012, 12 pages
• Marc BOURHI, Olivier AMATO et Philippe GERARD, Le livre blanc du relief (3Ds),
2011, 48 pages
• Martin HACHET, Benoit BOSSAVIT, Aurélie COHÉ, Jean-Baptiste DE LA RIVIERE,
Toucheo : Multitouch and Stereo Combined in a Seamless Workspace, UIST 2011, 28
Octobre 2011, 6 pages
• Olivier CAHEN, L’image en relief du film au numérique, Transvalor – Presses des
Mines, 2011, 28 pages
• Satyanarayan, Weibel, Hollan, Multitouch Interaction Techniques for Large Displays,
2010, 101 pages
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 77
13. Webographie
• 01net, « Visite dans l’antre des créateurs de Kinect », sur le site 01net, consulté
le 05/12/2011
http://www.01net.com/editorial/520070/visite-dans-l-antre-des-createurs-de-
kinect/520070
• 3DConnexion, « Qu’est ce qu’une souris 3D ? », sur le site de 3DConnexion,
consulté le 06/04/2012 http://www.3dconnexion.fr/supported-
software/anywhere.html?_s=8qutid3c545dqvmk99bm6d5st0
• Actu Jeu, « Details Nouvelle Nintendo (Prix, Vidéo, Sortie), sur le site Actu Jeu,
consulté le 13/06/2012 http://www.actu-jeu.fr/details-nouvelle-nintendo-wiiu-prix-
video-sortie.html
• Comme au cinéma, « Interview : Pina », sur le site CommeAuCinema, consulté le
24/01/2012
http://www.commeaucinema.com/interviews/pina,195115-note-85369
• Creapharma, « Mal des transports », sur le site Creapharma, consulté le
30/11/2011
http://www.creapharma.fr/
• Clubic, « Microsoft dévoile un prototype d’interface mêlant transparence et détection
de mouvements », sur le site Clubic, consulté le 06/04/2012
http://www.clubic.com/interfaces-homme-machine/actualite-478952-microsoft-
prototype-bureau-transparent-relief.html
• Design, « The HoloDesk : Microsoft Researching Virtual 3D Interaction », sur le site
Design, consulté le 06/04/2012 http://design.org/blog/holodesk-microsoft-
researching-virtual-3d-interaction
• Enfant-Ados, « Le mal des transports », sur le site Enfant-Ados, consulté le
17/01/2012
http://www.enfants-ados.com/sante/le-mal-des-transports.php
• Fubiz, « SixthSense interface », sur le site Fubiz, consulté le 07/12/2011
http://www.fubiz.net/2010/02/01/sixthsense-interface
• INRIA, « Capture et analyse de formes en mouvement », sur le site de l’INRIA,
consulté le 27/02/2012, http://www.inria.fr/equipes/morpheo
• INRIA, « PapARt : Réalité augmentée pour le dessin », sur le site de team.inria,
consulté le 27/02/2012
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 78
http://team.inria.fr/potioc/fr/scientific-subjects/papart/
• INRIA, « Toucheo », sur le site Youtube, consulté le 27/02/2012
http://www.inria.fr/domaines/perception-cognition-interaction
• INRIA, « Toucheo : Multitouch and Stereo Combined in a Seamless
Workspace », sur le site de l’INRIA, consulté le 16/12/2011
http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf
• Institue de la Myopie, « Fonctionnement de l’œil », sur le site de l’institut de la
myopie, consulté le 13/11/2011
http://www.institutdelamyopie.com/fonctionoeil.htm
• Journal du geek, « Microsoft invente le bureau en 3d transparent », sur le site
journaldugeek, consulté le 06/04/2012
http://www.journaldugeek.com/2012/02/28/microsoft-invente-le-bureau-en-3d-
transparent/
L’Express, « Le jeu vidéo contrôlé par la pensé devient une réalité », sur le site
L’Expansion, consulté le 06/04/2012 http://lexpansion.lexpress.fr/high-tech/le-jeu-
video-controle-par-la-pensee-devient-une-realite_157817.html
• L’Express, «L’idée du Hub numérique devient réalité », sur le site L’Expansion,
consulté le 11/06/2012 http://lexpansion.lexpress.fr/high-tech/l-idee-du-hub-
numerique-devient-realite_104949.html
• L’Usine Nouvelle, « Salon E3 : l’industrie française du jeu vidéo au rendez-vous »,
sur le site Usine Nouvelle, consulté le 13/06/2012
http://www.usinenouvelle.com/article/salon-e3-l-industrie-francaise-du-jeu-video-au-
rendez-vous.N175876
• La Dépèche, « Des jeux vidéos contrôlés mentalement sont désormais une
réalité », sur le site de La Dépèche, consulté le 06/04/2012
http://www.ladepeche.fr/article/2008/07/07/463088-des-jeux-video-controles-
mentalement-sont-desormais-une-realite.html
• Laboratoire Bordelais de Recherche en Informatique (LaBRI), « VR for Music », sur
le site labri, consulté le 27/02/2012 http://www.labri.fr/perso/hachet/Music/
• Le Figaro (27/11/2011), « La 3D se met en quatre », sur le site LeFigaro, consulté
le 01/12/2011
http://www.lefigaro.fr/hightech/2010/11/27/01007-20101127ARTFIG00005-la-3d-se-
met-en-quatre.php
• LEAP, « Say goodbye to your mouse and keybord », sur le site leapmotion,
consulté le 17/06/2012 http://live.leapmotion.com/about.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 79
• Ludovia, « Première mondiale : Immersion présente CubTile : l’innovation 3D
au bout des doigts ! », sur le site Ludovia.com, consulté le 02/12/2011
http://www.ludovia.com/news/news_238_premiere-mondiale-immersion-presente-
cubtile-l-inn.html
• Mac génération, « Google imagine des lunettes augmentant la réalité », sur le site
de Macgeneration, consulté le 06/04/2012
http://www.macgeneration.com/news/voir/240022/project-glass-google-imagine-des-
lunettes-augmentant-la-realite
• Musées des techniques, « Le rôle du cerveau dans la vision », sur le site Musées
des techniques, consulté le 10/11/2011
http://www.musees-des-
techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-
FICHE_ENSEIGNANT_3.pdf
• Nikopik, « Contrôler votre Mac avec des gestes grâce à la Webcam intégrée », sur
le site de Nikopik, consulté le 06/04/2012 http://www.nikopik.com/2012/03/controler-
votre-mac-avec-des-gestes-grace-a-la-webcam-integree.html
• Polytech, « La vision stéréoscopique », sur le site Polytech, consulté le
24/11/2011
http://users.polytech.unice.fr/~buffa/cours/java/internetEssi96_97/PROJETS/ciernia
k/article.html
• PrimeSense, « Our full 3D sensing solution », sur le site de PrimeSense, consulté le
06/04/2012 http://www.primesense.com/en/technology/115-the-primesense-3d-
sensing-solution
• Production Film 3D, « Une vidéo de Panasonic – Les bases d’un tournage en 3D
stéréoscopique », sur le site Production Film 3D, consulté le 17/12/2012
http://production-film-3d.com/une-video-de-panasonic-les-bases-dun-tournage-en-
3d-stereoscopique/
• Rahul ERAI, « Kinect, PointClouds and PCL », sur le site M Tech Computer Sc,
IIT Kanpur, consulté le 06/12/2011
http://www.cse.iitk.ac.in/users/rahule/thesis.html
• Romain Thuret (03/02/2010), « SixthSense : la fusion des mondes physiques et
numériques », sur le site Les numériques, consulté le 07/12/2011
http://www.lesnumeriques.com/sixthsense-fusion-mondes-physiques-numeriques-
n12609.html
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 80
• Semageek, « SixthSense l’intégration de l’information avec le monde », sur le
site de Semageek, consulté le 16/12/2011
http://www.semageek.com/sixthense-lintegration-de-linformation-avec-le-monde-
reel/
• Ted2012, « John Underkoffler points to the future of UI », sur le site de TED,
consulté le 06/04/2012
http://www.ted.com/talks/john_underkoffler_drive_3d_data_with_a_gesture.html
• Terific, « La Réalité Augmentée – Interrupteur », sur le site Terific, consulté le
18/01/2012
http://www.teferic.de/video/2/tag/%20artoolkit.html
• Université MLV, « Les technologies tactiles », sur le site IGM.Univ-mlv, consulté
le 07/12/2011
http://igm.univ-
mlv.fr/~dr/XPOSE2008/Les%20technologies%20tactiles/compo_pointage.html
• Vetopsy, « Perception visuelle : champ visuel et différentes visions », sur le site
Vetopsy, consulté le 18/11/2011
http://www.vetopsy.fr/sens/visu/visu_gen.php
• Wikipédia Foundation, INC. (29/11/2011), « Stéréoscopie », sur le site Wikipedia,
consulté le 14/11/2011
http://fr.wikipedia.org/wiki/St%C3%A9r%C3%A9oscopie
• Wikipédia Foundation, INC. (01/09/2011), « Vision binoculaire », sur le site
Wikipedia, consulté le 14/11/2011
http://fr.wikipedia.org/wiki/Vision_binoculaire
• Wikipédia Foundation, INC. (01/10/2011), « Accommodation », sur le site
Wikipedia, consulté le 16/11/2011
http://fr.wikipedia.org/wiki/Accommodation
• Wikitionaire, « Saillie », sur le site Wikitionaire, consulté le 30/11/2011
http://fr.wiktionary.org/wiki/saillie
• Wikipédia Foundation, INC. (06/09/2011), « Perception de la profondeur », sur le
site Wikipedia, consulté le 30/11/2011
http://fr.wikipedia.org/wiki/Perception_de_la_profondeur
• Wikipédia Foundation, INC. (11/11/2011), « Appareil stéréoscopique », sur le site
Wikipédia, consulté le 01/12/2011
http://fr.wikipedia.org/wiki/Appareil_st%C3%A9r%C3%A9oscopique
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 81
• Wikipedia Foundation, INC. (17/09/2011), « SixthSense », sur le site Wikipedia,
consulté le 07/12/2011
http://fr.wikipedia.org/wiki/SixthSense
• Wikipedia Foundation INC, « How a lenticular lens works », sur le site Wikipedia,
consulté le 17/01/2012
http://fr.wikipedia.org/wiki/Fichier:How_a_lenticular_lens_works.png
• Wikipedia Foundation INC (07/05/2011), « Virtools », sur le site Wikipedia, consulté
le 18/01/2012
http://fr.wikipedia.org/wiki/Virtools
• Youtube, « 3D Mouse used with Internet Explorer and Word », sur le site de
Toutube, consulté le 06/06/2012 http://www.youtube.com/watch?v=hmasl5-X-
ko&lr=1&feature=mhum
• Youtube, « Introduced the Leap », sur le site Youtube, consulté le 17/06/2012
http://www.youtube.com/watch?feature=player_embedded&v=_d6KuiuteIA
• Youtube, « PrimeSense Demo at CES 2012 », sur le site de Youtube, consulté le
06/04/2012 http://www.youtube.com/watch?v=_32XSdMafgU&feature=related
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 82
Table des matières des annexes
1. ANNEXE ....................................................................................................................................... 83
1.1. INTERVIEW DU 08/03/2012 .............................................................................................................. 83
1.1.1. Présentation et description des recherches .......................................................................... 83
1.1.2. Questions/Réponses ............................................................................................................. 84
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 83
1. Annexe
1.1. Interview du 08/03/2012
1.1.1. Présentation et description des recherches
Des membres du centre de recherche de l’INRIA consacrent leur temps à la
recherche de la captation gestuelle et à l’immersion des utilisateurs. Afin de mieux
comprendre les recherches effectuées par le centre de recherche, une interview avec M.
Edmond Boyer de l’INRIA de Grenoble a eu lieu le 8 Mars 2012.
M. Edmond BOYER
Responsable du projet « Capture et Analyses de Formes en Mouvement »
Et dirigeant de l‘équipe « MORPHEO » traitant ce sujet
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 84
A encadré M. Benjamin PETIT pour la rédaction de sa thèse :
« Téléprésence, immersion et interaction pour la reconstruction 3D temps-réel »
Possède un doctorat en informatique (1996)
Diplômé de l’université de Cambridge (1998)
A été professeur informatique
L’équipe MORPHEO souhaite développer des approches nouvelles pour la
perception et l'analyse de formes en mouvement. Les recherches associées s'organisent
selon les axes principaux suivants :
• l'acquisition de formes à partir de caméras hétérogènes
• l'analyse des formes
• l'analyse du mouvement
• les environnements immersifs et interactifs59
1.1.2. Questions/Réponses
1) Comment procédez-vous pour capturer et traiter les formes en mouvements ?
Quel matériel est utilisé ?
Nous utilisons plusieurs caméras numériques pour récupérer des modèles
géométriques (les formes des individus). Ces modèles géométriques sont reproduits sur
l'ordinateur grâce à différentes images capturées par les caméras (appelés modèles
virtuels).
Sur ces formes géométriques, des textures correspondant à l'apparence physique
d’une personne y sont plaquées.
59 http://www.inria.fr/equipes/morpheo
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 85
2) Quel est le but de vos recherches ?
Nos recherches sont menées par une équipe qui s'efforce de faire avancé les
connaissances dans le domaine de la capture et de l'analyse de formes en
mouvement. Ceci dans le but de résoudre les problèmes liés à la fois à la capture et à
l'analyse du mouvement et ainsi pouvoir utiliser ces connaissances pour de nouvelles
application, mais également pour faire évolué les applications existantes. Dans le domaine
du médical par exemple ou encore pour les futurs applications en 4D. Si ces recherches
permettent de faire des captures de mouvements en temps réel, un aspect interactif est
ajouté.
3) Avez-vous déjà fait des tests avec de vrais utilisateurs?
Deux aspects sont utilisés pour les tests.
Le premier est un aspect hors ligne. Etant hors ligne, il n'y a pas de vrais
utilisateurs.
Le deuxième aspect, quant à lui, est un aspect temps réel et de ce fait nécessite
l'implication de vrais utilisateurs.
Ce deuxième aspect a été testé et fonctionne parfaitement, l'utilisateur est immergé
dans un environnement virtuel, il se voit immerger et bouger en temps réel grâce à un
casque. Une modélisation fixe créée à partir de son apparence physique est également
réalisée et retranscrite dans le monde virtuel (toujours d'après le principe énoncé au part
avant.). L'utilisateur peut alors voir la retranscription en globalité qui est faite à partir de son
apparence.
Le casque permet à l’utilisateur d'être totalement immergé dans le monde virtuel
puisque celui-ci ne voit plus ce qui se passe dans le monde réel. Ce monde virtuel est donc
retranscrit par les lunettes afin de mettre l'utilisateur dans une totale immersion.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 86
4) Pourquoi avoir retranscrit une modélisation fixe de la personne ?
Afin que celui-ci puisse interagir (jouer) avec lui-même. C'est grâce aux différentes
caméras qu'un "instant" de l'utilisateur est frisé (reconstruction des images prises pour un
moment donné) et qu'une modélisation fixe de la personne peut être obtenue.
5) Quelles différences y a-t-il entre vos recherches et le Kinect ?
Le Kinect est un système actif à cause de sa projection de points lumineux observé
par une caméra. Une carte de profondeurs est alors récupérée à partir d'une triangulation.
Nos recherches, quant à elles, sont passives, seules les caméras filment, plusieurs
images en ressortent, mais une seule image de la scène en est déduit à la fin.
Le contexte n'est donc pas le même. Aucun modèle virtuel de l'objet n'est réalisé pour
le Kinect, seul le mouvement est récupéré.
6) Quels sont donc les avantages et les limites des méthodes que vous utilisez ?
L'avantage est qu'un modèle virtuel complet est réalisé, une immersion totale est
alors possible, ce qui n'a jamais encore été le cas au part avant.
En général lorsqu'une immersion est faite, celle-ci ne l'est qu'en partie, par l'affichage
d'un avatar. Alors qu'ici, il s'agit d'une personne réelle. Ceci est un avantage est
terme d'interaction, la forme complète est donc récupérée et pas seulement
des mouvements de points particuliers avec des marqueurs.
L'inconvénient pour le moment est la précision du système qui est assez
approximatif. Au fur et à mesure des recherches, ceci s'améliore, mais les modèles ne sont
pas encore très précis, il n'y a pas un niveau de détails assez précis. Des artefacts sont,
pour le moment, encore visibles et les textures ne sont encore que semi-réalistes. Des
progrès sont donc encore à faire de ce côté là.
Des progrès sont également à faire au niveau du mouvement, car, pour le moment,
peu d'informations sont récupérées. Les recherches actuellement vont dans ce sens.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 87
7) Comment contrer ces limites ?
Plus de recherches doivent être faites et obtenir ainsi de meilleurs modèles pour
capturer et retranscrire les mouvements parfaitement.
8) Est-ce que des outils supplémentaires pourraient ou devraient être utilisés pour
aider à contrer ces imperfections ?
Non, les outils actuellement utilisés suffisent, ce sont plutôt les méthodes utilisées qui
ne sont pas encore au point, qui sont encore à retravailler.
9) Pouvons-nous faire un bref récapitulatif ?
Pour faire court, nos méthodes sont assez proches des systèmes de Motion Capture,
sauf qu'on ne s'intéresse pas uniquement aux marqueurs, mais à la forme entière et qu'à la
fois, la géométrie et l'apparence sont récupérées. Cependant les concepts sont les mêmes.
10) J'ai vu que vous avez encadré M. Benjamin PETIT lors de ses recherches. Une
thèse en découle et M. PETIT explique qu'il essaye de rendre les utilisateurs
omniprésents et même téléprésents.
C'est M. PETIT qui a développé les outils actuels et à partir du moment où il est
possible de modéliser un objet en 3D en temps réel, il est possible de l'immerger dans un
monde virtuel. Cette environnement n'étant pas localisé, de la téléprésence est possible et
donc être ainsi immergé dans un environnement qui est distant du lieu où nous nous
trouvons.
11) J'ai justement lu dans la thèse de M. PETIT que des problèmes de transfert
d'apparence, d'accessibilité aux données et autres subsistaient.
Le problème est la latence du système, c'est à dire que si nous sommes immergé
dans un environnement distant avec d'autres personnes et si le système à un temps de
réaction, la latence du système différera. Et lorsque de l'immersion est faite, le temps de
latence doit être très court, sinon cela ne convient pas. Il y a des risques que cela mette
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 88
plus d'une seconde à modéliser d'autres personnes et ce n'est pas possible d'attendre à
chaque fois une seconde pour faire quelque chose.
Il y a effectivement un problème de latence du système en général. Il faut faire en
sorte que les bases temporelles soient les mêmes, donc il y a des problèmes de
synchronisation.
Cependant, ces autres problèmes qui subsistent ne sont pas de notre domaine de
recherche. Nous, nous nous intéressons réellement à la partie perception et analyse.
Il y a pleins d'autres applications dont nous n'avons pas parler ici qui concernent
l'analyse du mouvement, ici ce n'est pas de l'analyse mais de la téléprésence, des
environnements virtuels, plusieurs applications qui seraient non temps réels concerneraient
l'analyse.
12) Quel est votre ressenti personnel par rapport à vos recherches? Pensez-vous
que vos recherches vont être menées à bout, êtes-vous proche? Est-ce que vos
recherches pourront être utilisées à grande échelle ? Actuellement avec toutes les
nouvelles consoles qui existent, ceci est déjà plus ou moins mis en place. Est-ce que
ceci peut évoluer ?
Il y a plusieurs aspects, il y a l'aspect Kinect qui pour nous est très intéressant,
puisque désormais nous sommes capable d'expliquer au gens ce que nous faisons, ce qui
était plus compliqué avant. Avant, je prenais une demi-heure pour expliquer aux gens ce
que je faisais, maintenant je leur dis que je fais la Kinect. Ce qui répond très rapidement à
leur question.
Cependant la Kinect n'a pas répondu à l'ensemble du problème, ce n'est qu'une
solution partielle, mais ceci ouvre la voie à tout ce qui s'appel les interfaces gestuelles, qui
est beaucoup plus vaste. La Kinect n'est donc qu'une solution partielle, tandis que nous,
nous regardons des capteurs, du type de la Kinect bien sur, mais notre domaine de
recherche c'est vraiment d'utiliser un ensemble de capteurs et pas qu'un seul comme dans
la Kinect. Ensuite il y a tout ce qui est analyse derrière qui nous intéresse également en
dehors des aspects temps réels.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 89
Nous, nous faisons une immersion complète, nous avons donc l'objet est entier ce qui
n'est pas le cas de la Kinect qui ne récupère que le mouvement pour l'instant.
Pour faire court, ce qui nous intéresse c'est d'aller plus loin que la Kinect, toujours
dans la même direction, mais beaucoup plus loin.
Si je pense que ceci va marcher? Oui bien sur, je ne le pense pas, j'en suis sur! Ce
n'est pas moi qui le décide, c'est le sens de l'évolution. La Kinect ne va pas en resté là, ceci
va aller beaucoup plus loin.
13) Il y a justement Microsoft qui a créé un prototype qui permet d'interagir avec du
contenu 3D. Grâce à un écran transparent, l'utilisateur place ses mains derrière
celui-ci et peut interagir avec le contenu affiché.
Il y a effectivement l'aspect interaction et l'aspect immersion qui sont deux choses
différentes, on peut effectivement jouer sur les deux.
Si seule de l'interaction est désirée, les outils type Kinect sont parfait pour l'instant.
En ce qui concerne l'immersion, il faut effectivement aller plus dans cette direction. Donc
ceci dépend de si on veut juste déplacer les objets 3D, alors là, on utilise des caméras, de
si on veut vraiment immerger les gens dans des environnements 3D.
14) Qu’en est-t-il de tout ce qui est retour haptique (retour de force) ?
L’aspect retour haptique est encore un autre problème, très complexe, qui nous ne
nous concerne pas, nous, nous nous intéressons qu’à la partie visuelle.
Il y a également beaucoup de problèmes dans l’aspect interaction, mais nous savons que
les interfaces gestuelles du type manipulation des objets fonctionnent assez bien depuis le
film de Spielberg, « Minority Report », où les images sont manipulées. Cette technologie
n’était pas connue du grand public, mais fonctionnait pourtant déjà. Et cette appréhension
d’attraper un objet, nous ne savons pas faire.
Nous ne savons pas comment faire pour faire ressentir le sentiment que l’objet est
dans la main. C’est assez difficile, on peut mettre des gants par exemple, mais le simple
fait de saisir un objet est déjà assez complexe. Actuellement pour saisir un objet dans ces
interfaces gestuelles, il faut « cliquer » pour attraper l’objet.
Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL
Page 90
Il y a des paradigmes d’interactions derrière tout ceci sur lesquels il faut réfléchir, par
exemple est-ce que je peux saisir un objet sans cliquer, en l’attrapant d’une autre façon ?
Et bien ceci, nous ne savons pas faire.
Sur l’aspect interaction, il y a encore des choses sur lesquels on ne sait pas encore très
bien où l’on va.
15) Il y a actuellement des télévisions qui captent les gestes humain pour changer
les chaines par exemple. Cette technologie est entrain de se développer à grande
échelle. Mais ceci ne risque pas de déboussoler certaines personnes ou de
provoquer des malaises, étant donné que nous ne sommes pas habituer à utiliser ce
type de fonctionnement ? Tel que les symptômes de la cinétose lorsque les gens
regardent un film en 3D au cinéma ? Est-ce que vous pensez que ceci est possible ?
Je pense effectivement que dans quelques années il y aura des interfaces
gestuelles pour les télévisions de type Kinect.
Pour ce qui est du problème des malaises avec les écrans 3D, je ne pense pas, car
les écrans stéréoscopiques partent d’un modèle moyen pour faire la triangulation et ce
modèle moyen correspond plus ou moins aux gens. S’il ne nous correspond pas, on voit
deux images plutôt qu’une scène 3D. Donc effectivement c’est perturbant, mais sur une
interface gestuelle, tout ceci ne sera pas la cas, puisque ce ne sera pas le cerveau qui
interprètera les mouvements, mais le système, donc nous nous habitueront très vite à la
manière dont le système fonctionne. Ceci ne m’inquiète pas, les gens se sont bien habituer
à la Kinect.
16) Le projet SixthSense qui est développé par le MIT va mettre ses sources à
disposition du grand public, pensez-vous que le public en fera un bon usage ?
Des projets openSource en recherche, il y a en beaucoup et dans notre domaine, ces
sources ne vont pas nous aider pour nos recherches. La Kinect fait déjà beaucoup plus que
le projet SixthSense et les gens qui ont développés le capteur de la Kinect, la société
« PrimeSense », ont mis en partie leurs sources à disposition. Donc on peut réutiliser une
Kinect et développer nous-même nos projets.