mémoire master j zimmer : vision relief et interface homme-machine, quelle solution optimum ?

ITIN – 2ème année de Manager en Ingénierie Informatique Spécialisation SIBA

Promotion 2012

Mémoire de recherche M2i Vision relief et interface homme-machine,

quelle solution optimum ?

Julie ZIMMER et François-Xavier CORNEC

Sous la direction de M. Florent MICHEL

Julie ZIMMER ITIN M2i Mémoire de recherche Binôme : François-Xavier CORNEC Directeur de mémoire : Florent MICHEL

Remerciements

Je tiens à remercier et saluer le suivi régulier de mon directeur de mémoire, M.

Florent MICHEL. Le sujet abordé étant vaste, M. MICHEL m’a permis de m’aiguiller afin

que je ne me dirige pas dans de mauvaises directions. De plus, il a été une grande source

d’informations, ce qui a rendu possible la rédaction de ce mémoire.

Je remercie mon binôme, M. François-Xavier CORNEC pour notre collaboration lors

de la rédaction de la partie commune de ce mémoire.

Je tiens également à remercier l’ITIN de m’avoir donné la possibilité d’étudier un tel

sujet. Ce sujet, bien qu’éloigné des thèmes abordés cette année, me permet de m’ouvrir à

la compréhension de technologies que je n’ai fait qu’utiliser sans en comprendre forcément

les rouages. Ce mémoire m’offre donc la possibilité de compléter ma culture générale sur

un domaine technique passionnant.


SOMMAIRE

1. INTRODUCTION ............................................................................................................................. 6

2. FONCTIONNEMENT DE LA VISION HUMAINE ................................................................................. 7

2.1. CAPTATION DE LA PROFONDEUR EN VISION MONOCULAIRE .......................................................................... 7 2.2. ACCOMMODATION ............................................................................................................................. 8 2.3. CONVERGENCE ................................................................................................................................... 9 2.4. PARALLAXE ...................................................................................................................................... 11 2.5. TABLEAU RECAPITULATIF .................................................................................................................... 12

3. TECHNIQUES DE RESTITUTION DU RELIEF .................................................................................... 13

3.1. TECHNOLOGIES MONOSCOPIQUES ........................................................................................................ 13 3.1.1. « Head-‐tracking » ................................................................................................................. 13

3.2. STEREOSCOPIE : TECHNOLOGIES AVEC LUNETTES ..................................................................................... 14 3.2.1. Stéréoscopie passive ............................................................................................................. 14 3.2.2. Stéréoscopie active ............................................................................................................... 15

3.3. STEREOSCOPIE : TECHNOLOGIES SANS LUNETTES ..................................................................................... 16 3.3.1. Auto-‐stéréoscopique ............................................................................................................ 16 3.3.2. Les auto-‐stéréogrammes ...................................................................................................... 17

3.4. TABLEAU RECAPITULATIF .................................................................................................................... 19

4. CONTRAINTES DES TECHNIQUES DE RESTITUTION ....................................................................... 20

4.1. DEFINITION ..................................................................................................................................... 20 4.1.1. Cinétose ................................................................................................................................ 20 4.1.2. Image en saillie ..................................................................................................................... 21 4.1.3. Image en profondeur ............................................................................................................ 21

4.2. CONTRAINTES DE PARALLAXE ............................................................................................................... 22 4.3. CONTRAINTES DE CADRAGE ................................................................................................................. 23 4.4. TABLEAU RECAPITULATIF .................................................................................................................... 24

5. CONCEPTION DE MEDIAS RELIEFS ................................................................................................ 25

5.1. PRISES DE VUES REELLES ..................................................................................................................... 25 5.2. SYNTHESES D’IMAGES ........................................................................................................................ 26 5.3. TABLEAU RECAPITULATIF .................................................................................................................... 28

6. INTERFACES HOMMES-‐MACHINES ............................................................................................... 29

6.1. TECHNOLOGIES TACTILES .................................................................................................................... 29 6.1.1. Résistif .................................................................................................................................. 29


6.1.2. Capacitif ............................................................................................................................... 29 6.1.3. Les autres ............................................................................................................................. 30 6.1.4. Principaux usages ................................................................................................................. 32 6.1.5. Exemples d’interfaces tactiles à vision relief ........................................................................ 33

6.2. TECHNOLOGIES A INTERFACES GESTUELLES ............................................................................................. 38 6.2.1. Les jeux ................................................................................................................................. 38 6.2.2. Principaux usages ................................................................................................................. 42 6.2.3. Exemple d’interface gestuelle .............................................................................................. 42

6.3. TABLEAU RECAPITULATIF .................................................................................................................... 44

7. CONCLUSION DE L’ETAT DE L’ART ................................................................................................ 46

8. INTERACTION AVEC DES INTERFACES .......................................................................................... 47

8.1. INTERACTION AVEC DU CONTENU 2D .................................................................................................... 47 8.1.1. Historique des périphériques de contrôle ............................................................................. 47 8.1.2. Recensement constats/inconvénients .................................................................................. 52 8.1.3. Tableau synthétique ............................................................................................................. 53

8.2. INTERACTION AVEC DU CONTENU 3D .................................................................................................... 54 8.2.1. Les écrans tactiles ................................................................................................................ 55 8.2.2. Prototype Microsoft ............................................................................................................. 56 8.2.1. Recherche Microsoft : The Holodesk .................................................................................... 57 8.2.2. Boitier usb de Leap Motion .................................................................................................. 58 8.2.3. Tableau synthétique ............................................................................................................. 60

9. EVOLUTION DE L’INTERACTION AVEC DE LA 3D ........................................................................... 61

9.1. USAGE PUBLIC .................................................................................................................................. 61 9.1.1. Evolution des caméras .......................................................................................................... 61 9.1.1. Limite de ces dispositifs ........................................................................................................ 63 9.1.2. Constat ................................................................................................................................. 64 9.1.3. Tableau synthétique ............................................................................................................. 65

9.2. USAGE PROFESSIONNEL ...................................................................................................................... 66 9.2.1. Evolution des souris .............................................................................................................. 66 9.2.2. Et demain ? ........................................................................................................................... 66 9.2.3. Une solution plus adaptée ? ................................................................................................. 68 9.2.4. L’immersion .......................................................................................................................... 70 9.2.5. Substitution du retour de force ............................................................................................ 70

9.3. FUTURS TECHNOLOGIES ...................................................................................................................... 72 9.3.1. Prototype Google : Project Glass .......................................................................................... 72


10. CONCLUSION DE LA THESE ......................................................................................................... 74

11. BIBLIOGRAPHIE ......................................................................................................................... 76

12. WEBOGRAPHIE .......................................................................................................................... 77


Etat de l’art

1. Introduction

Cet état de l’art, réalisé en binôme, consiste à comprendre le principe de

fonctionnement de la vision en relief, mais également celui des interfaces homme-machine

en matière de captation gestuelle dans le but de définir quelle solution est la plus adaptée à

l’homme.

Il faudra dans un premier temps, appréhender le fonctionnement de l’œil afin de

comprendre comment il est possible de voir le monde qui nous entoure en relief. La

compréhension de ce fonctionnement permettra alors de saisir le comportement des

différentes technologies d’hier, d’aujourd’hui et de demain permettant la diffusion relief sur

nos écrans ou tout autre support.

Dans un second temps il sera également nécessaire de saisir les mécanismes des

technologies actuelles en matière de captation gestuelle.

Ensuite, chacun se questionnera sur l’avenir des interfaces hommes machines pour

les dispositifs reliefs, avec toutefois des angles de vue différents. L’une traitera de

l’association des interfaces multi-touch et des diffusions reliefs, l’autre de l’usage de la

captation gestuelle pour interagir avec du contenu relief.


2. Fonctionnement de la vision humaine

L’œil humain permet uniquement de voir et n’interprète pas ce qui est vu

contrairement au cerveau. L’œil est constitué de 4 éléments principaux :

• La cornée

• Le cristallin

• La rétine qui capte l'image au fond de l’œil à la manière d’un écran

• Les humeurs aqueuses et vitrées

1 Figure 1 : Globe oculaire gauche, vu du dessus.

La cornée et le cristallin sont deux lentilles qui forment sur le fond de la rétine l’image

inverse de ce qui est observé. La cornée est la lentille la plus puissante de l’œil et permet

de faire converger l’image vers la rétine. Le cristallin quant à lui, concentre les rayons

lumineux sur la rétine. Les muscles ciliaires peuvent modifier l’angle de courbure de cette

lentille afin de former une image nette sur la rétine. Ce phénomène est appelé

l’accommodation.

2.1. Captation de la profondeur en vision monoculaire

Le relief en vision monoculaire est possible grâces aux illusions d’optique, mais on

peut alors se demander comment tromper le cerveau de manière à lui donner la sensation

de profondeur ?

1 http://www.musees-des-techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-FICHE_ENSEIGNANT_3.pdf


Notre environnement joue un rôle important dans l’appréciation des distances. En

effet, certains éléments statiques sont immédiatement identifiés, les maisons par exemple,

donnent « l’échelle de largeur d’une vallée ». Certains éléments, quant à eux, peuvent être

en mouvements (une voiture par exemple) et cacher d’autres objets, ou au contraire, être

cachés eux mêmes. La façon dont ils circulent, mais également notre façon de nous

déplacer permettent d’apprécier les « distances relatives ».

La vitesse à laquelle ces objets circulent est donc importante et rend l’évaluation de

la distance difficile. En effet, plus les objets vont vite, moins nous sommes capable de les

identifier. Ceci est alors atténué par notre propre mouvement, mais peut former des

illusions d’optiques si les images de gauches et de droites observées sont alternées à

moins de vingt images par seconde. Les textures des objets permettent également de

déduire (d’interpréter) de quels objets il s’agit.

La perspective, quant à elle, joue un rôle dans la perception du relief. Des anciens

peintres et des décorateurs ont autrefois beaucoup utilisés la perspective comme « trompe

œil », il ne s’agissait en réalité que de peintures à deux dimensions et de surfaces planes.

Le relief de ces peintures a été possible grâce aux formes géométriques, celui-ci est alors

mis en évidence grâce à l’orientation et à la convergence que représentent les lignes de

ces formes.

Chaque objet n’étant pas directement exposé de face au soleil, ils connaissent une

zone d’ombre qui peut permettre de définir la forme d’un objet (lors d’une éclipse lunaire

par exemple).

Lorsque nous regardons la lune, elle nous paraît plate, mais lorsque l’éclipse lunaire

est totale, on peut voir apparaître sa forme d’origine. Ce sont ces illusions d’optiques

(« défaut d’uniformité de l’éclairage ») qui permettent d’apprécier la vision en relief. De la

même manière, il arrive que les reflets « contribuent à la perception du relief ».

2.2. Accommodation

L’accommodation est la capacité de l’œil à s’adapter aux distances afin d’assurer la

netteté de la vision. Celle-ci est réalisable grâce au cristallin. Sa puissance varie selon la

distance de l’objet observé. Quand on observe un objet à une grande distance, le cristallin


est au repos et inversement lorsque l’objet est proche. Les rayons lumineux renvoyés par

l’objet sont donc déviés par le cristallin vers la fovéa. La fovéa est le point central de la

rétine sur lequel l’image est « projetée ».

2 Figure 2 : Accommodation de l’œil.

Les appareils photos ont copiés ce principe de fonctionnement. Certains appareils

sont dits « autofocus », ces derniers sont capables de s’accommoder automatiquement à

l’objet de la scène. Certains photographes jouent sur cette particularité pour réaliser

certains effets stylistiques avec un objet en premier plan net puis le reste de la scène au

second plan est « flou », c’est ce que l’on appelle jouer sur la profondeur de champs.

Une relation est constatée entre l’accommodation et la convergence (voir chapitre

3.3), si bien que l’on ne peut savoir si c’est la convergence ou l’accommodation qui est

effectuée en premier. Une forte modification de celle relation fatigue la vision d’un individu.

2.3. Convergence

La convergence est la capacité des yeux à s’orienter pour se fixer sur un point précis

d’une scène. Ce principe fonctionne de paire avec l’accommodation. L’angle ainsi formé

par les deux yeux donne l’information nécessaire pour que l’accommodation puisse opérer.

L’accommodation et la convergence sont liées à la profondeur de l’objet observé, ce qui

démontre la relation naturelle qui existe.

2 http://www.sibylle-cache-son-oeil.com/site/index.php?option=com_content&task=view&id=17&Itemid=34


L’accommodation comme la convergence sont deux phénomènes qui s’effectuent

inconsciemment et qui ne sont pas innés chez l’homme. Ces dernières sont acquises

expérimentalement et inconsciemment pendant l’enfance. On peut considérer alors que

cette relation d’accommodation-convergence constitue le comportement par défaut ; mais

rien n’empêche l’Homme d’accommoder ou de converger artificiellement d’une manière

totalement différente. Par exemple, il est possible de « loucher » ou d’avoir le regard dans

le vide et de voir les objets « flous ». Toutefois, cela provoque une grande fatigue visuelle

et il faudra veiller à respecter ce comportement par défaut lors de la restitution d’objets en

relief.

Comportement par défaut : le fusionnement des images :

Figure 3 : Vision œil droit.

Figure 4 : Vision œil gauche.

3 Figure 5 : Images fusionnées.

3 http://www.musees-des-techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-FICHE_ENSEIGNANT_3.pdf


2.4. Parallaxe

On parle quelque fois d’erreur de parallaxe pour la lecture d’un appareil de métrologie

à aiguille. L’erreur de parallaxe est l’angle entre la direction du regard d’un observateur par

rapport à la perpendiculaire des graduations de l’appareil de mesure. Si l’angle est nul

(lecture perpendiculaire), il n’y a pas d’erreur de lecture. En revanche, plus l’angle est

grand, plus l’erreur de lecture est importante.

La parallaxe est donc l’impact induit par le changement de position d’un observateur

sur la manière dont est perçu un objet.

4 Figure 6 : Les trois cas de parallaxe

La parallaxe peut désigner également la distance qui sépare deux images du même

objet perçu par les deux yeux. Le schéma ci-dessus illustre les trois types de parallaxe

possibles. Sur chaque image, le point noir correspond à l’objet tel qu’il est perçu par le

spectateur par rapport à l’écran et les ronds de couleur sont les deux images de cet objet

nécessaire à la réalisation du relief. Dans le cas du milieu, les ronds de couleurs sont

confondus avec le rond noir. Dans les trois cas, l’accommodation se fera toujours au niveau

de l’écran, ce qui changera c’est la distance à laquelle se fera la convergence. Le premier

schéma est l’illustration d’une parallaxe négative, l’objet sera alors perçu comme étant en

saillie. Le second, quant à lui, correspond à une parallaxe nulle, l’objet est alors vu comme

étant au niveau de l’écran ; il n’y a donc aucune sensation de vision relief. Enfin, le dernier

schéma représente une parallaxe positive, l’objet est vu comme étant en profondeur.

4 http://fr.wikipedia.org/wiki/Parallaxe


Dans le cas de la vision relief, la parallaxe de mouvement par rapport à la scène

permet d’obtenir davantage d’informations sur l’objet observé, notamment sur sa forme.

Certaines technologies exploitent cette particularité afin de donner une sensation de

perspective ; c’est le cas de la technologie de Head-tracking (suivi de la tête en français, cf.

4.1.1).

2.5. Tableau récapitulatif

Informations à retenir Définitions/Explications

Cristallin/Cornée Cristallin : Lentilles restituant sur le fond de la rétine l’image

inverse de ce qui est observé.

Cornée : Lentille la plus puissante de l’œil permettant de

faire converger l’image vers la rétine.

Convergence Orientation des yeux vers un point précis d’une image.

Accommodation Mise au point effectuée par le cristallin. Il agit sur les rayons

lumineux, l’image observée est vue nettement par le cerveau.

Parallaxe Ecart entre deux points identiques d’une image

stéréoscopique. L’un vu sur l’image gauche et l’autre sur

l’image droite.


3. Techniques de restitution du relief

3.1. Technologies monoscopiques

3.1.1. « Head-tracking »

Le Head-tracking a pour objectif de capter les mouvements de la tête d’un utilisateur

ou d’un spectateur. Cette captation peut se faire de différentes manières (capteurs

magnétiques, optiques, mécaniques, acoustique, inertiels…).

Connaître la variation du point de vue de l’utilisateur permet la simulation d’une vision

relief. En effet, l’image affichée sur l’écran est adaptée en temps réel en fonction de la

position de la tête par rapport à l’écran. Un dispositif permet de suivre la position de la tête

et adapte les images diffusées en fonction de ces mouvements. Les mouvements étant

captés par la caméra de l’appareil.

5

Figure 7 : Head-tracking sur iPhone.

6 Figure 8 : Head-tracking sur iPad.

Cette méthode utilise l’erreur de parallaxe abordée plus haut pour faire apparaître les

images en reliefs. En effet, l’angle formé par la direction du regard et la perpendiculaire à

l’appareil est plus ou moins important selon le changement du point de vue de la personne.

5 http://www.maxiapple.com/2011/04/3d-sans-lunettes-iphone-4-ipad-video.html 6 http://tech.mikeshouts.com/head-tracking-with-ipad-2-camera-enables-glasses-free-3d/


Il existe une relation proportionnelle entre l’angle ainsi formé et l’importance du relief

restitué par l’écran. Il est important de noter que la sensation de relief restitué n’est pas

induite par un point de vue particulier, mais par la modification permanente de ce dernier.

3.2. Stéréoscopie : technologies avec lunettes

3.2.1. Stéréoscopie passive

Deux techniques principales existent :

• Lunettes anaglyphe

On ne garde pour l'image de gauche que les composantes rouges et pour l'image de

droite que les composantes vertes et bleues. Les deux images sont superposées et à l'aide

d'une paire de lunettes anaglyphe, chaque œil dispose d'un filtre spécifique. L'œil gauche

ne voit que le bleu et vert et l'œil droit ne voit que le rouge. Ces images sont envoyées au

cerveau et ce dernier peut alors reconstituer la scène en relief.

• Lunettes à verres polarisés

La lumière est une onde. Les ondes sont polarisables, c'est-à-dire qu'il est possible

d'orienter la manière dont se "déplace" l'onde.

7 Figure 9 : Images gauches et droites polarisées différemment

Pour cette technique, deux projecteurs sont utilisés. L'un projette l'image de gauche

polarisée horizontalement et l'autre projette l'image de droite polarisée verticalement.

7 Les images en relief - Le Truc (Das Ding) (Michaël Le Meur, Fabrice Dugast)


Figure 10 : Paire de lunette polarisante

Il suffit alors de porter une paire de lunette polarisante. Le filtre de gauche ne laisse

passer que les ondes horizontales et le filtre de droite que les ondes verticales. Chaque œil

dispose donc de l’image qui lui est dédiée et le cerveau peut alors reconstituer la scène en

relief.

Toutefois la polarisation rectiligne présente un inconvénient majeur : il est nécessaire

de garder la tête bien droite sous peine que les deux verres ne filtrent plus correctement les

ondes verticales et horizontales. En effet, si l’utilisateur penche la tête d’un côté ou de

l’autre, les ondes qui étaient auparavant verticales ou horizontales ne le deviennent plus et

les images qui parviennent aux yeux du spectateur peuvent être mélangées. Pour résoudre

ce problème, la polarisation rectiligne a laissée place à la polarisation circulaire qui permet

de s’affranchir de la contrainte précédente.

3.2.2. Stéréoscopie active

La principale technique utilisée en stéréoscopie active avec une paire de lunette est

celle du décalage temporel. Le projecteur projette alternativement et très rapidement

l'image de gauche puis l'image de droite. Il faut alors porter une paire de lunette de manière

à ce que l'œil gauche et l'œil droit soient masqués alternativement de manière

synchronisée avec le projecteur. De la même manière que dans les cas précédents, ce

procédé permet de n’afficher les images de droites qu’à l’œil droit et les images de gauche

à l’œil gauche afin que le cerveau puisse reconstituer la scène en relief.


8 Figure 11 : Affichage alterné grâce aux lunettes polarisantes

Les images ci-dessus illustrent le principe de fonctionnement de la technique décrite

plus haut. La paire de lunette dispose de deux verres à cristaux liquides capables de

s’obstruer lorsqu’ils sont traversés par un champ électrique. Les lunettes sont donc

alimentées par une pile et synchronisées avec les images projetées à l’écran. Il est ainsi

possible de n’afficher que les images de gauche à l’œil gauche et les images de droites à

l’œil droit. Cependant, cette technique nécessite une fréquence élevée afin que le

spectateur ne s’aperçoive de rien. L’idéal est de pouvoir afficher pour chaque œil 30

images par seconde. Il est donc nécessaire d’atteindre les 60 images par secondes pour

les deux yeux, soit 60 hertz. Le principal inconvénient de cette technologie réside dans le

fait qu’il faille alimenter ces lunettes et qu’elles deviennent de ce fait plus lourde et moins

confortables.

3.3. Stéréoscopie : technologies sans lunettes

3.3.1. Auto-stéréoscopique

L’auto-stéréoscopie permet de s'affranchir de paires de lunettes ou d’un quelconque

autre dispositif permettant de filtrer les images gauches et droites lié à l’utilisateur. Le

moyen de filtrer est alors "mutualisé" et non plus "dédié" comme avec les paires de

lunettes. Le principe réside dans le fait que le filtrage s'effectue directement sur l'écran.

Différentes solutions existent pour le filtrage, comme par exemple : à réseau lenticulaire, à

barrière de parallaxe, à illumination et à écran holographique. Le schéma ci-dessous

explique le fonctionnement de la solution à réseau lenticulaire :

8 Les images en relief - Le Truc (Das Ding) (Michaël Le Meur, Fabrice Dugast)


9 Figure 12 : Fonctionnement d’un réseau lenticulaire

La scène 3D est alors composée à chaque fois des deux images gauches et droites.

Ces images sont découpées en fines bandelettes et alternées. Les rouges sont dédiées à

l’œil gauche et les bleues à l’œil droit. Le réseau lenticulaire se trouvant par-dessus l’écran

se charge alors de rediriger la lumière de chaque bandelette à l’œil concerné.

L’imagerie lenticulaire a longtemps été utilisée sur des vignettes publicitaires pour

afficher des images différentes lorsque le support est incliné de bas en haut ou de droite à

gauche. Ce principe a été repris pour permettre une vision relief.

3.3.2. Les auto-stéréogrammes

Les auto-stéréogrammes ou images tridimensionnelles sont des images visibles

aussi bien en deux ou trois dimensions sans systèmes particuliers. Cependant, pour voir un

auto-stéréogramme en trois dimensions, cela nécessite d’effectuer un peu de gymnastique

avec ses yeux.

Précédemment, nous avons vu que la convergence était la capacité que les yeux ont

à s’orienter pour se fixer sur un point précis d’une scène. Ce mode de vision est naturel et

est réalisé inconsciemment. Toutefois, il existe d’autres modes de vision non naturels

nécessitant un peu de gymnastique oculaire qui sont : la vision parallèle (regard dans le

vide) et la vision croisée (lorsqu’on louche).

9 http://fr.wikipedia.org/wiki/Fichier:How_a_lenticular_lens_works.png


10 Figure 13 : Les trois modes de vision

Les images auto-stéréogrammes exploitent la vision parallèle afin de voir ces images

en trois dimensions. Il existe deux types d’images auto-stéréogrammes, les « camouflés »

représentant généralement des formes géométriques invisibles en deux dimensions et les

images figuratives pouvant être de « vraies » images.

Le principe de création d’une image auto-stéréogramme est la répétition de l’image

de base sur un plan horizontal. Cependant cette image de base est modifiée à chaque fois

pour que chaque œil puisse voir l’image lui correspondant.

11 Figure 14 : Exemple d'une image auto-stéréogramme

Pour regarder l’image auto-stéréogramme ci-dessus, il faut la regarder en vision

parallèle.

10 http://www.lajauneetlarouge.com/article/les-auto-stereogrammes-des-images-en-relief 11 http://www.lajauneetlarouge.com/article/les-auto-stereogrammes-des-images-en-relief




Stéréoscopie Technique permettant de reconstituer une perception 3D

à partir d’images 2D.

Auto-stéréogramme Un auto-stéréogramme est une image visible en relief en

vision parallèle.


4. Contraintes des techniques de restitution

4.1. Définition

4.1.1. Cinétose

La cinétose ou cinépathie est ce qu’on appelle le mal du virtuel. Ce mal du virtuel

peut s’apparenter au mal des transports. Ce phénomène se produit car l’individu concerné

s’adapte mal aux voyages terrestres, aériens ou maritimes. Celui-ci subit alors le syndrome

d’adaptation spatiale, c’est à dire que l’équilibre de l’individu est perturbé. Il existe donc une

incohérence entre le déplacement réel de l’individu et ce que son organisme perçoit.

Les vestibules, situées dans la partie la plus interne de l’œil jouent un rôle important.

En effet, celles-ci aident l’individu à trouver son équilibre et sont très sensibles. Certaines

personnes se sentent mal en avion car leurs vestibules perçoivent un déplacement alors

qu'elles ont la sensation d’être immobile. Le cerveau détecte une incohérence entre ces

deux informations et cela provoque des troubles du transport.

La cinétose est provoquée par une incompréhension du cerveau lors du traitement de

différents stimuli sensoriels lorsque deux sens semblent présenter des informations

contradictoires par exemple. Plusieurs éléments peuvent favoriser la cinétose : le

psychisme, l’alcool, la drogue, etc. A l’inverse, le degré d’immersion et l’habitude

d’utilisation d’un dispositif peuvent permettre d’éviter ou de réduire la cinétose.

Les producteurs de films 3D doivent faire attention au nombre d’images par secondes

affichées au spectateur. Nous avons vu précédemment que l’idéal est d’afficher les images

à une fréquence de 60 Hertz, soit 60 images par secondes. L’œil et le cerveau humain

n’est pas totalement habitué au relief artificiel. Bien que les techniques de restitutions

stéréoscopiques soient évoluées, elles ne permettent pas d’avoir une véritable cohérence

entre les informations transmises au cerveau par les différents sens. Dans le cas de la

vision, nous avons vu que les parallaxes positives ou négatives impliquaient une

accommodation et une convergence ne se faisant pas au même endroit, ce qui n’est pas le

cas en vision naturelle.


Ainsi, pour ne pas fatiguer le spectateur, il faut veiller à alterner les plans en

profondeur et en saillie et éviter de les afficher pendant trop longtemps au spectateur. Une

des solutions apportée est d’intercaler entre certaines scènes d’autres dont la parallaxe est

proche de zéro. Jouer sur le degré d’immersion est également crucial, la qualité de la

bande sonore et de sa spatialisation est un grand plus.

4.1.2. Image en saillie

En vision stéréoscopique, un élément dit en sailli est vu comme étant dans l’espace

entre le plan de l’écran et l’observateur.

Exemple d’image en saillie :

12 Figure 15 : Image d'une fenêtre en saillie.

4.1.3. Image en profondeur

Les images en profondeur donnent l’impression inverse par rapport aux images en

sailli. Les images en profondeurs font penser que l’image s’étend aux arrières plans.

12 http://fr.dreamstime.com/photo-libre-de-droits-fen-ecirctre-en-saillie-image15556005


Exemple d’image en profondeur :

13 Figure 16 : Illustration de la perspective atmosphérique : les montagnes au loin paraissent estompées.

4.2. Contraintes de parallaxe

Nous avons vu précédemment qu’il existait trois types de parallaxe. La parallaxe

négative, qui permet d’afficher des images en saillie, la parallaxe nulle permettant d’afficher

les objets au niveau de l’écran et enfin la parallaxe positive permettant d’afficher des objets

en profondeur.

Le cerveau de humain n’est pas encore bien habitué à cette vision relief artificielle. Il

est donc crucial pendant le montage d’un film, de veiller à ne pas créer de malaise entre

l’œil et le cerveau sous peine de provoquer la cinétose. Nous avons vu précédemment que

l’accommodation se faisait toujours au niveau de l’écran. En revanche, lors de scènes

utilisant une parallaxe négative ou positive, la convergence ne se fera pas au niveau de

l’écran mais devant celui-ci ou derrière celui-ci. Il existe donc une incohérence entre

l’endroit où se fait la convergence et celui où se fait l’accommodation. Ces incohérences

entrainent une grande fatigue visuelle.

La recette utilisée par Walt Disney pour ne pas user psychologiquement le jeune

public est de faire suivre les scènes tristes par des scènes plus joyeuses accompagnées de

mélodies joyeuses.

Il est judicieux de copier ce principe dans le cinéma 3D et d’alterner les plans en

profondeur, en sailli et au niveau de l’écran afin d’éviter une trop grande fatigue visuelle.

13 http://fr.wikipedia.org/wiki/Perception_de_la_profondeur


4.3. Contraintes de cadrage

Nous avons vu précédemment deux exemples d’images. L’une en saillie et l’autre en

profondeur. Si nous devions représenter en relief une image en profondeur, le cadre ou le

bord de l’écran ne poserait aucun problème puisque nous aurions simplement la sensation

de regarder la scène à travers une fenêtre.

Les scènes et objets, bien qu’en sailli, sont représentés par projection à la surface de

l’écran. Les bords de l’écran constituent donc les limites au-delà desquelles il est

impossible de représenter les objets. Des objets en saillis ne peuvent donc pas sortir du

cadre puisque le cadre « couperait » ces derniers et provoquerait une incohérence entre ce

que voit l’œil et l’interprétation du cerveau.

Figure 17 : Saillie centrée

Figure 18 : Saillie hors cadre

Figure 19 : Saillie coupée

Sur la première image, « Saillie centrée », on s’aperçoit clairement qu’il est possible

d’afficher une image en saillie, si celle-ci n’est pas hors cadre. La contrainte qui se pose est

lorsque nous représentons un objet en saillie comme sur l’image « Saillie hors cadre ». En

effet, il est impossible de faire sortir l’objet de l’écran et ce qui sera en réalité affiché est

représenté sur la troisième image « Saillie coupée ». L’objet qui aurait dû « sortir » du

cadre et s’approcher de nous sera coupé par les bords du cadre.




Cinétose Malaise entre l’œil et le cerveau qui provoque un

déséquilibre de l’individu. Celui-ci ressent alors un

mal-être.

Image en saillie / en profondeur Saillie : Image perçue entre le plan et un individu.

Profondeur : Image en arrière plan.

Contraintes parallaxe Les points de convergence et l’accommodation des

yeux se font dans des directions différentes.


5. Conception de médias reliefs

5.1. Prises de vues réelles

Les appareils photos à doubles objectifs copient le fonctionnement de la vision

stéréoscopique de l’Homme expliqué précédemment. En effet, ces appareils capturent

deux images avec une parallaxe similaire à celle des yeux de l’Homme. Le but de ces

appareils à doubles objectifs est donc de capturer les reliefs comme le feraient les deux

yeux de l’Homme.

Exemples d’appareils photo à doubles objectifs :

14 Figure 20 : Appareil photo LUMIX GF2.

15 Figure 21 : Appareil stéréo argentique : Kit Loreo

3D MKII stéréoscopique sur pellicule 24 x 36.

Les caméras permettent également de capturer des scènes en relief. Lors de

tournages vidéo 3D ce sont des caméras reliefs à doubles objectifs qui sont utilisées,

comme la caméra AG-3DA1 de Panasonic :

14 http://www.pc-boost.com/actualite-1295872482-1-La-Radeon-HD-6990-en-photo--Peut-%C3%AAtre-.html 15 http://fr.wikipedia.org/wiki/Appareil_st%C3%A9r%C3%A9oscopique


16 Figure 22 : Caméra AG-3DA1, la première caméra 3D intégrée

Certaines caméras 3D autorisent le réglage de la parallaxe. Cela signifie qu’il est

possible de régler l’écart entre les deux objectifs. Cela est notamment utilisé par les

producteurs afin de donner l’impression qu’un objet est plus ou moins près. Ces dernières

sont placées dans un « rig à miroir » 17. Les deux caméras sont disposées selon un angle

de 90°, et reliées entre elles par de nombreux moteurs. Un miroir semi-transparent est

placé entre les deux caméras et coupe les deux axes optiques à 45°. L’une des caméras

filme à travers le miroir tandis que l’autre filme l’image sur le miroir. Cela permet aux deux

caméras d’être très proches l’une de l’autre sans contraintes physiques de contact. Ce

principe est particulièrement utile pour les plans rapprochés.

5.2. Synthèses d’images

Les scènes que nous voyons actuellement dans les films d’animations ou encore

dans les jeux vidéo deviennent de plus en plus réalistes et immersives. Pourtant, celles-ci

ont été modélisées à partir d’images 2D et d’objets en 3D.

16 http://www.focus-numerique.com/video-test-panasonic-ag-3da1-premiere-camera-3d-integree-news-2368.html 17 http://www.commeaucinema.com/interviews/pina,195115-note-85369


18 Figure 23 : Les tours de Hanoï

Des logiciels aident aux développements de jeux vidéo en vue d’obtenir un rendu le

plus réaliste possible, tels que « Ogre 3D », « Irrlicht Engine », « Virtools » et « Unity » qui

sont les leaders du marché.

Des images sont spécialement imprimées pour être vues en relief grâce à des

lunettes anaglyphes décrites précédemment (filtres de couleurs différents). Ses images

sont alors elles-mêmes appelées images anaglyphe.

19 Figure 24: Vue anaglyphique, présentant un relief bien perceptible (lunettes bicolores nécessaires : le

rouge à gauche).

18 http://www.xgouchet.fr/blog/index.php/en 19 http://fr.wikipedia.org/wiki/Anaglyphe


D’autres sont utilisées dans la réalité augmentée :

20 Figure 25 : La réalité augmentée avec interrupteur

Les caméras utilisées fonctionnent alors comme des caméras relief ; deux images

identiques avec un point de vue différent. Une parallaxe en vision relief est donc présente

et réglable afin de jouer sur la contrainte de parallaxe détaillée plus haut. Le point de vue

est alors déplacé en temps réel (similaire à la technologie du Head-tracking).



Caméras reliefs Utilisent le même principe que la vision

humaine pour reproduire le relief et

possèdent donc un double objectif.

Images en réalité augmentée Point de vue en mouvement et donc en

temps réel, utilisant le même principe de

fonctionnement que la technologie Head-

treacking.

20 http://www.teferic.de/video/2/video/%20artoolkit/xjmuis.html


6. Interfaces hommes-machines

6.1. Technologies tactiles

6.1.1. Résistif

La technologie résistive est la plus économique et la plus courante. Les écrans

tactiles résistifs sont composés de deux calques superposés et maintenus distants.

Lorsqu’une pression s’effectue, les deux calques se touchent et un courant électrique

circule. La variation dans les champs électriques permettent d’en déduire les coordonnées

x et y de la zone touchée. Cette technologie demeure cependant mono-point, mais permet

une utilisation autre qu’avec le doigt ; l’usage du stylet est par exemple possible. Certains

anciens smartphone ou PDA utilisent cette technologie.

21 Figure 26 : Ecran tactile résistif.

6.1.2. Capacitif

Les écrans capacitifs, quant à eux, sont constitués d‘une couche à base d’indium qui

est placée sur la plaque de verre. Lorsque l’on pose le doigt sur la plaque, certaines de ces

21 http://fr.wikipedia.org/wiki/%C3%89cran_tactile


charges sont transférées dans celui-ci. Ce déficit est quantifiable et est mesuré à partir de

chaque coin de l’écran ce qui permet d’en déduire les coordonnées x et y de la zone

touchée. Cette technologie peut-être considérée comme la suite logique de la précédente.

Elle participe à l’amélioration de l’ergonomie de certains dispositifs car elle autorise le

multipoint. Elle a notamment connu un essor particulier grâce à l’Iphone d’Apple. Depuis,

de nombreux autres smartphones et tablettes sont équipés de cette technologie.

22 Figure 27 : Ecran tactile capacitif.

6.1.3. Les autres

Infrarouge, Optique, FTIR, A jauges de contrainte, à onde de surface. Petit tour

d’horizon des autres technologies tactiles existantes. Quels sont les avantages ou les

contraintes par rapport aux deux principales technologies que sont le résistif et le

capacitif ?

Les technologies capacitives et résistives sont les principales technologies,

cependant il existe également d’autres types de technologies :

22 http://fr.wikipedia.org/wiki/%C3%89cran_tactile


Onde de surface

Une onde circule sur la surface de l’écran et lorsque l’utilisateur touche l’écran,

celle-ci s’en trouve modifiée. Grâce à l’analyse de l’onde modifiée récupérée, il est possible

de déduire les coordonnées x et y de la zone touchée.

Infrarouge

L’écran est constitué de rayons infrarouges disposés verticalement et

horizontalement. La détection de contact se fait lors de l’interruption des faisceaux de

lumière, il est alors possible de déduire les coordonnées x et y de la zone touchée.

Optique

L’optique est munie de deux caméras qui sont disposées dans les coins et une

triangulation permet de déduire les coordonnées x et y de la zone touchée.

FTIR (Frustrated Total Internal reflexion) 23

La surface supérieure de la plaque est éclairée par des diodes infrarouges. Lorsque

le doigt se pose sur la surface supérieure, la lumière est réfléchie dans toutes les directions

et principalement sur la surface inférieure de l’écran. Une caméra détecte alors un “point”

lumineux sur cette surface inférieure et les coordonnées x et y de la zone touchée peuvent

en être déduites.

NFI (Near Field Imaging)

Se base sur la création d’un champ électrostatique autour de l’écran, en approchant

un doigt de la surface, le champ s’en trouve courbé. Cette courbure permet de déduire les

coordonnées x et y de la zone touchée.

23 Jeff Han : http://cs.nyu.edu/~jhan/ftirtouch/


A jauges de contrainte

Quatre jauges de contraintes sont placées respectivement dans les quatre coins de

l’écran. Ces jauges permettent de déterminer la déflexion qu’induit la pression du doigt sur

l’écran. Il est alors possible de déterminer les coordonnées x et y de la zone touchée.

6.1.4. Principaux usages

Comme vous avez pu le constater plus haut, toutes ces technologies on un objectif

commun, celui de déterminer les coordonnées x et y de la zone sur l’écran touchée par

l’utilisateur. Cependant, elles ne possèdent pas toutes les mêmes avantages et les mêmes

inconvénients.

Technologies Avantages Inconvénients

Résistif • Faible coût

• Tous types de pointeurs

• Temps de réponse

• Recalibrage

fréquemment

nécessaire (fragilité)

• Peu lumineux (>= 75%)

• Adaptée aux écrans de

moyenne et petite taille

• Fragilité

Capacitif • Multi-touch

• Luminosité (>= 90%)

• Temps de réponse

• Adaptée aux écrans de

moyenne et petite taille

• Fragilité

Ondes de surface • Luminosité • Ecran sensible

(rayures, poussières,

tâches ...)


Infrarouge • Faible coût

• Ecran très résistant

(Adaptée aux utilisations

militaires)

• Luminosité

• Lente

• Détecte le contact

avant le toucher

Optique • Faible coût

• Adaptée aux grands formats

• Pas de multi-touch

FTIR • Faible coût • Beaucoup

d’éléments

nécessaires à la

création

• Peu répandu

NFI • Robuste

• Luminosité


A jauge de

contraintes

• Robuste

• Luminosité


Les technologies capacitives et résistives sont les plus répandues car elles sont bon

marché. Cependant, elles demeurent fragiles ce qui implique qu’elles aient une durée de

vie relativement limitée. Au contraire, les technologies optiques assurent une longévité plus

importante.

La technologie infrarouge, quant à elle, a le défaut de détecter un point de contact

avant même qu’il ne survienne. La technologie à ondes de surface a également un défaut

qui est d’être très sensible à toutes impuretés ou rayures présentes à la surface. Ces

dernières gênent la propagation des ondes.

6.1.5. Exemples d’interfaces tactiles à vision relief

Différentes solutions en matière d’interfaces tactiles à vision relief existent. Certaines

d’entre elles sont localisées sur le support relief, d’autres sont au contraire totalement


délocalisées du support et enfin certaines sont à mi chemin entre ces deux solutions et

proposent des solutions semi-délocalisées. Nous étudierons un exemple de chacune de

ces solutions et mettrons en exergue les avantages et inconvénients de ces dernières.

Solution localisée : iLight 3D Touch

La solution iLight a été développée dans le cadre du projet de recherche européen V-

City. Elle vise à développer un système collaboratif et innovant pour la visualisation

d’environnements urbains en 3D tels que des maquettes par exemple.

ILight est une table tactile permettant d’afficher deux points de vue différents sur le

même écran et en vision stéréoscopique. Cela est possible grâce à un système qui filtre les

images à représenter pour l’un ou l’autre point de vue par le biais de lunettes que portent

les deux utilisateurs. De plus, le système est couplé à une technologie de « Head-

tracking » à 6 degrés de libertés permettant d’observer les objets et maquettes sous tous

leurs angles et donc de proposer à l’utilisateur une expérience vraiment immersive.

24 Figure 28 : Les deux utilisateurs regardent le même écran, la même maquette mais selon leur propre

point de vue

ILight apporte une solution originale afin de contrer les problèmes de collisions entre

les objets en saillis et la main de l’utilisateur. ILight est capable de détecter le survol de la

main au dessus de la table tactile, le feedback visuel sur l’écran est alors représenté par

une ombre. Lorsque la main de l’utilisateur se rapproche de la surface de la table tactile, la

scène représentée à l’écran donne l’impression de « s’enfoncer dans la table ». Les objets

24 http://ilight-immersion.blogspot.com/


en saillis ne peuvent donc plus entrer en collision avec la main, car ils se retrouvent

« éloignés » de la main de l’utilisateur.

25 Figure 29 : La main est détectée au dessus de l'écran, iLight affiche une ombre sous la main symbolisée

par un cercle sombre au contour bleuté

Solution semi-délocalisée : Toucheo

La solution Toucheo a été réalisée en collaboration avec la société française

« Immersion » et les centres de recherches INRIA et CNRS. Le principal intérêt de cette

solution réside dans le fait qu’elle est « Semi-délocalisée ». C'est-à-dire qu’elle est

suffisamment délocalisée de manière à régler les problèmes d’occlusions et de collision

pouvant normalement intervenir avec d’autres solutions de visualisation stéréoscopique,

mais à la fois suffisamment proche des objets que l’on manipule avec cette technologie de

manière à proposer une solution la plus immersive possible.

25 http://ilight-immersion.blogspot.com/


Figure 30 : Occlusion de l'objet par la main

Figure 31 : Collision entre l'objet et la main

On peut alors se demander comment Toucheo a réussit ce pari. L’astuce utilisée

n’est pas si compliquée qu’elle en a l’air. Elle est le résultat de la combinaison d’un simple

écran 2D tactile surmonté d’une dalle semi-transparente. Alors que l’écran tactile

réceptionne les interactions de l’utilisateur telles que les translations, les rotations et les

agrandissements/réductions, la dalle semi-transparente se charge de représenter l’objet 3D

en stéréoscopie. L’image de l’objet est réfléchie sur la dalle semi-transparente et Toucheo

est couplé à un système de Head-tracking pour une totale immersion. Cette combinaison

permet à l’utilisateur de placer ses mains entre l’écran tactile et la dalle semi-transparente

et évite ainsi les occlusions et collisions potentielles avec les objets représentés.

2627 Figure 32 : Schéma de la solution Toucheo 1) Ecran stéréoscopique orienté vers le bas

2) Dalle semi-transparente sur laquelle l’image stéréoscopique est réfléchie 3) Image stéréoscopique de l’image réfléchie

4) Ecran tactile 2D capturant les gestes de l’utilisateur

26 http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf 27 http://www.labri.fr/perso/hachet/publications/Toucheo.html


Les six degrés de libertés sont respectés. Il est en effet possible de réaliser des

translations, des rotations et des déformations à l’aide de différents curseurs représentés

en 2 dimensions sur l’écran tactile.

28

Figure 33 : Les différents gestes à réaliser pour la rotation, translation et déformation (a) représente l’interface permettant de manipuler l’objet

(b) permet d’effectuer une rotation de l’objet sur l’axe Z en faisant tourner le disque (c) permet d’effectuer une rotation sur l’axe X ou Y selon la réglette utilisée

(d) permet d’étirer l’objet selon l’axe de la réglette utilisée (e) permet d’effectuer une translation de l’objet sur l’axe Z

Solution délocalisée : CubTile

Comme son nom l’indique, l’interface de la solution CubTile se fait à travers un cube.

CubTile a été développé par la société française « Immersion », leader en matière

d’innovation et d’intégration de solutions de réalité virtuelle. Cet objet cubique capte les

ombres des doigts sur toutes les faces. Ces données gestuelles sont alors transmises à un

ordinateur capable de traduire ces données en actions à réaliser.

29 Figure 34 : Le cube de la solution CubTile

28 http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf 29 http://www.ludovia.com/news/news_238_premiere-mondiale-immersion-presente-cubtile-l-inn.html


L’avantage de cette solution est qu’elle est très intuitive et très ergonomique puisque

les gestes à effectuer sur les faces du cube sont ceux que toute personne effectuerait lors

de la manipulation d’un objet réel. CubTile permet alors de réaliser pour chaque plan, une

translation et une rotation. Les six degrés de libertés sont alors totalement réalisables très

facilement.

Les possibilités offertes par CubTile sont nombreuses, on peut notamment imaginer

se déplacer dans une pièce à 3 dimensions, manipuler des objets, etc. L’intérêt est énorme

puisque CubTile permet très facilement d’appréhender les volumes.

6.2. Technologies à interfaces gestuelles

6.2.1. Les jeux

La Kinect

La Kinect est un système d’interface gestuelle conçu par Microsoft pour sa console

de jeu, la Xbox 360. Ce périphérique d’interface permet d’interagir avec la console par

reconnaissance de mouvement et d’image. Avec la Kinect, la manette devient le corps du

joueur et tous les mouvements associés.

Comment la Kinect est-elle capable de détecter la profondeur ? Celle-ci est

composée de deux éléments principaux qui sont un émetteur et un capteur infrarouge

espacés de quelques centimètres. L’émetteur infrarouge projette dans l’espace un motif de

points lumineux mais non visibles à l’œil nu, car ces derniers se trouvent dans la zone du

spectre lumineux non visible pour l’humain.


30 Figure 35 : Motif de points lumineux créé par l'émetteur infrarouge

Lorsqu’un objet se déplace dans le motif de points lumineux créé par l’émetteur, le

motif change et se déforme. Le capteur infrarouge est alors capable de détecter cette

modification afin de l’interpréter. Le principe de fonctionnement est relativement simple. On

peut imaginer réaliser un capteur de profondeur avec deux faisceaux laser. Si les deux

points créés par le laser sont très éloignés l’un de l’autre, cela signifie qu’ils sont très

éloignés du capteur en revanche, s’ils sont très près l’un de l’autre, cela signifie qu’ils sont

proches du capteur. Voici le schéma permettant d’illustrer les précédentes explications :

Figure 36 : Capteur de profondeur simplifié

Connaissant l’angle entre les deux faisceaux lumineux et la distance à laquelle se

trouve le point bleu clair du point bleu foncé ou le point marron du point orange, il est alors

possible d’en déduire la profondeur.

30 http://www.cse.iitk.ac.in/users/rahule/thesis.html


Playstation Move

La Playstation Move est la solution de captation gestuelle développée par Sony. Alors

que la Kinect a fait le choix de faire disparaître les manettes de jeu, Sony a opté pour une

solution un peu plus classique, qui utilise toujours des manettes de jeu.

La Playstation Move est constituée du couple suivant : un capteur RGB (une caméra)

ainsi qu’une manette surmontée d’une sphère colorée et équipée d’un capteur

gyroscopique et d’accélération. Il est alors possible de détecter le mouvement du joueur à

l’horizontal et à la vertical en suivant le changement de position de la sphère lumineuse de

la manette de jeu à l’aide de la caméra. Mais comment la Playstation Move est alors

capable de détecter le changement de profondeur du joueur ? C’est une fois de plus grâce

à la sphère lumineuse qui surmonte la manette. Plus la sphère apparaît grosse plus cela

signifie qu’elle est proche de l’écran et inversement, plus la sphère est petite plus cela

signifie qu’elle en est éloignée.

Certains utilisateurs dénoncent l’aspect disgracieux de la sphère lumineuse de la

manette de jeu, mais elle n’a pas un rôle esthétique à proprement parler. Lorsque la

manette est éteinte, la sphère est blanche. A l’intérieur de cette sphère se trouve une diode

RGB 24bits capable de colorer la sphère. Le but de cette coloration est de maximiser la

précision du système Playstation Move. En effet, si le joueur désire jouer dans une pièce

peu ou pas éclairée, cela n’empêchera pas le capteur de repérer la manette. D’autre part,

la coloration de la sphère est déterminée par la console en fonction de l’éclairage de la

pièce mais également en fonction des couleurs dominantes de cette dernière.

La Wii

Le système de captation gestuelle utilisé par Nintendo se nomme Wii. La solution de

Nintendo est constituée des éléments suivants : une manette équipée d’un capteur

infrarouge et d’une barre équipée de quatre Leds infrarouges qui sont alignées.

Parmi les solutions de captations gestuelles décrites dans cette partie, la Wii est la

plus ancienne, mais a très largement inspiré les deux autres. Contrairement à la Playstation

Move où c’est le capteur RGB localisé au niveau de la console qui traque les manettes, la

Wii a choisi une solution différente. Ce sont les manettes qui observent la position de la

rampe de Leds. Cette solution a l’avantage de pouvoir différencier le positionnement de


chacune des manettes, puisque chaque manette communique à la console la position de la

rampe de Leds qu’elles ont repérées. Rappelons que dans le cas de la Playstation Move, la

distinction des manettes est effectuée par la couleur de la sphère de la manette de jeu.

A tout moment, la manette capture la position des 4 Leds infrarouges et transmet ces

informations à la console. La console est alors en mesure d’en déduire la position de la

manette dans un espace à 3 dimensions.

Figure 37 : Différents points de vue d'une manette de jeu

Sur l’image ci-dessus, nous apercevons respectivement ce que peut voir une manette

de jeu Wii située à gauche de l’écran puis à droite de l’écran.

Deux questions apparaissent alors. La première est, comment peut-on définir la

distance à laquelle la manette se trouve de l’écran ?

La solution réside, comme dans l’exemple précédent, grâce notamment à la taille et

l’intensité des Leds vue par la manette.

Figure 38 : Différents points de vue d'une manette de jeu

Les gros cercles dans le haut de l’image signifient que la manette est proche de

l’écran ; à contrario les petits cercles observés par la manette signifient que la celle-ci est


éloignée de l’écran. Lorsque nous sommes proches d’un objet il nous apparaît plus

volumineux que lorsqu’il est éloigné, c’est ce même principe qui est utilisé ici.

La seconde question concerne la manière dont il est possible de repérer la position

verticale de la manette. La manette est équipée d’un capteur gyroscopique lui permettant

de détecter l’inclinaison de cette dernière.

En combinant l’ensemble des données récupérées par la manette, il est alors

possible de déterminer la position de la manette dans un espace à 3 dimensions.

6.2.2. Principaux usages

Actuellement le jeu vidéo utilise énormément ces nouvelles technologies pour une

expérience de jeu encore plus immersive. Mais d’autres domaines sont ou seraient

susceptibles d’utiliser ces interfaces.

On peut noter par exemple les téléviseurs à venir. Certains constructeurs travaillent

déjà à l’intégration de la reconnaissance gestuelle afin de naviguer dans les menus de son

téléviseur.

6.2.3. Exemple d’interface gestuelle

Le projet SixthSense est un projet actuellement en cours de développement dans les

locaux du MIT, au MIT Media Lab. Ce sont Steve Mann, Pranav Mistry et Pattie Maes qui

sont en charge de son développement.

Ce projet a pour but de transformer les objets qui font partie de notre quotidien en

éléments d’« ordinateur semi-dématérialisé ». Ces objets deviennent alors eux-mêmes des

supports d’échanges d’informations ou d’interactions avec l’homme. Le but étant de pouvoir

créer une interface fluide et adaptée à tous, avec les objets physiques qui sont présents

dans notre vie de tous les jours.

C’est donc un projet informatique ubiquitaire : le traitement de l’information est

complètement intégré dans tous les objets.


31 Figure 39 : Projet SixthSense : journal

Une caméra capte les gestes réalisés ainsi que le suivi des marqueurs de couleur

positionnés sur les doigts, ceux-ci sont ensuite restitués via un pico-projecteur sur différents

types de supports. Ci-dessous, les explications du prototype en image :

32 Figure 40 : Pranav Mistry, projet SixthSense : composition

Les informations que perçoit la webcam sont transmises à un appareil de calcul

pouvant être le téléphone portable de l’utilisateur. La webcam peut être positionnée sur une

casquette ou autour du coup de l’utilisateur. L’appareil de calcul interprète les informations

31 http://web.lefigaro.fr/monde-numerique.html 32 http://www.fubiz.net/2010/02/01/sixthsense-interface/


reçues et affiche le résultat via le projecteur. L’affichage peut ainsi se faire sur n’importe

quel support : mur, main, vitre, t-shirt…

L’avantage de cette technologie est l’horizon immersif qu’elle ouvre aux utilisateurs

de par sa mobilité et son caractère multi-touch. De plus, son prix ne représente en aucun

cas un quelconque frein puisqu’il pourrait avoisiner les 350 dollars.



Technologie capacitive La principale technologie utilisée actuellement sur les écrans

tactiles des Smartphones.

ILight 3D touch Solution localisée contournant la contrainte de collision.

Toucheo Solution semi-délocalisée composée d’un écran 2D tactile

capturant les interactions de l’utilisateur et d’une dalle semi-

transparente représentant l’objet en 3D complété par la

technologie de Head-Tracking.

CubTile Périphérique de capture de déplacement dans un

environnement 3D.

La Kinect Dispositif projetant un motif de points lumineux dans l’espace

et capable interpréter les déformations du motif afin de

déterminer la position dans l’espace d’un objet ou d’une

personne.

La playstation move Dispositif permettant de repérer une manette dans un espace

3D à l’aide d’une simple caméra RGB. La captation en

profondeur se fait en observant la variation de la taille de la


sphère lumineuse qui surmonte la manette.

La Wii Le plus ancien des trois systèmes étudiés ici. La particularité

de ce système est que la captation n’est pas mutualisée

comme les précédents, mais est dédiée. Un capteur se trouve

dans chaque manette de jeu et chacun d’entre eux observe

une rampe de 4 leds infrarouge.


7. Conclusion de l’état de l’art

Les évolutions quotidiennes des nouvelles technologies forcent les individus à suivre

le rythme et à évoluer en même temps. En effet, ce qui paraît nouveau et inhabituel

aujourd’hui pour un individu sera monnaie courante des années plus tard.

Prenons l’exemple de la télévision, lors de son apparition celle-ci changea le

quotidien du monde entier et a été perçue comme « une révolution ». Actuellement, pour la

nouvelle génération ayant grandi avec elle, celle-ci est quelque chose de normal et ne

suscite plus l’enthousiasme d’antan.

Prenons maintenant l’exemple des consoles de jeux telles que la Kinect ou la Wii,

celles-ci ont bouleversés notre quotidien et nous paraissent comme étant quelque chose de

révolutionnaire. Pour les générations futures, ces consoles de jeux seront tout simplement

dépassées tout comme la technologie qu’elles utilisent.

La capacité de l’Homme à s’adapter à ces nouvelles technologies, telle que la

restitution 3D décrite dans ce mémoire, provient de la capacité d’adaptation du cerveau. En

effet, si celui-ci est confronté à la vision relief artificielle, le mal-être qui a pu être ressenti

par les personnes témoins de ces nouvelles technologies n’est plus d’actualité.

Les médias et dispositifs communicants de demain utiliseront la diffusion de contenus

stéréoscopiques. De plus, ces dispositifs seront interactifs, c’est à dire qu’un ou plusieurs

utilisateurs pourront accéder à des informations complémentaires, faire évoluer les

contenus ou encore personnaliser les interfaces…

Nous pouvons ainsi nous demander comment nous interagirons avec du contenu

relief. Deux pistes seront traitées. La première concernera l’association d’une surface multi-

touch et d’une diffusion relief. La seconde quant à elle, traitera de l’association d’interfaces

gestuelles avec un contenu relief.


Thèse : Interfaces gestuelles

8. Interaction avec des interfaces

8.1. Interaction avec du contenu 2D

Actuellement il existe différents moyens d’interagir avec du contenu 2D. En effet,

souris, télécommandes et écrans tactiles (ou encore la reconnaissance gestuelle),

permettent d’interagir avec du contenu non relief et étaient, au départ, conçus uniquement

que pour cela.

8.1.1. Historique des périphériques de contrôle

Même si ces périphériques ont été créés que pour interagir avec du contenu 2D, leur

utilisation avec la manette de jeux vidéo par exemple, a beaucoup évolué depuis quelques

années. Cette évolution apporte un avantage majeur à ces périphériques qui ne sont plus

destinés à un usage unique, mais à divers usages.

Les manettes de jeux, les télécommandes

Pour les joueurs, l’utilisation des manettes est très simple, car peu importe le type de

console de jeux, généralement, elles sont composées de boutons en croix. Elles

possèdent, en plus, d’autres boutons personnalisés selon la marque. La généralisation des

boutons en croix permet aux utilisateurs d’être familiarisés aux modes de fonctionnements

de ces différentes manettes. A ce moment-là, la plupart des gens possèdent plusieurs

manettes, une (au minimum) pour chaque console.

Voici comment une journée banale se passe : vous rentrez chez vous et voulez jouer

à un jeu vidéo. Pour ce faire, vous vous posez devant la télévision, vous l’allumez à l’aide

la télécommande faite à cet effet, puis vous allumez la console de jeux et attrapez la

manette pour jouer.


Ce scénario n’est pas pratique pour le public dans le sens où il faut souvent changer

de manettes. C’est encore le cas actuellement, lorsque nous voulons jouer à des jeux

vidéo. Nous possédons tous des manettes adaptées à une console spécifique pour la ou

les télécommandes servant pour la télévision ou le magnétoscope et autres appareils. Au

cours des années, l’idée fut d’éviter de posséder plusieurs objets pour une même utilisation

et encore plus que ça, posséder un objet capable de réaliser plusieurs actions.

Ce phénomène s’appelle le principe de « Hub numérique »33 ou de « black box »

comme le définissait Henry Jenkins34. Le hub numérique se défini de façon progressive, en

effet, prenons comme exemple la Freebox. Sa télécommande est constituée de multiples

boutons, certains pour un usage dit de « base » de télécommande de télévision et d’autres

permettant de jouer à des jeux inclus dans la Freebox. La télécommande a été créée pour

répondre à l’interface de la Freebox qui permet à la fois de regarder la télévision, de vérifier

ses mails ou encore de jouer aux différents jeux proposés. Cette dernière est de ce fait

multi-usages. Mais cet exemple n’est qu’un premier niveau de centralisation des

commandes,

Ici, le scénario est le suivant : vous rentrez chez vous et voulez jouer à un jeu vidéo.

Pour ce faire, vous vous posez sur votre canapé, vous attrapez la télécommande de la

Freebox et allumez la télévision. Puis à l’aide de cette même manette, vous allumez la

33 http://lexpansion.lexpress.fr/high-tech/l-idee-du-hub-numerique-devient-realite_104949.html 34 http://henryjenkins.org/2006/06/convergence_and_divergence_two.html


console de jeux et jouer tout simplement à votre jeu, sans être obligé de changer de

télécommande.

Et inversement, les télécommandes de jeux vidéo servent également de plus en plus

comme télécommandes pour la télévision.

Cette vision des choses est donc beaucoup plus adaptée à une utilisation de

plusieurs appareils/consoles simplifiant l’utilisation de tous ces outils au quotidien.

Prenons maintenant un autre exemple, celui du Smartphone. Le Smartphone

représente avec plus de précisions ce qu’est le hub numérique, en effet, il permet de

téléphoner, mais également de se connecter à internet, de vérifier ses mails, de passer des

commandes directement sur le téléphone. Le fait de n’avoir qu’une seule manette pour

plusieurs usages ne fait pas seulement partie du hub numérique, mais est associé à

l’interface utilisateur qui nous permet à un centre d’informations, de médias.

Après les télécommandes, passons à la souris, celle-ci n’est plus simplement utilisée

sur des interfaces 2D, mais a évolué pour une interaction avec un contenu relief.


Amélioration des souris

35

Figure 41 : Souris Logitech 2D

36

Figure 42 : Souris 3D

L’évolution des souris suit l’évolution des télécommandes ou des manettes pour

assurer une utilisation toujours plus poussée dans le but de répondre aux exigences des

utilisateurs. Après les « simples » souris où seuls les clics sont possibles, place aux souris

tactiles, telles les souris Apple pour laisser place aux souris permettant d’interagir avec un

contenu en relief.

L’interaction avec du contenu 2D s’étend également aux appareils tactiles.

Les écrans tactiles

Outre les téléphones portables, les consoles de jeux sont également tactiles, mais

avec la généralisation de la dématérialisation, « une baisse des marchés des jeux vidéo

traditionnels »37 est constatée.

La compagnie Nintendo a fait de cette généralisation un avantage en créant le

prototype de la Wii U. La Wii U est une nouvelle manette de la Wii, tactile, qui peut devenir

elle-même une console de jeux vidéo portable38. Elle est annoncée pour fin 2012 et a été

présentée lors du séminaire des jeux vidéo, l’E3, qui s’est déroulé le 5 juin 201239 à San

35 http://www.macgeneration.com/news/voir/136272/faire-fonctionner-votre-souris-logitech-sous-snow-leopard

36 http://www.3dconnexion.fr/products/what-is-a-3d-mouse.html 37 http://www.usinenouvelle.com/article/salon-e3-l-industrie-francaise-du-jeu-video-au-rendez-

vous.N175876 38 http://www.actu-jeu.fr/details-nouvelle-nintendo-wiiu-prix-video-sortie.html 39 http://www.nintendo.fr/NOE/fr_FR/news/e3_2012_49753.html


Francisco. La Wii U se base sur une technologie hybride. En effet, il y a une association

d’un écran tactile pour l’affichage d’informations multi-écrans et de capteurs de

reconnaissance gestuelle.

40

Figure 43 : Wii U manette et console de jeux Nintendo

Le système de Nintendo est un bon compromis entre l’utilisation d’une manette

unique et spécifique aux jeux et le jeu lui-même déporter sur la console. Une bonne idée

pour l’imiter le nombre de télécommandes, mais pas pour limiter le nombre de consoles. Le

« Hub numérique » est donc de plus en plus présent dans le système actuel, mais n’a pas

que des avantages.

La manette Wii U est universelle, en effet, grâce à une diode infrarouge, elle peut être

utilisée sur différents autres supports, tels que les télévisions ou encore des lecteurs DVD.

A noter, même si la console n’est pas allumée, la télécommande pourra quand même

s’utiliser.

40 http://lexpansion.lexpress.fr/high-tech/nintendo-degaine-la-wii-u-et-sa-manette-a-ecran-

tactile_256767.html


8.1.2. Recensement constats/inconvénients

Constats

Avec la dématérialisation des informations, un accès à ses informations est en

permanence possible, partout et avec le même appareil.

Le fait de n’utiliser qu’un seul appareil pour de multiples fonctions fait que ces

appareils sont simples d’utilisation puisqu’ils doivent s’adapter à toutes formes de supports,

tout en assurant un usage massif auprès du public.

Désormais se sont donc les outils qui s’adaptent un maximum au public et non

réellement l’inverse comme ce fut beaucoup le cas ces dernières années à chaque

nouvelle technologie. Nous pouvons prendre en exemple la grande évolution des souris.

Dans un même esprit d’assurer une utilisation de masse, les appareils, tels que les

manettes Wii U, sont compatibles avec tous les accessoires de la Wii, mais également les

télévisions, lecteurs DVD et autres supports. Une adaptation des nouveaux outils avec les

anciens est ainsi réalisée, dans le même but de permettre aux consommateurs de

s’adapter.

Avec toutes ces nouvelles technologies et ces nouveaux outils révolutionnaires, les

ventes des anciens produits baissent et les entreprises se voient obligées de baisser leurs

prix pour écouler leurs stocks. De cette manière, un large panel de gens est dans la

capacité de s’offrir ces technologies. L’utilisation de ces produits se banalise alors.

Inconvénients

Le principal problème avec les appareils tactiles est qu’il est obligatoire de les

toucher, peu importe la situation. Parfois en permanence comme les Smartphones. Les

mains sont une partie du corps qui sont sales la plupart du temps. Elles transportent donc

beaucoup de bactéries.

Exemple : lorsque les utilisateurs mangent dans des fast-foods, leurs mains sont

grasses, mais ils continuent de toucher leur écran pour diverses raisons, ce qui rend

l’utilisation de l’appareil plus compliquée.


En plus de la graisse, il y a aussi le problème de l’occlusion. Pour rappel, l’occlusion

est le fait que les objets soient cachés lorsqu’on passe notre main au-dessus. Le fait de

devoir cliquer sur un écran cache donc une bonne partie de celui-ci. Ce qui implique que

sur une interface 3D, l’objet serait caché. C’est donc uniquement compatible avec une

interface en deux dimensions.

Un autre inconvénient de ces appareils à multiple utilisation est la casse. En effet,

lorsque l’appareil se casse, l’accès à ses informations devient assez difficile. De plus, vu le

prix de ces nouveaux outils, les ménages ne possèdent pas énormément d’« appareils de

rechanges ».

La multiple utilisation des outils est plus simple, mais une utilisation massive des

appareils fait qu’il est nécessaire de les charger très fréquemment, voir tout le temps.

Prenons, encore une fois en exemple les Smartphones : ils sont très pratiques, mais leur

tenue de charge est assez limitée et poussent à une charge régulière, pour ne pas dire

journalière. Ces outils sont donc plus adaptés à une courte utilisation qu’à une utilisation

quasi permanente.

8.1.3. Tableau synthétique

Limites Solutions

Utilisation de plusieurs appareils sur un

même support.

Hub numérique ou Black box : utilisation

d’un même dispositif sur tous types de

supports.

Création de nouvelles consoles de jeux

pouvant utiliser plusieurs support.

Interaction entre les souris et les

interfaces 2D uniquement.

Adaptation des souris pour interagir avec du

contenu 3D.


Obligation de toucher l’écran pour

interagir avec du tactile, même avec les

mains sales.

Occlusion de l’objet.

Casse des appareils.

Recharge fréquente.

Utilisation les interfaces gestuelles.

L’innovation pour interagir avec du contenu 2D continue donc d’avancer. La

recherche d’interaction avec du relief, quant à elle, est également en pleine expansion.

8.2. Interaction avec du contenu 3D

Les outils ne cessent en permanence de s’adapter aux besoins des utilisateurs et

d’être, ainsi, « multimodaux ». Cette adaptation des outils se généralise donc de plus en

plus. Elle ne touche pas seulement les télécommandes ou encore les souris, mais

également tout ce qui concerne les contenus média (audio, jeux, fichiers..), pour une

compatibilité avec un écran relief par exemple, étant donné que leur utilisation sera

complètement différente.

Il est certain que le futur sera constitué de ces écrans et qu’une adaptation aux

diverses tailles des écrans sera donc utile. Les tailles des écrans actuellement utilisées

sont les suivantes :

1. Mobile : Smartphone, tablette

2. Portable : Ordinateur 15’ à 17’

3. Télévision

On constate que le relief passe par des écrans de très grandes tailles (écrans de

cinéma), et au contraire par des écrans de petites tailles (tablettes, Smartphones). Mais


comment savoir quels systèmes seront les plus adaptés pour interagir avec ce contenu en

relief ?

8.2.1. Les écrans tactiles

Ces différentes recherches ont mené à différents projets et les interfaces reliefs qui

en résultent sont plus intuitives et plus naturelles.

Rappel des différentes interfaces tactiles vu précédemment :

Solutions Explications

ILight 3D touch Solution localisée contournant la contrainte de collision.

Toucheo Solution semi-délocalisée composée d’un écran 2D tactile

capturant les interactions de l’utilisateur et d’une dalle semi-

transparente représentant l’objet en 3D complété par la

technologie de Head-Tracking.

CubTile Périphérique de capture de déplacement dans un environnement

3D.

Les écrans tactiles sollicitent les gestes du corps par le multi-touch ce qui évite la

fatigue musculaire. Cependant cette technique possède des inconvénients, tel que les

problèmes d’occlusions par exemple, et conviennent uniquement pour un usage 2D.


8.2.2. Prototype Microsoft

4142

Figure 44 : Prototype de l’écran 3D transparent

Après l’invention du Kinect, Microsoft continue ses recherches dans ce sens et crée

un prototype d’écran 3D transparent. Cet écran est un écran OLED (Diode

électroluminescente organique), transparent, développé par la société Samsung. L’OLED

est un composant produisant de la lumière.

43

Figure 45 : OLED de test réalisée sur un support souple

Les caractéristiques de ce prototype sont :

• Un clavier derrière un écran transparent. L’utilisateur peut donc quand même

taper sur celui-ci.

• Une caméra placée derrière l’écran pour pouvoir « interagir avec le bureau

virtuel et bouger les éléments dans un environnement en trois dimensions ».

41 Voir interview avec M. Edmond BOYER en annexe, question treize 42 http://www.journaldugeek.com/2012/02/28/microsoft-invente-le-bureau-en-3d-transparent/ 43 http://fr.wikipedia.org/wiki/Fichier:OLED_EarlyProduct.JPG


Le head-tracking est également présent dans cette solution afin que l’affichage 3D

reste parfait, même en cas de mouvements de l’utilisateur.

Avantages/ Inconvénients

Ce prototype permet une grande avancée dans la combinaison entre l’interaction

avec contenu 3D et la captation gestuelle. En effet, les utilisateurs des ordinateurs

continuent de garder leurs habitudes en pouvant pianoter sur le clavier, mais peuvent, en

plus, « attraper » le contenu afficher sur le bureau transparent.

L’inconvénient de ce prototype reste le fait que le clavier se trouve derrière l’écran, ce

qui peu être perturbant puisqu’il faudrait en permanence regarder à travers l’écran. Un

sentiment de mal-être pourrait être éprouvé chez les utilisateurs. Un autre inconvénient

serait surement, en position assise, une position des bras non adaptée à long terme. Une

fatigue musculaire pourrait se produire. Imaginez vous devant votre écran d’ordinateur avec

vos main derrières ce même écran, à manipuler sens cesse du contenu relief. Ne pensez-

vous pas qu’au bout d’un moment une lassitude s’installerait ?

8.2.1. Recherche Microsoft : The Holodesk

44

Figure 46 : The Holodesk : interaction virtuelle avec de la 3D

Cette technologie de Microsoft pourrait s’annoncée comme l’évolution du prototype

de l’écran 3D transparent étant donné qu’il est, également, composé d’un Head-tracking et

44 http://design.org/blog/holodesk-microsoft-researching-virtual-3d-interaction


est basé sur la technologie du Kinect. Ce qui est différent sur ce futur prototype est

l’interaction avec les objets qui est beaucoup plus performante et précise. Ce prototype

sera donc plus réaliste que celui de l’écran transparent.

Autre amélioration, le prototype ne détecte pas seulement les mains, mais également

des objets, comme une feuille de papier ou encore un bol. Leur volume est pris en compte

et une interaction avec les objets virtuels projetés est possible. Malheureusement, ce

prototype ne sera peut-être pas sur le marché de si tôt. Pour le moment ce n’est qu’un

simple projet de recherche et il ne sera pas seulement destiné à être sur nos écrans de

télévisions, mais plutôt à être utilisé pour la création des films.

De plus, le problème des mains derrière l’écran est toujours présent.

8.2.2. Boitier usb de Leap Motion

41

Figure 47 : Fonctionnement du LEAP

45

Figure 48 : Boitier usb LEAP

Le boitier usb crée par la société Leap Motion46 et plus particulièrement par David

Holz (un mathématicien et ancien chercheur de la NASA), est un boitier usb permettant de

contrôler son ordinateur47 par les gestes. Son principe est donc basé sur celui du Kinect

mais capte uniquement la position des mains.

45 http://www.zone-numerique.com/news-12947-leap-motion-un-kinect-a-la-puissance-

100.html 46 http://live.leapmotion.com/ 47 http://korben.info/boitier-leapmotion.html


Avantages/Inconvénients

L’inconvénient de cette technologie est qu’elle se concentre uniquement sur le

mouvement des mains et non pas sur celui du corps entier. Cependant, elle est beaucoup

plus adaptée et puissante que le prototype de Microsoft. Aussi, en combinant ces deux

technologies (hors écran transparent), on pourrait aboutir à un système très performant,

mais également plus adapté à l’homme et donc plus facile d’utilisation.

Scénario

Imaginons, de la même manière que dans la partie des interactions avec du contenu

2D, le scénario suivant : une personne rentre du travail et désire allumer sa télévision, au

lieu de devoir appuyer sur un bouton de télécommande, de téléphone ou autres, il lui

suffirait de faire un geste spécifique pour que celle-ci s’allume ou s’éteigne toute seule.

Pareil en ce qui concerne le changement de chaînes ou l’augmentation du volume.

Ce qui pourrait être ajouté à cette association des deux technologies serait un clavier

virtuel sur un écran plus petit en cas d’éventuelles informations à saisir, sur une tablette

tactile par exemple. Nous avons vu précédemment qu’il existe différentes tailles d’écrans

(Mobile, Portable et Télévision), l’association de ces différentes tailles d’écrans permettrait

à l’utilisateur d’être plus à l’aise avec la saisie de diverses informations ou pour d’autres

usages. En effet, saisir de l’information sur un clavier est clairement plus simple à partir

d’une tablette tactile qu’à partir d’un grand écran de télévision. Cette façon d’interagir avec


plusieurs écrans fait que la tablette n’est plus qu’une simple tablette, mais devient un

clavier à par entière : l’affichage d’informations et l’interaction de l’utilisateur sont dédiés

pour la télévision est non pour la tablette elle-même. De la même manière que la console

Wii U, où les informations affichées sur l’écran peuvent être transposées directement sur la

manette et où l’on passe de cette façon d’un grand écran de télévision à un petit écran de

console de jeu de la taille d’une tablette tactile.


Limites Solutions

Occlusion de l’objet, interaction avec du

contenu relief impossible.

Utilisation des interfaces gestuelles reliefs.

Clavier derrière l’écran. Utilisation d’un clavier virtuel ?

Captation que d’une partie d’une corps. Utilisation d’un capteur du corps entier.

Fatigue musculaire dû à de grands

gestes répétés.

Utilisation d’un écran plus petit pour

effectuer de plus petits gestes.

Utilisation d’un dispositif tactile de petite

taille.

Dans la partie suivante, nous allons parler de l’évolution des interactions avec du

contenu 3D, et ainsi, de l’évolution des différents dispositifs déjà existants.


9. Evolution de l’interaction avec de la 3D

Des évolutions sur le gestuel et les caméras ont été faites pour une adaptation au

grand public, mais des problèmes pour un usage professionnel suscitent.

9.1. Usage public

Depuis le film Minority report, la façon de concevoir le gestuel à changer, c’est

pourquoi cette technologie se voit insérée dans tous types de matériels.

9.1.1. Evolution des caméras

Commander sa télévision par les gestes

Il n’y a pas seulement PrimeSense ou Microsoft qui s’intéressent à ce genre

d’utilisation, mais également la société Hubstart Paris.48

Le prototype Hubstart Live est un prototype de maquette présentant une interaction

avec diverses informations, Il présente « les ressources, les équipements, les

infrastructures, les projets » (avec animations) afin de rendre plus visible et plus lisible le

territoire de Paris Charles de Gaulle et Paris Le Bourget. Hubstart Live est également basé

sur la technologie du Kinect.

Le dernier scénario de ce mémoire imagine une personne qui rentre chez elle et qui

utilise sa télévision avec des gestes, et bien ceci n’est plus simplement un scénario, mais

existe à présent. Ce dernier scénario, rejoint ce que la société PrimeSense (société ayant

mis au point le Kinect pour Microsoft) est entrain de réaliser, la CES PrimeSense TV49. A

l’instar, cet outil utilise tous les mouvements du corps.

48 http://www.futur-en-seine.fr/prototype/hubstart-live/ 49 http://www.lesnumeriques.com/tv-televiseur/ces-2012-prime-sense-autre-reconnaissance-

mouvements-sur-tv-n23043.html


Limites:

N’oublions pas que des mouvements répétés à long terme pourraient fatiguer

l’utilisateur. Il pourrait revenir de lui-même à une ancienne utilisation avec un vrai clavier ou

encore avec un vrai dispositif tactile, de la même manière que Microsoft qui combine à la

fois un écran tactile et un vrai clavier. Cette façon d’interagir avec des écrans sera, peut-

être, plus habituelle et plus normale pour eux.

Commander son ordinateur par les gestes : Flutter

50

Figure 49 : Mise en pratique du logiciel Flutter, contrôler son mac avec les gestes

Le logiciel Flutter permet de contrôler son ordinateur Mac avec les gestes, de la

même manière que Minority report.

L’avantage de ce logiciel est qu’il est gratuit, mais malheureusement uniquement

disponible sur des Macintosh. Ce logiciel est un logiciel Play-Stop qui, pour le moment, fait

uniquement Play et Stop, aucune autre commande n’est possible.

Il est donc très bien adapté à une personne qui regarderait un film et qui aurait besoin

uniquement de mettre play ou pause, une à deux fois seulement.

50 http://www.nikopik.com/2012/03/controler-votre-mac-avec-des-gestes-grace-a-la-webcam-

integree.html


Minority report par John Underkoffler

51

Figure 50 : John Underkoffler, point sur les futures interfaces

Minority report en vrai ! John Underkoffler est le dirigeant de l’interface g-Speak

Spatial Operating Environment, mais également un ancien du laboratoire du MIT travaillant

sur l’holographie, l’animation et beaucoup d’autres thèmes. Sa société, Oblong, a

spécialement été créée pour reproduire de façon réelle la scène mythique de Minority

report. Cependant sa vision ne s’arrête pas seulement à reproduire ceci sur un écran, mais

également sur un micro-onde ou tout autre support possible52.

Inconvénient :

L’inconvénient de cette solution, semblable au film, est de devoir mettre un gant pour

que la captation des mouvements se fasse, ce qui forcerait les gens à mettre et à enlever

sans cesse ce gant lors de la manipulation du relief.

9.1.1. Limite de ces dispositifs

Certaines limites ont déjà été citées plus haut, telles que la fatigue des musculaires

qui ne serait pas adaptée aux professionnels du fait de la répétition des mouvements. Cette

fatigue pourrait également toucher les personnes âgées qui ne peuvent pas bouger très

longtemps dans l’espace.

51 http://www.ted.com/talks/john_underkoffler_drive_3d_data_with_a_gesture.html 52 http://www.ted.com/speakers/john_underkoffler.html


D’autres limites surviennent, notamment celle du prix. En effet, ces nouvelles

technologies ont un coût qui est souvent oublié par l’excitation que suscitent ces nouvelles

façons de vivre, de voir les choses. Leurs coûts étant prohibitifs, ils ne permettent pas

toujours au grand public d’en être propriétaire.

Autre limite qui n’a pas encore été abordée, celle de l’apprentissage. Certains

prototypes sont simples d’utilisation, c’est ce qu’on appelle un idiome. C’est-à dire qu’une

fois le logiciel pris en main, il n’est pas nécessaire d’avoir à nouveau des explications lors

des prochaines utilisations. Cependant, d’autres logiciels nécessiteront plus de maitrise,

donc plus d’apprentissage, ce qui risque de décourager certaines personnes, notamment

les personnes âgées qui ont déjà du mal à utiliser un ordinateur actuellement. Ces

personnes perdent patience car ces outils les énervent et préfèrent les abandonner.

De plus, certaines innovations risquent de manquer de précisions au niveau des

gestes. En effet, ce genre de technologies nécessite beaucoup d’espace afin d’effectuer de

larges mouvements. Nous avons pu le constater lors de l’arrivée de la Wii dans nos

maisons, beaucoup de gens n’avaient pas anticipé une place suffisante et des problèmes

sont apparus, comme des collisions avec des meubles et/ou avec d’autres personnes.

Aussi, dans un espace plus petit et plus confiné, la précision de ces technologies est

amoindrie.

Le retour de force, quant à lui, est également un point qui n’a pas beaucoup été

abordé, nous verrons dans la partie suivante comment celui-ci est substitué.

9.1.2. Constat

Toutes ces imites risquent d’être un frein à l’usage courant du gestuel dans l’espace.

Même si des limites sont constatées, toutes ces technologies ne cessent d’être

améliorées et sont en constance évolutions, toujours dans un même but, convenir au

maximum à un usage grand public.



Limites Solutions

Utilisation d’un gant ou tout autre objet

permettant la captation des gestes.

Utilisation d’un capteur Kinect.

Prix des nouvelles technologies

Découragement des utilisateurs du fait

de la difficulté de manipulation des

technologies.

Idiome : simplicité d’utilisation et donc

d’apprentissage d’un dispositif.

Espace et précision réduits. Utilisation d’appareils plus petits pour

effectuer des gestes plus petits et obtenir

une meilleure précision.

Nous avons vu que, parfois, des limites intervenaient au niveau des usages publics,

alors comment ces technologies s’adapte-t-elles à un usage professionnel ?


9.2. Usage professionnel

9.2.1. Evolution des souris

Nous avons vu dans une partie précédente que les souris s’étaient adaptées à

l’interaction relief sur les ordinateurs, permettant de passer d’une utilisation simple avec

des souris 2D à une utilisation plus évoluée et plus productive avec des souris 3D.

Ainsi, il serait possible de combiner à la fois une interaction gestuelle avec une

utilisation des souris 3D. Microsoft a compris ce besoin de combiner à la fois des

périphériques de pointages avec du gestuel lors de la création de son projet pour obtenir

un écran transparent, combiner avec un clavier.

Par la suite, on pourrait très bien imaginer combiner d’autres périphériques,

probablement de nouveaux périphériques spécialement inventés pour ce genre

d’utilisation.

9.2.2. Et demain ?

Une grande question de ce mémoire est de savoir comment les professionnels vont

pouvoir s’adapter à cette gestuelle dans l’espace, permanente et fatigante, si aucun

dispositif, tels que la souris ou le clavier, n’est ajouté.

Prenons en exemple le domaine de l’architecture, les architectes ont besoin de

dessiner des bâtiments et donc de créer des maquettes pour montrer le résultat qu’ils

envisagent à leurs clients. Dans cet exemple, on pourrait très bien utiliser du contenu 3D

combiner à une captation gestuelle pour créer et visualiser leurs futures constructions. Ceci

pourrait être étendu à d'autres domaines d'activité, comme la construction de voitures,

notamment pour l’ergonomie intérieure et/ou extérieure.

Dans plusieurs domaines d’activités oui, mais également sur plusieurs appareils. En

effet, ce projet pourrait être appliqué sur tous types de support ayant un dispositif de

captation gestuelle et une interface relief.


Ces deux dispositifs étant en pleine expansion, il n’est pas exclu de les retrouver

dans quelques années, combiner à des claviers virtuels. Ceci réglerait les problèmes liés à

la fatigue musculaire du fait de la répétition du geste, mais également ceux liés à la

précision du mouvement, pour les professionnels ou encore pour les personnes âgées.

Un étudiant en design d’interactivité à l’école de design de Nantes, Gabriel Martzloff,

a émis une proposition de gestuelle53. Ci-dessous un extrait de cette proposition, nommé

« Le SALUT » et correspondant au démarrage d’une interface gestuelle à reconnaissance

gestuelle :

Figure 51 : Extrait "Le code de la communication appliqué aux interfaces naturelles", par Gabriel Martzloff

Cet extrait montre bien que les gestes les plus naturels de l’Homme, tel que

l’inclination de tête, peuvent être utilisés pour activer un dispositif gestuel. Ce naturel du

gestuel est visible quand nous parlons. En effet, nous avons tendance à utiliser nos mains

pour parler.

53 Source: Le code de la communication corporelle appliqué aux interfaces naturelles


La solution proposée par Gabriel Martzloff utilise parfois des mouvements que nous

reproduisons sans nous en rendre compte. Le problème réside dans le fait que ces gestes

non contrôlés risqueraient d’être interprétés par le capteur alors que ce n’était pas le but

recherché par l’utilisateur.

9.2.3. Une solution plus adaptée ?

Une solution plus adaptée serait de n’utiliser que des gestes spécifiques basés sur

des gestes naturels. Par exemple, au lieu de faire une simple inclinaison de tête de haut en

bas, ce geste pourrait être doublé ou même combiné à une autre inclinaison de la tête,

mais de droite à gauche cette fois-ci. De cette manière, il serait pratiquement impossible

que le dispositif confonde cette action avec un geste non voulu. Cette combinaison étant

simple à apprendre et à utilisée à un moment qui ne se produit pas forcément

consécutivement, comme le démarrage ou l’arrêt d’une télévision par exemple.

Reprenons notre exemple de l’architecte, celui-ci doit pouvoir interagir avec

l’interface, pour pousser une porte, pour attraper et tourner la structure du bâtiment qu’il

vient de construire ou encore pour d’autres choses. Pour faire cela de façon simple, on

pourrait utiliser les mouvements suivants :

Pousser une porte Attraper la structure Tourner la structure

Mettre la main ouverte

doigts serrés, face au

capteur et à la porte

désirée, tout en poussant

vers l’avant.

Mettre la main ouverte

doigts serrés, face au

capteur et à la structure

désirée, et sérer le point.

Une fois la structure

attrapée, faire tournoyer le

poignet ou l’avant bras.

Ces mouvements restent simples et contrôlés. Ils peuvent être fait en étant assis, ce

qui contribue à la résolution de la fatigue gestuelle. Ces gestes ne risquent pas d’être

confondus avec des gestes non contrôlés grâce à la vitesse à laquelle ils sont effectués. En

effet, lorsque nous parlons avec les mains, nous faisons des gestes rapides de une


seconde voir moins, ici l’idée est de mettre deux secondes à faire le geste. Pour appuyer ce

geste, il faut également associé un aspect visuel, c’est-à-dire qu’il faut que l’utilisateur

sache où il se situe sur l’interface et sur quelle partie il va interagir. Lors de l’usage d’une

souris sur un ordinateur, un curseur apparaît pour que l’utilisateur comprenne où ses

mouvements se situent par rapport à l’interface. Ce principe se retrouve également sur

l’état des boutons sur un site web qui change au moment où on clique dessus. On pourrait

imaginer ici que les objets voulus suivent l’utilisateur tout au long du mouvement, ou encore

que ces mouvements soient représentés par une main, c’est ce qu’on appel la

« proprioception ». Ici cette proprioception est assistée, c’est-à-dire que c’est à travers

l’interface que l’utilisateur reconnaisse sa posture, ses gestes.

Le gestuel permet aux personnes handicapées des membres supérieurs (mains,

bras) de communiquer avec le système malgré leur handicape, ce que ne permet pas le

tactile. En effet, si le démarrage d’un dispositif fonctionne avec un hochement de tête il peut

donc très bien fonctionner en tournant le buste de gauche à droite mais aussi en levant une

jambe ou un pied par exemple.

La captation gestuelle est bien plus adaptée que le tactile du fait que l’on se place à

l’endroit où se trouve l’objet virtuel avec lequel on désire interagir. Que ce soit dans le

prototype d’écran 3D transparent ou dans le projet de recherche, Holodesk, de Microsoft,

un placement au niveau de l’objet même est effectué afin d’interagir avec lui et seulement

lui. La captation gestuelle est également plus adaptée que le tactile. En effet, une multi-

utilisation ne poserait pas de problèmes car les corps des utilisateurs sont tous reconnus

séparément. Avec une tablette tactile, il faudrait un échange permanent entre les

utilisateurs ou plusieurs tablettes. C’est pourquoi, il est essentiel de représenter les

utilisateurs sur l’écran. Chacun doit savoir où il se situe et avec quels objets il interagit.

Avec une reconnaissance gestuelle, un gain de temps considérable serait fait et une

navigation dans le futur bâtiment serait possible. Dans notre exemple, ceci ne serait donc

pas utile uniquement pour l’architecte mais également pour ses clients qui pourraient

tourner les maquettes dans tous les sens et ainsi ressentir une plus grande immersion. En

effet, ils auraient l’impression d’être à l’intérieur du bâtiment et de pouvoir se balader tout

naturellement comme ils le faisaient en vrai. Des précisions sur la définition de l’immersion

sont décrites dans la partie suivante.


9.2.4. L’immersion

L’immersion permet à un individu de se sentir présent dans un endroit qui est

totalement virtuel de sorte qu’il pense que ce mode virtuel est le monde réel54. Pour une

meilleure compréhension, reprenons l’exemple précédent de l’architecte. Grâce à

l’immersion les clients auront l’impression d’être à l’intérieur de leur futur domicile, alors

qu’en réalité ce n’est pas le cas. Ils pourraient, de ce fait, voir en temps réel et de façon

habituelle si l'agencement fait par l’architecte correspond bien à leurs attentes.

L’immersion peut également se faire d’une autre façon, par le son. Prenons pour

exemple le jeu Mario, pour faire comprendre à l’utilisateur que celui-ci ne dispose pas de

beaucoup de temps pour finir sa partie, la musique est accélérée et un pic de stress est

ainsi éprouvé par l’utilisation. Dans les films, la musique s’adapte à la scène pour susciter

la peur ou la tristesse. Les émotions peuvent donc être orientées de diverses façons.

Pour une utilisation encore plus réaliste, une immersion serait assez plaisante, mais

un retour de force serait essentiel, voir obligatoire.

9.2.5. Substitution du retour de force

Il existe plusieurs façons de substituer le retour de force. En effet, il est possible

d’ajouter des effets sur l’écran, cet usage est plus couramment utilisé sur les ordinateurs ou

les téléphones, où par exemple lorsqu’on clique ou appuie sur un bouton celui-ci s’enfonce

donnant l’impression qu’il a été réellement pressé. Ce qui n’est évidemment pas le cas.

Des effets comme des sortes de vibrations sont également ajoutés dans les jeux

vidéo lors de dégâts qui sont causés. Le joueur comprend qu’il vient de se faire tirer

dessus. Sur les Smartphones, ses vibrations ont également été mises directement sur le

support afin que l’utilisateur comprenne qu’il vient d’appuyer sur l’écran. Il ne se demande

pas si il a réellement appuyé ou non sur celui-ci.

54 Voir interview avec M. Edmond BOYER en annexe, questions trois et onze


Imaginons les gants de Minority report émettant des vibrations pour combiner à la fois

la partie sensorielle et la partie visuelle. Le retour de force peut être reproduit en utilisant un

autre sens que celui naturellement éprouvé par l’homme, lors qu’un réel contact physique

par exemple ou encore par d’autres éléments, vêtements.

Une autre manière de substituer le retour de force est souvent utilisée dans les jeux

vidéo : ajouter de la couleur. Prenons pour exemple un jeu de guerre où le but principal est

de tuer des gens. Pour faire comprendre à l’utilisateur qu’il a été touché la couleur rouge,

pour simuler le sang, est ajoutée. Un sentiment de peur et de nervosité est éprouvé lorsque

le joueur est touché et qu’il voit son sang à l‘écran. Le personnage virtuel de l’utilisateur

aurait alors des difficultés pour se déplacer. Faire ressentir un stimulus physique par un

signal visuel, c’est ce qu’on appelle la substitution sensorielle.

Toutes ces méthodes actuellement utilisées pour la 2D pourront également être

utilisées pour la captation gestuelle avec de la 3D. Reprenons en exemple les écrans 3D :

Lors d’une manipulation 3D, les seuls moyens de faire comprendre à l’utilisateur qu’il

« clique » à tel ou tel endroit, est de passer par un enfoncement sur les zones voulues. De

la même manière que lorsqu’on joue à la Wii ou la Kinect.


9.3. Futurs technologies

9.3.1. Prototype Google : Project Glass

55

Figure 52 : Prototype des lunettes augmentant la réalité

Il n’y a pas uniquement Microsoft qui effectue des recherches. En effet, comme

l’INRIA56, tous les grands acteurs de l’économie numérique tente d’anticiper les futures

évolutions. Google, par exemple, a dévoilé son futur prototype, les lunettes augmentant la

réalité, le Project Glass.

Google cherche pour le moment à recenser les réactions des citoyens afin de savoir

si le concept sera approuvé ou non. Pour cela, il a effectué une « vidéo-concept » en ce

sens 55.

Ces lunettes seraient placées sur le haut de la tête et composées d’un capteur photo,

de plusieurs écouteurs, d’un microphone, d’une puce GPS, mais également d’une

connexion au réseau au quotidien. L’innovation de ces lunettes réside principalement dans

le fait qu’un affichage d’informations est prévu sur celles-ci, c’est ce que l’on appelle de la

55 http://www.macgeneration.com/news/voir/240022/project-glass-google-imagine-des-

lunettes-augmentant-la-realite 56 Voir interview avec M. Edmond BOYER en annexe, question deux


réalité augmentée. Ainsi, nous verrons en plus de notre chemin, les informations

demandées.

Ce prototype est constitué d’une reconnaissance vocale et gestuelle pour indiquer au

système les différentes actions désirées. Afin d’afficher les informations, il se constitue

également d’une interface utilisateur naturelle (NUI). Ces interfaces naturelles prennent en

compte la constitution de l’Homme, c’est-à-dire qu’elles ne fonctionnent pas simplement

avec des périphériques de sorties, mais avec la voix, le gestuel ou encore le toucher. La

« nature » de l’Homme est donc prise en considération dans l’interaction avec l’interface.

Le principe de ces lunettes est donc de vous faciliter la vie, notamment lorsque vous

vous baladez dans la rue. Grâce à des indications de localisation, des affichages d’horaires

ou encore par le fait de répondre au téléphone par exemple, visibles dans la vidéo-concept

effectué par Google.

Ce nouveau principe de lunette montre une association des différentes technologies

de ces dernières années :

• Remplace le téléphone portable

• Permet de tracer des itinéraires grâce à la géolocalisation

• Possède la reconnaissance gestuelle combiné avec du Head Tracking

• Traite les données en temps réel

• Utile internet pour des échanges d’informations

• …

Ce prototype montre donc qu’une association des différentes technologies permettrait

d’obtenir une solution innovante et adaptée à une utilisation quotidienne.


11. Conclusion de la thèse

Le gestuel est encore perçu comme nouveau, mais avec l’évolution des recherches,

visible à travers les futurs télévisions 3D ou encore les lunettes de Microsoft, les politiques

de commercialisation se bases sur ces nouveautés technologiques. Dans quelques années

le gestuel deviendra quelque chose d’habituel, de courant.

La combinaison des différentes technologies vu précédemment, telles que la

captation audio et vidéo ou encore l’analyse comportementale et l’intelligence artificielle,

permettrait au gestuel de renforcer son utilisation et ainsi sa démocratisation au sein des

professionnels et du public. Ceci ne serait possible qu’en associant à la fois les nouvelles

technologies et les périphériques existants.

Ce mémoire démontre que cette multiple combinaison serait la plus adaptée sur nos

écrans reliefs pour l’interaction gestuelle avec du contenu 3D, du fait de l’absence

d’occultation, du multi-utilisateur et du fait qu’une interaction gestuelle est plus naturelle

pour interagir avec du contenu relief. Cependant, l’usage seul de la captation gestuelle ne

serait pas forcément la meilleure utilisation. En effet, combiner cette reconnaissance

gestuelle avec une tablette tactile, comme un clavier par exemple, comme ce fut décrit

dans des exemples de ce mémoire, constituerait un avantage certain.

Mais également sur d’autres domaines ou d’autres supports, tel que le prototype de

Google avec ces lunettes, qui permettent au public d’être mobile, tout en interagissant avec

leurs lunettes. Certes ces lunettes n’ont qu’une représentation 2D, mais pourquoi ne pas

imaginer les transposer en vision relief. Actuellement ce sont les utilisateurs qui doivent

apprendre à utiliser ces nouvelles interfaces, peut-être que dans les années futures se

seront les interfaces qui s’adapteront aux gestes des utilisateurs.

Bientôt, nous n’aurons même plus besoin de parler pour trouver notre chemin57,

contrairement aux lunettes de Google, il nous suffira de le penser. En effet, des chercheurs

et professeurs, tel que le professeur Tan LE, inventent des supports permettant de lire les

57 http://lexpansion.lexpress.fr/high-tech/le-jeu-video-controle-par-la-pensee-devient-une-

realite_157817.html


ondes cérébrales58, les interfaces qui en découlent s’appelle les BCI (Brain Computeur

Interface) ou ICN (Interface Cerveau Machine) en français. Ces recherches sont très

intéressantes et montrent que l’évolution des technologies est permanente.

Les nouvelles technologies évoluent si rapidement qu’on pourrait se demander de

quoi serait fait le monde de demain ? Un monde où l’on métriserait toutes les technologies

et où l’on pourrait les combiner sans limites ?

58 http://www.ladepeche.fr/article/2008/07/07/463088-des-jeux-video-controles-mentalement-

sont-desormais-une-realite.html


12. Bibliographie

• Benjamin Petit, Téléprésence, immersion et interaction pour la reconstruction 3D

temps-réel, 21 Février 2011, 144 pages

• Florent MICHEL, Vision et stéréoscopie, 2006, 18 pages

• Florent MICHEL, Stéréoscopie, 2006, 18 pages

• Fuchs, Moreau, Le traité de la réalité virtuelle T1, 380 pages

• Fuchs, Moreau, Le traité de la réalité virtuelle T2, 552 pages

• Gabriel Martzloff, Code de la communication corporelle appliqué aux interfaces

naturelles, 2012, 12 pages

• Marc BOURHI, Olivier AMATO et Philippe GERARD, Le livre blanc du relief (3Ds),

2011, 48 pages

• Martin HACHET, Benoit BOSSAVIT, Aurélie COHÉ, Jean-Baptiste DE LA RIVIERE,

Toucheo : Multitouch and Stereo Combined in a Seamless Workspace, UIST 2011, 28

Octobre 2011, 6 pages

• Olivier CAHEN, L’image en relief du film au numérique, Transvalor – Presses des

Mines, 2011, 28 pages

• Satyanarayan, Weibel, Hollan, Multitouch Interaction Techniques for Large Displays,

2010, 101 pages


13. Webographie

• 01net, « Visite dans l’antre des créateurs de Kinect », sur le site 01net, consulté

le 05/12/2011

http://www.01net.com/editorial/520070/visite-dans-l-antre-des-createurs-de-

kinect/520070

• 3DConnexion, « Qu’est ce qu’une souris 3D ? », sur le site de 3DConnexion,

consulté le 06/04/2012 http://www.3dconnexion.fr/supported-

software/anywhere.html?_s=8qutid3c545dqvmk99bm6d5st0

• Actu Jeu, « Details Nouvelle Nintendo (Prix, Vidéo, Sortie), sur le site Actu Jeu,

consulté le 13/06/2012 http://www.actu-jeu.fr/details-nouvelle-nintendo-wiiu-prix-

video-sortie.html

• Comme au cinéma, « Interview : Pina », sur le site CommeAuCinema, consulté le

24/01/2012

http://www.commeaucinema.com/interviews/pina,195115-note-85369

• Creapharma, « Mal des transports », sur le site Creapharma, consulté le

30/11/2011

http://www.creapharma.fr/

• Clubic, « Microsoft dévoile un prototype d’interface mêlant transparence et détection

de mouvements », sur le site Clubic, consulté le 06/04/2012

http://www.clubic.com/interfaces-homme-machine/actualite-478952-microsoft-

prototype-bureau-transparent-relief.html

• Design, « The HoloDesk : Microsoft Researching Virtual 3D Interaction », sur le site

Design, consulté le 06/04/2012 http://design.org/blog/holodesk-microsoft-

researching-virtual-3d-interaction

• Enfant-Ados, « Le mal des transports », sur le site Enfant-Ados, consulté le

17/01/2012

http://www.enfants-ados.com/sante/le-mal-des-transports.php

• Fubiz, « SixthSense interface », sur le site Fubiz, consulté le 07/12/2011

http://www.fubiz.net/2010/02/01/sixthsense-interface

• INRIA, « Capture et analyse de formes en mouvement », sur le site de l’INRIA,

consulté le 27/02/2012, http://www.inria.fr/equipes/morpheo

• INRIA, « PapARt : Réalité augmentée pour le dessin », sur le site de team.inria,

consulté le 27/02/2012


http://team.inria.fr/potioc/fr/scientific-subjects/papart/

• INRIA, « Toucheo », sur le site Youtube, consulté le 27/02/2012

http://www.inria.fr/domaines/perception-cognition-interaction

• INRIA, « Toucheo : Multitouch and Stereo Combined in a Seamless

Workspace », sur le site de l’INRIA, consulté le 16/12/2011

http://hal.inria.fr/docs/00/61/25/05/PDF/uistPreliminary.pdf

• Institue de la Myopie, « Fonctionnement de l’œil », sur le site de l’institut de la

myopie, consulté le 13/11/2011

http://www.institutdelamyopie.com/fonctionoeil.htm

• Journal du geek, « Microsoft invente le bureau en 3d transparent », sur le site

journaldugeek, consulté le 06/04/2012

http://www.journaldugeek.com/2012/02/28/microsoft-invente-le-bureau-en-3d-

transparent/

L’Express, « Le jeu vidéo contrôlé par la pensé devient une réalité », sur le site

L’Expansion, consulté le 06/04/2012 http://lexpansion.lexpress.fr/high-tech/le-jeu-

video-controle-par-la-pensee-devient-une-realite_157817.html

• L’Express, «L’idée du Hub numérique devient réalité », sur le site L’Expansion,

consulté le 11/06/2012 http://lexpansion.lexpress.fr/high-tech/l-idee-du-hub-

numerique-devient-realite_104949.html

• L’Usine Nouvelle, « Salon E3 : l’industrie française du jeu vidéo au rendez-vous »,

sur le site Usine Nouvelle, consulté le 13/06/2012

http://www.usinenouvelle.com/article/salon-e3-l-industrie-francaise-du-jeu-video-au-

rendez-vous.N175876

• La Dépèche, « Des jeux vidéos contrôlés mentalement sont désormais une

réalité », sur le site de La Dépèche, consulté le 06/04/2012

http://www.ladepeche.fr/article/2008/07/07/463088-des-jeux-video-controles-

mentalement-sont-desormais-une-realite.html

• Laboratoire Bordelais de Recherche en Informatique (LaBRI), « VR for Music », sur

le site labri, consulté le 27/02/2012 http://www.labri.fr/perso/hachet/Music/

• Le Figaro (27/11/2011), « La 3D se met en quatre », sur le site LeFigaro, consulté

le 01/12/2011

http://www.lefigaro.fr/hightech/2010/11/27/01007-20101127ARTFIG00005-la-3d-se-

met-en-quatre.php

• LEAP, « Say goodbye to your mouse and keybord », sur le site leapmotion,

consulté le 17/06/2012 http://live.leapmotion.com/about.html


• Ludovia, « Première mondiale : Immersion présente CubTile : l’innovation 3D

au bout des doigts ! », sur le site Ludovia.com, consulté le 02/12/2011

http://www.ludovia.com/news/news_238_premiere-mondiale-immersion-presente-

cubtile-l-inn.html

• Mac génération, « Google imagine des lunettes augmentant la réalité », sur le site

de Macgeneration, consulté le 06/04/2012

http://www.macgeneration.com/news/voir/240022/project-glass-google-imagine-des-

lunettes-augmentant-la-realite

• Musées des techniques, « Le rôle du cerveau dans la vision », sur le site Musées

des techniques, consulté le 10/11/2011

http://www.musees-des-

techniques.org/UploadFile/GED/Ressources/Ficheenseignant/ZVCF-

FICHE_ENSEIGNANT_3.pdf

• Nikopik, « Contrôler votre Mac avec des gestes grâce à la Webcam intégrée », sur

le site de Nikopik, consulté le 06/04/2012 http://www.nikopik.com/2012/03/controler-

votre-mac-avec-des-gestes-grace-a-la-webcam-integree.html

• Polytech, « La vision stéréoscopique », sur le site Polytech, consulté le

24/11/2011

http://users.polytech.unice.fr/~buffa/cours/java/internetEssi96_97/PROJETS/ciernia

k/article.html

• PrimeSense, « Our full 3D sensing solution », sur le site de PrimeSense, consulté le

06/04/2012 http://www.primesense.com/en/technology/115-the-primesense-3d-

sensing-solution

• Production Film 3D, « Une vidéo de Panasonic – Les bases d’un tournage en 3D

stéréoscopique », sur le site Production Film 3D, consulté le 17/12/2012

http://production-film-3d.com/une-video-de-panasonic-les-bases-dun-tournage-en-

3d-stereoscopique/

• Rahul ERAI, « Kinect, PointClouds and PCL », sur le site M Tech Computer Sc,

IIT Kanpur, consulté le 06/12/2011

http://www.cse.iitk.ac.in/users/rahule/thesis.html

• Romain Thuret (03/02/2010), « SixthSense : la fusion des mondes physiques et

numériques », sur le site Les numériques, consulté le 07/12/2011

http://www.lesnumeriques.com/sixthsense-fusion-mondes-physiques-numeriques-

n12609.html


• Semageek, « SixthSense l’intégration de l’information avec le monde », sur le

site de Semageek, consulté le 16/12/2011

http://www.semageek.com/sixthense-lintegration-de-linformation-avec-le-monde-

reel/

• Ted2012, « John Underkoffler points to the future of UI », sur le site de TED,


http://www.ted.com/talks/john_underkoffler_drive_3d_data_with_a_gesture.html

• Terific, « La Réalité Augmentée – Interrupteur », sur le site Terific, consulté le

18/01/2012

http://www.teferic.de/video/2/tag/%20artoolkit.html

• Université MLV, « Les technologies tactiles », sur le site IGM.Univ-mlv, consulté

le 07/12/2011

http://igm.univ-

mlv.fr/~dr/XPOSE2008/Les%20technologies%20tactiles/compo_pointage.html

• Vetopsy, « Perception visuelle : champ visuel et différentes visions », sur le site

Vetopsy, consulté le 18/11/2011

http://www.vetopsy.fr/sens/visu/visu_gen.php

• Wikipédia Foundation, INC. (29/11/2011), « Stéréoscopie », sur le site Wikipedia,


http://fr.wikipedia.org/wiki/St%C3%A9r%C3%A9oscopie

• Wikipédia Foundation, INC. (01/09/2011), « Vision binoculaire », sur le site

Wikipedia, consulté le 14/11/2011

http://fr.wikipedia.org/wiki/Vision_binoculaire

• Wikipédia Foundation, INC. (01/10/2011), « Accommodation », sur le site

Wikipedia, consulté le 16/11/2011

http://fr.wikipedia.org/wiki/Accommodation

• Wikitionaire, « Saillie », sur le site Wikitionaire, consulté le 30/11/2011

http://fr.wiktionary.org/wiki/saillie

• Wikipédia Foundation, INC. (06/09/2011), « Perception de la profondeur », sur le

site Wikipedia, consulté le 30/11/2011

http://fr.wikipedia.org/wiki/Perception_de_la_profondeur

• Wikipédia Foundation, INC. (11/11/2011), « Appareil stéréoscopique », sur le site

Wikipédia, consulté le 01/12/2011

http://fr.wikipedia.org/wiki/Appareil_st%C3%A9r%C3%A9oscopique


• Wikipedia Foundation, INC. (17/09/2011), « SixthSense », sur le site Wikipedia,


http://fr.wikipedia.org/wiki/SixthSense

• Wikipedia Foundation INC, « How a lenticular lens works », sur le site Wikipedia,


http://fr.wikipedia.org/wiki/Fichier:How_a_lenticular_lens_works.png

• Wikipedia Foundation INC (07/05/2011), « Virtools », sur le site Wikipedia, consulté

le 18/01/2012

http://fr.wikipedia.org/wiki/Virtools

• Youtube, « 3D Mouse used with Internet Explorer and Word », sur le site de

Toutube, consulté le 06/06/2012 http://www.youtube.com/watch?v=hmasl5-X-

ko&lr=1&feature=mhum

• Youtube, « Introduced the Leap », sur le site Youtube, consulté le 17/06/2012

http://www.youtube.com/watch?feature=player_embedded&v=_d6KuiuteIA

• Youtube, « PrimeSense Demo at CES 2012 », sur le site de Youtube, consulté le

06/04/2012 http://www.youtube.com/watch?v=_32XSdMafgU&feature=related


Table des matières des annexes

1. ANNEXE ....................................................................................................................................... 83

1.1. INTERVIEW DU 08/03/2012 .............................................................................................................. 83

1.1.1. Présentation et description des recherches .......................................................................... 83

1.1.2. Questions/Réponses ............................................................................................................. 84


1. Annexe

1.1. Interview du 08/03/2012

1.1.1. Présentation et description des recherches

Des membres du centre de recherche de l’INRIA consacrent leur temps à la

recherche de la captation gestuelle et à l’immersion des utilisateurs. Afin de mieux

comprendre les recherches effectuées par le centre de recherche, une interview avec M.

Edmond Boyer de l’INRIA de Grenoble a eu lieu le 8 Mars 2012.

M. Edmond BOYER

Responsable du projet « Capture et Analyses de Formes en Mouvement »

Et dirigeant de l‘équipe « MORPHEO » traitant ce sujet


A encadré M. Benjamin PETIT pour la rédaction de sa thèse :

« Téléprésence, immersion et interaction pour la reconstruction 3D temps-réel »

Possède un doctorat en informatique (1996)

Diplômé de l’université de Cambridge (1998)

A été professeur informatique

L’équipe MORPHEO souhaite développer des approches nouvelles pour la

perception et l'analyse de formes en mouvement. Les recherches associées s'organisent

selon les axes principaux suivants :

• l'acquisition de formes à partir de caméras hétérogènes

• l'analyse des formes

• l'analyse du mouvement

• les environnements immersifs et interactifs59

1.1.2. Questions/Réponses

1) Comment procédez-vous pour capturer et traiter les formes en mouvements ?

Quel matériel est utilisé ?

Nous utilisons plusieurs caméras numériques pour récupérer des modèles

géométriques (les formes des individus). Ces modèles géométriques sont reproduits sur

l'ordinateur grâce à différentes images capturées par les caméras (appelés modèles

virtuels).

Sur ces formes géométriques, des textures correspondant à l'apparence physique

d’une personne y sont plaquées.

59 http://www.inria.fr/equipes/morpheo


2) Quel est le but de vos recherches ?

Nos recherches sont menées par une équipe qui s'efforce de faire avancé les

connaissances dans le domaine de la capture et de l'analyse de formes en

mouvement. Ceci dans le but de résoudre les problèmes liés à la fois à la capture et à

l'analyse du mouvement et ainsi pouvoir utiliser ces connaissances pour de nouvelles

application, mais également pour faire évolué les applications existantes. Dans le domaine

du médical par exemple ou encore pour les futurs applications en 4D. Si ces recherches

permettent de faire des captures de mouvements en temps réel, un aspect interactif est

ajouté.

3) Avez-vous déjà fait des tests avec de vrais utilisateurs?

Deux aspects sont utilisés pour les tests.

Le premier est un aspect hors ligne. Etant hors ligne, il n'y a pas de vrais

utilisateurs.

Le deuxième aspect, quant à lui, est un aspect temps réel et de ce fait nécessite

l'implication de vrais utilisateurs.

Ce deuxième aspect a été testé et fonctionne parfaitement, l'utilisateur est immergé

dans un environnement virtuel, il se voit immerger et bouger en temps réel grâce à un

casque. Une modélisation fixe créée à partir de son apparence physique est également

réalisée et retranscrite dans le monde virtuel (toujours d'après le principe énoncé au part

avant.). L'utilisateur peut alors voir la retranscription en globalité qui est faite à partir de son

apparence.

Le casque permet à l’utilisateur d'être totalement immergé dans le monde virtuel

puisque celui-ci ne voit plus ce qui se passe dans le monde réel. Ce monde virtuel est donc

retranscrit par les lunettes afin de mettre l'utilisateur dans une totale immersion.


4) Pourquoi avoir retranscrit une modélisation fixe de la personne ?

Afin que celui-ci puisse interagir (jouer) avec lui-même. C'est grâce aux différentes

caméras qu'un "instant" de l'utilisateur est frisé (reconstruction des images prises pour un

moment donné) et qu'une modélisation fixe de la personne peut être obtenue.

5) Quelles différences y a-t-il entre vos recherches et le Kinect ?

Le Kinect est un système actif à cause de sa projection de points lumineux observé

par une caméra. Une carte de profondeurs est alors récupérée à partir d'une triangulation.

Nos recherches, quant à elles, sont passives, seules les caméras filment, plusieurs

images en ressortent, mais une seule image de la scène en est déduit à la fin.

Le contexte n'est donc pas le même. Aucun modèle virtuel de l'objet n'est réalisé pour

le Kinect, seul le mouvement est récupéré.

6) Quels sont donc les avantages et les limites des méthodes que vous utilisez ?

L'avantage est qu'un modèle virtuel complet est réalisé, une immersion totale est

alors possible, ce qui n'a jamais encore été le cas au part avant.

En général lorsqu'une immersion est faite, celle-ci ne l'est qu'en partie, par l'affichage

d'un avatar. Alors qu'ici, il s'agit d'une personne réelle. Ceci est un avantage est

terme d'interaction, la forme complète est donc récupérée et pas seulement

des mouvements de points particuliers avec des marqueurs.

L'inconvénient pour le moment est la précision du système qui est assez

approximatif. Au fur et à mesure des recherches, ceci s'améliore, mais les modèles ne sont

pas encore très précis, il n'y a pas un niveau de détails assez précis. Des artefacts sont,

pour le moment, encore visibles et les textures ne sont encore que semi-réalistes. Des

progrès sont donc encore à faire de ce côté là.

Des progrès sont également à faire au niveau du mouvement, car, pour le moment,

peu d'informations sont récupérées. Les recherches actuellement vont dans ce sens.


7) Comment contrer ces limites ?

Plus de recherches doivent être faites et obtenir ainsi de meilleurs modèles pour

capturer et retranscrire les mouvements parfaitement.

8) Est-ce que des outils supplémentaires pourraient ou devraient être utilisés pour

aider à contrer ces imperfections ?

Non, les outils actuellement utilisés suffisent, ce sont plutôt les méthodes utilisées qui

ne sont pas encore au point, qui sont encore à retravailler.

9) Pouvons-nous faire un bref récapitulatif ?

Pour faire court, nos méthodes sont assez proches des systèmes de Motion Capture,

sauf qu'on ne s'intéresse pas uniquement aux marqueurs, mais à la forme entière et qu'à la

fois, la géométrie et l'apparence sont récupérées. Cependant les concepts sont les mêmes.

10) J'ai vu que vous avez encadré M. Benjamin PETIT lors de ses recherches. Une

thèse en découle et M. PETIT explique qu'il essaye de rendre les utilisateurs

omniprésents et même téléprésents.

C'est M. PETIT qui a développé les outils actuels et à partir du moment où il est

possible de modéliser un objet en 3D en temps réel, il est possible de l'immerger dans un

monde virtuel. Cette environnement n'étant pas localisé, de la téléprésence est possible et

donc être ainsi immergé dans un environnement qui est distant du lieu où nous nous

trouvons.

11) J'ai justement lu dans la thèse de M. PETIT que des problèmes de transfert

d'apparence, d'accessibilité aux données et autres subsistaient.

Le problème est la latence du système, c'est à dire que si nous sommes immergé

dans un environnement distant avec d'autres personnes et si le système à un temps de

réaction, la latence du système différera. Et lorsque de l'immersion est faite, le temps de

latence doit être très court, sinon cela ne convient pas. Il y a des risques que cela mette


plus d'une seconde à modéliser d'autres personnes et ce n'est pas possible d'attendre à

chaque fois une seconde pour faire quelque chose.

Il y a effectivement un problème de latence du système en général. Il faut faire en

sorte que les bases temporelles soient les mêmes, donc il y a des problèmes de

synchronisation.

Cependant, ces autres problèmes qui subsistent ne sont pas de notre domaine de

recherche. Nous, nous nous intéressons réellement à la partie perception et analyse.

Il y a pleins d'autres applications dont nous n'avons pas parler ici qui concernent

l'analyse du mouvement, ici ce n'est pas de l'analyse mais de la téléprésence, des

environnements virtuels, plusieurs applications qui seraient non temps réels concerneraient

l'analyse.

12) Quel est votre ressenti personnel par rapport à vos recherches? Pensez-vous

que vos recherches vont être menées à bout, êtes-vous proche? Est-ce que vos

recherches pourront être utilisées à grande échelle ? Actuellement avec toutes les

nouvelles consoles qui existent, ceci est déjà plus ou moins mis en place. Est-ce que

ceci peut évoluer ?

Il y a plusieurs aspects, il y a l'aspect Kinect qui pour nous est très intéressant,

puisque désormais nous sommes capable d'expliquer au gens ce que nous faisons, ce qui

était plus compliqué avant. Avant, je prenais une demi-heure pour expliquer aux gens ce

que je faisais, maintenant je leur dis que je fais la Kinect. Ce qui répond très rapidement à

leur question.

Cependant la Kinect n'a pas répondu à l'ensemble du problème, ce n'est qu'une

solution partielle, mais ceci ouvre la voie à tout ce qui s'appel les interfaces gestuelles, qui

est beaucoup plus vaste. La Kinect n'est donc qu'une solution partielle, tandis que nous,

nous regardons des capteurs, du type de la Kinect bien sur, mais notre domaine de

recherche c'est vraiment d'utiliser un ensemble de capteurs et pas qu'un seul comme dans

la Kinect. Ensuite il y a tout ce qui est analyse derrière qui nous intéresse également en

dehors des aspects temps réels.


Nous, nous faisons une immersion complète, nous avons donc l'objet est entier ce qui

n'est pas le cas de la Kinect qui ne récupère que le mouvement pour l'instant.

Pour faire court, ce qui nous intéresse c'est d'aller plus loin que la Kinect, toujours

dans la même direction, mais beaucoup plus loin.

Si je pense que ceci va marcher? Oui bien sur, je ne le pense pas, j'en suis sur! Ce

n'est pas moi qui le décide, c'est le sens de l'évolution. La Kinect ne va pas en resté là, ceci

va aller beaucoup plus loin.

13) Il y a justement Microsoft qui a créé un prototype qui permet d'interagir avec du

contenu 3D. Grâce à un écran transparent, l'utilisateur place ses mains derrière

celui-ci et peut interagir avec le contenu affiché.

Il y a effectivement l'aspect interaction et l'aspect immersion qui sont deux choses

différentes, on peut effectivement jouer sur les deux.

Si seule de l'interaction est désirée, les outils type Kinect sont parfait pour l'instant.

En ce qui concerne l'immersion, il faut effectivement aller plus dans cette direction. Donc

ceci dépend de si on veut juste déplacer les objets 3D, alors là, on utilise des caméras, de

si on veut vraiment immerger les gens dans des environnements 3D.

14) Qu’en est-t-il de tout ce qui est retour haptique (retour de force) ?

L’aspect retour haptique est encore un autre problème, très complexe, qui nous ne

nous concerne pas, nous, nous nous intéressons qu’à la partie visuelle.

Il y a également beaucoup de problèmes dans l’aspect interaction, mais nous savons que

les interfaces gestuelles du type manipulation des objets fonctionnent assez bien depuis le

film de Spielberg, « Minority Report », où les images sont manipulées. Cette technologie

n’était pas connue du grand public, mais fonctionnait pourtant déjà. Et cette appréhension

d’attraper un objet, nous ne savons pas faire.

Nous ne savons pas comment faire pour faire ressentir le sentiment que l’objet est

dans la main. C’est assez difficile, on peut mettre des gants par exemple, mais le simple

fait de saisir un objet est déjà assez complexe. Actuellement pour saisir un objet dans ces

interfaces gestuelles, il faut « cliquer » pour attraper l’objet.


Il y a des paradigmes d’interactions derrière tout ceci sur lesquels il faut réfléchir, par

exemple est-ce que je peux saisir un objet sans cliquer, en l’attrapant d’une autre façon ?

Et bien ceci, nous ne savons pas faire.

Sur l’aspect interaction, il y a encore des choses sur lesquels on ne sait pas encore très

bien où l’on va.

15) Il y a actuellement des télévisions qui captent les gestes humain pour changer

les chaines par exemple. Cette technologie est entrain de se développer à grande

échelle. Mais ceci ne risque pas de déboussoler certaines personnes ou de

provoquer des malaises, étant donné que nous ne sommes pas habituer à utiliser ce

type de fonctionnement ? Tel que les symptômes de la cinétose lorsque les gens

regardent un film en 3D au cinéma ? Est-ce que vous pensez que ceci est possible ?

Je pense effectivement que dans quelques années il y aura des interfaces

gestuelles pour les télévisions de type Kinect.

Pour ce qui est du problème des malaises avec les écrans 3D, je ne pense pas, car

les écrans stéréoscopiques partent d’un modèle moyen pour faire la triangulation et ce

modèle moyen correspond plus ou moins aux gens. S’il ne nous correspond pas, on voit

deux images plutôt qu’une scène 3D. Donc effectivement c’est perturbant, mais sur une

interface gestuelle, tout ceci ne sera pas la cas, puisque ce ne sera pas le cerveau qui

interprètera les mouvements, mais le système, donc nous nous habitueront très vite à la

manière dont le système fonctionne. Ceci ne m’inquiète pas, les gens se sont bien habituer

à la Kinect.

16) Le projet SixthSense qui est développé par le MIT va mettre ses sources à

disposition du grand public, pensez-vous que le public en fera un bon usage ?

Des projets openSource en recherche, il y a en beaucoup et dans notre domaine, ces

sources ne vont pas nous aider pour nos recherches. La Kinect fait déjà beaucoup plus que

le projet SixthSense et les gens qui ont développés le capteur de la Kinect, la société

« PrimeSense », ont mis en partie leurs sources à disposition. Donc on peut réutiliser une

Kinect et développer nous-même nos projets.

mémoire master j zimmer : vision relief et interface homme-machine, quelle solution optimum ?

Documents