modÉlisation 3d pour la rÉalitÉ augmentÉe une … · modÉlisation 3d pour la rÉalitÉ...
Post on 10-Oct-2020
2 Views
Preview:
TRANSCRIPT
VINCENT THOMAS
MODÉLISATION 3D POUR LA RÉALITÉ
AUGMENTÉE Une première expérimentation avec un téléphone intelligent
Mémoire présenté
à la Faculté des études supérieures de l’Université Laval
dans le cadre du programme de maîtrise en sciences géomatiques
pour l’obtention du grade de Maître ès sciences (M.Sc.)
DÉPARTEMENT DES SCIENCES GÉOMATIQUES
FACULTÉ DE FORESTERIE, DE GÉOGRAPHIE ET DE GÉOMATIQUE
UNIVERSITÉ LAVAL
QUÉBEC
2011
© Vincent Thomas, 2011
Résumé
Depuis leur introduction, les téléphones intelligents n’ont cessé d’évoluer. Ceux-ci
intègrent généralement plusieurs composantes utiles (i.e. caméra numérique, récepteur
GPS, accéléromètres, boussole numérique et plus récemment le gyroscope) pour des
applications de Réalité Augmentée Mobile (RAM). Ce type d’application génère beaucoup
d’intérêt auprès du grand public qui se voit offrir une nouvelle manière d’explorer son
environnement. Afin d’obtenir une forte augmentation de la réalité en termes d’immersion
de l’utilisateur et des interactions qui lui sont proposées, ces applications de RAM
requièrent généralement un modèle 3D de l’environnement. Ce modèle 3D peut alors être
exploité selon trois finalités différentes au sein de l’application de RAM qui sont : 1) gérer
les occlusions; 2) aider au calcul de la pose (position/orientation) de la caméra de
l’utilisateur; 3) supporter les interactions et l’augmentation de la réalité. Cependant, ces
modèles 3D ne sont pas toujours disponibles à l’endroit où l’on souhaite augmenter la
réalité ce qui nuit au déploiement des applications de RAM n’importe où et n’importe
quand. Afin de surmonter cette contrainte, le présent projet de maîtrise a consisté à
concevoir une chaîne de production de modèles 3D adaptée au contexte des applications de
RAM dites fortement augmentées et facilement exploitable directement sur les lieux ciblés
pour l’augmentation. La chaîne de production élaborée a été implantée sur la plateforme de
l’iPhone 3G puis évaluée selon des critères d’exactitude, de rapidité, d’intuitivité et
d’efficacité de l’augmentation résultante. Les résultats de cette évaluation ont permis de
mettre en évidence la possibilité de modéliser en 3D un bâtiment simplement tout en
atteignant une exactitude sous les 5 mètres en environ 3 minutes à l’aide d’un appareil de
type téléphone intelligent.
ii
Abstract
Recently, a new genre of software applications has emerged allowing the general public to
browse their immediate environment using their smartphone: Mobile Augmented Reality
(MAR) applications. The growing popularity of this type of application is triggered by the
fast evolution of smartphones. These ergonomic mobile platforms embed several pieces of
equipment useful to deploy MAR (i.e. digital camera, GPS receiver, accelerometers, digital
compass and now gyroscope). In order to achieve a strong augmentation of the reality in
terms of user’s immersion and interactions, a 3D model of the real environment is generally
required. The 3D model can be used for three different purposes in these MAR
applications: 1) to manage the occlusions between real and virtual objects; 2) to provide
accurate camera pose (position/orientation) calculation; 3) to support the augmentation and
interactions. However, the availability of such 3D models is limited and therefore
preventing MAR application to be used anywhere at anytime. In order to overcome such
constraints, this proposed research thesis is aimed at devising a new approach adapted to
the specific context of MAR applications and dedicated to the simple and fast production of
3D models. This approach was implemented on the iPhone 3G platform and evaluated
according to precision, rapidity, simplicity and efficiency criteria. Results of the evaluation
underlined the capacity of the proposed approach to provide, in about 3 minutes, a simple
3D model of a building using smartphone while achieving accuracy of 5 meters and higher.
Avant-Propos
J’étais en 3e année au baccalauréat en génie géomatique à l’Université Laval et je sentais
donc le cadran de la « vraie » vie sur le point de sonner! Dans le but de conserver mon style
de vie étudiant pendant au moins deux ans de plus, j’ai discuté avec Jacynthe Pouliot sur le
sujet d’éventuelles études graduées. Elle m’a référé à Sylvie Daniel pour un contrat sur les
îlots de chaleur urbains. Par la suite, j’ai travaillé en alternance pour les deux seules
représentantes féminines de l’allée des profs du Casault. Après l’obtention d’un projet
GEOIDE par Sylvie, celle-ci m’a proposé une maîtrise dans les domaines du jeu vidéo, de
la modélisation 3D, de la réalité augmentée et de la mobilité. Assez difficile à refuser!
Sylvie et Jacynthe ont donc accepté d’être respectivement ma directrice et co-directrice,
tout un duo! J’aimerais donc les remercier à ce point pour leurs conseils, les pages rougies
de corrections, les questions surprenantes (qu’est-ce qu’un objet? qu’est-ce que la réalité?),
les bons moments et surtout de m’avoir accordé leur confiance tout au long du projet.
Aussi, j’ai eu le privilège de voyager à plusieurs endroits, entres autres, Jacynthe m’a
envoyé à Val d’Or puis Sylvie à Santa Barbara (une doit apprécier mon travail plus que
l’autre!). Mais ça ne s’est pas arrêté là, j’ai présenté mes travaux à Vancouver, Kingston,
Montréal, Calgary, Niagara Falls et Berlin. À mes deux cheffes, ce fût un plaisir, vous êtes
les meilleures!
J’aimerais remercier ma famille : Guillaume, Alain, Johanne et Élizabeth pour leur support
inconditionnel et les déjeuners au resto avant la route vers Québec. Désolé de ne pas avoir
appelé plus souvent (oui oui m’man je suis toujours vivant!). Une pensée spéciale pour mes
vieux potes de Laval (surtout ne changez pas), Laurent, Ghislain et Joëlle qui sont toujours
aussi fous (est-ce que vous vous rappelez de quelque chose du voyage à Woodstock, NY. ?).
J’ai eu la chance de graduer du bac avec la plus belle gang de géomatique qui soit : Jean, la
mère à Jean, POM, Phil, Isa, Émilie, Franck & Nath, Jim & Julie, Félix, Sébast, San &
Karine, Brun & Judith-Marie, Julie & Mathieu, Denis, Jessica L., Jessica S., Christine,
Dave, Marilou, Sam et mon éternelle partner Eugénie! C’est toujours un plaisir de se
revoir! À mes deux compères et amis de la légendaire RedHouse, Audrey et Yan qui ont
toujours des histoires incroyables à raconter, YOU ROCK!!
iv
Pour leur dévouement pour la géomatique, j’aimerais souligner le travail du bureau de
direction de l’ACSG-Champlain.
J’ai beaucoup apprécié côtoyer les gens qui ont fait du CRG un endroit agréable à
travailler malgré les nuages d’amiante : Eve, Mathieu P. & Nadia, Tania, Mathieu B,
Matthieu, Princesse Mojgan & Kyarash, Danielle, Élodie, Karine H., Édith, Hedia,
Véronique, Valérie, Mamadou, Naouraz, Attiyeh, Joanie, Fouquet, Gilles & Karine, David,
Christian, Stéphanie, Mike, Louis-Étienne, Nouri, Dan, J-R, et surtout Éric et Alborz les
deux irréductibles du « coin à Jacynthe ». Un gros merci à Carmen (et al.) pour tout le
plaisir des BBQ et de la raquette à Neuville et dans le quotidien du Département. Aussi, à
ceux rencontrés lors de conférences qui sont devenus des amis Amit, Krista, Greg, Wook,
Tim, Adel et Steven.
J’aimerais remercier GEOIDE pour le soutien financier tout au long de ma maîtrise, ainsi
que M. Stéphane Côté pour avoir accepté d’être mon examinateur externe et pour avoir
suivi mes travaux. De plus, à Tobias Höllerer qui m’a accueilli toute une semaine dans son
équipe de recherche en Californie. Un dernier remerciement à Mme. Chantal Arguin et
l’équipe chez Groupe Trifide pour les précieuses informations qui nous faisaient défaut.
Ma vie d’étudiant est terminée (pour l’instant), mais je vais y garder la folie de la jeunesse
toute ma carrière et toute ma vie.
Il y a (XXXX) km d’ici (nom d’une ville éloignée). Nous avons un demi-paquet de
cigarettes, un réservoir plein d’essence, il fait noir et nous avons nos lunettes noires… EN
ROUTE!
- Citation des Blues Brothers dite avant chacun de nos fameux Road Trips (dont celui
sans arrêt jusqu’en Floride, un soir de Noël à une heure de préavis parce qu’on
avait rien de mieux à faire)
Musique écoutée pendant la rédaction : Mad Joker, Brian Wilson, The Rolling Stones, The
Who, Green Day, Beastie Boys, Muse, The Ramones, Iron Maiden & Bob Dylan
v
À Guillaume, Alain et Johanne
Table des matières
Résumé ..................................................................................................................................... i Abstract .................................................................................................................................. ii
Avant-Propos ........................................................................................................................ iii Table des matières ................................................................................................................. vi Liste des tableaux ................................................................................................................ viii Liste des figures ..................................................................................................................... ix Chapitre 1 – Introduction ...................................................................................................... 13
1.1. Mise en contexte .................................................................................................. 13
1.1.1. Concept de réalité augmentée mobile ....................................................... 13
1.1.2. Réalité fortement augmentée ..................................................................... 15
1.1.3. Réalité augmentée n’importe où, n’importe quand .................................. 16
1.2. Problématique ..................................................................................................... 18
1.3. Objectifs ............................................................................................................... 20
1.3.1. Objectif principal ......................................................................................... 20
1.3.2. Premier sous-objectif .................................................................................. 21
1.3.3. Deuxième sous-objectif ............................................................................... 21
1.3.4. Troisième sous-objectif .............................................................................. 22
1.4. Méthodologie ....................................................................................................... 22
1.5. Cadre expérimental ............................................................................................. 25
1.6. Organisation du mémoire ................................................................................... 26 Chapitre 2 – Revue de littérature .......................................................................................... 27
2.1. Introduction ........................................................................................................... 27 2.2. Principes de la RAM ............................................................................................. 27 2.3. Applications existantes ......................................................................................... 35
2.3.1. Les applications de visite touristique ............................................................ 35 2.3.2. Les applications de jeu .................................................................................. 37
2.3.3. Les applications de gestion des infrastructures ............................................. 40 2.3.4. Les applications sociales issues du Web 2.0 ................................................. 41
2.4. Gestion des occlusions dans les applications de RAM ......................................... 43
2.4.1. Introduction ................................................................................................... 43 2.4.2. Utilisation d’un modèle 3D ........................................................................... 43
2.4.3. Utilisation d’algorithmes de vision numérique et de composantes
physiques ...................................................................................................................... 45
2.4.4. Utilisation d’approches semi-interactives ..................................................... 47 2.5. Les modèles 3D et l’aide au calcul de la pose de la caméra. ................................ 49
2.5.1. Introduction ................................................................................................... 49 2.5.2. Modèle 3D par arêtes ou surfaces ................................................................. 50 2.5.3. Modèle 3D texturés ....................................................................................... 51
2.5.4. Panoramas ..................................................................................................... 52 2.6. Les modèles 3D et le support à l’augmentation et aux interactions ..................... 54
2.6.1. Introduction ................................................................................................... 54 2.6.2. Support aux interactions ............................................................................... 54
2.6.3. Support à l’augmentation .............................................................................. 58
vii
2.7. Conclusion du chapitre ......................................................................................... 60 Chapitre 3 – Modèles 3D et augmentation de la réalité : caractéristiques et taxonomie ...... 61
3.1. Introduction ........................................................................................................... 61 3.2. Taxonomie : Modèles 3D et augmentation de la réalité ....................................... 63
3.2.1. Description générale ..................................................................................... 63 3.2.2. Méthodes d’acquisition et de traitement des données géospatiales .............. 66 3.2.3. Spécifications des modèles 3D ..................................................................... 84
3.2.4. Niveaux d’augmentation ............................................................................... 93 3.2.5. Liens entre les modèles 3D et les niveaux d’augmentation ........................ 102 3.2.6. Cas d’étude ................................................................................................. 113
3.3. Détermination des caractéristiques requises pour une chaîne de production de
modèles 3D adaptée aux applications de RAM .............................................................. 119
3.4. Conclusion du chapitre ....................................................................................... 121 Chapitre 4 – Modélisation 3D pour la réalité augmentée mobile dans un environnement non
préparé ................................................................................................................................ 123
4.1 Contributions ............................................................................................................ 123
4.2 Corps de l’article ....................................................................................................... 123 4.2.1 Introduction ..................................................................................................... 125
4.2.2 Mobile Augmented Reality Operational Constraints...................................... 126 4.2.3 3D Modeling Solution Specifications for Unprepared Environment ............. 129 4.2.4 Fast and Easy 3D Modeling Approach for Smartphones ............................... 131
4.2.5 iModelAR Prototype ....................................................................................... 133 4.2.6 Conclusions and Future Work ........................................................................ 141
References ....................................................................................................................... 142 4.3 Compléments à l’article ............................................................................................ 144
Chapitre 5 – Conclusion ..................................................................................................... 147 5.1. Retour sur les objectifs du projet et la recherche effectuée ................................ 147
5.2. Contributions de la recherche ............................................................................. 151 5.3. Perspectives ........................................................................................................ 152
Bibliographie ...................................................................................................................... 158
Annexe 1 – Types de modèles 3D ...................................................................................... 165
Liste des tableaux
Tableau 3.1 - Niveaux d'augmentation de la réalité ............................................................ 101 Tableau 3.2 - Caractéristiques du modèle 3D pour la gestion des occlusions .................... 105
Tableau 3.3 - Niveau de détails et informations sémantiques d’un modèle 3D et exemples
d’interactions possibles en contexte de jeu ................................................................. 112 Table 4.1 - iModelAR accuracy analysis ............................................................................ 137 Table 4.2 - List of performances of iModelAR .................................................................. 139
Liste des figures
Figure 1.1 - Continuum réalité-virtualité (traduction libre), (Milgram, et al. 1994) ............ 13 Figure 1.2 – Un exemple des premières solutions de RAM élaborées impliquant une
configuration d’équipements peu ergonomique : portable et GPS sur le dos de
l’utilisateur, casque et centrale inertielle sur sa tête, casque vidéo pour la visualisation
de l’augmentation (Thomas, et al. 2002) ..................................................................... 15 Figure 1.3 - Diagramme de la méthodologie utilisée afin de concevoir et évaluer une chaîne
de traitement adéquate pour la production rapide de modèles 3D en vue de mettre en
œuvre des applications de réalité fortement augmentée mobile. .................................. 25
Figure 2.1 - a) Utilisation d’une approche de vision numérique afin de cartographier
l’environnement et b) augmentation de l’environnement sur la base des points saillants
3D obtenus lors de l’étape de cartographie (Williams et al. 2007) ............................... 30 Figure 2.2 - Ajout d'un marqueur dans l'environnement, b) augmentation de la réalité
(http://sndrv.nl/ARflashmob/) ....................................................................................... 31 Figure 2.3 - Schéma de la projection d’un objet virtuel dans le plan image d’une caméra .. 32
Figure 2.4 - Distorsion entre deux images prises du même endroit avec une distance focale
différente, donc variation d’un des paramètres intrinsèques (photos : Jean-Jacques
Milan) ............................................................................................................................ 34 Figure 2.5 - a) Annotation 2D d'un restaurant (Feiner, et al. 1997) b) équipement
nécessaire à la Touring machine (i.e. récepteur GPS, ordinateur portable, visiocasque)
(Feiner, et al. 1997) ....................................................................................................... 37
Figure 2.6 - a) Affichage d’une voiture virtuelle avec gestion des occlusions, b) sans
gestion des occlusions (image de la voiture: © Disney / Pixar) ................................... 37 Figure 2.7 - Modèle 2D de la réalité intégrant la position de l'utilisateur (point rouge) et des
points d'intérêts (carrés bleus et rouges) (Klopfer et Squire 2007)............................... 38 Figure 2.8 - Capture d'écran du jeu Human Pacman (Cheok, et al. 2003) .......................... 40
Figure 2.9 - Infrastructure souterraine virtuelle (Schall, et al. 2009) ................................... 41 Figure 2.10 - Capture d'éran de Layar avec articles de Wikipedia géolocalisés (image :
Danie van der Merwe, www.flickr.com) ...................................................................... 42
Figure 2.11 - L’application iButterfly a) papillon virtuel dans l’environnement b) utilisation
de celui-ci afin d’obtenir un rabais sur un produit ........................................................ 42 Figure 2.12 - Gestion de l’occlusion entre un élément réel (i.e. le bâtiment) et un élément
virtuel (i.e. le pot à thé) dans un environnement de réalité augmentée. ....................... 44 Figure 2.13 - Les différentes étapes intervenant dans l’utilisation d’un modèle 3D pour
gérer les occlusions dans l’application ARQuake (Thomas, et al. 2002) ...................... 45 Figure 2.14 - a) panorama couleur, b) panorama 3D, les régions foncées sont plus près de
l'utilisateur (Wither, et al. 2008) ................................................................................... 46 Figure 2.15 - Occlusion d'un objet virtuel (la Vénus de Milo) par un objet réel (Wither, et
al. 2008) ........................................................................................................................ 47
Figure 2.16 - Approche semi-interactive de modélisation pour la gestion des occlusions
(Traduction libre) (Lepetit et Berger 2000) .................................................................. 48 Figure 2.17 - Gestion des occlusions par un objet à géométrie complexe (Lepetit et Berger
2000) ............................................................................................................................. 48 Figure 2.18 - Extraction des edgels dans une image (Reitmayr et Drummond 2006) .......... 51
x
Figure 2.19 - a) Modèle 3D avec les points saillants et les arêtes, b) comparaison du modèle
3D avec l'image en cours, c) calcul de la pose de la caméra et augmentation de la
réalité (Kim, et al. 2007) ............................................................................................... 52 Figure 2.20 - Couverture de Google Street View en bleu (http://gmaps-
samples.googlecode.com/svn/trunk/streetview_landing/streetview-map.html) ........... 53 Figure 2.21 - Estimation de l'orientation d’un cliché par éléments semblables entre la vue
caméra et le panorama (Yazawa, et al. 2009) ............................................................... 53
Figure 2.22 - Interactions entre les joueurs du jeu Human Pacman (Cheok, et al. 2003) .... 55 Figure 2.23 - Un personnage virtuel 3D pose le défi d'identifier correctement un blason à
l'utilisateur (Herbst, Ghellah et Braun 2007) ................................................................ 56 Figure 2.24 - a) et b) Interaction entre le joueur et une fenêtre d'un bâtiment réel (Reitmayr
et Drummond 2006) ...................................................................................................... 57
Figure 2.25 - Joueur et virus du jeu Epidemic Menace (Lindt, Ohlenburg et Pankoke-
Babatz, et al. 2007) ....................................................................................................... 58 Figure 2.26 - Avion virtuel 3D et ombrage sur le bâtiment derrière (Lepetit et Berger 2000)
...................................................................................................................................... 59
Figure 2.27 - Un modèle 3D sous-jacent est utilisé afin d’appliquer différentes textures 2D.
(Hengel, et al. 2009) ..................................................................................................... 60
Figure 2.28 - Objet virtuel 3D juxtaposant un bâtiment réel (Thomas, et al. 2002) ............. 60 Figure 3.1 - Taxonomie : Modèles 3D et augmentation de la réalité ................................... 65 Figure 3.2 - Continuum 1 - techniques d'acquisition et de traitement .................................. 66
Figure 3.3 - Modélisation 3D du Merlion de Singapour par le logiciel PhotoModeler
(www.photomodeler.com/applications/architecture_and_preservation/examples.htm)
...................................................................................................................................... 73 Figure 3.4 - Arpentage en Égypte ancienne, scène du tombeau de Menna (Schultz 1983) . 74
Figure 3.5 - a) Sytème LiDAR statique sur trépied (photo : David Monniaux) b) Nuage de
points représentant une maison (www.formz.com/forum2/messages/16/31092.jpg) c)
Processus de modélisation 3D (détermination des arêtes des objets, lignes de couleurs)
(www.kubitusa.com) ..................................................................................................... 76 Figure 3.6 - a) Voiture équipée de caméras (EarthMine), b) Panorama et huit points de vue
différents (Google StreetView) ..................................................................................... 78 Figure 3.7 - a) nuage de pixels 3D, b) Modélisation 3D des surfaces (en blanc) formant les
bâtiments présents dans la scène (Earthmine, vidéo promotionnelle) .......................... 79 Figure 3.8 - Modélisation 3D par un maillage triangulaire (en bleu) (vidéo promotionnelle,
Groupe Trifide) ............................................................................................................. 79 Figure 3.9 - Système LiDAR embarqué sur un camion (LiDAR Titan d’Ambercore) ........ 80 Figure 3.10 - Système de relevé LiDAR Streetmapper (Haala, et al. 2008) (traduction libre
des termes) .................................................................................................................... 81 Figure 3.11 - GeoPortail, Modèles 3D de la ville de Paris ................................................... 84
Figure 3.12 - Continuum 2 – Spécifications des modèles 3D .............................................. 85 Figure 3.13 - Lien entre l'information sémantique à et la géométrie pour un modèle 3D de
bâtiment (Kolbe, Nagel et Stadler 2009) ...................................................................... 88 Figure 3.14 - Modèle 3D réalisé à partir de photographie terrestres (Reitmayr et Drummond
2006) ............................................................................................................................. 89
Figure 3.15 - La Faculté de Mathématique de TU Delft, a) Modélisation dans AutoCAD
2007 à partir des données d’arpentage, b) Modèle final texturé, vu dans Google
Sketchup (Pop 2008) ..................................................................................................... 90
xi
Figure 3.16 - Information 3D dans un panorama, le curseur en bleu suit la géométrie du
panorama en a) sur le sol, b) sur le mur de face c) sur le mur de côté. (Bing Street-side)
...................................................................................................................................... 91 Figure 3.17 - Information sémantique dans Street View (noms des rues et des attraits) ...... 91 Figure 3.18 - a) Emplacements des prises de vue (points rouges) et b) modèle 3D résultant
(Grzeszczuk, et al. 2009) .............................................................................................. 92 Figure 3.19 - Reconstruction du Lindenmuseum de la ville de Stuttgart en Allemagne
(Haala, et al. 2008) ........................................................................................................ 93 Figure 3.20 - Continuum 3, Niveaux d'augmentation ........................................................... 96 Figure 3.21 - a) Utilisateurs d'une application de RAM de niveau 1, b) Écran de jeu
présentant la position de l'utilisateur (i.e. point rouge) et des points d'intérêts (i.e. les
carrés bleus et rouges) (Klopfer et Squire 2007) .......................................................... 97
Figure 3.22 - a) Pochette de l'Album Abbey Road originale, b) Application Layar recréant
la scène .......................................................................................................................... 99 Figure 3.23 - Continuums 2 et 3 (modèles 3D et niveaux d’augmentation) ....................... 103
Figure 3.24 - Zombie-robot virtuel situé derrière une fenêtre réelle semi-transparente ..... 106
Figure 3.25 - Application de visualisation de tuyaux souterrains (Schall, et al. 2009) ...... 107 Figure 3.26 - Vue en plan du terrain. En bleu, position réelle de l’utilisateur (A), de la
Maison Blanche (B), de la canalisation à poser (C) et de la borne fontaine (D). En
rouge, position calculée de l’utilisateur (E), du modèle 3D géoréférencé d’une manière
inexacte de la Maison Blanche (F) et de la canalisation à poser (G). ......................... 109
Figure 3.27 - Écran de visualisation, en réalité augmentée, de l’entrepreneur si a) Modèle
3D géoréférencé d’une manière inexacte de la Maison Blanche, la borne fontaine
apparaît à gauche b) Modèle 3D bien géoréférencé, la borne fontaine apparaît à droite
.................................................................................................................................... 110
Figure 3.28 - Précision du positionnement de la caméra, images du haut, exemple de génie
civil, a) Canalisation mal positionnée par rapport à l’utilisateur b) Canalisation bien
positionnée, images du bas, exemple de jeu de RAM c) élément virtuel mal positionné
qui semble flotter, d) élément virtuel bien positionné ................................................ 111 Figure 3.29 - Capture d'écran du jeu MadCity Mystery, analyse d'un poisson .................. 114
Figure 3.30 - Points d'intérêts dispersés sur la représentation cartographique du territoire
(Squire et Mingfong 2007). ........................................................................................ 115
Figure 3.31 - Layar et quelques couches d'information 2D proposées à l’utilisateur à des
fins de visualisation (www.layar.com) ....................................................................... 117 Figure 3.32 - a) et b) Market Hall de Rotterdam en construction, modèle 3D du bâtiment
terminé vu sous deux angles différents (www.layar.com) .......................................... 117 Figure 3.33 - a) Équipement de jeu, b) Marqueur sur un mur, c) Scène d'ARQuake (le
modèle 3D est visible par un quadrillage rouge et blanc) ........................................... 119 Figure 4.1 - Reality-Virtuality Continuum (Milgram, et al. 1994) ..................................... 127
Figure 4.2 - 3D coordinates calculation of a building’s top corner .................................... 132 Figure 4.3 - Citizen-based generic 3D modeling approach for smartphones ..................... 133 Figure 4.4 - a) User at location, b) Pinning down the building’s corners in the cartographic
view (A); select the position of the graphic 3D element (B); user’s position (C) ...... 135 Figure 4.5 - a) User at location, surveying a building’s corner, b) Surveying interface of the
photographic view ....................................................................................................... 135 Figure 4.6 - a) & b) Rendering of the 3D graphic element according to the user’s position
and orientation while correctly managing occlusions ................................................. 136
xii
Figure 4.7 - Marker at ground level corresponding to the roof where the red cross is ....... 138 Figure 5.1 - Gestion des occlusions en temps réel dans l’application iModelAR .............. 150
Figure 5.2 – Modélisation factice selon une approche similaire à celle de Sketchup en temps
réel sur un appareil mobile .......................................................................................... 154 Figure 6.1 – Modèle 3D de type fil de fer (Wikipedia) ...................................................... 166 Figure 6.2 - Modèle 3D par frontières (B-Rep) (image par Hay Kranen) .......................... 166 Figure 6.3 - Modélisation 3D à partir d’une surface par une a) translation b) rotation (De la
Losa 2000) .................................................................................................................. 167 Figure 6.4 - Modélisation 3D par CSG (Wikipedia) .......................................................... 168 Figure 6.5 - a) Modélisation 3D par voxels (De la Losa 2000) et b) division de l’espace par
octree (Wikipedia) ...................................................................................................... 168 Figure 6.6 - Modélisation 3D par instanciation de primitives (De la Losa 2000) .............. 169
Figure 6.7 - a) tétraèdre (Wikipedia) b) solides géologiques 3D formés par assemblage de
tétraèdres (Desgagné 2010) ........................................................................................ 169
13
Seul l’inconnu épouvante les hommes. Mais pour quiconque l’affronte, il n’est déjà plus l’inconnu –
Antoine de Saint-Exupéry
1. Chapitre 1 – Introduction
1.1. Mise en contexte
1.1.1. Concept de réalité augmentée mobile
Google Trends nous révèle que le volume de recherche par les internautes du terme
augmented reality connaît un essor fulgurant depuis 2009. Cela reflète une tendance forte
du passage de cette technologie du domaine de la recherche vers le grand public. Le
concept de Réalité Augmentée (RA) est souvent expliqué à l’aide du continuum Réalité-
Virtualité de Milgram et al. (1994) (cf. Figure 1.1). À l’extrémité gauche de ce continuum
se trouve la réalité, c’est à dire l’environnement réel au sein duquel se situe une personne.
Celle-ci perçoit cet environnement directement ou par l’intermédiaire d’une caméra vidéo.
La virtualité correspond à un environnement de synthèse qui n’existe pas dans notre monde
réel. Elle se situe à l’extrémité droite du continuum. Il est nécessaire de disposer de
technologies de visualisation (ex. écran d’ordinateur, visiocasque) pour percevoir cette
virtualité. Entre ces deux extrémités, se trouve les environnements de réalité mixte, qui
impliquent à la fois des objets virtuels et réels. La réalité augmentée, qui se situe tout juste
à la droite de la réalité sur le continuum, est un environnement réel au sein duquel des
objets virtuels sont intégrés. Si l’environnement est virtuel et que des objets réels (ex. flux
vidéo d’une caméra filmant une scène en direct) y sont présents, le terme de virtualité
augmentée s’applique.
Figure 1.1 - Continuum réalité-virtualité (traduction libre), (Milgram, et al. 1994)
14
La réalité augmentée est qualifiée de mobile si l’utilisateur est son propre avatar1 et si sa
position dans l’application de RA reflète ses déplacements dans son environnement réel
(Broll, et al. 2008). Dans ce contexte, il est nécessaire de suivre et localiser en tout temps
l’utilisateur en fonction de sa mobilité. Le domaine de la réalité augmentée mobile
comporte ainsi plusieurs problématiques communes avec le domaine de la géomatique. Ces
problématiques géomatiques seront mises de en avant-plan au fur et à mesure de la revue de
l’existant concernant les applications de Réalité Augmentée Mobile (RAM) (cf. Sections
1.1.2 et suivantes).
Depuis peu, les applications de RAM connaissent un essor sans précédent. Des revenus de
l’ordre de plus de 730 millions USD sont prévus pour 2014 pour cette industrie (Holden
2009). Cette effervescence coïncide avec l’arrivée de la nouvelle génération de téléphones
intelligents dont fait partie l’iPhone d’Apple par exemple. Ces appareils sont puissants,
ergonomiques et intègrent plusieurs composantes utiles à la mise en œuvre d’applications
de RAM (le chapitre 2 apportera plus de détails sur la mise en œuvre d’une application de
réalité augmentée). En effet, ils possèdent généralement un récepteur GPS (Global
Positioning System) pour la localisation de l’utilisateur, des accéléromètres et une boussole
numérique pour l’orientation de l’appareil dans l’espace ainsi qu’une caméra numérique.
En ayant en tout temps la connaissance de la position et de l’orientation de la caméra de
l’utilisateur (i.e. les paramètres extrinsèques de la caméra), l’intégration d’objets virtuels
dans la réalité de l’utilisateur vue au travers du flux vidéo devient alors possible. Avant la
miniaturisation de ces équipements et la convergence entre ordinateurs de poche et
téléphones intelligents, l’essor de la RAM a été plus lent compte tenu des appareils
dispendieux et peu ergonomiques utilisés alors (cf. Figure 1.2) limitant le nombre de
travaux de recherche menés dans ce domaine et par le fait même l’intérêt de l’industrie et
du grand public pour cette technologie.
Les applications de RAM peuvent être dédiées aussi bien à des environnements intérieurs
(ex. visite touristique d’un musée) qu’à des environnements extérieurs (ex. visite
touristique d’une ville). Cependant, les équipements utilisés et les problématiques relatives
1 L'avatar, ce personnage virtuel incarné par le joueur, est ainsi la projection numérique d'une personne dans
un monde parallèle artificiel. L’étymologie du mot avatar origine du sanskrit avatara désignant chacune des
incarnations successives du dieu Visnu. (Office québécois de la langue française, Le grand dictionnaire
terminologique)
15
à leur mise en œuvre diffèrent généralement. Dans le cadre du présent projet de recherche
ainsi que dans la suite du document, nous nous intéresserons uniquement au contexte
spécifique de la RAM dans des environnements extérieurs.
Figure 1.2 – Un exemple des premières solutions de RAM élaborées impliquant une
configuration d’équipements peu ergonomique : portable et GPS sur le dos de l’utilisateur,
casque et centrale inertielle sur sa tête, casque vidéo pour la visualisation de l’augmentation
(Thomas, et al. 2002)
1.1.2. Réalité fortement augmentée
La multitude d’applications de RAM récemment disponibles possèdent un niveau
d’augmentation de la réalité qui est variable. Certaines sont dites « faiblement
augmentées » et consistent généralement à afficher sur l’écran de la plateforme mobile (ex.
téléphone intelligent, PDA2) des éléments multimédias associés à des points d’intérêts
localisés à la surface de la Terre (ex. Klopfer et Squire (2007) et Squire et Mingfong
(2007)). Les éléments multimédias sont affichés en fonction de la proximité spatiale de
l’utilisateur vis-à-vis des points d’intérêts recensés. Un point d’intérêt est un élément réel
significatif à la surface terrestre (ex. sommet d’une montagne, commerce). Ces points
d’intérêt peuvent être augmentés, i.e. enrichis, par différents types de données multimédias
(ex. image, vidéo, texte, modèle 3D) qui sont géoréférencées3 par rapport aux coordonnées
2 Personal Digital Assistant
3Un élément géoréférencé indique que des coordonnées dans un référentiel global, soit 2D (ex.
latitude/longitude) ou 3D (ex. latitude/longitude/altitude), y sont rattachées.
16
géographiques du point d’intérêt auquel elles sont associées. Les applications dites
« fortement augmentées » offrent un rendu visuel plus réaliste que celui des applications
faiblement augmentées impliquant notamment une gestion cohérente des objets virtuels
dans le monde réel (i.e. prise en compte des occlusions) et la possibilité de faire interagir
éléments réels et virtuels. Tous ces aspects contribuent à rendre l’expérience plus
immersive pour l’utilisateur. Le renforcement de l’immersivité et du réalisme des
applications de RA vise à accroitre le sentiment de présence de l’utilisateur au sein de ce
monde augmenté d’éléments virtuels (Milgram, et al. 1994). Que ce soit à des fins ludiques,
professionnelles ou d’apprentissage, le sentiment de présence contribue à soutenir l’intérêt,
l’implication et l’attention de l’utilisateur.
La mise en œuvre de telles applications fortement augmentées nécessite généralement de
disposer d’un modèle 3D de l’environnement réel (ex. Ohlenburg et al. (2007) et Reitmayr
et Drummond (2006)). Ce modèle 3D de l’environnement peut alors jouer trois rôles
distincts dans une application de RAM : le premier rôle vise à gérer les occlusions entre
objets réels et virtuels; le deuxième rôle est d’aider à l’amélioration du calcul de la position
et de l’orientation de l’utilisateur dans l’environnement réel afin d’intégrer précisément et
de manière réaliste les objets virtuels dans le point de vue courant de l’utilisateur; le
troisième rôle vise à supporter l’augmentation de l’environnement réel ainsi que les
interactions entre éléments réels et virtuels présents. Le besoin de disposer ou d’accéder à
des modèles 3D de l’environnement rejoint ici une question d’importance largement
étudiée au sein du domaine de la géomatique, guidant plusieurs travaux de recherche et
comités scientifiques relatifs à l’acquisition, aux modèles de représentation, aux normes
d’échange de ces modèles pour n’en citer que quelques-uns (ex. FIG-cadastre3d
(www.juritecture.net/3d.html), 3dok (www.3dok.org), CityGML
(www.opengeospatial.org/standards/citygml), IFC (Industry Foundation Classes)
(www.buildingsmart.com/bim)).
1.1.3. Réalité augmentée n’importe où, n’importe quand
La plupart des applications de réalité augmentée mobile proposées actuellement s’appuient
sur des bases de données de points d’intérêt géolocalisés et sur la position et l’orientation
du champ de vue de l’utilisateur fournies par, respectivement, le récepteur GPS et la
17
boussole numérique de l’appareil mobile. Ces applications, telles que Layar
(www.layar.com) ou Wikitude (www.wikitude.org), font partie de la catégorie des
applications dites faiblement augmentées. En effet, les occlusions entre le réel et le virtuel
ne sont pas gérées dans ces deux applications phares du marché de la RAM. De plus,
l’utilisateur n’a pas le sens de la profondeur des objets virtuels par rapport aux objets réels
(i.e. quels objets sont au premier plan et quels objets sont en arrière plan dans son champ de
vue?). Le volume associé à un objet graphique 3D présenté à l’utilisateur est peu tangible
pour celui-ci (i.e. inscrustation d’un objet 3D dans une vue 2D) et les aspects liés à son
échelle de représentation par rapport aux autres éléments figurant dans la réalité ne sont pas
toujours bien gérés. En termes d’interactions, celles-ci sont limitées, l’application visant
essentiellement la visualisation d’informations. Seules les composantes physiques du
téléphone intelligent sont utilisées pour calculer les paramètres extrinsèques du champ de
vue de la caméra (i.e. position et orientation; le terme de pose est souvent utilisé pour
dénommer cette position et orientation). Compte tenu des capacités de ces composantes, le
calcul de pose est plus ou moins précis (ex. environ 8 mètres en moyenne pour le récepteur
GPS de l’iPhone 3G (Zandbergen 2009)) ce qui induit une augmentation limitée de la
réalité mais suffisante pour les objectifs visés par ces applications. Malgré la faible
augmentation de la réalité, de telles applications présentent un véritable intérêt et
engouement auprès du grand public notamment car elles peuvent être mises en œuvre
n’importe où (ex. l’application de RAM Layar est utilisée par 1,6 millions de personnes
(http://site.layar.com)). Elles rejoignent ainsi le concept d’Anywhere Augmentation
introduit par Höllerer et al. (2007). Le principe derrière ce concept est d’être en mesure
d’augmenter la réalité, ceci n’importe où et n’importe quand et ce, avec une période
d’initialisation de quelques secondes à quelques minutes au plus (DiVerdi, et al. s.d.). Dans
cet esprit, l’augmentation de la réalité ne doit pas être restreinte aux environnements qui ont
été préparés à l’avance (ce concept sera décrit plus en détail dans le chapitre 2) pour
supporter de telles augmentations mais elle doit être accessible quelle que soit la
localisation de l’utilisateur. Une idée sous-jacente au concept d’Anywhere Augmentation
concerne la création du contenu nécessaire à la mise en œuvre de l’application de RAM par
les utilisateurs mêmes. Les applications Layar et Wikitude sont ainsi conformes à ce
principe étant donné qu’elles permettent à une masse d’utilisateurs de créer des points
18
d’intérêts à la volée dans leur environnement, donc de le préparer, puis de les partager
ensuite via une plate-forme commune associée à l’application.
Le concept d’Anywhere Augmentation rejoint ainsi la philosophie du Web 2.0 et la très
forte tendance actuelle des réseaux sociaux où le grand public est à la fois utilisateur et
créateur du contenu de ces applications (ex. Yelp, Twitter, Facebook). Le concept
d’Anywhere Augmentation rejoint également les tendances actuelles du domaine de la
géomatique orientées vers le GéoWeb, où l’information (ex. les messages de Twitter) tend à
être géolocalisée, et vers l’information géographique volontaire (VGI, Volunteered
Geographic Information), où les utilisateurs cartographient eux-même leur environnement.
Open Street Map (www.openstreetmap.org) est l’application phare de cette tendance.
L’importance accordée au contenu généré par l’utilisateur dans toutes les applications
populaires citées précédemment révèle que la percée de la RAM auprès du grand public et
des professionnels passera certainement par le concept du Anywhere Augmentation.
1.2. Problématique
Le succès auprès du grand public des applications dans la lignée du concept d’Anywhere
Augmentation, dont Layar et Wikitude, est dû en partie au fait que la réalité peut être
augmentée n’importe où, n’importe quand et par n’importe qui. Cependant, tel que
mentionné, le niveau d’augmentation de la réalité dans ces applications reste assez faible.
Par exemple, les occlusions entre les objets réels et virtuels ne sont pas gérées ce qui nuit
au réalisme de l’augmentation de la réalité (ex. une voiture virtuelle située derrière un arbre
ne devrait apparaître que partiellement dans le champ de vision d’un utilisateur afin d’avoir
un rendu conforme à ce que l’utilisateur verrait vraiment dans la réalité). Tel qu’expliqué
dans la mise en contexte, pour rendre une application de RAM plus immersive et
interactive auprès des utilisateurs, un modèle 3D de la zone à augmenter est requis. Dans
certains cas de figure, les modèles 3D de la zone géographique à augmenter ont déjà été
élaborés et sont facilement accessibles. Le jeu Time Warp (Broll, et al. 2008) par exemple
utilise un modèle 3D existant de la ville de Cologne comme support aux augmentations
proposées dans le scénario du jeu. Cependant, ce ne sont pas toutes les zones urbaines qui
sont modélisées en 3D et qui sont facilement libres d’accès. Pour donner une idée de la
couverture, Google 3D Warehouse (infrastructure de données 3D pour Google Earth)
19
contient 179 modèles 3D pour Montréal, 77 pour Québec et seulement dix pour Trois-
Rivières. Il faut noter qu’un modèle 3D dans Google 3D Warehouse ne contient souvent
qu’un seul bâtiment. Faute de modèles 3D disponibles existants ou accessibles, il est
envisageable d’effectuer des relevés préalables des éléments réels du paysage urbain avec
des techniques couramment utilisées dans le domaine de la géomatique, du génie civil, de
l’aménagement du territoire (ex. techniques d’arpentage, levés photogrammétriques, levés
LiDAR aéroporté, …), puis d’effectuer une modélisation 3D à partir de ces mesures.
Cependant, ce processus est généralement coûteux en termes de temps, d’investissement et
demande une certaine expertise afin de pouvoir utiliser les équipements et logiciels
spécialisés de modélisation 3D. De surcroit, ce processus doit être effectué au préalable afin
de pouvoir utiliser l’application de RAM sur le terrain. Toutes ces contraintes au niveau des
solutions actuelles de modélisation 3D limitent la percée des applications de réalité
fortement augmentée mobile auprès du grand public. Faute de solutions de modélisation 3D
adéquates et de disponibilité ou d’accessibilité aux modèles 3D existants, nous constatons
donc qu’actuellement les applications de réalité fortement augmentée mobile ne peuvent
pas être déployées n’importe où, n’importe quand et par n’importe qui.
Ce défaut de solutions de modélisation 3D et d’accès à des modèles 3D existants constitue
la problématique abordée dans le cadre du présent travail de recherche. Son origine peut
ainsi être résumée par les quatre points suivants :
1. Besoin de modèles 3D afin de pouvoir augmenter l’environnement de manière
immersive et interactive;
2. Disponibilité et accessibilité aux modèles 3D existants limitée pour déployer des
applications de réalité fortement augmentée n’importe où et sans contraintes;
3. Coût et temps d’acquisition élevés des approches classiques de levés de données
géospatiales (i.e. arpentage, géomatique) en vue d’effectuer une modélisation 3D
d’un environnement;
4. Complexité des processus de construction des modèles 3D à partir de données
provenant d’approches classiques de levés de données géospatiales;
20
Parmi les solutions envisageables pour répondre à une telle problématique, l’une d’elle
consiste à offrir aux utilisateurs les moyens nécessaires pour saisir eux-mêmes le modèle
3D de l’endroit où ils désirent augmenter la réalité sur la base des éléments présents dans
l’environnement et de données externes facilement accessibles. Une telle approche répond
aux points 1 et 2 mentionnés plus haut. Dans ce contexte, il est essentiel que la solution, ou
chaine de traitements, pour la production de modèle 3D qui est offerte aux utilisateurs
propose de faibles coûts, qu’elle soit rapide, peu complexe à mettre en œuvre,
ergonomique, accessible et qu’elle n’exige pas de connaissances spécifiques afin de
répondre aux points 3 et 4. Il faut également que le modèle 3D une fois construit puisse être
apte à supporter une forte augmentation de la réalité n’importe où, n’importe quand dans
l’esprit de l’Anywhere Augmentation.
Ainsi, sur la base de la mise en contexte et de la problématique énoncées précédemment et
des éléments décrits ci-dessus, la question à laquelle la recherche proposée tentera de
répondre est la suivante :
« Comment est-il possible de créer une chaîne de traitement produisant des modèles 3D
d’éléments de l’environnement n’importe où, n’importe quand et par n’importe qui afin de
pouvoir mettre en œuvre des applications de réalité fortement augmentée mobile
s’inscrivant dans le concept d’Anywhere Augmentation? »
1.3. Objectifs
1.3.1. Objectif principal
À partir de cette question de recherche, l’objectif principal de ce projet de maîtrise est donc
de proposer et d’évaluer une chaîne de traitement adéquate pour la production rapide de
modèles 3D en vue de mettre en œuvre des applications de réalité augmentée mobile
s’inscrivant dans la lignée du concept d’Anywhere Augmentation. Les applications visées
sont celles qui possèdent la capacité de mettre à profit ces modèles 3D et ainsi augmenter
fortement la réalité. L’objectif principal vise notamment à formaliser les étapes de la chaîne
de production des modèles 3D, c’est-à-dire l’acquisition des données géospatiales, le
traitement de celles-ci en vue de la création d’un modèle 3D puis son exploitation au sein
21
d’une application de RAM (i.e. utilisation du modèle 3D selon l’un des trois rôles énoncés
au paragraphe 1.1.2). Afin d’atteindre l’objectif principal de ce projet de recherche, celui-ci
a été divisé en trois sous-objectifs.
1.3.2. Premier sous-objectif
La réalisation de l’objectif principal nécessite en premier lieu de recenser les différentes
chaînes de traitement permettant de produire les modèles 3D exploités dans les applications
de RAM. Une revue de littérature préliminaire (Thomas, Daniel et Pouliot 2008) a permis
de mettre en évidence que les caractéristiques que doivent posséder les modèles 3D afin
d’augmenter la réalité ne sont pas explicitement décrits ou même mentionnés. Souvent, les
articles scientifiques dans le domaine de la réalité augmentée laissent de côté la chaîne de
traitement des modèles 3D au profit de l’application même. Des recherches plus
approfondies pour inventorier et catégoriser les approches de production et d’exploitation
des modèles 3D dans certaines applications pertinentes de RAM sont donc nécessaires.
Ceci constitue le premier sous-objectif de ce travail de recherche qui vise à l’acquisition de
connaissances sur le sujet en réalisant l’inventaire, la catégorisation et la comparaison des
chaînes de traitement existantes pour la production de modèles 3D destinées à des
applications de RAM.
1.3.3. Deuxième sous-objectif
Afin de déterminer une chaîne de traitement adaptée au contexte de l’Anywhere
Augmentation pour la production des modèles 3D requis pour des applications de RAM
fortement augmentée, il est nécessaire de spécifier les critères de qualité, d’utilité et de
performance auxquels la solution proposée doit répondre. Afin de pouvoir préciser ces
critères, il est nécessaire d’avoir une bonne compréhension du lien existant entre les
modèles 3D et les applications de RAM, notamment quelles caractéristiques doivent
présenter les modèles 3D afin d’obtenir le niveau d’augmentation ciblé de la réalité.
Comme indiqué plus haut, la littérature scientifique offre peu d’éléments d’information à ce
sujet. Le deuxième sous-objectif de cette recherche est donc le suivant : déterminer les
critères auxquels doit répondre une chaîne de traitement adaptée pour produire des modèles
3D qui permettront d’augmenter fortement la réalité selon une approche conforme au
principe d’Anywhere Augmentation.
22
1.3.4. Troisième sous-objectif
Le troisième sous-objectif vise à démontrer la faisabilité d’élaborer une chaîne de
traitement de modèles 3D adaptée à la mise en œuvre d’applications de RAM fortement
augmentée. Cette démonstration s’appuiera sur l’inventaire des chaînes de traitement
existantes et sur les critères auxquels doit répondre une chaîne de production de modèles
3D adaptée à la RAM (cf. sous-objectifs 1 et 2). En démontrant la faisabilité de la mise en
œuvre d’une chaîne de traitement adéquate pour l’acquisition, la production et l’intégration
des modèles 3D pour une application de RAM fortement augmentée, une réponse sera alors
apportée à notre question de recherche.
1.4. Méthodologie
La méthodologie suivie dans le cadre de ce projet de maitrise est de type recherche de
développement appliquée. Une première phase d’observation de l’existant forme une base
de connaissances sur laquelle une solution concrète à une problématique cernée est
développée. Ce développement d’une solution constitue la deuxième phase de la
méthodologie. La première phase de la méthodologie adoptée vise à remplir les sous-
objectifs 1 et 2, alors que la deuxième phase cherche à atteindre le sous-objectif 3. Les
grandes étapes de la méthodologie mise en œuvre pour atteindre les sous-objectifs décrits
précédemment et par le fait même l’objectif principal de ce projet de maîtrise sont les
suivantes (cf. Figure 1.3) :
La première étape a concerné la collecte d’information afin de rassembler les
connaissances nécessaires pour entamer le projet. Une revue de la littérature
recensant les applications de RAM a été réalisée à cet effet. Les technologies
évoluant excessivement rapidement dans ce domaine, une veille technologique a
également été effectuée tout au long du projet. Aussi, la rencontre avec certains
partenaires des milieux académique et industriel a permis de prendre du recul sur ce
projet et d’acquérir de nouvelles connaissances. Des réunions, notamment avec la
compagnie Ubisoft et une visite au 4eyes Lab à l’Université de Californie à Santa
Barbara, ont eu lieu. Celles-ci ont respectivement permis de valider l’intérêt de
23
l’industrie des jeux vidéo pour la RAM et de stimuler la réflexion sur une
taxonomie qui sera présentée au chapitre 3.
La deuxième étape a consisté à rassembler, à synthétiser et à catégoriser
l’information collectée puis à comparer les différentes chaînes de traitement
existantes. Plusieurs tableaux synthèses ont été élaborés pour comparer les
spécifications des chaînes de traitement existantes afin d’identifier les rôles et les
caractéristiques des modèles 3D utilisés dans les différentes applications de RAM.
Cette deuxième étape a également contribué à la réalisation du premier sous-
objectif et à sa complétion.
La troisième étape a consisté à déterminer les critères adéquats auxquels la chaîne
de traitement proposée doit répondre vis-à-vis de l’augmentation de la réalité
envisagée. Elle a donc contribué en ce sens à la réalisation du deuxième sous-
objectif. Une taxonomie a été élaborée à cet effet afin de catégoriser les différents
niveaux d’augmentation de la réalité et de les lier aux types de modèles 3D requis
pour mettre en œuvre une telle augmentation. Cette taxonomie propose également
une mise en relation des modèles 3D avec les différentes techniques d’acquisition
de données géospatiales permettant de les élaborer. Les critères auxquels la chaîne
de traitement visée doit répondre ont été déterminés en s’appuyant sur la revue de
la littérature effectuée, et sur les tableaux de synthèse et la taxonomie qui en ont
découlé.
Les autres étapes, qui font partie de la phase de développement de la méthodologie,
ont contribué à la réalisation du troisième sous-objectif. Elles concernent
spécifiquement le travail de modélisation et d’implantation de la chaîne de
traitement que nous avons conçue relativement aux critères retenus. Afin de
modéliser l’architecture logicielle de celle-ci, un diagramme d’activité de type
Unified Modeling Language (UML) de cette chaîne de traitement a été conçu (cf.
Figure 4.3). Il montre explicitement les différentes étapes de celle-ci. Un premier
prototype simulant la chaîne de traitement a d’abord été réalisé à partir d’un
logiciel de présentation afin de bien planifier l’implantation de celle-ci. Par la suite,
une application fonctionnelle sur iPhone3G nommée iModelAR a été effectivement
codée. La revue de la littérature ayant mis en évidence l’absence d’application
24
similaire à la chaîne de traitement proposée, le risque de se retrouver dans une
impasse était élevé au moment de démarrer la conception et le développement
d’iModelAR et donc des changements de stratégie en cours de réalisation étaient
envisageables. Par conséquent, la méthodologie d’ingénierie de type agile a été
adoptée pour palier ces difficultés. Plus spécifiquement, la méthodologie agile
nommée Feature-Driven Development (Hunt 2006) a été utilisée afin d’élaborer les
tâches de développement de notre architecture logicielle. Une méthodologie agile a
comme valeurs notamment la livraison régulière de logiciels fonctionnels plutôt
qu’une seule remise finale ainsi qu’une adaptation rapide aux changements (Hunt
2006). Une approche de ce type s’applique bien ici puisque la chaîne de traitement
proposée est novatrice, elle s’appuie sur des technologies nouvelles ce qui engendre
un haut risque de changement dans la direction de stratégie de développement.
Donc, après avoir modélisé l’architecture logicielle, les différentes composantes et
fonctionnalités de la chaîne de traitement ont alors été priorisées selon leur
importance. Par la suite, plusieurs itérations différentes de notre architecture
logicielle ont été planifiées pour le développement du prototype. Pour chacune de
ces itérations, une nouvelle composante a été révisée, analysée, conçue puis
implantée dans l’application. Plusieurs séries de tests ont été effectuées au cours
des itérations de la phase de développement, ceux-ci ayant pour principal objectif
de vérifier la qualité de la solution proposée relativement aux critères spécifiés à la
troisième étape de la méthodologie. Dans le cas de la présente étude, la qualité fait
référence au temps requis pour la production des modèles 3D et à l’erreur de
positionnement spatial entre les modèles 3D produits par iModelAR et leur
emplacement réel relevé à l’aide d’une station totale. Après chaque itération de
l’implantation de la chaîne de traitement, la planification des itérations futures a été
ajustée. La chaîne de traitement a été ensuite améliorée jusqu’à ce qu’un résultat
satisfaisant vis-à-vis des objectifs visés par ce projet de maîtrise et du temps
imparti pour sa réalisation soit atteint.
25
Figure 1.3 - Diagramme de la méthodologie utilisée afin de concevoir et évaluer une chaîne
de traitement adéquate pour la production rapide de modèles 3D en vue de mettre en œuvre
des applications de réalité fortement augmentée mobile.
1.5. Cadre expérimental
Ce projet de maîtrise s’inscrit dans le cadre du projet de recherche GéoÉduc3D : La
géomatique au service des jeux vidéo et de l'apprentissage (PIV-24)
(www.geoide.ulaval.ca/projects-detail.aspx?i=110 et http://geoeduc3d.scg.ulaval.ca) et est
26
subventionné par le Réseau GEOIDE (www.geoide.ulaval.ca) qui est financé par le
Gouvernement du Canada par le biais du programme des Réseaux de Centres d'Excellence.
GéoÉduc3D a pour finalité de proposer des jeux interactifs éducatifs s'appuyant sur les
technologies géospatiales. Le présent projet de maîtrise vise donc à proposer une solution
de modélisation 3D simple et rapide qui pourrait, à terme, être utile pour un jeu éducatif
ayant une composante de RAM.
1.6. Organisation du mémoire
Ce mémoire est divisé en cinq chapitres dont un sous forme d’article. Le Chapitre 1 a
introduit le contexte de la recherche proposée ainsi que la problématique à résoudre. Les
objectifs de recherche et la méthodologie visant à soumettre une solution à cette
problématique y ont été présentés. Le Chapitre 2 présente une revue des concepts relatifs au
présent projet ainsi que les articles pertinents s’y rattachant. Le troisième chapitre présente
la taxonomie élaborée, les méthodes actuelles de modélisation 3D ainsi que les critères
caractéristiques que possèdent les modèles 3D en lien avec le niveau d’augmentation des
applications de RAM. Les critères spécifiques auxquels à notre solution doit répondre y
sont également présentés. Le Chapitre 4, qui est structuré sous la forme d’un article, décrit
en détail la solution de modélisation 3D proposée. Cet article a été accepté à la 5e
conférence internationale 3DGeoInfo qui se tiendra à Berlin en novembre 2010. Le
cinquième et dernier chapitre conclut le mémoire et présente un retour sur les objectifs, les
contributions de ce projet notamment au domaine des sciences géomatiques et les
différentes perspectives de recherches futures.
27
La route, c’est la vie – Jack Kerouac
2. Chapitre 2 – Revue de littérature
Le Chapitre 2 vise à mettre en lumière les différentes applications de réalité augmentée
mobile (RAM) existantes puis les rôles que peuvent jouer les modèles 3D dans celles-ci afin
de rendre l’augmentation plus réaliste et immersive pour l’utilisateur. Les thématiques de
gestion des occlusions, d’aide au repositionnement de la caméra et de support à
l’augmentation et aux interactions seront abordées. Pour chacune de ces thématiques, les
types de solutions possibles seront illustrés par différents exemples.
2.1. Introduction
La présente revue de littérature débutera par une description des mécanismes de mise en
œuvre d’une application de RAM. Des compléments d’information portant sur la
préparation des environnements à des fins de déploiement d’applications de réalité
augmentée mobile seront également fournis. Par la suite, un tour d’horizon des applications
de RAM sera effectué afin de dresser un panorama des différents travaux de recherche et
solutions existantes dans ce domaine. Cette partie sera divisée selon différentes thématiques
d’application ciblées par les solutions de RAM. La section suivante décrira en détail les
trois rôles que peuvent jouer un modèle 3D de l’environnement au sein d’une application
de RAM. Dans cette partie, les publications scientifiques les plus pertinentes seront citées
afin de venir appuyer et illustrer ces différents rôles.
2.2. Principes de la RAM
Le but ultime et idéal d’une application de RAM est qu’un utilisateur de RAM puisse
visualiser des éléments virtuels parfaitement intégrés à sa réalité et ce, en temps réel. Dans
ce contexte, il est donc indispensable que le monde virtuel s’aligne pleinement avec le
monde réel. Cela implique notamment de connaître la position et l’orientation de l’appareil
de visualisation de l’utilisateur en tout temps afin de superposer en temps réel à l’écran les
28
éléments virtuels au flux vidéo provenant de la caméra (capturant ainsi la réalité perçue par
l’utilisateur). D’une manière imagée, l’appareil de visualisation peut être associé au
paradigme d’une fenêtre magique faisant apparaitre des éléments virtuels au monde réel
(Bier, et al. 1993).
Donc, comment est-il possible d’intégrer des objets virtuels dans le monde réel? En premier
lieu, l’objet virtuel est souvent modélisé par un logiciel de type CAO (Conception Assistée
par Ordinateur) tels que Blender ou 3DStudioMax par exemple. Cet objet virtuel est stocké
dans une base de données ou un fichier, généralement avec des coordonnées locales. Trois
méthodes existent afin de transposer cet élément virtuel dans le même référentiel que le
champ de vue de la caméra de l’utilisateur : 1- Affecter des coordonnées globales à l’objet
virtuel 2- Positionner l’objet virtuel par rapport à des caractéristiques naturelles de
l’environnement et 3- Placer l’objet selon un marqueur présent dans l’environnement.
Coordonnées globales. En connaissant la position et l’orientation (i.e. les paramètres
extrinsèques) de la caméra, il est possible de d’ajouter un objet virtuel dans le flux vidéo
affiché sur l’appareil de visualisation à condition qu’il se trouve dans le même référentiel.
Les paramètres extrinsèques de la caméra peuvent être obtenus à partir de composantes
physiques (ex. accéléromètres, récepteur GPS, centrale inertielle, boussole numérique,
gyroscope) ou à l’aide d’algorithmes de vision numérique si une représentation de
l’environnement sous la forme soit d’un modèle 3D, d’un panorama ou d’une base de
données d’images est disponible. Afin de placer l’objet virtuel dans le même référentiel que
la caméra de l’utilisateur, des transformations affines lui sont appliquées. Celles-ci
consistent en à une translation (t) dans le cas le plus simple, mais des rotations (Rx, Ry, Rz)
autour des trois axes du référentiel sont généralement impliquées ainsi qu’un facteur
d’échelle (S) afin d’ajuster la taille de l’objet au contexte et au champ de vue de
l’utilisateur. Les équations suivantes résument ces transformations permettant de calculer
les coordonnées globales (x’, y’, z’) d’un point admettant (x, y, z) comme coordonnées
locales.
29
,
Selon l’application de RAM, une possibilité est que l’emplacement des objets virtuels soit
déterminé arbitrairement par l’utilisateur lors de la mise en œuvre ou en amont, c’est-à-dire
lors de la conception logicielle par le développeur. Cet emplacement peut également être
décidé en fonction de la position de l’utilisateur ou d’autres variables relativement au
scénario de l’application. De plus, il est possible que l’objet virtuel se déplace dans
l’environnement.
Caractéristiques naturelles de l’environnement. En déplaçant une caméra, il est possible
d’apprendre, c’est-à-dire de cartographier en 3D l’environnement immédiat par vision
numérique avant d’augmenter la réalité (ex. algorithme de SLAM4) (cf. Figure 2.1a).
Certains points saillants dans l’image seront extraits et suivis. Les coordonnées 3D
calculées de ces points permettent de repositionner le champ de vue de l’utilisateur dans un
référentiel local. Cette technique ne nécessite pas de préparation préalable de
l’environnement avant sa mise en œuvre. Dans l’exemple présenté à la Figure 2.1b,
4 SLAM (Simultaneous localization and mapping) est la problématique de déterminer la position dans
l’espace d’une entité (ex. caméra) en plus de cartographier la structure de l’environnement dans lequel évolue
cette entité. (www.cs.bris.ac.uk/Research/Vision/slam.jsp)
30
l’utilisateur fait apparaître un personnage virtuel se déplaçant conformément à son
environnement, c'est-à-dire selon le plan formé par le bureau, simplement en cliquant dans
l’image.
a)
b)
Figure 2.1 - a) Utilisation d’une approche de vision numérique afin de cartographier
l’environnement et b) augmentation de l’environnement sur la base des points saillants 3D
obtenus lors de l’étape de cartographie (Williams et al. 2007)
Marqueurs. En ajoutant à l’environnement un marqueur qui est connu à l’avance par
l’application (cf. Figure 2.2a), il est possible d’extraire la position et l’orientation de la
caméra relativement à celui-ci. Un objet virtuel peut alors être inséré dans ce référentiel
local puis projeté à l’écran de visualisation conformément au champ de vue de l’utilisateur
(cf. Figure 2.2b). Le marqueur doit cependant être présent en tout temps dans le champ de
vue de la caméra. Une librairie populaire librement disponible se nomme ARToolKit et
permet de développer ses propres applications de RA basées sur des marqueurs
(www.hitl.washington.edu/artoolkit/).
31
a)
b)
Figure 2.2 - Ajout d'un marqueur dans l'environnement, b) augmentation de la réalité
(http://sndrv.nl/ARflashmob/)
Une fois l’objet virtuel dans le même référentiel que le champ de vue de la caméra de
l’utilisateur (en utilisant l’une des trois méthodes décrites précédemment), celui-ci peut être
projeté à l’écran de l’appareil mobile en prenant en compte la position et l’orientation de la
caméra (i.e. le point de vue de l’utilisateur). Afin d’offrir au lecteur une compréhension
accrue des principes inhérents à cette projection, des explications d’ordre plus technique
sont présentées ici. La Figure 2.3 propose le schéma de projection de l’objet dans le plan
image de la caméra (i.e. chaque image du flux vidéo dans une application de RAM). Ce
schéma repose sur le modèle sténopé généralement utilisé pour représenter la géométrie de
formation des images au sein d’une caméra optique. Les explications suivantes sont tirées
de Sonka et al. (2008).
32
Figure 2.3 - Schéma de la projection d’un objet virtuel dans le plan image d’une caméra
La modélisation mathématique établie à partir du schéma de la Figure 2.3 vise à déterminer
les coordonnées images d’un objet virtuel dont les coordonnées globales dans la scène
visualisée sont connues. Dans cet exemple, l’objet virtuel est représenté par la théière jaune.
Trois systèmes de coordonnées sont impliqués dans cette modélisation :
1. Le système de coordonnées global : celui-ci admet O pour origine. Un point
quelconque de la théière, X, est exprimé dans ce système et sera utilisé comme
exemple dans les équations de changement de référentiel. Le système de
coordonnées global peut être associé à une projection cartographique par exemple
(ex. projection UTM (Universal Transverse Mercator)).
2. Le système de coordonnées de la caméra : il possède son origine au point focal
Oc. L’axe optique Zc est perpendiculaire au plan image π. Une relation unique existe
entre le système de coordonnés global et le système de coordonnées de la caméra.
Celle-ci consiste en la combinaison d’une translation t et d’une rotation R (selon les
trois axes des systèmes de référence).
33
3. Le système de coordonnées de l’image : il admet le coin supérieur gauche de
l’image comme origine. Ses axes sont colinéaires avec le système de coordonnées
de la caméra. Les axes u et v forment le plan image.
La procédure de projection dans le plan image de la caméra d’un point appartenant à l’objet
virtuel peut être scindée en deux transformations distinctes.
1. La première transformation permet de passer du système de coordonnées global vers
le système de coordonnées de la caméra. L’équation ci-dessous applique la
combinaison d’une rotation et d’une translation aux coordonnées du système global
afin d’aligner les deux systèmes et ainsi obtenir les coordonnées de l’objet X dans
le système de la caméra. Les paramètres caractéristiques de la rotation R et de la
translation t correspondent aux paramètres extrinsèques de la caméra.
2. La deuxième transformation permet de projeter le point de l’objet ( ) dans le plan
image. Cette transformation est exprimée par les équations suivantes :
,
Où f est la distance focale de la caméra, c’est-à-dire la distance entre le point focal (i.e.
l’endroit où convergent les rayons optiques) et le point principal (i.e. l’intersection de l’axe
optique et du plan image). En appliquant la première composante des équations de
projection les coordonnées images (en valeurs métriques) sont trouvées,
mais l’origine de ce système de coordonnées est située au point principal. Puisque le point
principal ne coïncide pas avec l’origine du système de coordonnées de l’image, les
coordonnées ( ) du point principal doivent être ajoutées au résultat du calcul de la
projection . Les coordonnées du point principal et la distance focale
représentent les paramètres intrinsèques de la caméra. La position du point sur le plan
image (u, v) peut par la suite être transformée en indice de pixels si nous en connaissons la
taille (i.e. multiplier u et v par le nombre de pixels par unité métrique utilisée).
34
Au moment d’afficher à l’écran de l’appareil mobile le rendu de la superposition de l’objet
virtuel sur la réalité, le point de vue de l’utilisateur sera présenté au travers de la caméra de
l’appareil, alors que les objets virtuels le seront au moyen d’une caméra virtuelle associée
au moteur 3D utilisé (ex. OpenGL, DirectX). Le principe de projection expliqué ci-haut
reste le même pour la caméra virtuelle. Les paramètres extrinsèques et intrinsèques de la
caméra réelle seront appliqués à la caméra virtuelle du moteur 3D utilisé afin qu’il n’y ait
pas de distorsions dans l’alignement de la réalité et des objets virtuels (cf. Figure 2.4). Cela
permettra l’ajout à l’avant plan d’objets virtuels alignés correctement avec le flux vidéo en
arrière-plan.
Figure 2.4 - Distorsion entre deux images prises du même endroit avec une distance focale
différente, donc variation d’un des paramètres intrinsèques (photos : Jean-Jacques Milan)
Afin que les mondes virtuel et réel s’intègrent parfaitement, le monde virtuel doit posséder
des informations relatives au contexte réel. L’ensemble des connaissances requises
comprend la géométrie des éléments présents (ex. bâtiments, végétation), mais également
des informations sémantiques s’y rattachant (ex. type de commerce, notes historiques sur
un bâtiment). Les conditions expérimentales peuvent également être prises en compte (ex.
niveau d’ensoleillement, conditions météorologiques). Idéalement, même les éléments
mobiles (ex. voitures, piétons) devraient être connus. En possédant toutes ces
connaissances sur le monde réel, les éléments virtuels ont donc la possibilité d’agir de se
comporter et d’être affichés d’une manière cohérente avec la réalité. Par exemple, une
annotation 2D virtuelle proposera des informations sémantiques relatives à l’endroit ou à
l’objet auquel elle se rapporte (ex. indication du numéro de la ligne de métro à proximité de
35
l’utilisateur) ou un modèle virtuel 3D se déplaçant dans l’environnement sera projeté sur
l’appareil de visualisation selon le point de vue de l’observateur en tenant compte des
occlusions possibles, de la luminosité ambiante et des conditions météorologiques.
Bien entendu, à ce jour, tous ces éléments ne sont pas encore pris en compte car un modèle
aussi complet de la réalité et exploitable en temps réel (i.e. créé et obtenu sur le champ) de
la réalité est inexistant. Il est cependant possible que certaines informations à propos de
l’environnement réel soient disponibles (i.e. géométrie 3D, certaines informations
sémantiques), mais si elles ne sont pas accessibles ou non-adaptées pour une application de
RAM (ex. format), l’environnement est qualifié de non-préparé. Dans ce type cas,
l’utilisateur ou le développeur d’une application de RAM doit donc préparer
l’environnement (i.e. Selon les coordonnées globales, par apprentissage des caractéristiques
naturelles de l’environnement ou par pose de marqueurs, cf. Section 2.2). Cette préparation
est d’une complexité variable en fonction de l’application visée et elle va consister à
introduire dans l’environnement les éléments nécessaires à la mise en œuvre de l’une des
trois approches décrites dans cette section. Cela peut varier d’ajout de points d’intérêt 2D
jusqu’à la construction d’un modèle 3D sémantique très détaillé.
2.3. Applications existantes
Afin de bien cerner le domaine de la RAM, un tour d’horizon des différentes applications
existantes va maintenant être proposé.
2.3.1. Les applications de visite touristique
L’aspect mobilité des applications de RAM permet à un utilisateur d’obtenir des
informations sémantiques localisées d’où une connaissance accrue des éléments situés dans
son environnement immédiat. L’application précurseur dans ce domaine est la Touring
machine proposée par Feiner et al. (1997). Le principe de l’application consiste à annoter le
monde réel présent dans le champ de vision de l’utilisateur. Ainsi, celui-ci peut accéder, par
exemple, à la critique d’un restaurant situé à proximité (cf. Figure 2.5a). Quelques
interactions simples sont proposées à l’utilisateur dont la possibilité d’effectuer des
requêtes à une base de données préétablie afin de connaître quels départements sont
présents dans un bâtiment universitaire situé dans le champ de vue de la caméra. Plusieurs
36
déclinaisons de ce système ont été élaborées, citons l’Archeoguide par Vlahakis et al.
(2000) permettant entres autres de visualiser en 3D des sites historiques n’existant plus à
leur emplacement original. Actuellement, le même principe d’annotations que celui de la
Touring Machine est exploité par deux applications récentes très populaires : Layar et
Wikitude. En effet, celles-ci offrent à l’utilisateur la possibilité de visualiser des couches de
données 0D-3D virtuelles liées à des points d’intérêt à la surface du globe (ex. articles de
Wikipedia géolocalisés, restaurants et bien d’autres). 43 pays possèdent actuellement sur
leur territoire des couches de données Layar. Pour le Canada, quelques- unes sont ciblées
sur des régions urbaines précises (ex. Toronto Subway System Map, Vancouver Parks and
Facilities) tandis que d’autres sont plus globales (ex. Pages Jaunes, Tim Horton’s, Food
and Drink pour trouver les établissements de restauration rapide de chaînes populaires).
L’appareil utilisé ici est un téléphone intelligent intégrant plusieurs composantes physiques
nécessaires au positionnement de l’appareil dans l’espace (i.e. récepteur GPS, boussole
numérique, accéléromètres). A titre de comparaison, au moment du développement de la
Touring machine, tout un ensemble d’équipements était nécessaire à la mise en œuvre de
cette application (cf. Figure 2.5b). Les couches d’information sont produites par les
utilisateurs et peuvent être partagées avec tous. Cette approche s’inscrit pleinement dans la
grande tendance du Web 2.0 où le grand public est à la fois utilisateur et créateur de
contenu. Ces applications sont disponibles gratuitement à tous sous plusieurs systèmes
d’exploitation et Layar sera pré-installé sur le tiers des appareils mobiles qui seront
commercialisés mondialement cette année. Comme il a été mentionné au chapitre 1, les
interactions offertes à l’utilisateur par ce type d’application restent limitées (ex. lancer un
appel, visiter une page web). De plus, les occlusions entre le réel et le virtuel ne sont pas
gérées et les échelles de représentation des objets 3D virtuels ne sont pas toujours
conformes avec la réalité. Cet aspect est illustré par la Figure 2.6. À la Figure 2.6a, les
occlusions sont gérées correctement ce qui donne la perception de l’échelle et le sens de la
profondeur de l’objet virtuel par rapport aux éléments présents dans l’environnement. Cela
n’est pas le cas pour la Figure 2.6b, où les occlusions ne sont pas prises en compte. Dans
cette image, la position de la voiture virtuelle y est ambiguë. Cet élément virtuel, peut aussi
bien être de taille réduite et près de la caméra que plus imposant et plus loin, mais
37
l’utilisateur ne peut percevoir en aucun cas que sa position réelle est derrière la haie. Un tel
rendu a pour conséquence de dégrader le réalisme de l’augmentation.
Figure 2.5 - a) Annotation 2D d'un restaurant (Feiner, et al. 1997) b) équipement
nécessaire à la Touring machine (i.e. récepteur GPS, ordinateur portable, visiocasque)
(Feiner, et al. 1997)
Figure 2.6 - a) Affichage d’une voiture virtuelle avec gestion des occlusions, b) sans
gestion des occlusions (image de la voiture: © Disney / Pixar)
2.3.2. Les applications de jeu
Le fait d’être en mesure d’intégrer des objets virtuels dans l’environnement d’un joueur
éveille l’imagination. Les possibilités d’interactions entre le joueur, les objets virtuels et
réels deviennent alors, en théorie, infinies. Parmi les différents jeux en RAM développés
jusqu’à présent, certains sont purement ludiques alors que d’autres ont une vocation
éducative. Dans la catégorie des jeux éducatifs, on retrouve les jeux faiblement augmentés
Mad City Mystery (Squire et Mingfong 2007) et Environmental Detective (Klopfer et
Squire 2007), l’enrichissement de la réalité se faisant essentiellement par l’exploitation de
38
la position réelle du joueur. Ces jeux se déroulent dans un contexte de classe et sont
destinés à des élèves du secondaire. Le but de ces jeux éducatifs est de développer des
habiletés de réflexion et d’argumentation scientifique chez les jeunes. Le scénario de jeu
proposé débute par la présentation aux jeunes d’une situation problématique à résoudre (ex.
un meurtre; une catastrophe environnementale) intervenant sur un territoire donné. Les
élèves doivent alors accumuler des indices afin de proposer une piste de solution logique.
L’interface de jeu est composée d’une représentation 2D du territoire où la position du
joueur et de points d’intérêt y sont présents (cf. Figure 2.7). Le joueur doit donc se déplacer
physiquement afin de déclencher l’apparition d’indices associés à ces points d’intérêt. Ces
indices se présentent sous la forme d’éléments multimédias (ex. texte, vidéo, image). Aussi,
les interactions offertes demeurent assez simples et leur mécanique s’appuie uniquement
sur la position du joueur. En complément du déclenchement de l’apparition d’indices, les
utilisateurs d’Environmental Detectives peuvent virtuellement « creuser dans le sol » afin
de mesurer la concentration de polluant à l’endroit où ils se situent, cette information leur
fournissant un indice quant à la résolution de l’énigme.
Figure 2.7 - Modèle 2D de la réalité intégrant la position de l'utilisateur (point rouge) et des
points d'intérêts (carrés bleus et rouges) (Klopfer et Squire 2007)
39
Time Warp est un autre jeu éducatif proposant un niveau d’augmentation et d’interaction
plus élevé que les deux précédents. Ce jeu, développé par Herbst et al. (2007), permet
d’apprendre un ensemble de faits historiques et d’informations pertinentes concernant la
ville historique de Cologne en Allemagne. Des défis sont lancés aux joueurs par un
personnage virtuel 3D. Dans le cadre du jeu et compte tenu des technologies proposées aux
joueurs, ceux-ci sont en mesure de visualiser d’anciens bâtiments à leur emplacement
original. Un autre jeu intéressant du point de vue des interactions proposées est Epidemic
Menace (Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007). Le scénario est le suivant : des
équipes sur le terrain tentent d’éliminer des virus virtuels situés sur un campus
universitaire. Ces virus sont influencés par les véritables conditions atmosphériques
affectant le campus, ce qui constitue un aspect unique parmi les différents travaux recensés
dans la littérature. La mécanique de jeu d’Epidemic Menace implique à la fois des joueurs
équipés d’appareils mobiles se déplaçant sur le terrain et une personne sédentaire, jouant le
rôle d’un commandant. Celle-ci est localisée au quartier général du jeu et a pour
responsabilité de coordonner son équipe sur le terrain. Il faut également noter qu’un modèle
3D est exploité dans le contexte de ce jeu afin de gérer les occlusions entre les éléments
réels et virtuels.
Les jeux en RAM purement ludiques ont été les premiers à être développés. On peut citer
parmi ceux-ci Human Pacman (Cheok, et al. 2003) et ARQuake (Thomas, et al. 2002). Le
premier reprend le concept du jeu Pacman original (cf. Figure 2.8). Les personnages de
Pacman et des fantômes sont cette fois-ci bien réels puisqu’incarnés par les joueurs prenant
part à Human Pacman. Le deuxième se base sur le très populaire jeu vidéo Quake, mais
modifié de manière à ce que les déplacements du joueur dans la réalité se reflète dans
l’environnement du jeu vidéo. Les éléments virtuels sont superposés à la réalité et les
occlusions sont gérées grâce à un modèle 3D construit dans l’environnement de
développement de Quake.
40
Figure 2.8 - Capture d'écran du jeu Human Pacman (Cheok, et al. 2003)
2.3.3. Les applications de gestion des infrastructures
La réalité augmentée peut également servir dans un contexte professionnel. Les premières
applications de ce type, non mobiles cependant, visaient à faciliter la réparation
d’imprimantes ou la pose de câblage sur des avions (Azuma 1997). Plus récemment, les
travaux de Schall et al. (2009) proposent des solutions afin de rendre les infrastructures
souterraines plus accessibles aux services de maintenance et d’intervention, et sans à avoir
à creuser le sol si possible (cf. Figure 2.9). De telles solutions permettraient d’éviter des
erreurs ayant de lourdes conséquences telle une excavation au mauvais endroit ou le
perçage d’une conduite de gaz. À titre d’exemple de l’intérêt grandissant présenté par les
applications de RAM pour la gestion des infrastructures, la compagnie Bentley Systems Inc.
a mené des travaux de recherche en RAM afin d’aider les responsables de chantier à suivre
l’évolution des travaux de construction. Dans le prototype développé par Côté et al. (2008),
un utilisateur sur le terrain est équipé d’un Tablet PC auquel ont été couplés une caméra, un
GPS et une boussole numérique. En fonction du champ de vue de cet utilisateur, un modèle
3D est affiché dans un logiciel de CAO (Conception Assistée par Ordinateur) permettant
ainsi de comparer l’avancement des travaux sur place comparativement à ce qui était prévu
à cette date.
41
Figure 2.9 - Infrastructure souterraine virtuelle (Schall, et al. 2009)
2.3.4. Les applications sociales issues du Web 2.0
Certaines applications récentes de RAM présentent une forte inclinaison vers les réseaux
sociaux et le volontariat géographique (ou VGI de Volunteer Geographic Information). Le
terme de « AR 2.0 » a d’ailleurs été employé lors de conférences scientifiques et d’ateliers
relatifs au domaine de la réalité augmentée. Réseaux sociaux et VGI place l’individu au
cœur des applications, celui-ci agissant à la fois à titre d’utilisateur et de créateur de
l’information qui sera par la suite massivement partagée. Les deux applications de RAM
populaires déjà citées, Layar et Wikitude, en sont de bons exemples. Les utilisateurs sont
invités à créer et à partager leurs centres d’intérêt ou leurs lieux favoris à la surface de la
Terre. A titre d’exemple, les articles géoréférencés de Wikipédia (i.e. des coordonnées
géographiques sont associées à ces articles, les coordonnées étant en lien avec le contenu de
l’article), écrits par le grand public, sont visibles sous formes d’annotations via Layar ou
Wikitude (cf. Figure 2.10). D’une manière un peu plus ludique, une toute nouvelle
application de la compagnie japonaise Mobile Art Lab, iButterfly
(www.mobileart.jp/ibutterfly_en.html), permet aux utilisateurs de capturer à l’aide de leur
téléphone intelligent des papillons virtuels. Ceux-ci sont différents dans chaque ville et
peuvent être partagés entre les utilisateurs puis être utilisés comme coupons-rabais dans
certains commerces (cf. Figure 2.11). iButterfly peut être considérée comme une application
42
de « RAM 2.0 » dans le sens où le partage des éléments virtuels est omniprésent et un
contact avec la communauté (i.e. les utilisateurs et les commerçants) y est encouragé.
Figure 2.10 - Capture d'éran de Layar avec articles de Wikipedia géolocalisés (image :
Danie van der Merwe, www.flickr.com)
a)
b)
Figure 2.11 - L’application iButterfly a) papillon virtuel dans l’environnement b) utilisation
de celui-ci afin d’obtenir un rabais sur un produit
43
Ce tour d’horizon a permis d’explorer les différentes thématiques touchées par les
applications actuelles de RAM. Nous verrons au travers des sections suivantes les trois
rôles que peuvent jouer un modèle 3D de l’environnement au sein de ces applications de
RAM afin de les rendre plus immersives et interactives.
2.4. Gestion des occlusions dans les applications de RAM
2.4.1. Introduction
Comme nous avons mentionné, la gestion cohérente des occlusions entre les objets réels et
virtuels est primordiale afin d’obtenir une application réaliste de RAM. La gestion des
occlusions se voit être notamment le meilleur indice afin de percevoir l’effet de profondeur
des différents objets virtuels présents dans une scène (Azuma 1997). Le sentiment
d’immersion de l’utilisateur est plus élevé si une visualisation conforme à notre vision de la
réalité est offerte au sein de l’application de RAM.
Le recensement des travaux présentés dans la littérature a permis d’identifier trois types de
solutions permettant de gérer les occlusions dans un environnement de RAM : 1) utilisation
d’un modèle 3D; 2) utilisation d’algorithmes de vision numérique et d’un télémètre laser;
3) utilisation d’approches semi-interactives requérant des interventions manuelles de
l’utilisateur. Ces trois familles de solution vont être présentées en détail dans les
paragraphes suivants.
2.4.2. Utilisation d’un modèle 3D
Suite à la récupération ou à la construction du modèle 3D de la zone géographique où
l’application de RAM doit être déployée, il est alors possible de gérer les occlusions
intervenant entre les objets réels et les objets virtuels en exploitant ce modèle. Au moment
du rendu en temps réel de la scène, l’application se doit d’afficher les parties d’un objet
virtuel seulement si elles se situent à l’avant plan (cf. Figure 2.12). Le reste de la scène doit
être remplacé par l’arrière plan, c’est-à-dire le flux vidéo provenant de la caméra de
l’utilisateur en temps réel. Lors de la mise en œuvre de l’application, le point de vue de la
caméra de l’utilisateur dans le monde réel se doit d’être homologue à celui de l’univers
virtuel contenant à la fois le modèle 3D de l’environnement réel et les objets virtuels afin de
44
conserver une correspondance entre le monde réel et le monde virtuel. Les techniques
utilisées afin de rendre le modèle 3D transparent tout en cachant les parties des objets
virtuels ne devant pas être affichées sont propres à chacun des moteurs 3D exploités dans
les applications de RAM. La Figure 2.13 provenant du jeu ARQuake (Thomas, et al. 2002)
illustre bien les différentes étapes intervenant lors de l’intégration d’un modèle 3D dans une
application de RAM. Celles-ci consistent en:
La construction du modèle 3D de l’environnement (cf. Figure 2.13a);
L’intégration des objets virtuels 3D et du modèle 3D de l’environnement dans le
même univers (cf. Figure 2.13b);
Le rendu en temps réel du flux vidéo provenant de la caméra et du monde virtuel
(cf. Figure 2.13c);
Le remplacement des pixels du modèle 3D de l’environnement par ceux de l’arrière
plan et l’affichage des parties de l’objet virtuel à l’avant-plan (cf. Figure 2.13d).
Figure 2.12 - Gestion de l’occlusion entre un élément réel (i.e. le bâtiment) et un élément
virtuel (i.e. le pot à thé) dans un environnement de réalité augmentée.
45
a) b) c) d)
Figure 2.13 - Les différentes étapes intervenant dans l’utilisation d’un modèle 3D pour
gérer les occlusions dans l’application ARQuake (Thomas, et al. 2002)
Plusieurs autres applications exploitent un modèle 3D de l’environnement afin de gérer les
occlusions entre les objets réels et virtuels. Malheureusement, peu d’informations sont
présentes dans les articles recensés dans la littérature quant aux caractéristiques que ce
modèle présente. C’est notamment le cas pour Time Warp (Broll, et al. 2008) et Epidemic
Menace (Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007).
2.4.3. Utilisation d’algorithmes de vision numérique et de composantes
physiques
Dans l’esprit de l’Anywhere Augmentation, une technique a été développée par Wither et al.
(2008) afin de gérer les occlusions dans un environnement non-préparé d’avance. Cette
approche hybride comprend l’utilisation d’un télémètre laser en combinaison à des
algorithmes de vision numérique dans le but de créer un panorama 3D5 qui servira de
support à la gestion des occlusions. Dans ce contexte, le télémètre et la caméra sont
conjointement positionnés sur le casque que porte l’utilisateur. L’objectif pour l’utilisateur
est de préparer son environnement rapidement afin de pouvoir ensuite augmenter la réalité
tout en gérant les occlusions intervenant entre le monde réel et les objets virtuels. Pour ce
5 Un panorama 3D est une mosaïque d’images sur 360 degrés où une valeur de distance entre les éléments
présents dans les images et la position de l’utilisateur est attribuée à chacun des pixels.
46
faire, l’utilisateur construit un panorama 2D (cf. Figure 2.14a) sans se déplacer mais en
effectuant un mouvement de rotation de 360º afin que la caméra capture l’environnement
tout autour de lui. Pendant ce temps, le télémètre laser mesure automatiquement la distance
qui sépare l’utilisateur des différents objets présents dans l’environnement. L’approche
consiste alors, à partir du panorama 2D, à segmenter en différents groupes les pixels en
utilisant certaines caractéristiques visuelles (ex. le gradient d’intensité des pixels) du flux
vidéo ainsi que la distance provenant du télémètre. Ces groupes de pixels semblables
forment alors les différents objets présents dans la scène. Le panorama 3D (cf. Figure
2.14b) est construit en affectant une valeur de distance à chacun de ces groupes de pixels.
Celle-ci correspond à la distance entre les objets de la scène et l’utilisateur et elle est
obtenue grâce au télémètre laser. Le panorama 3D résultant est construit facilement et
rapidement (i.e. entre deux et quatre minutes) par l’utilisateur. Un objet virtuel peut ensuite
être intégré dans le panorama 3D et les occlusions seront gérées avec une très bonne qualité
visuelle, tel qu’illustré à la Figure 2.15. L’une des contraintes de cette approche est que
l’utilisateur doit toujours rester au même endroit lors de l’augmentation. Si celui-ci se
déplace, un autre panorama 3D doit être construit.
a)
b)
Figure 2.14 - a) panorama couleur, b) panorama 3D, les régions foncées sont plus près de
l'utilisateur (Wither, et al. 2008)
47
Figure 2.15 - Occlusion d'un objet virtuel (la Vénus de Milo) par un objet réel (Wither, et
al. 2008)
2.4.4. Utilisation d’approches semi-interactives
Une autre approche afin de solutionner la gestion des occlusions dans une scène entre des
objets réels et des objets virtuels est proposée par Lepetit et Berger (2000). Celle-ci est
semi-interactive et demande l’intervention de l’utilisateur afin d’extraire les objets réels
dans un environnement non-préparé d’avance. Cette approche, qui ne s’effectue pas en
temps réel, permet de modéliser les objets ayant une géométrie complexe qui peuvent alors
agir en tant qu’occludeur (cf. Figure 2.17). Le principe de l’approche proposée est le
suivant : un utilisateur trace le contour d’un objet réel sur une vue clée d’une vidéo pré-
enregistrée (cf. Figure 2.16a). Une vue clée est une image où un changement marqué
concernant un objet apparait (ex. couleur, nouveau côté visible). L’utilisateur exécutera la
même action sur une seconde image clée du flux vidéo qu’il aura choisie (cf. Figure 2.16b).
Le système définira alors une courbe 3D par stéréo triangulation à partir de ces deux
contours représentant un même objet réel (cf. Figure 2.16c). Cette courbe 3D sera alors
projetée en 2D dans les images de la vidéo situées entre les deux vues clées (cf. Figure
2.16d). Elle sera par la suite améliorée à l’aide d’algorithmes de vision numérique pour
bien représenter le contour 2D de l’objet (cf. Figure 2.16e). Ce contour 2D délimite donc,
dans chacune des images, une région 2D servant à gérer les occlusions avec un objet virtuel
s’il se trouve dans le même univers que la courbe 3D calculée (cf. Figure 2.17). Cette
approche semi-interactive n’est pas très répandue et ne peut être mise en œuvre en temps
48
réel. Elle montre néamoins que l’utilisateur peut jouer un rôle actif pour modéliser son
environnement en ce qui concerne la gestion des occlusions pour la RAM.
Figure 2.16 - Approche semi-interactive de modélisation pour la gestion des occlusions
(Traduction libre) (Lepetit et Berger 2000)
Figure 2.17 - Gestion des occlusions par un objet à géométrie complexe (Lepetit et Berger
2000)
49
2.5. Les modèles 3D et l’aide au calcul de la pose de la caméra.
2.5.1. Introduction
Lorsqu’un modèle 3D du monde réel dans lequel une application de RAM est mise en
œuvre est disponible ou accessible, il est possible de l’utiliser afin d’aider au calcul de la
pose de la caméra. Les approches exploitées à cet effet relèvent de la vision numérique.
L’objectif ici consiste à estimer plus précisément les paramètres extrinsèques de la caméra.
L’augmentation se voit alors améliorée considérablement comparativement au résultat
obtenu en n’utilisant que des composantes physiques (i.e. récepteur GPS, boussole
numérique et accéléromètres ou centrale inertielle). Il est cependant possible de recalculer
la pose de la caméra d’un utilisateur seulement sur la base des informations fournies par ces
composantes physiques. Mais la précision du calcul de pose à partir de ces composantes
n’est généralement pas suffisante pour obtenir une augmentation réaliste de la réalité. Une
conséquence de l’efficacité du calcul de pose à partir de modèle 3D est la réduction des
effets de tremblement (i.e. flickering) des objets virtuels lors de leur rendu dans le flux
vidéo. Dans ce contexte, ils sont projetés dans le flux vidéo de manière plus conforme avec
la position et l’orientation du champ de vue de l’utilisateur ce qui contribue de manière
importante à l’immersivité de l’application de RAM. Par exemple, Reitmayr (2006) calcule
la pose de sa caméra en utilisant un modèle 3D. La précision qu’il obtient pour la position
de la caméra est inférieure à deux mètres avec un écart-type d’environ quinze centimètres.
En comparaison, le récepteur GPS de l’iPhone 3G possède une précision d’environ 8
mètres avec une erreur quadratique moyenne d’environ 10 mètres (Zandbergen 2009). Étant
donné que le calcul de la pose de caméra constitue l’un des concepts fondamentaux de la
RAM, celui-ci a été l’un des sujets les plus abordés entre 1998 et 2008 dans les conférences
de l’ISMAR6 . A l’heure actuelle, le calcul de pose n’offre toujours pas de solution globale
et satisfaisante pour tous les contextes d’application (Zhou, Duh et Billinghurst 2008).
Deux principaux types de modèles 3D de la réalité sont appelés à être utilisés afin d’aider
au calcul de la position et de l’orientation de la caméra de l’utilisateur pour une application
de RAM (Pressigout 2006): 1) les modèles 3D par arêtes ou surfaces; 2) les modèles 3D
6 International Symposium on Mixed and Augmented Reality, la conférence phare du domaine de la réalité
augmentée
50
texturés. Les paragraphes suivants vont décrire en détail les principes de leur mise en œuvre
pour le calcul de pose. Les panoramas7 (ex. Google Street View), présentent également un
intérêt grandissant pour le calcul de pose et nous exposerons également quelques travaux
récents réalisés dans ce domaine dans les paragraphes suivants.
2.5.2. Modèle 3D par arêtes ou surfaces
Un modèle 3D formé par arêtes ou par surfaces peut être utilisé afin d’aider au calcul de la
pose de la caméra dans une application de RAM. Ce type de modèle peut être créé, par
exemple, à partir d’un logiciel de type CAO (Conception Assistée par Ordinateur). Le
principe général du calcul de la pose de la caméra à partir de ces modèles 3D se décompose
en quatre étapes distinctes. La première est l’estimation d’une pose initiale. Celle-ci peut
être obtenue à partir du récepteur GPS, des accéléromètres et de la boussole numérique
d’un appareil mobile. La deuxième étape est la projection en 2D du modèle 3D dans le plan
image selon le calcul de la pose initiale. La troisième étape est l’analyse des différences
entre cette projection et l’image en cours du flux vidéo. Pour cette étape, les arêtes sont
extraites de l’image en cours (ex. par algorithmes de Canny ou Sobel, voir Sonka et al.
2008 pour plus de détails) puis comparées à la projection du modèle 3D. Le positionnement
précis de la caméra par rapport au modèle 3D est finalement trouvé en minimisant les
distances entre les arêtes des deux projections.
En utilisant un modèle 3D formé par des arêtes, il a été remarqué que ce procédé est
efficace et n’est pas sensible au changement de luminosité (Zhou et al. 2008). Plusieurs
variantes de ce principe général existent. Citons entre autre l’approche inverse de Gennery
(1991). Le contexte ici consiste en une caméra fixe et un objet mobile, dont on souhaite
obtenir la position. Le principe de l’approche proposée est le même qu’expliqué
précédemment, soit de chercher à comparer les arêtes extraites des images du flux vidéo à
la projection du modèle 3D de l’objet, mais l’objectif est différent car il s’agit de déduire ici
la position de l’objet mobile et non celle de la caméra qui est connue. On peut citer
également les travaux de Comport et al. (2003) qui exploitent plusieurs primitives
7 Un panorama est constitué de plusieurs images prises en même temps d’une même position, mais avec des
orientations différentes puis mosaïquées de manière à couvrir une vue de 360°.
51
géométriques (i.e. des formes simples prédéfinies comme les cercles, lignes, cylindres) afin
de calculer la pose de la caméra.
2.5.3. Modèle 3D texturés
Les modèles 3D texturés constituent le deuxième type de modèle 3D utilisé pour aider au
calcul de la pose de la caméra dans une application de RAM. Les différentes étapes
impliquées dans ce calcul sont sensiblement les mêmes que celles mises en œuvre pour les
modèles 3D basés sur les arêtes. La différence réside dans les informations analysées dans
les images du flux vidéo qui sont des points saillants extraits de la texture du modèle 3D au
lieu des arêtes. Plusieurs détecteurs peuvent être utilisés pour mettre en évidence ces points
saillants. Reitmayr et Drummond (2006) utilisent par exemple des edgels, qui sont des
pixels qui délimitent un changement marqué dans l’image (cf. Figure 2.18).
Figure 2.18 - Extraction des edgels dans une image (Reitmayr et Drummond 2006)
Un des avantages de cette approche pour le calcul de pose est qu’elle opère un
échantillonnage automatique du niveau de détails présent dans les images et donc elle peut
être utilisée à plusieurs échelles (Reitmayr et Drummond 2006). Cependant, son principal
inconvénient est sa sensibilité au changement d’illumination de la scène (Pressigout 2006).
Afin de tirer profit à la fois des avantages de l’approche exploitant les arêtes du modèle 3D
et de celles basée sur des modèles 3D texturés, des approches hybrides robustes et
performantes ont rapidement été développées. C’est le cas notamment des méthodes
52
respectivement de Vacchetti et al. (2004), de Kim et al. (2007) (cf. Figure 2.19) et de
Pressigout (2006).
a)
b)
c)
Figure 2.19 - a) Modèle 3D avec les points saillants et les arêtes, b) comparaison du modèle
3D avec l'image en cours, c) calcul de la pose de la caméra et augmentation de la réalité
(Kim, et al. 2007)
2.5.4. Panoramas
L’arrivée de panoramas précisément positionnés (ex. Google Street View, Bing Maps)
couvrant une proportion importante des régions habitées de la surface terrestre (cf. Figure
2.20) a engendré un intérêt grandissant pour l’utilisation de ceux-ci pour le calcul de pose
de la caméra d’une application de RAM. Une approche similaire à celle des modèles 3D
(basés sur des arêtes ou texturés) est utilisée par Yazawa et al. (2009). Une première
estimation de la position de la caméra est réalisée à partir du récepteur GPS de l’appareil
utilisé pour l’augmentation de la réalité. Cette estimation sert à contraindre spatialement la
recherche d’un panorama dans une base de données. Le panorama choisi est celui qui
apparie le plus de points semblables à l’image acquise initialement par la caméra.
L’orientation de la caméra est obtenue en comparant cette même image au panorama
sélectionné (cf. Figure 2.21). Les auteurs mentionnent que cette technique fonctionne très
bien si l’image est prise dans un rayon de sept mètres à partir du centre du panorama. Des
résultats concluants de repositionnement ont été obtenus, mais seulement lorsque les
conditions d’illumination de la scène sont semblables à celles qui prévalaient lors de la
capture des panoramas.
53
Figure 2.20 - Couverture de Google Street View en bleu (http://gmaps-
samples.googlecode.com/svn/trunk/streetview_landing/streetview-map.html)
Figure 2.21 - Estimation de l'orientation d’un cliché par éléments semblables entre la vue
caméra et le panorama (Yazawa, et al. 2009)
54
2.6. Les modèles 3D et le support à l’augmentation et aux
interactions
2.6.1. Introduction
Le troisième rôle que peut jouer un modèle 3D au sein d’une application de RAM est de
supporter l’augmentation de la réalité ainsi que les interactions offertes. La présence d’un
modèle 3D permet de lier étroitement les univers virtuel et réel dans une application de
RAM. En d’autres mots, les interactions proposées à l’utilisateur seront plus réalistes si un
couplage des éléments virtuels existe avec certains objets réels. Le modèle 3D peut aussi
être utile pour supporter l’augmentation, notamment en servant d’ancrage pour le
positionnement d’objets virtuels ou pour la génération réaliste d’ombrage.
2.6.2. Support aux interactions
Une application de RAM sera réaliste et immersive si elle offre une vaste gamme
d’interactions à l’utilisateur. Celles-ci peuvent s’effectuer entre plusieurs acteurs :
1. Utilisateur ↔ utilisateur. Si plusieurs personnes utilisent la même application de
réalité augmentée au même endroit, il est intéressant qu’ils puissent interagir
ensemble. C’est notamment le cas avec le jeu Human Pacman (Cheok, et al. 2003)
où certains des utilisateurs incarnent Pacman, le petit personnage jaune, et les
autres incarnent les fantômes du jeu original. L’objectif pour les fantômes est
d’attraper Pacman, ce qui se traduit dans le jeu par un contact entre les joueurs
représentant chacun des personnages (cf. Figure 2.22).
55
Figure 2.22 - Interactions entre les joueurs du jeu Human Pacman (Cheok, et al.
2003)
2. Objet virtuel ↔ objet virtuel. Dans certaines applications, les objets virtuels
présents peuvent interagir ensemble. Un exemple est l’application de réalité
augmentée du Futuroscope appelée Les animaux du futur
(www.lesanimauxdufutur.com). Celle-ci s’appuie sur l’utilisation de marqueurs.
Des animaux futuristes apparaissent à l’écran lorsqu’une caméra numérique détecte
et analyse ces marqueurs. Chaque animal est associé à un marqueur. Quand deux
marqueurs se trouvent à proximité, les animaux qu’ils représentent se reconnaissent
et entament alors un combat.
3. Utilisateur ↔ objet virtuel. Il est possible pour un utilisateur d’interagir avec les
objets virtuels intégrés à l’environnement. Dans le jeu éducatif Time Warp (Herbst,
Ghellah et Braun 2007) un personnage virtuel 3D pose plusieurs défis à un
utilisateur voulant en savoir plus sur l’histoire de la ville de Cologne en Allemagne
(cf. Figure 2.23).
56
Figure 2.23 - Un personnage virtuel 3D pose le défi d'identifier correctement un
blason à l'utilisateur (Herbst, Ghellah et Braun 2007)
Il est important de garder en tête ces types d’interactions car elles sont au centre de toutes
les applications de RAM. Cependant, dans le présent projet de recherche, c’est le rôle du
modèle 3D de l’environnement qui importe. En prenant en compte un modèle 3D de
l’environnement comme appui aux interactions proposées, l’intégration du réel et du virtuel
n’en est que plus homogène. Le recensement de la littérature a mis en évidence le peu
d’exemples qui existent actuellement en termes d’interactions avec des modèles 3D. Nous
avons néanmoins pu noter deux types d’interaction impliquant des modèles 3D:
1. Utilisateur ↔ modèles 3D. Le modèle 3D de l’environnement peut être une partie
structurante d’une application en RAM. Les actions posées par l’utilisateur en
relation avec le modèle 3D auront un effet sur le déroulement du scénario de
l’application. Par exemple, Reitmayr et Drummond (2006) proposent un jeu simple
où l’utilisateur vient interagir avec des parties précises d’un modèle 3D de bâtiment.
Ce dernier doit trouver une échelle virtuelle puis se déplacer à la bonne fenêtre du
bâtiment afin d’envoyer un mot doux à la personne aimée avant que le temps ne soit
écoulé (cf. Figure 2.24).
57
a)
b)
Figure 2.24 - a) et b) Interaction entre le joueur et une fenêtre d'un bâtiment réel
(Reitmayr et Drummond 2006)
2. Modèle 3D ↔ objets virtuels. Bien peu d’exemples viennent illustrer les
interactions que peut avoir le modèle 3D de l’environnement avec les éléments
virtuels de l’application de RAM. Le jeu Epidemic Menace (Lindt, Ohlenburg et
Pankoke-Babatz, et al. 2007) propose pour sa part une approche unique, originale et
très innovatrice en termes d’interaction entre modèle 3D et objets virtuels. Elle
consiste en la prise en compte des conditions atmosphériques en temps réel dans le
comportement d’objets virtuels. Le scénario d’Epidemic Menace implique des virus
virtuels tentant de se propager dans l’environnement (cf. Figure 2.25). Ces virus
virtuels se déplacent selon la direction et l’intensité du vent et augmentent de
volume en fonction de la température ambiante. Lorsque l’on fait référence aux
modèles 3D de l’environnement exploité dans les applications de RAM, ceux-ci ne
se limitent donc pas à des éléments anthropiques statiques. La modélisation de
phénomènes continus est également possible.
58
Figure 2.25 - Joueur et virus du jeu Epidemic Menace (Lindt, Ohlenburg et
Pankoke-Babatz, et al. 2007)
Les exemples présentés illustrent la pertinence de l’utilisation d’un modèle 3D de
l’environnement afin de bien lier le monde réel et le monde virtuel au niveau des
interactions proposées. Contrairement aux deux premiers rôles du modèle 3D qui sont plus
rigides conceptuellement, celui-ci n’est pas restreint et sollicite l’imagination des
développeurs.
2.6.3. Support à l’augmentation
En possédant une connaissance de l’environnement où se déroule l’application de RAM, il
est possible de supporter l’augmentation de la réalité des deux façons suivantes :
1. Ombrage. La prise en compte des ombres des éléments virtuels 3D dans une scène
permet de resserrer les liens entre le monde réel et le monde virtuel. L’effet est
d’autant plus réaliste si l’illumination en temps réel (i.e. position du soleil et
conditions météorologiques) est prise en compte. La Figure 2.26 illustre bien ce
principe. On peut effectivement bien voir l’ombre de l’avion virtuel 3D sur le
bâtiment en arrière-plan.
59
Figure 2.26 - Avion virtuel 3D et ombrage sur le bâtiment derrière (Lepetit et
Berger 2000)
2. Ajout d’éléments virtuels relativement au modèle 3D. Un modèle 3D peut
également servir à ancrer des objets virtuels dans la réalité. En d’autres mots, un
modèle 3D servira d’appui au positionnement d’éléments 0D-3D virtuels. Comme
illustré à la Figure 2.27, un modèle 3D de l’Opéra de Sydney est utilisé pour
l’application de différentes textures. Un autre exemple de support à l’augmentation
est présenté à la Figure 2.28 où un pont virtuel 3D est positionné par rapport à un
bâtiment existant, ceci dans le cadre d’une application de jeu.
60
Figure 2.27 - Un modèle 3D sous-jacent
est utilisé afin d’appliquer différentes
textures 2D. (Hengel, et al. 2009)
Figure 2.28 - Objet virtuel 3D
juxtaposant un bâtiment réel
(Thomas, et al. 2002)
2.7. Conclusion du chapitre
Dans ce chapitre, nous avons en premier lieu présenté les principes de la réalité augmentée
et de la réalité augmentée mobile. Par la suite, un survol du domaine de la RAM au travers
d’applications existantes a été effectué. Ces applications touchent plusieurs thématiques et
les plus récentes encouragent les utilisateurs à créer et à partager de l’information
géolocalisée, ce qui s’inscrit dans les mouvements actuels du Web 2.0 et du VGI. Nous
avons par la suite passé en revue les trois rôles que peut jouer un modèle 3D de
l’environnement dans les applications de RAM. Ces rôles sont la gestion des occlusions, le
calcul de la pose de la caméra et le support aux interactions et à l’augmentation. Un modèle
3D d’un environnement spécifique possède donc le potentiel de rendre une application de
RAM plus immersive et interactive pour l’utilisateur, donc d’augmenter « plus fortement »
la réalité. En ayant une bonne vue d’ensemble de la manière dont les modèles 3D sont mis
à profit dans les applications de RAM, la catégorisation des chaînes de production de ces
modèles 3D peut être effectuée ainsi que la formulation des caractéristiques que devra
posséder la chaîne de traitement visée par ce travail de recherche. Ces différents aspects
seront abordés dans le chapitre suivant.
61
Ah! Comme la neige a neigé, Ma vitre est un jardin de givre – Émile Nelligan
3. Chapitre 3 – Modèles 3D et augmentation de la réalité :
caractéristiques et taxonomie
4.
Ce troisième chapitre vise à répondre au deuxième sous-objectif de ce projet de recherche
à savoir la détermination des critères auxquels doit répondre une chaîne de production de
modèles 3D adaptée aux applications de RAM fortement augmentées. Pour aider à la
définition de cette chaîne, nous proposons également la création d’une taxonomie qui
caractérise de manière détaillée trois thèmes intervenant dans de telles applications de
RAM fortement augmentées soit le niveau d’augmentation, le contenu des modèles 3D et
les méthodes d’acquisition.
3.1. Introduction
Comme il a été souligné dans les précédents chapitres, les modèles 3D de l’environnement
sont essentiels afin de mettre en œuvre une application de RAM qui propose un haut niveau
d’immersion et d’interaction. À la lumière de la revue de littérature effectuée dans les
domaines de la réalité augmentée mobile et des sciences géomatiques, le lien entre les
caractéristiques de ces modèles 3D et le niveau d’augmentation de la réalité qu’elles
peuvent induire n’est cependant pas clair, voire même non spécifié dans bon nombre de
travaux. Pourtant cette information nous parait essentielle pour mener à terme et de manière
efficiente un projet de RAM (que ce soit pour identifier les besoins relatifs à ces modèles
3D, les étapes d’acquisition et de traitement ainsi que les coûts associés). Ainsi, selon nous,
il n’existe à l’heure actuelle aucun guide, standard ou classification mettant en relation
explicitement modèle 3D et niveau d’augmentation. Donc actuellement, un concepteur
d’application de RAM ne possède aucun indice à propos des caractéristiques à valider lors
du choix d’un modèle 3D apte à supporter l’augmentation de la réalité visée. Par exemple,
nous estimons que l’exactitude du géoréférencement devrait être déterminée, même
grossièrement, dès le début d’un projet de RAM. Cette caractéristique du modèle 3D peut
avoir un impact direct sur le niveau d’augmentation réalisable. Un géoréférencement
62
approximatif du modèle 3D peut amener des imprécisions au niveau de la gestion des
occlusions entre éléments réels et virtuels et ainsi dégrader le sentiment d’immersion à
l’intérieur d’une application de jeu par exemple. L'intégration des objets virtuels dans le
champ de vue de l’utilisateur ne serait pas alors cohérente avec la réalité. Quelles sont donc
ces caractéristiques du modèle 3D qui influencent la qualité8 de l’augmentation? Nous
tenterons dans ce chapitre de répondre à ces questions notamment par la présentation d’une
taxonomie mettant en relation modèles 3D et niveaux d’augmentation possibles de la
réalité.
Dans le cadre plus restreint de ce projet de maîtrise, nous nous sommes butés à ce manque
d’information liant modèles 3D et augmentation de la réalité. En effet, le projet vise à
développer une chaîne de production de modèles 3D adaptée à la mise en œuvre de solution
de RAM s’inscrivant dans le contexte d’Anywhere Augmentation. Mais pour ce faire, il est
nécessaire de déterminer en premier lieu quelles sont les caractéristiques des modèles 3D
qui ont un impact sur la qualité de l’augmentation de la réalité. Il sera alors possible, dans
un deuxième temps, de proposer une chaîne de traitement produisant des modèles 3D qui
soient aptes à augmenter fortement la réalité. Une taxonomie a été élaborée afin de faire la
lumière sur ce point précis. Cette taxonomie présente trois thématiques, représentées
chacune sous la forme d’un continuum, à savoir le niveau d’augmentation de la réalité, les
spécifications des modèles 3D de l’environnement et les techniques d’acquisition et de
traitements des données géospatiales permettant d’élaborer ces modèles 3D. Compte tenu
de la complexité de la tâche que représente la conception de cette taxonomie, l’absence de
travaux similaires dans la littérature et le temps restreint alloué à ce projet de maîtrise, nous
présentons ici l’état actuel de nos réflexions, mais la taxonomie n’est pas considérée
comme étant achevée. La rédaction d’un article scientifique sur ce sujet est prévue
prochainement.
Ce chapitre est principalement consacré à la justification et à la description de la taxonomie
que nous avons été amenés à élaborer afin de pouvoir répondre au deuxième sous-objectif
de cette maîtrise. Les caractéristiques que doit présenter la chaîne de production de modèles
3D visée dans le cadre du présent projet de recherche seront décrites dans la dernière partie
8 La qualité de l’augmentation caractérise le degré d’aptitude d’un utilisateur d’une application de RA à
distinguer le réel du virtuel.
63
du chapitre en s’appuyant sur les éléments de la taxonomie. Le prototype conçu à partir de
l’énoncé de ces caractéristiques ainsi que les expérimentations qui ont été menées afin de
valider sa robustesse et sa capacité à augmenter la réalité seront présentés au prochain
chapitre.
3.2. Taxonomie : Modèles 3D et augmentation de la réalité
3.2.1. Description générale
Tel qu’illustré par la Figure 3.1, la taxonomie élaborée est constituée de trois continuums.
Ceux-ci font l’objet d’une gradation en fonction d’un ensemble de caractéristiques propres
à chacun d’eux. Ces continuums ont été identifiés suite à une revue de littérature portant sur
les modèles 3D exploités dans les applications de RAM et ils ont été jugés décisifs pour la
prise de décision et la caractérisation des modèles 3D en vue d’une augmentation de la
réalité. La taxonomie proposée possède l’avantage de présenter d’une manière succincte et
visuelle les trois continuums élaborés. La validation préliminaire de cette taxonomie a été
réalisée par plusieurs rencontres et échanges avec certains chercheurs impliqués dans le
projet GeoÉduc3D.
Le premier continuum (en haut de la Figure 3.1) représente les différentes techniques
d’acquisition et les traitements appliqués aux données géospatiales afin de construire des
modèles 3D de l’environnement. Les caractéristiques prises en compte pour ce continuum
sont le coût monétaire, le temps nécessaire, l’expertise requise, l’exactitude spatiale et le
niveau de détails géométriques atteignable. Celles-ci sont impliquées dans la phase
d’acquisition des données ainsi que dans celle de modélisation 3D. La gradation pour ce
continuum relativement aux caractéristiques choisies passe de faible à l’extrémité gauche
(ex. moins dispendieux) à fort à l’extrémité droite (ex. très dispendieux).
Le deuxième continuum (au milieu de la Figure 3.1) propose une hiérarchisation du
contenu possible des modèles 3D selon leur exactitude spatiale, le niveau de détails
géométriques, le type de texture puis le niveau de détails sémantiques. Par exemple, les
modèles les moins exacts ou les moins détaillés se retrouvent à gauche sur le continuum,
les modèles très exacts et très détaillés se retrouvent à droite.
64
Le troisième continuum (en bas de la Figure 3.1) concerne les différentes applications de
RAM. L’augmentation de la réalité y est divisée en trois niveaux qui seront décrits en détail
dans la section 3.2.4. Les applications de RAM sont positionnées le long du continuum en
fonction du niveau d’immersivité et de la richesse des interactions proposés à l’utilisateur.
Une application peu immersive et offrant peu ou pas d’interactions se retrouve à gauche sur
le continuum. Une application très immersive et riche en interactions se positionne à
l’extrémité droite du continuum.
La revue de la littérature a permis de déduire les liens existants entre les modèles 3D et les
différents niveaux d’augmentation du troisième continuum. À la section 3.2.5, les
caractéristiques des modèles 3D seront confrontées aux trois rôles (i.e. gestion des
occlusions, aide au calcul de la pose de la caméra et support à l’augmentation et aux
interactions) qu’ils peuvent jouer au sein d’une application de RAM. Une telle
confrontation a pour but de dégager les liens et les impacts existants entre ces
caractéristiques et la qualité de l’augmentation de la réalité (i.e. si le modèle 3D possède
des caractéristiques lui permettant de jouer l’un de ces trois rôles, une forte augmentation
de la réalité sera possible).
Les trois continuums vont maintenant être présentés en détails dans les prochaines sections.
65
Figure 3.1 - Taxonomie : Modèles 3D et augmentation de la réalité
3.2.2. Méthodes d’acquisition et de traitement des données géospatiales
Le premier continuum de la taxonomie concerne à la fois les diverses techniques
d’acquisition de données géospatiales et les traitements appliqués à ces données afin de
produire des modélisations 3D de l’environnement (cf. Figure 3.2). Il nous est apparu
évident que les instruments ayant servi à l’acquisition des données spatiales constituent la
première source d’information permettant de caractériser les modèles 3D élaborés. Nous
nous intéressons ici aux instruments de mesure au sol, à courte portée, et non aux
techniques d’acquisition aériennes ou spatiales. En effet, les techniques au sol s’inscrivent
spécifiquement dans le contexte visé par le présent projet impliquant un utilisateur ayant un
point de vue sur son environnement depuis la rue (i.e. street view). De plus, comme il a été
mis en évidence dans le chapitre 2, l’exploitation des modèles 3D dans les applications de
RAM impliquent généralement un recalage entre ceux-ci et la vue acquise par la caméra de
la plateforme mobile utilisée. Il est donc nécessaire que ces points de vue se correspondent.
D’autre part, le choix entre une technique d’acquisition terrestre ou aérienne/spatiale
s’effectue selon l’échelle et le niveau de détails requis pour l’utilisation subséquente des
données (i.e. la création de modèle 3D dans le présent contexte). Les techniques
d’acquisition au sol sont celles qui sont les plus appropriées aux cas des applications de
RAM fortement augmentées, c’est-à-dire celles spécifiquement visées dans ce projet. Ce
dernier point sera davantage mis en évidence lors de la confrontation des caractéristiques
des modèles 3D au trois rôles qu’ils peuvent jouer dans une application de RAM (cf.
section 3.2.5). Étant donné qu’il est difficile de présenter de manière exhaustive toutes ces
techniques d’acquisition de données spatiales à l’aide d’instrument au sol, nous nous
sommes concentrés sur celles qui sont les plus couramment utilisées dans l’industrie de la
géomatique afin d’illustrer le premier continuum.
Figure 3.2 - Continuum 1 - techniques d'acquisition et de traitement
67
Tel qu’indiqué à la Figure 3.2, les techniques d’acquisition de données spatiales ont été
classées en trois catégories, selon que l’équipement utilisé est :
1- Grand public : Cette catégorie rassemble les techniques reposant sur des
équipements accessibles à tous en magasin (ex. caméra, téléphone intelligent);
2- Statique spécialisé : Cette deuxième catégorie englobe les équipements spécialisés
de levé terrain statique (ex. station totale, GPS de type géodésique, LiDAR
terrestre). Au niveau du coût, ces équipements sont plus dispendieux que ceux
destinés au grand public. Ils peuvent être mis en œuvre rapidement sur le terrain par
une personne possédant une expertise sur leur fonctionnement;
3- Mobile spécialisé : Cette catégorie implique une planification préalable de
l’acquisition, réalisée par l’entreprise offrant des services de relevé avec le
l’équipement mobile très spécialisé (ex. système de LiDAR ou de caméras
embarqués sur un camion).
La gradation le long du continuum prend en compte les caractéristiques de coût monétaire,
de temps, d’expertise requise, d’exactitude spatiale et de niveau de détails géométriques.
Les techniques d’acquisition (ex. arpentage, photogrammétrie terrestre) qui figurent sur le
continuum sont des catégories remarquables, sans posséder toutefois de limites bien
définies, dans la continuité de ce continuum. La phase d’acquisition des données
géospatiales tout comme celle de l’élaboration des modèles 3D construits à partir de ces
données seront analysés en fonction des caractéristiques cités ci-dessus. Ces
caractéristiques sont jugées décisives dans le processus de construction de modèles 3D.
Elles ont été identifiées à partir de notre revue de littérature (ex. (Reitmayr et Drummond
2006), (Julier, et al. 2001)) et de rencontres avec des professionnels œuvrant dans
l'industrie du géospatial 3D (ex. Rob Harrap (Queen’s University), Chantal Arguin (Groupe
Trifide) et Paul Mrstik (Terrapoint)). Ces caractéristiques vont bien entendu déterminer
celles du modèle 3D résultant. Les caractéristiques des modèle 3D seront présentées à la
prochaine section. Voici donc une description détaillée des éléments auxquels font
référence chacune des cinq caractéristiques retenues :
68
1. Temps : Le temps requis afin d’effectuer un relevé sur le terrain. Il faut noter que si
les techniques nécessitant de l’équipement grand public ou spécialisé statique
peuvent être mises en œuvre immédiatement, les techniques nécessitant de
l’équipement spécialisé mobile requiert une planification préalable et
l’établissement d’un contrat de levé terrain. Le temps requis pour la modélisation
3D subséquente est également pris en compte dans ce continuum;
2. Coût : Le coût monétaire inhérent à l’achat de l’instrument d’acquisition et à la
réalisation des relevés. Pour les techniques mobiles spécialisées, le coût attendu
pour un contrat est indiqué. La présente caractéristique implique également le coût
d’achat des logiciels de modélisation 3D requis;
3. Expertise requise : Le niveau de connaissances techniques des ressources
humaines requises afin de mettre en œuvre la collecte de données et d’effectuer la
modélisation 3D subséquente. La connaissance nécessaire pour mettre en œuvre
une technique d’acquisition ou pour l’utilisation d’un logiciel de modélisation 3D
peut être mesurée simplement selon une échelle basée sur le niveau d’études de
l’utilisateur: 1- une courte formation de quelques heures, 2- un diplôme d’études
professionnelles, 3- un diplôme d’études collégiales et 4 - un diplôme d’études
universitaires;
4. Exactitude spatiale : Le niveau de correspondance en termes de taille, de forme et
de position entre les données géospatiales acquises et l’objet de la modélisation.
L’exactitude spatiale inclut l’exactitude géométrique (taille et forme) et
l’exactitude du géoréférencement (position);
a. Exactitude géométrique : Le niveau de correspondance en termes de taille
et de forme entre les données servant à la modélisation 3D et l’objet de la
modélisation. Une manière d’évaluer l’exactitude spatiale est de vérifier si
les données géospatiales captées respectent un écart acceptable, donné selon
l’application finale visée, à l’objet mesuré. Par exemple, pour l’arpentage
d’une maison, si la différence entre le relevé terrain et les mesures réelles
concernant la largeur, la hauteur et la longueur de l’édifice est inférieure à
69
une tolérance donnée, alors l’exactitude géométrique du relevé est
considérée comme validée;
b. Exactitude du géoréférencement : Le niveau de correspondance en termes
de position entre les données servant à la construction d’un modèle 3D et
l’objet de la modélisation. Le géoréférencement est l’association d’une
position géographique à un objet. Une transformation mathématique est
nécessaire afin de convertir les coordonnées d’origines d’un objet (ex.
référentiel local) dans un référentiel géographique global (ex. projection
UTM (Universal Transverse Mercator)). Un indicateur de l’exactitude du
géoréférencement est la distance ( x, y, z) entre les coordonnées
géographiques de l’objet mesuré et l’objet réel. Le contexte d’application
dictera la tolérance minimale à atteindre. Le géoréférencement s’effectue en
connaissant au minimum trois points dans les deux systèmes de
coordonnées. Cette connaissance permet de déterminer la translation, la
rotation et le facteur échelle à appliquer à tout le jeu de données pour le
transformer dans le référentiel global. Pour ce faire, plusieurs techniques
existent, chacune conduisant à une exactitude variable. Un relevé par
récepteur GPS de haute précision conduira à un géoréférencement du
modèle 3D résultant avec une exactitude centimétrique. Une exactitude
semblable sera atteinte si l’équipement utilisé est une station totale. Dans ce
cas, des points géodésiques (i.e. points de références physiques avec des
coordonnées connues dans un référentiel global) ainsi qu’au minimum trois
points ayant servis à la construction du modèle 3D doivent être relevés. Une
autre approche de géoréférencement implique l’utilisation d’une application
de cartographie (ex. Google Maps) afin d’obtenir rapidement des
coordonnées dans un système global. Cependant, l’exactitude obtenue par
cette méthode est de quelques mètres (Thomas, Daniel et Pouliot 2010).
Notons que le géoréférencement peut être effectué à tout moment, sur le
terrain lors de la collecte de données (ex. utilisation d’un récepteur GPS ou
d’une station totale en relevant des points géodésiques), au moment de
70
manipuler les données brutes, lors de la modélisation 3D ou sur une fois le
modèle 3D complété;
5. Niveau de détails géométriques : La capacité de la technique d’acquisition et de
modélisation 3D à fournir facilement et rapidement certains éléments géométriques
en fonction d’une classification pré-établie. Un niveau de détails géométriques pour
un modèle 3D fait référence à la complétude d’éléments de la géométrie modélisés
en fonction de l’objet de la modélisation. Pour un modèle 3D de bâtiment, des
exemples de niveaux de détails géométriques peuvent être l’aspect général, les
détails du toit, la présence de fenêtres et plus. Un bon exemple de classification
pré-établie de modèles 3D par niveaux de détails est CityGML
(www.opengeospatial.org/standards/citygml). Cette norme de l’OGC (Open
Geospatial Consortium) propose cinq niveaux de détails bien définis. Les
différentes techniques d’acquisition de données géospatiales vont permettre
d’obtenir facilement ou non un niveau de détails géométriques décidé par une
personne en charge. Par exemple, un relevé LiDAR permettra de construire
facilement et rapidement un modèle 3D comprenant des petits détails géométriques
(ex. poignée de porte, gouttières), tandis que cela se voit être beaucoup plus long et
ardu à réaliser avec un relevé d’arpentage. Une technique d’acquisition de données
sera adéquate que si elle permet une modélisation 3D qui est respecte les
spécifications d’un niveau de détails géométriques visé.
Nous venons de présenter les caractéristiques impliquées au niveau du premier continuum
de la taxonomie. Celles-ci permettent de situer une technique d’acquisition de données
géospatiales et de modélisation 3D le long de ce continuum. Les prochains paragraphes
vont passer en revue les différentes techniques d’acquisition de données spatiales
actuellement mises en œuvre dans l’industrie de la géomatique et les confronter aux
caractéristiques énumérées précédemment. Une telle démarche permettra d’illustrer par des
exemples concrets le premier continuum de notre taxonomie.
3.2.2.1. Acquisition de données
3.2.2.1.1. Techniques impliquant de l’équipement accessible au grand public
71
Instruments à la portée de tous. L’acquisition de données spatiales peut être réalisée avec
des instruments de mesures simples et à la portée de tous. Nous pouvons citer par exemple
l’utilisation d’une chaîne d’arpentage ou d’une corde, d’une boussole et il est même
possible de simplement compter ses pas en marchant pour obtenir une approximation d’une
distance. Toutes ces approches constituent des techniques d’acquisition rapides de données
spatiales. Une courte formation peut être nécessaire pour mettre ces techniques en œuvre.
Notons aussi que les téléphones intelligents, qui possèdent généralement une caméra, des
accéléromètres, une boussole numérique et un récepteur GPS, peuvent aussi être utilisés
afin de collecter des données à caractère spatial.
Photogrammétrie terrestre. Une modélisation 3D par approche photogrammétrique
implique la détermination de propriétés géométriques d’éléments à partir de photos prises
depuis plusieurs points de vue et présentant des régions communes se superposant. Le
processus d’acquisition de la donnée de base (i.e. les photographies) est simple, rapide (i.e.
quelques minutes pour un bâtiment) et ne requiert comme équipement qu’une caméra
numérique grand public que l’on retrouve en magasin. L’approche d’acquisition de
photographies est dite orientée espace (cf. Annexe 1), c'est-à-dire que tout l’espace est
capturé sans distinction entre les objets présents dans l’environnement. Par la suite, les
images acquises sont transférées dans un logiciel spécialisé de photogrammétrie où les
objets présents dans l’environnement seront définis et extraits individuellement (soit à
partir d’interprétation humaine ou informatisée). Le coût pour un logiciel de
photogrammétrie terrestre peut varier de 1000$ jusqu’à environ 3000$
(www.photomodeler.com, www.iwitnessphoto.com) selon les fonctionnalités voulues (ex.
automatisation de certaines opérations; création de surfaces denses; ajout de formats
d’entrées-sorties). Certains logiciels issus du domaine du Code Ouvert (i.e. open source)
sont accessibles tel que Arpenteur (http://sudek.esil.univmed.fr/atk/). La compagnie
Autodesk offre aussi un logiciel gratuit, Photo Scene Editor, qui permet d’extraire un
modèle 3D à partir d’images prises d’une caméra non-calibrée
(http://labs.autodesk.com/utilities/photo_scene_editor/). Un technicien formé à l’utilisation
72
d’un tel logiciel (sans connaissances préalables en géomatique ou photogrammétrie
requises) peut alors interpréter puis extraire la géométrie de l’objet photographié puis
reconstruire le modèle 3D associé. La modélisation d’un bâtiment très complexe tel le
Château Frontenac représenté dans le Tableau 3.2 peut être ardue et demander une longue
période de travail, même pour un technicien expérimenté. Cependant, ces logiciels de
photogrammétrie permettent d’effectuer des modélisations de bâtiment et de détails
architecturaux complexes avec un haut niveau de détails tel qu’illustré à la Figure 3.3 où la
modélisation 3D a nécessité plus de 200 clichés.
L’exactitude et le niveau de détails géométriques du modèle 3D produit repose sur un
ensemble de facteurs : la force du réseau des prises de photos9, la précision de la calibration
de la caméra si requise par le logiciel, l’expertise du technicien, le temps accordé pour la
réalisation de la modélisation, la résolution et l’orientation des photos. Eos Systems Inc.,
une compagnie spécialisée en photogrammétrie, affirme obtenir à l’aide de son logiciel
Photomodeler une exactitude géométrique inférieure à cinq centimètres pour un objet
d’environ 15 mètres de largeur dans le sens de la photo
(www.photomodeler.com/kb/entry/25/).
9 En photogrammétrie terrestre, le réseau défini l’ensemble des emplacements des clichés pour un objet donné
et son design a pour but de satisfaire les critères de qualité pré-définis (i.e. précision et fiabilité) en un
minimum d’efforts (Parian et Gruen 2005). Une géométrie forte fera en sorte que les rayons optiques pour un
même point se croisent à un angle le plus près possible de 90° afin d’obtenir une meilleure précision des
coordonnées 3D résultantes. Aussi, l’ajout de clichés augmentera la redondance dans le réseau et en
améliorera sa robustesse.
73
Figure 3.3 - Modélisation 3D du Merlion de Singapour par le logiciel PhotoModeler
(www.photomodeler.com/applications/architecture_and_preservation/examples.htm)
3.2.2.1.2. Techniques requérant de l’équipement statique spécialisé
Arpentage. L’apparition de l’arpentage remonte au début de la civilisation égyptienne. Un
« tendeur de corde » à l’aide d’une corde à nœuds permettait de rétablir les limites des
propriétés après les crues annuelles du Nil en Égypte ancienne (cf. Figure 3.4). Aujourd’hui
des équipements sophistiqués sont utilisés tels la station totale ou le récepteur GPS de haute
précision pour effectuer ce même type de tâche. En conditions normales, ces appareils
permettent de relever des objets ponctuels à une précision centimétrique. Cependant, un
seul point à la fois peut être enregistré et la cadence d’acquisition peut être augmentée en
utilisant une station totale robotisée. Cette approche est dite orientée objet, car la collecte de
données ne s’effectue pas sur tout l’espace mais bel et bien en en fonction de l’existence ou
non d’un objet (autrement dit aucune étape ultérieure d’interprétation n’est requise pour
savoir que tel ou tel objet dans l’environnement est capté, comme cela était nécessaire dans
le contexte de l’approche d’acquisition orientée espace). Certaines stations totales récentes
74
(ex. la série GPT-7000i de Topcon) possèdent également une caméra numérique afin de
capter les images des points relevés et ainsi permettre l’application de textures lors de la
modélisation 3D. Le temps consacré à l’acquisition peut être de plusieurs heures voire
plusieurs jours selon la couverture et le nombre d’objets présents dans l’environnement.
Julier et al. (2001) expliquent qu’en contexte de modélisation 3D, certains détails de
bâtiments sont difficiles à relever par les techniques d’arpentage (ex. fenêtres, toitures
complexes, ornements architecturaux). Le coût d’achat des appareils est de quelques
milliers de dollars et une formation est nécessaire pour une personne n’ayant aucune
expérience avec ces appareils afin de pouvoir les utiliser correctement. Pour un relevé
effectué par des techniciens en arpentage, l’Ordre des arpenteurs-géomètres du Québec
indique que le coût pour une équipe terrain est d’environ de 165$ de l’heure (Ordre des
arpenteurs-géomètres du Québec 2010). Les points relevés peuvent ensuite servir de base à
la modélisation 3D en utilisant par exemple un logiciel spécialisé de type CAO (Conception
Assistée par Ordinateur). Ce dernier peut coûter quelques milliers de dollars (ex. 4000$
pour le populaire logiciel AutoCAD (http://store.autodesk.com)), mais quelques gratuiciels
existent également (ex. Archimedes, BRL-CAD, gCAD3D). Le temps requis pour la
modélisation dépend de l’expérience du modeleur avec le logiciel ainsi que de la
complexité du modèle 3D à produire.
Figure 3.4 - Arpentage en Égypte ancienne, scène du tombeau de Menna (Schultz 1983)
75
LiDAR terrestre. Le LiDAR (Light Detection And Ranging) terrestre (ou statique) est un
appareil conçu pour balayer une scène en 3D en utilisant un rayon laser (cf. Figure 3.5a).
La distance entre le LiDAR et un objet est calculée en mesurant soit le temps écoulé soit la
différence de phase entre l’émission et la réception du rayon laser en fonction de la
technologie utilisée (Shan et Toth 2009). La coordonnée 3D de l’endroit où le rayon laser a
intersecté l’objet est calculée à partir de cette distance et de l’orientation du capteur laser au
moment de l’émission/réception du signal. Les appareils récents (ex. ScanStation C10 de
Leica) permettent d’atteindre des précisions angulaires de 12" (horizontal/vertical) et des
précisions au delà du centimètre pour un objet situé à une distance de l’appareil variant de 1
à 50 mètres (Leica Geosystems, 2009). La plupart des LiDAR terrestres permettent de
balayer la scène sur 360 degrés à une cadence allant jusqu’à 50 000 points par seconde pour
le ScanStation C10. Le LiDAR peut être considéré comme étant une technique orientée
espace et objet à la fois, car tout l’espace est scanné d’une manière non fonctionnelle (i.e.
peu importe les objets s’y trouvant), mais les surfaces formant les objets de
l’environnement se voient être définies (en totalité ou en partie) explicitement en 3D selon
la densité des points relevés. Une modélisation 3D de type matricielle (ex. voxels) ou
vectorielle (ex. B-Rep) (cf. Annexe 1) peut être produite à partir d’un nuage de points
LiDAR. Les données enregistrées sont constituées de plusieurs milliers, voire millions de
points 3D, ce qui complexifie à la fois leur interprétation et leur traitement. En effet, peu de
logiciels encore actuellement sont en mesure d’offrir une visualisation et une manipulation
fluides de telles quantités de données (cf. Figure 3.5b). Certains appareils possèdent une
caméra et donc permettent le drapage de textures sur le modèle 3D élaboré à partir du
nuage de points ou bien encore l’association d’une information de couleur (i.e.
composantes Rouge, Vert, Bleu) aux points 3D. Le coût d’achat d’un appareil de ce type
est de l’ordre de 150K$ CAN et une courte formation sur ce type d’équipement est
nécessaire afin de savoir comment mettre en œuvre le processus d’acquisition de donnée.
La modélisation 3D subséquente peut être ardue et coûteuse en termes de temps. En effet, il
existe peu de fonctions automatisées pour la construction de modèles 3D à partir de
données LiDAR terrestre. L’essentiel du travail est réalisé manuellement par un opérateur
(cf. Figure 3.5c). Celui-ci doit composer avec des données qui sont ponctuelles pour saisir
76
des primitives géométriques qui sont continues (ex. les coins et arêtes de bâtiment sont
souvent mal définis dans un levé LiDAR) et avec un nombre important de points de bruit
relatifs aux éléments présents dans l’environnement (ex. végétation, arbre, piéton, …). Par
conséquent, ce processus de modélisation requiert un technicien expérimenté, familier avec
les représentations spatiales en trois dimensions. Pour en savoir plus sur les différentes
approches élaborées pour réaliser une modélisation 3D à partir d’un nuage de points, on
référera le lecteur à l’article de Fabio (2003). En termes de coût, les logiciels spécialisés
permettant de traiter ces nuages de points peuvent varier de quelques centaines de dollars à
plusieurs dizaines de milliers de dollars tels que PolyWorks d’Innovmetric
(www.innovmetric.com), PointCloud de Kubit (www.kubit-software.com) ou Bentley
CloudWorx (www.bentley.com). Plus récemment, un logiciel d’édition de nuage de points
nommé Meshlab en code ouvert est disponible à tous (http://meshlab.sourceforge.net/).
a)
b)
c)
Figure 3.5 - a) Sytème LiDAR statique sur trépied (photo : David Monniaux) b) Nuage de
points représentant une maison (www.formz.com/forum2/messages/16/31092.jpg) c)
Processus de modélisation 3D (détermination des arêtes des objets, lignes de couleurs)
(www.kubitusa.com)
3.2.2.1.3. Techniques requérant de l’équipement mobile spécialisé
Photographie mobile. Un modèle 3D peut être créé à partir de photos prises
simultanément depuis plusieurs caméras calibrées montées sur un véhicule selon une
configuration prédéfinie impliquant un positionnement relatif des caméras entre elles et vis-
à-vis des instruments de positionnement du véhicule s’ils sont présents (i.e. récepteur GPS,
77
centrale inertielle) (Cornelis, et al. 2007) (cf. Figure 3.6a). Les images captées, une fois
mosaïquées, produisent des panoramas (cf. Figure 3.6b) qui sont géoréférencés et
redressés10
à partir des données provenant des capteurs de positionnement à bord du
véhicule ou à partir de points de contrôles connus et repérables dans les panoramas.
Comme mentionné, ces panoramas sont très populaires actuellement dans les applications
de cartographie en ligne (ex. Google Maps et Bing Maps) et présentent une couverture
spatiale très étendue (cf. Figure 2.20). Le véhicule de captage n’a pas besoin de réduire sa
vitesse au moment d’effectuer l’acquisition des photos pour les applications de panoramas
populaire (ex. Google Maps), mais elle est réduite lorsque l’exactitude spatiale des données
est critique (ex. environ 30km/h pour le système GeoAutomation pour une exactitude du
géoréférencement sous les deux centimètres pour un point au sol (Arguin, et al. 2009)).
L’enregistrement des données caractérisant un environnement donné s’effectue donc
rapidement. Un conducteur et parfois un opérateur ayant reçu une courte formation peuvent
être présents lors du relevé. Certaines compagnies privées proposent des panoramas pour
lesquels une coordonnée géographique 3D est associée à chacun des pixels. Une compagnie
québécoise, Groupe Trifide, quant à elle obtient une précision absolue (X, Y, Z) pour
chacun des pixels inférieure à dix centimètres (Groupe Trifide 2010). Les coûts inhérents à
la réalisation d’un tel panorama sont variables mais se situent autour de quelques centaines
de dollars par kilomètre linéaire. Un contrat de relevé est nécessaire et donc implique une
planification préalable au levé. Une discussion avec une compagnie privée offrant ce
service nous a permis de déterminer qu’en général, un délai de deux et à quatre semaines
s’écoule entre la signature du contrat et le levé. Les panoramas résultants sont utilisables
dans un logiciel de type CAO ou SIG (i.e. via un plugin) dans le but d’extraire les objets
présents dans l’environnement souvent dans un contexte cartographique 2D. Une
modélisation 3D est également possible. Dans ce contexte, la modélisation est effectuée à
partir de nuages de pixels 3D obtenus par corrélation entre les différentes images de
l’environnement acquises suivant différents points de vue (cf. Figure 3.7a). Cette méthode
d’acquisition est orientée espace. En effet, les objets présents dans les images captées
10
Le redressement est une opération qui consiste à « reproduire » une photographie aérienne et à la rendre
telle qu'elle eût été si l'appareil de prise de vues avait été « rigoureusement » vertical au moment de
l'ouverture de l'obturateur. (Office québécois de la langue française, 2010)
78
devront être extraits d’une manière manuelle ou automatique. Une modélisation manuelle à
partir du nuage de pixels est possible (cf. Figure 3.7b). Cependant, nous n’avons pas reçu
de réponse à nos demandes faites à une compagnie spécialisée afin d’obtenir des
informations supplémentaires à ce sujet. Nous avons recensé une autre approche
automatique de modélisation 3D qui est basée sur un maillage triangulaire à partir du nuage
de points. À titre d’exemple du temps nécessaire pour élaborer une modélisation 3D à partir
de données acquises selon une approche de photographie mobile, le groupe Trifide utilise
un logiciel maison, reposant sur une méthode de maillage triangulaire, qui nécessite
quelques dizaines d’heures de calculs afin de faire le rendu d’une scène 3D possédant un
niveau élevé de détails géométriques (cf. Figure 3.8).
a)
b)
Figure 3.6 - a) Voiture équipée de caméras (EarthMine), b) Panorama et huit points de vue
différents (Google StreetView)
79
a)
b)
Figure 3.7 - a) nuage de pixels 3D, b) Modélisation 3D des surfaces (en blanc) formant les
bâtiments présents dans la scène (Earthmine, vidéo promotionnelle)
Figure 3.8 - Modélisation 3D par un maillage triangulaire (en bleu) (vidéo promotionnelle,
Groupe Trifide)
LiDAR mobile. Un appareil LiDAR peut également être installé à bord d’un véhicule (cf.
Figure 3.9). Des récepteurs GPS ainsi qu’une centrale inertielle équipent également le
véhicule afin de connaître la position et l’orientation de l’appareil en tout temps (cf. Figure
3.10). Le balayage de la scène est effectué à une vitesse de conduite sécuritaire ne requérant
pas de fermeture de voie, même sur les autoroutes
80
(www.ambercore.com/infrastructure.php). Le type des données acquises est similaire à
celui du LiDAR statique à savoir des nuages de points 3D. Une caméra peut aussi être
montée sur le véhicule afin de capter une séquence vidéo du trajet effectué et donc des
objets et éléments scannés. Ce type de levés est généralement effectué par des compagnies
spécialisées, et il faut prévoir quelques dizaines de milliers de dollars en termes de coût
pour le service offert. Pour ce qui est de l’exactitude spatiale d’un tel levé, elle peut être
supérieure à 15 centimètres pour certains systèmes (Glennie 2009). Récemment, les
voitures de saisie de données de Google, Navteq et TeleAtlas se sont équipées de LiDAR
pour capter des nuages de points 3D (Google 2010), mais la possibilité future d’utiliser ces
données librement pour le développement d’applications est incertaine. En termes de
modélisation 3D, les techniques et logiciels utilisés sont similaires à ceux exploités dans le
contexte du LiDAR terrestre étant donné que les données acquises sont les mêmes. Le
volume de données engendrées dans le cas du LiDAR mobile est bien supérieur à celui des
données LiDAR terrestre. Il est donc fréquent de découper le nuage de points 3D global
sous forme de tuiles adjacentes afin d’en faciliter le traitement.
Figure 3.9 - Système LiDAR embarqué sur un camion (LiDAR Titan d’Ambercore)
81
Figure 3.10 - Système de relevé LiDAR Streetmapper (Haala, et al. 2008) (traduction libre
des termes)
Les techniques d’acquisition de données spatiales présentées en lien avec le continuum
doivent être mises en œuvre si aucun modèle 3D n’est présent. Cependant, l’acquisition de
données n’est pas toujours requise car il est possible que des modèles 3D soient disponibles
et récupérables pour une zone géographique donnée.
3.2.2.2. Récupération de modèles 3D existants
Les techniques d’acquisition de données géospatiales décrites précédemment sont mises en
œuvre si aucun modèle 3D n’existent pour un environnement donné. Cependant, une autre
possibilité est que les modèles 3D existent déjà et soient disponibles et récupérables. La
récupération de données existantes évite donc la capture de données géospatiales sur le
terrain et la modélisation 3D qui suit. Conséquemment, en fonction de notre taxonomie (cf.
Figure 3.1), le premier continuum n’intervient pas puisque les modèles 3D sont récupérés
d’une source tierce. Cela n’exclut pas que ces modèles 3D puissent subir des traitements
avant d’être utilisés dans un contexte de RAM. Ces modèles 3D peuvent être récupérés à
partir d’infrastructures de données 3D ou bien en utilisant des services web 3D. Bien que
ces deux approches de mise à disponibilité de modèles 3D ne s’inscrivent pas dans la
catégorie des techniques d’acquisitions de données géospatiales ou des procédés de
82
modélisation 3D, leur popularité actuelle en fait des sources pertinentes pour l’obtention de
modèles 3D.
Infrastructures de données 3D. Plusieurs modèles 3D sont disponibles et accessibles au
travers d’infrastructures de données 3D (ex. Google 3D Warehouse, 3DVia). Celles-ci
peuvent contenir des modèles 3D géoréférencés (i.e. pouvant être affichés au travers de
globes virtuels tels que Google Earth ou Bing) ou non (ex. objets virtuels : personnage,
végétation, véhicule). Les développeurs de ces applications incitent le grand public à
modéliser une partie de leur environnement puis à partager ces modèles 3D au sein de ces
globes virtuels (ex. http://sketchup.google.com/intl/fr/3dwh/citiesin3d/). Les modèles 3D
ainsi produits par le grand public seront également stockés dans l’infrastructure de données
3D associé au globe virtuel. Les utilisateurs peuvent déposer et télécharger des modèles 3D
sous forme de fichier depuis ces infrastructures, mais seulement un à la fois. Une telle
approche peut devenir problématique en termes du temps impliqué advenant le besoin de
télécharger tout un quartier d’une ville. En effet, la plupart les modèles déposés ne
contiennent qu’un seul bâtiment. Le grand public étant à la source des modèles stockés
dans ces infrastructures, la qualité en termes d’exactitude spatiale et de niveau de détails
géométriques n’est pas garantie. Google 3D Warehouse propose une approche de contrôle
de la qualité de ces modélisations où une cote est attribuée à chaque modèle. L’évaluation
est effectuée par les pairs et visualisable par à l’aide d’une symbologie simple (i.e. une à
cinq étoiles). Cependant, avant qu’un modèle 3D ne soit publié et accessible à tous dans
Google Earth, une évaluation est effectuée par le personnel de Google. Les modèles publiés
doivent entre autres être : texturés, correctement positionnés selon l’imagerie satellitaire et
ne doivent pas être trop complexes afin de limiter le temps de chargement
(http://sketchup.google.com/intl/fr/3dwh/acceptance_criteria.html).
Services web 3D. Une autre manière de récupérer de l’information via l’Internet consiste à
utiliser des services web. Ces applications utilisent des protocoles standards afin de donner
un accès en ligne à ces sources d’information par un client distant. Seule une poignée de
serveurs sont en mesure actuellement de fournir des objets 3D. Un exemple est
83
OpenStreetMap-3D, qui est développé au sein du projet de recherche ―Geodata
Infrastructure 3D‖ (www.gdi3d.de) en Allemagne. L’entrepôt de données 3D est peuplé par
la combinaison des données 2D d’OpenStreetMap et des données d’élévation des bâtiments
fournies par la Shuttle Radar Topography Mission (SRTM). Une application Java est
nécessaire pour la visualisation de ces modèles 3D. La couverture actuelle de ce service
web 3D est restreinte à l’Allemagne et la communauté supportant de telles initiatives reste
encore discrète. Citons aussi le GeoPortail (www.geoportail.fr) de l’IGN France,
permettant l’affichage de données 3D (ex. modèles numériques de terrain et bâtiments)
directement dans le navigateur web via le moteur 3D TerraExplorer (cf. Figure 3.11).
Aussi, l’organisation Geoscience Australia
(www.ga.gov.au/resources/multimedia/3dmodels.jsp) permet l’affichage de données
géophysiques 3D via le globe virtuel de la NASA WorldWind.
En parallèle du développement de ces services web, des efforts sont réalisés en termes de
standardisation des services de données 3D. L’OGC (Open Geospatial Consortium)
travaille actuellement sur le W3DS (Web 3D service). Ce standard de service web sera en
mesure de fournir, avec plusieurs niveaux de détails, des objets 3D tels que des bâtiments
texturés, des modèles de terrain, de la végétation et du mobilier urbain (Schilling et Kolbe
2010). Citons aussi Pouliot et al. (2008) qui ont développé une architecture de service web,
basée sur le standard Geography Markup Language (GML) et Web Feature Server (WFS),
nommée Web Geological Feature Server (WGFS) qui est adaptée à la géologie. Ce service
web permet de requêter, spatialement ou par attributs, des solides géologiques 3D puis de
les afficher.
84
Figure 3.11 - GeoPortail, Modèles 3D de la ville de Paris
3.2.3. Spécifications des modèles 3D
La Figure 3.12 présente le deuxième continuum de la taxonomie qui porte sur les modèles
3D en tant que tels et sur leur niveau de représentation ou de contenu. Ces modèles sont
issus de la modélisation 3D réalisée à partir des données géospatiales et des techniques
abordées lors de la description du premier continuum. Les caractéristiques retenues pour
décrire ces modèles 3D sont l’exactitude spatiale, le niveau de détails géométriques, le type
de texture et le niveau de détails sémantiques. Par exemple, sur le continuum plus le
modèle 3D se situe à la gauche du continuum et plus il possède une faible exactitude
spatiale et un faible niveau de détails sémantiques. A l’inverse, plus le modèle 3D se situe à
la droite du continuum, plus son exactitude spatiale et son niveau de détails sémantiques
sont élevés.
85
Figure 3.12 - Continuum 2 – Spécifications des modèles 3D
Voici une description détaillée des éléments auxquels font référence chacune des quatre
caractéristiques retenues :
1. Exactitude spatiale : Cette caractéristique a été discutée pour le continuum
précédent et s’applique également pour le deuxième continuum. Il s’agit du niveau
de correspondance en termes de taille, de forme et de position entre le modèle 3D
et l’objet de la modélisation. L’exactitude spatiale inclut l’exactitude géométrique
(taille et forme) et l’exactitude du géoréférencement (position);
a. Exactitude géométrique : Le niveau de correspondance en termes de taille
et de forme entre le modèle 3D et l’objet de la modélisation. Cette
exactitude se mesure à la déformation spatiale du modèle 3D par rapport à
l’objet original. Un barème de cette déformation spatiale peut être établi
selon le contexte d’utilisation afin de valider ou non l’exactitude
géométrique. Une application simple de visualisation de modèles 3D
impliquera par exemple une exactitude géométrique beaucoup plus faible
qu’un modèle 3D d’échangeurs d’autoroutes dans un contexte de génie civil.
À la Figure 3.12, à gauche, l’exactitude géométrique est assez faible compte
tenu que le modèle 3D ne respecte pas les proportions de l’objet original.
L’exactitude géométrique augmente au centre du continuum jusqu’à
parfaitement respecter les proportions originales de l’objet dans l’image de
droite.
b. Exactitude du géoréférencement : Le niveau de correspondance en termes
de position entre le modèle 3D et l’objet de la modélisation. Tout comme le
continuum précédent, un indicateur de l’exactitude du géoréférencement
peut être la différence spatiale ( x, y, z) entre les coordonnées
86
géographiques du modèle 3D et de l’objet réel. Dans la Figure 3.12 le
géoréférencement se voit être plus exact à mesure que l’on se déplace vers la
droite du continuum (le rectangle en pointillé rouge représente ici la position
réelle de la maison).
2. Niveau de détails géométriques : La complétude des éléments de la géométrie du
modèle 3D par rapport à l’objet de la modélisation. Étant donné qu'un modèle est
une simplification d'une réalité, il est d'abord évident que nous devons simplifier
cette réalité et que des choix doivent se faire. Il est donc pertinent de se demander,
jusqu'à quel niveau de simplification un modèle demeure adéquat pour répondre à
un besoin spécifique de représentation. Nous estimons que ce niveau de détails est
estimable à partir du nombre d'éléments géométriques contenus dans le modèle par
rapport à la réalité. Par exemple, imaginons que nous devons représenter une
maison possédant une corniche, un patio, une verrière, plusieurs fenêtres, etc. Si le
modèle 3D utilisé pour représenter cette maison est un cube, qui représente en fait
une unique simplification de la structure principale de la maison, nous pourrons
alors indiquer que le niveau de détail est bas (par rapport aux éléments constituants
la maison réelle). Le niveau de détails géométriques est illustré au deuxième
continuum. À la gauche de la Figure 3.12, le modèle 3D possède très peu de détails
(une simple boîte), le niveau de détails augmente dans l’image du centre où la
toiture est présente et l’image de droite illustre un niveau de détails très élevé étant
donné que la cheminée, les fenêtres et la véranda y sont modélisées.
3. Type de texture : L’apparence graphique d’un modèle 3D. Le type de texture
évolue d’une extrémité à l’autre du deuxième continuum. À gauche, le modèle 3D
n’est pas texturé; au milieu du continuum, le modèle 3D est simplement texturé par
une couleur uniforme; à droite, la texture appliquée au modèle 3D admet un attribut
relatif au matériel constitutif des éléments de la maison (ex. briques, bois) en plus
de l’attribut de couleur. Le niveau final situé le plus à droite mais non illustré dans
le continuum, serait une texture photo-réaliste, donc provenant d’images réelles
prises sur le terrain.
87
4. Niveau de détails sémantiques: Selon Kolbe et al. (2005), l’information
sémantique permet de préciser la définition et les caractéristiques (attributs) d’un
objet ainsi que ses relations possibles avec d’autres objets, cela dépendant souvent
du domaine d’application. Par exemple, dans notre deuxième continuum (cf. Figure
3.12) la dernière image contient des informations sémantiques sur le modèle en
général (i.e. nom du propriétaire) et sur certaines parties de la géométrie du modèle
3D (i.e. porte et fenêtres). L’intégration de données sémantiques avec les modèles
géométriques est possible et souhaitable. Cependant, les formats actuels des
modèles 3D tels OBJ ne permettent pas ou peu cette intégration. La norme
CityGML (www.opengeospatial.org/standards/citygml) est surement l’un des
efforts notables dans l’intégration des données sémantiques (cf. Figure 3.13).
L’intégration de détails sémantiques est une préoccupation dans le milieu de la
construction et de l’entretien de bâtiments et par conséquent des percées sont
réalisées dans ces domaines. Par exemple, le modèle d’information standard IFC
(Industry Foundation Classes), utilisé dans les fichiers CAO (Conception Assistée
par Ordinateur) de type Building Information Model (BIM), vise l’interopérabilité
entre les différentes disciplines (ex. architecture, ventilation, chauffage,
planification de construction)
(www.iso.org/iso/catalogue_detail.htm?csnumber=38056). Ce modèle est apte à
gérer autant les données géométriques que sémantiques. Celles-ci peuvent donc
être échangées entre les acteurs selon le standard de l’IFC. La consommation
d’énergie, l’émission de CO2, le taux d’occupation d’un immeuble sont des
exemples d’informations sémantiques d’importance et supportés par ce standard
(www.buildingsmart.com/bim). Pour plus de détails concernant les BIM qui
utilisent le standard IFC, nous dirigerons le lecteur vers les rapports de la firme
McGraw-Hill (McGraw-Hill Construction 2008), (McGraw-Hill Construction
2007).
88
Figure 3.13 - Lien entre l'information sémantique à et la géométrie pour un modèle 3D de
bâtiment (Kolbe, Nagel et Stadler 2009)
Afin d’illustrer les spécifications possibles de ces modèles 3D, les sections suivantes
présentes différents exemples concrets de modèles 3D provenant de plusieurs sources
d’acquisition. .
Cet exemple illustre un modèle 3D issu de données acquises par photogrammétrie terrestre.
Reitmayr (2006) a produit un modèle 3D par photogrammétrie terrestre afin de supporter
une application de RAM. Tel qu’illustré à la Figure 3.14, le niveau de détails géométriques
est limité aux façades et les petits éléments ne sont pas pris en compte (ex. les montants de
fenêtres). Le modèle 3D est formé par des plans sur lesquels la texture provenant des
photographies y a été drapée. Cette texture est hautement détaillée et photo-réaliste. Le
géoréférencement est effectué à partir des données de cadastre de l’Ordnance Survey de
Grande-Bretagne. Des erreurs maximales de l’ordre d’un demi-mètre entre le modèle 3D et
les données de cadastre y ont été observées. Cette différence peut être attribuée à
l’exactitude spatiale du modèle 3D par rapport au bâtiment réel, car il est mentionné que
89
l’empreinte au sol du modèle 3D créé ne correspond pas parfaitement aux points de
cadastre. Peu de détails sémantiques y sont présents hormis les fenêtres qui font partie du
scénario de jeu en RAM développé et exploitant ce modèle 3D. Le logiciel utilisé pour la
modélisation est PhotoModeler.
Figure 3.14 - Modèle 3D réalisé à partir de photographie terrestres (Reitmayr et Drummond
2006)
Un modèle 3D issu de données acquises avec des techniques d’arpentage sera présenté dans
ce paragraphe. L’exemple exposé ici provient de Pop (2008) qui compare la performance
de différentes technologies (i.e. arpentage, LiDAR terrestre et photogrammétrie) pour la
modélisation 3D d’un bâtiment (cf. Figure 3.15). Pour le modèle 3D provenant de données
géospatiales acquises avec des instruments d’arpentage, 400 points ont été relevés, ce qui a
été une tâche assez longue selon les auteurs. Le niveau de détails géométriques du modèle
3D résultant est donc beaucoup moins élevé en comparaison avec ’un modèle construit à
partir de relevés LiDAR. Par conséquent, seules les faces principales ont été modélisées. Le
géoréférencement du modèle 3D a été effectué par l’utilisation d’un globe virtuel (Google
Earth), mais l’exactitude spatiale résultante n’est malheureusement pas indiquée par les
auteurs. Un fait très intéressant est qu’une station totale avec une caméra intégrée (GPT-
7003i de Topcon) a été utilisée et donc le drapage de textures photo-réalistes a été possible.
Aucun détail concernant l’aspect sémantique n’a été ajouté par la suite.
90
a) b)
Figure 3.15 - La Faculté de Mathématique de TU Delft, a) Modélisation dans AutoCAD
2007 à partir des données d’arpentage, b) Modèle final texturé, vu dans Google Sketchup
(Pop 2008)
Les deux exemples suivants présentent des modèles 3D obtenus à partir de données
acquises par photographie mobile. Le premier explique comment la 3D est traitée dans les
applications panoramiques très populaires telles que Google Street View et Bing Maps. Le
deuxième exemple provient de l’article de Grzeszczuk et al. (2009) qui traite de la
reconstruction automatique de modèle 3D à partir de photographie mobile.
Pour les applications panoramiques, la reconstruction automatique de panoramas 3D à
partir d’images 2D peut être effectuée en s’appuyant sur des approches issues du domaine
de la vision numérique. En effet, le panorama 3D est généré automatiquement à partir du
flux optique11
entre les prises de vues lors de l’acquisition (Ogale 2010). Les panoramas 3D
produits sont texturés d’une manière photo-réaliste car des images sont prises lors de
l’acquisition et elles se trouvent au cœur du processus de construction des panoramas 3D.
La Figure 3.16 illustre le résultat final offert aux utilisateurs. Des informations sémantiques
telles que les noms de rues et de commerces sont présentes dans les panoramas populaires
(ex. Google Street View ou Bing Street-side) (cf. Figure 3.17). Le peu d’information
11
Le flux optique reflète le changement dans une suite d’images dû au mouvement durant un intervalle de
temps (Sonka, Hlavac et Boyle 2008).
91
divulguée par les fournisseurs de panoramas rend difficile la tâche de spécification de
l’exactitude spatiale ainsi que du niveau de détails géométriques atteint.
a)
b)
c)
Figure 3.16 - Information 3D dans un panorama, le curseur en bleu suit la géométrie du
panorama en a) sur le sol, b) sur le mur de face c) sur le mur de côté. (Bing Street-side)
Figure 3.17 - Information sémantique dans Street View (noms des rues et des attraits)
Le deuxième exemple provient de l’article de Grzeszczuk et al. (2009). Les auteurs
décrivent une chaîne de traitement exploitant des techniques de vision numérique et
92
permettant de reconstruire en 3D de manière automatisée des bâtiments à partir d’un
ensemble de panoramas provenant de la compagnie Earthmine (cf. Figure 3.18). Il est
spécifié que les modèles 3D résultants sont constitués d’environ 1000 rectangles et texturés
d’une manière photo-réaliste par 10 à 20 images. Les façades des bâtiments sont
modélisées et détaillées, mais les toitures ne sont pas prises en compte dû à l’angle de prise
de vue des images constitutives du panorama. Le géoréférencement du bâtiment a été
effectué à l’aide d’une image satellite, mais aucune indication sur l’exactitude résultante
n’est apportée. La reconstruction 3D est le sujet principal de l’article et l’ajout
d’informations sémantiques dans les modèles 3D résultants n’est pas discuté. Un fait
intéressant concernant les modèles 3D produits est que la texture peut facilement posséder
plusieurs niveaux de détails et donc être utilisables sur une large variété de plates-formes
selon la puissance du processeur (ex. téléphone intelligent, ordinateur de bureau).
a)
b)
Figure 3.18 - a) Emplacements des prises de vue (points rouges) et b) modèle 3D résultant
(Grzeszczuk, et al. 2009)
Cet exemple explicite les spécifications d’un modèle 3D issu de données acquises avec un
LiDAR mobile. Il est tiré de l’article de Haala et al. (2008) qui implique le cas d’un modèle
3D issu de données acquises à l’aide d’un LiDAR mobile. Dans cet article, les auteurs
décrivent le modèle 3D résultant d’un relevé provenant du système LiDAR mobile
StreetMapper, où les fenêtres ont fait l’objet d’une reconstruction automatisée (cf. Figure
3.19). La densité du nuage de points permet d’atteindre un très haut niveau de détails
93
géométriques. En effet, les auteurs citent en exemple la possibilité de reconstruire les
fenêtres, les balcons, les ornements et la maçonnerie. Bien que des caméras vidéo soient
présentes dans le système d’acquisition, la texture n’a pas été appliquée sur le modèle 3D
résultant. Une exactitude spatiale inférieure à dix centimètres a été atteinte en comparant le
nuage de points initial à un modèle 3D précis existant. Aucune information sémantique
n’est présente dans cet exemple.
Figure 3.19 - Reconstruction du Lindenmuseum de la ville de Stuttgart en Allemagne
(Haala, et al. 2008)
3.2.4. Niveaux d’augmentation
Le troisième continuum (cf. Figure 3.20) de la taxonomie proposée décrit les différents
niveaux d’augmentation des applications de RAM. L’augmentation fait référence à la
capacité ou non des systèmes à ajouter ou enlever des objets à la réalité (Azuma 1997).
L’augmentation sera décrite selon deux points de vue soit l’interaction et l’immersivité.
1. Niveau d’interaction : Le niveau d’interaction dans un contexte de RAM caractérise la
richesse et la variété des échanges qui peuvent survenir entre ses différents acteurs. Une
revue des techniques d’interactions existantes dans le domaine de la RA est présentée
par Zhou et al. (2008). Les facteurs qui impactent le niveau d’interaction sont la variété
des acteurs y prenant part, la nature des échanges entre ceux-ci ainsi que les
informations sémantiques présentes à propos de ces acteurs.
94
1.1. Les acteurs possibles d’une application de RAM sont les utilisateurs de
l’application, les objets virtuels au sein de cette application ainsi que le modèle 3D
de l’environnement. Ceux-ci peuvent interagir ensemble à tous les niveaux. Par
exemple, un utilisateur peut faire équipe avec une autre personne au sein d’une
application de RAM afin de battre à la course un personnage virtuel tout en
acquérant des indices à propos d’endroits réels. L’intégration de ces trois acteurs au
sein d’une application de RAM est un facteur qui permettra le développement
d’interactions évoluées.
1.2. La nature des interactions concerne les éléments constitutifs, c’est-à-dire les
propriétés des échanges qui peuvent survenir entre les différents acteurs afin de
remplir des fonctions précises selon l’application de RAM. Par exemple, la nature
des interactions d’une application de génie civil visera l’efficacité de l’application
vis-à-vis de la tâche professionnelle à compléter, tandis que pour une application de
jeu, ce sera la jouabilité. Dans le même contexte, un jeu en RAM où les utilisateurs
ne peuvent que visualiser un personnage virtuel ne sera pas très interactif, mais
s’ils peuvent échanger des informations ou même jouer à la « tague » avec celui-ci
par exemple, l’application retiendra l’attention et sera très interactive.
1.3. La présence d’informations sémantiques à propos des trois acteurs décrits
précédemment permettra des interactions plus personnalisées et reliées au contexte
de l’augmentation. Par exemple, si un jeu en RAM possède l’information qu’un
bâtiment réel est un hôpital, alors le scénario de jeu pourrait permettre à un joueur
se trouvant à proximité de récupérer de l’énergie virtuelle qu’il aurait perdue
auparavant. Dans un autre ordre d’idée, le fait de connaître le nom de l’utilisateur
permettra de personnaliser ses échanges avec un personnage virtuel.
2. Niveau d’immersion : Il s’agit de la qualité des informations sensorielles sur lesquelles
s’appuie l’application de RAM pour convaincre un utilisateur de sa présence dans une
réalité qui est augmentée par des éléments virtuels. Les sous-critères qui influencent le
95
niveau d’immersion sont le réalisme de ces informations sensorielles ainsi que la
gestion des occlusions.
2.1. Parmi les informations sensorielles sur lesquelles une application de RAM
s’appuie, la vision est généralement le sens le plus sollicité. Si l’illumination des
objets virtuels est réalisée en fonction de l’éclairage ambiant et que les ombrages
sont pris en compte, alors l’intégration de ces objets virtuels dans la réalité se verra
être très réaliste. De plus, afin d’obtenir une représentation convaincante d’un point
de vue visuel, il faut que l’augmentation soit stable et en temps réel en fonction du
champ de vue de l’utilisateur (cas d’un visiocasque) ou de la caméra (cas d’un
appareil portable). Un autre sens déjà abordé dans le domaine de la RAM est l’ouïe
(Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007). Une bonne gestion des effets
sonores virtuels améliorera l’immersion de l’utilisateur (ex. plus on s’approche de
la source d’un bruit et plus il sera fort).
2.2. Une application de RAM affichant les objets virtuels en fonction de la position et
de l’orientation du champ de vue de la caméra, mais également selon la profondeur
de la scène en tenant compte des éléments réels présents (i.e. gestion des
occlusions) possédera un réalisme accru. En effet, le fossé entre réalité et virtualité
sera réduit si un mécanisme de gestion des occlusions est mis en place.
Plus l’application de RAM est située à gauche sur le continuum, et plus faibles sont
l’immersion et les interactions proposées. Plus l’application de RAM est située à droite sur
le continuum et plus l’immersion et les interactions proposées sont avancées. Nous avons
déterminé trois niveaux d’augmentation à l’intérieur du continuum, dont la description et
les spécifications sont fournies ci-dessous. Le Tableau 3.1 regroupant les explications des
niveaux d’augmentation présentés ci-dessous suivra.
96
Figure 3.20 - Continuum 3, Niveaux d'augmentation
Niveaux d’augmentation 1 (NA1). Le premier niveau d’augmentation est basé sur la
localisation de l’utilisateur. Nous avons déterminé que l’utilisation ou non de la position de
l’utilisateur représente le premier niveau d’augmentation à catégoriser. Le niveau NA1
inclut donc les applications dont seule la position de l’utilisateur est prise en compte afin de
déclencher, par proximité physique, l’affichage d’objets virtuels 0D-2D rattachés à des
points d’intérêt distribués dans l’environnement. Ces points d’intérêts sont affichés
relativement à une cartographie 2D de l’environnement (cf. Figure 3.21b). Les seules
données réelles requises sont donc la position de ces points d’intérêts et la position de
l’utilisateur. Par conséquent, l’utilisateur est généralement équipé d’un récepteur GPS et
d’un appareil mobile (cf. Figure 3.21a). Dans certaines applications, les interactions
proposées à l’utilisateur varient et interviennent en fonction de sa position. Par exemple,
dans le jeu Environmental Detective (Klopfer et Squire 2007) les joueurs peuvent creuser le
sol virtuellement en appuyant sur un bouton afin de mesurer la concentration de polluant
s’y trouvant. La quantité de polluant variant dans l’espace, la fonctionnalité est offerte à
l’utilisateur où qu’il soit et la mesure s’ajuste en fonction de sa position. Les acteurs des
interactions se limitent généralement aux utilisateurs et aux objets virtuels. La présence
d’information sémantique relativement à l’environnement est possible. Par exemple, dans
le jeu Mad City Mystery (Squire et Mingfong 2007), des points d’intérêts sont positionnés
selon l’environnement réel et contiennent des informations relatives aux problématiques
environnementales locales (ex. pollution d’un lac par les industries à proximité). Ce niveau
d’augmentation est le seul parmi les trois présentés dans cette section qui ne rencontre pas
les trois critères établis par Azuma (1997) pour qualifier une application de réalité
97
augmentée (i.e. une application de réalité augmentée doit : 1- combiner le réel et le virtuel,
2- être interactive en temps réel, 3- intégrer les objets virtuels en 3D). Cependant, certains
auteurs comme Klopfer et Squire (2007) et Squire et Mingfong (2007) qualifient ce type
d’application comme étant de la RAM et c’est pourquoi nous l’avons inclus dans cette
taxonomie.
Figure 3.21 - a) Utilisateurs d'une application de RAM de niveau 1, b) Écran de jeu
présentant la position de l'utilisateur (i.e. point rouge) et des points d'intérêts (i.e. les carrés
bleus et rouges) (Klopfer et Squire 2007)
Niveaux d’augmentation 2 (NA2). Le deuxième niveau d’augmentation se distingue par le
co-positionement ou non en temps réel du flux vidéo de la caméra, des objets virtuels et de
l’utilisateur. Nous définissons cette caractéristique comme étant celle permettant de
différencier le niveau NA1 du niveau NA2. La connaissance du point de vue de l’utilisateur
(i.e. position/orientation), souvent fournie par le récepteur GPS, les accéléromètres et la
boussole numérique du téléphone intelligent, sera ainsi utilisée afin de positionner
correctement les objets virtuels 0D-3D à l’écran sur le flux vidéo. Les applications de
niveau NA2 contiennent en grande majorité des couches d’information 2D géolocalisées
créées par le grand public. Les éléments virtuels présents dans ces couches d’information
2D sont la plupart du temps affichés afin de toujours faire face à l’utilisateur et sont liés à
un point d’intérêt à la surface de la Terre. Les données réelles requises se résument donc au
98
point de vue de l’utilisateur et à la position des objets virtuels. Des informations
sémantiques peuvent être présentes dans ces couches d’information, par exemple la couche
d’information de Wikipedia disponible sur l’application Layar fournit des explications sur
certains éléments présents dans l’environnement (cf. Figure 2.10). Certaines couches
d’information sont en 3D et l’utilisateur est apte à visualiser ces objets sous tous les angles.
Par exemple, l’application Layar propose de visualiser en 3D la célèbre scène des quatre
Beatles traversant Abbey Road (cf. Figure 3.22). Un autre exemple relatif à l’application
Layar concerne le modèle 3D du Market Hall de Rotterdam, qui est actuellement en
construction. Il est possible de visualiser le bâtiment complété sur place via une couche 3D
de Layar (cf. Figure 3.32). Cependant, dans des applications de niveau NA2, l’utilisateur
n’a absolument aucun indice sur la profondeur de ces objets virtuels dans son champ de
vision. Si un objet réel (ex. un bâtiment) est situé entre l’utilisateur et l’objet virtuel, ce
dernier sera quand même rendu en totalité (alors qu’il devrait être partiellement caché) et
cela dégradera le sentiment d’immersion de l’utilisateur au sein de l’application. Dans une
application de niveau NA2, les interactions interviennent essentiellement entre l’utilisateur
et les éléments graphiques. Dans l’application Layar par exemple, l’utilisateur peut, à partir
d’une annotation 2D, naviguer vers une page web, appeler un numéro de téléphone,
envoyer un courriel ou jouer un fichier audio ou vidéo. Actuellement, ce sont les
applications de niveau NA2 qui sont de plus en plus populaires auprès du grand public sur
les téléphones intelligents (ex. en mai 2010, il a été recensé 1.6 million d’utilisateurs de
l’application Layar, http://site.layar.com/company/blog/layar-announces-layar-stream/).
99
a)
b)
Figure 3.22 - a) Pochette de l'Album Abbey Road originale, b) Application Layar recréant
la scène
Niveaux d’augmentation 3 (NA3). La principale différence entre le niveau NA2 et le
niveau NA3 est la gestion des occlusions. La profondeur d’un objet dans une image vidéo
fait référence à son l’éloignement par rapport à la caméra et à son champ de vue. Cette
profondeur est perçue dans un NA3 en fonction de l’environnement réel, c'est-à-dire que si
un objet présent dans l’environnement est plus proche de la caméra qu’un objet virtuel, ce
dernier sera caché, en partie ou en totalité, par l’objet réel qui est en avant-plan (cf. Section
2.4). Ainsi, les applications de niveau NA3 fonctionnent de telle manière que ce type
d’occlusion est pris en compte au moment d’effectuer le rendu de l’objet virtuel.
L’immersion de l’utilisateur en est davantage augmentée et plus encore si de riches
interactions et une visualisation de haute qualité lui sont offertes. Les interactions peuvent
survenir entre plusieurs acteurs de l’application (i.e. l’utilisateur, le modèle 3D de
l’environnement et les objets virtuels). Par exemple, dans le jeu Epidemic Menace, les
utilisateurs tentent d’éliminer des virus virtuels se déplaçant dans l’environnement. Pour
cela, ils disposent virtuellement d’un vaporisateur anti-virus qui est matérialisé par une
souris sans fil. Avec celui-ci, les joueurs doivent s’approcher des virus virtuels pour ensuite
les vaporiser afin de les éliminer. Dans ce jeu, les objets virtuels se retrouvent intégrés à la
réalité et projetés sur l’écran de visualisation du joueur (i.e. visiocasque) en fonction de sa
position et de l’orientation de son champ de vue (captée au travers de la caméra de
l’appareil mobile du joueur). La localisation des objets virtuels dans l’environnement est
100
donc mise à jour au fur et à mesure des déplacements du joueur. Il y a ainsi cohérence entre
les éléments respectivement virtuels et réels tout le long du jeu ce qui enrichit son
immersivité. De plus, les occlusions entre éléments réels et virtuels présents dans
l’environnement sont prises en compte au moment du rendu des objets virtuels à l’aide d’un
modèle 3D géoréférencé de l’environnement. Donc, si un virus virtuel se déplace derrière
une bâtisse réelle, alors celui-ci ne sera pas affiché à l’utilisateur. Cette gestion des
occlusions renforce la qualité de l’augmentation ainsi que l’immersion des joueurs car,
ainsi, les objets virtuels semblent vraiment faire partie de l’environnement. Afin d’assurer
une intégration complète des objets virtuels dans la réalité tel qu’illustrée par l’exemple du
jeu Epidemic Menace, un modèle 3D est généralement requis lors de la mise en œuvre
d’une application de niveau NA3. Celui-ci pourra alors intervenir pour la gestion des
occlusions, aider au calcul de la pose de la caméra et supporter l’augmentation de la réalité.
Si des informations sémantiques sont présentes au sein d’une application de RAM, le lot
d’interactions offert à l’utilisateur en sera bonifié (ex. interactions avec des parties précises
d’un bâtiment : fenêtres, poignée de porte). Cette catégorie inclut donc les applications les
plus immersives de RAM.
Le Tableau 3.1 présente les différents niveaux d’augmentation de la réalité tels que
présentés dans le troisième continuum de la taxonomie proposée. Il a été élaboré afin de
regrouper et expliciter les informations relatives à chacun des niveaux d’augmentation de la
réalité. Il permet au lecteur d’avoir une vue d’ensemble et de comparer facilement ces trois
niveaux d’augmentation. Ces informations sont présentées selon différentes thématiques :
niveau d’augmentation de la réalité, positionnement et orientation du champ de vue de
l’utilisateur, données réelles requises, objets virtuels, visualisation et interactions possibles.
101
Tableau 3.1 - Niveaux d'augmentation de la réalité
Thématiques Caractéristiques NA1 NA2 NA3 N
ivea
u
d’a
ugm
en
tati
on
d
e la
réa
lité
Niveau d’augmentation de la réalité
Légère Moyenne Forte
Po
siti
on
nem
en
t (P
) e
t O
rie
nta
tio
n (
O)
du
cham
p d
e vu
e d
e l’
uti
lisat
eu
r
Utilisation d’un GPS (P) Généralement Généralement Généralement Utilisation d’une
boussole numérique (O) Non Généralement Généralement
Utilisation d’accéléromètres (O)
Non Possible Généralement
Repositionnement à l’aide du flux vidéo et
d’un modèle 3D en mémoire (P/O)
Non Non Possible
Do
nn
ée
s ré
elle
s re
qu
ises
Information spatiale
Coordonnées (2D) de points d’intérêts et position de l’utilisateur
Coordonnées (2D) de points d’intérêts et
position/ orientation de l’appareil de visualisation
Modèle 3D nécessaire et
position/orienta-tion de l’appareil de visualisation
Information sémantique
Possible - Information
liées aux points d’intérêts
Possible - Information
liées aux points
d’intérêts
Possible - D’aucune info sémantique
jusqu’à un modèle sémantique détaillé de
l’environnement (ex. : fenêtres,
portes)
Ob
jets
vir
tuel
s
(OV
)
Dimension géométrique des OV
0D-2D 0D-3D 0D-3D
Affichage des OV selon la position de l’utilisateur
Obligatoire Obligatoire Obligatoire
Affichage des OV selon la position et l’orientation
l’utilisateur Non Obligatoire Obligatoire
102
Thématiques Caractéristiques NA1 NA2 NA3 Affichage des OV selon la position et l’orientation
de l’utilisateur et à la profondeur de l’OV p/r à
l’environnement
Non Non Obligatoire V
isu
alis
atio
n
Gestion des occlusions Non Non Obligatoire
L’arrière-plan est le flux vidéo en direct de la
caméra Non Obligatoire Obligatoire
Inte
ract
ion
s
Acteurs des interactions possibles
Utilisateur ↔ utilisateur
Utilisateur ↔ objet virtuel
Utilisateur ↔ utilisateur
Objet virtuel
↔ objet virtuel
Utilisateur ↔ objet virtuel
Objet virtuel ↔ objet virtuel
Modèle 3D ↔ objets virtuels
Utilisateur ↔
utilisateur
Utilisateur ↔ objet virtuel
Utilisateur ↔
modèle 3D
3.2.5. Liens entre les modèles 3D et les niveaux d’augmentation
Maintenant que chacun des continuums de la taxonomie a été décrit, les liens existants
entre les modèles 3D (i.e. deuxième continuum) et les niveaux d’augmentation (i.e.
troisième continuum) (cf. Figure 3.23) vont être mis en évidence. L’établissement de ces
liens et leur justification permettra par la suite de spécifier les caractéristiques que doit
présenter la chaine de production de modèles 3D visée par ce travail de maîtrise. Dans une
perspective plus large, la connaissance des impacts des caractéristiques des modèles 3D sur
le niveau d’augmentation possible de la réalité va permettre de guider les acteurs du
domaine de la RAM lorsqu’ils seront amenés à choisir le type de modèle 3D dont ils ont
besoin pour atteindre le niveau d’augmentation requis dans leur application de RAM.
103
Figure 3.23 - Continuums 2 et 3 (modèles 3D et niveaux d’augmentation)
Liens entre modèles 3D et niveaux d’augmentation NA1 et NA2. Comme il a été
présenté précédemment, les niveaux NA1 et NA2 ne nécessitent pas de modèles 3D de
l’environnement afin de réaliser l’augmentation de la réalité. Les objets virtuels présents
dans ces applications requièrent uniquement d’être positionnés à la surface de la Terre. Par
conséquent, les seuls liens existants entre ces deux niveaux et les différents éléments
composant le deuxième continuum concernent les points d’intérêt 2D.
Liens entre modèles 3D et niveau d’augmentation NA3
Tel que mentionné au Chapitre 2, un modèle 3D de l’environnement peut jouer trois rôles
(i.e. gestion des occlusions; aide au calcul de la pose de la caméra de l’appareil mobile
utilisé; support aux interactions et à l’augmentation de la réalité) dans une application de
RAM fortement augmentée, c'est-à-dire correspondant au niveau NA3 selon notre
taxonomie. Afin de déterminer l’impact des modèles 3D du deuxième continuum à la mise
en œuvre d’une application de niveau NA3, leurs caractéristiques (i.e. niveau de détails
géométriques, exactitude spatiale, type de texture et niveau de détails des informations
sémantiques), présentées au paragraphe 3.2.3, vont être confrontées à ces trois rôles.
104
Gestion des occlusions. Deux caractéristiques propres au modèle 3D de l’environnement
influencent la qualité de la gestion des occlusions soient le niveau de détails géométriques
et l’exactitude spatiale. Le Tableau 3.2 propose une illustration de cette influence. Un
modèle 3D spatialement exact et avec un niveau de détails géométriques élevé sera en
mesure de gérer les occlusions d’une manière très réaliste. Par opposition, un modèle 3D
peu détaillé et spatialement inexact offrira une gestion approximative des occlusions entre
réel et virtuel. La présence de texture peut influencer, quant à elle, la manière de gérer les
occlusions. En effet, une texture semi transparente et colorée du modèle 3D (ex. une fenêtre
stylisée) pourrait révéler d’une manière réaliste un objet virtuel situé derrière le modèle 3D
translucide. Quant aux informations sémantiques, peu de travaux existent en RA sur ce
sujet, mais le domaine de la réalité virtuelle nous apprend que la présence de telles
informations peut avoir un impact sur les attributs graphiques de notre modèle 3D
(Kalogerakis, Christodoulakis et Moumoutzis 2006). En effet, si un objet virtuel se trouve
derrière un mur réel et que la composante sémantique indique que ce dernier est composé
de verre semi-translucide alors le rendu de l’objet devrait pouvoir être ajusté en
conséquence par l’application (cf. Figure 3.24).
105
Tableau 3.2 - Caractéristiques du modèle 3D pour la gestion des occlusions
Bas niveau de détails Haut niveau de détails
Haute exactitude du
géoréférencement du modèle 3D
Basse exactitude du
géoréférencement du modèle 3D
106
Figure 3.24 - Zombie-robot virtuel situé derrière une fenêtre réelle semi-transparente
Nous pouvons déduire qu’il existe actuellement un large spectre de modèles 3D permettant
la gestion des occlusions au sein d’une application de RAM de niveau NA3. Cependant ce
ne sont pas tous les modèles 3D qui offriront la même qualité en termes de gestion des
occlusions. Cela aura un impact direct sur le réalisme de l’application et sur sa capacité à
maintenir l’immersion de l’utilisateur. Par exemple, un jeu de RAM où le réalisme n’est
pas toujours au rendez-vous, où les éléments virtuels apparaissent devant les bâtiments
mêmes s’ils sont positionnés derrière, ne retiendra pas l’attention des joueurs longtemps.
Dans le cas d’une application de génie civil telle que présentée à la Figure 3.25, c’est la
position des canalisations souterraines par rapport au point de vue de l’utilisateur qui
importe beaucoup plus que le réalisme de l’application. La gestion des occlusions dans
cette application (ex. si les tuyaux disparaissent derrière un bâtiment) devient donc
d’importance secondaire.
107
Figure 3.25 - Application de visualisation de tuyaux souterrains (Schall, et al. 2009)
Aide au calcul de la pose de la camera. Lorsque l’on dispose d’un modèle 3D de
l’environnement, celui-ci peut intervenir dans le calcul de la pose de la camera de
l’utilisateur (cf. Chapitre 2). Tel que mentionné, les modèles 3D par arêtes ou surfaces et
les modèles 3D texturés peuvent être utilisés à cette fin. Le type de texture sur le modèle est
donc un des critères à considérer lorsque l’on cherche à évaluer l’adéquation d’un type de
modèle 3D pour effectuer cette tâche. Une texture détaillée (i.e. photo-réaliste) permettra à
l’application d’apparier plus facilement des points saillants afin de calculer la pose de la
caméra. Le deuxième critère d’importance est le niveau de détails géométriques. Reitmayr
(2006), qui utilise un modèle 3D composé de larges surfaces planes, souligne que le
manque de détails géométriques contribue directement aux erreurs observées dans
l’estimation de la pose de la caméra.
L’exactitude spatiale du modèle 3D de l’environnement est aussi d’une grande importance.
Généralement, une première estimation de la pose est effectuée par les composantes
physiques de positionnement et d’orientation de l’appareil mobile (i.e. récepteur GPS,
accéléromètres, boussole numérique) et le modèle 3D est ainsi projeté selon cette
approximation initiale. Si le modèle 3D n’est pas conforme à l’objet réel, il se peut que
l’algorithme de vision numérique qui tente de trouver une correspondance entre cette
108
projection et le flux vidéo de la caméra en soit incapable. Analysons maintenant plus en
détails l’exactitude du géoréférencement, car cette composante peut avoir des conséquences
importantes sur l’augmentation de la réalité. En supposant que l’algorithme soit en mesure
de repositionner l’utilisateur par rapport au modèle 3D qui est mal géoréférencé, la pose de
la caméra sera cohérente relativement à ce modèle 3D, mais une position absolue erronée
dans le référentiel global lui sera attribuée. Afin d’illustrer cette situation complexe et les
impacts possibles, nous présentons une simulation dans un contexte de génie civil. Un
entrepreneur doit effectuer des travaux à la Maison Blanche consistant à poser une
canalisation et une borne fontaine. Il possède trois modèles 3D : le premier est celui de la
Maison Blanche, le deuxième est celui de la canalisation et le troisième est celui de la borne
fontaine. Malheureusement, le modèle 3D de la Maison Blanche est géoréférencé d’une
manière peu exacte. Le modèle 3D de la canalisation à poser a été géoréférencé à partir du
modèle 3D de la Maison Blanche. Le modèle 3D de la canalisation est donc positionné
précisément relativement au modèle 3D de la Maison Blanche, mais se voit donc être
également être géoréférencé d’une manière approximative. Le modèle 3D de la borne
fontaine possède des coordonnées qui correspondent parfaitement à son emplacement
désiré et est donc géoréférencé d’une manière exacte. Ces objets sont représentés à la
Figure 3.26. Sur cette figure, la position réelle des objets (i.e. entrepreneur (A), Maison
Blanche (B), canalisation (C) et borne fontaine (D)) est représentée en bleu, et les éléments
mal géoréférencés (i.e. Maison Blanche (F), canalisation (G) et la position erronée de
l’entrepreneur (E) calculée à partir du modèle 3D de la Maison Blanche (F)) sont
représentés en rouge. Cela donne donc lieu à la situation suivante : l’utilisateur est
repositionné au cercle rouge (en E au lieu d’en A, qui est sa position réelle) par rapport au
modèle 3D de la Maison Blanche géoréférencé approximativement. Cela n’affecte pas la
position de la canalisation dans la vue en RA (cf. Figure 3.27 a)), car celle-ci est
positionnée précisément relativement au modèle 3D du bâtiment. Cependant, puisque la
borne fontaine est bien géoréférencée, elle apparait à la gauche de l’image au lieu d’être à
droite (cf. Figure 3.27 a)). L’entrepreneur posera donc la canalisation au bon endroit, mais
la borne fontaine au mauvais endroit, ce qui irritera profondément le Président. La Figure
3.27 b) illustre l’écran de visualisation en supposant un calcul de pose de caméra à partir
109
d’un modèle 3D bien géoréférencé (B) et où la borne fontaine apparait à la droite. Cet
exemple démontre bien l’importance du géoréférencement du modèle 3D dans un contexte
de RAM lors de l’aide au calcul de pose de la caméra.
Figure 3.26 - Vue en plan du terrain. En bleu, position réelle de l’utilisateur (A), de la
Maison Blanche (B), de la canalisation à poser (C) et de la borne fontaine (D). En rouge,
position calculée de l’utilisateur (E), du modèle 3D géoréférencé d’une manière inexacte de
la Maison Blanche (F) et de la canalisation à poser (G).
110
a)
b)
Figure 3.27 - Écran de visualisation, en réalité augmentée, de l’entrepreneur si a) Modèle
3D géoréférencé d’une manière inexacte de la Maison Blanche, la borne fontaine apparaît à
gauche b) Modèle 3D bien géoréférencé, la borne fontaine apparaît à droite
Au final, tous les modèles 3D peuvent être utilisés pour aider au calcul de la pose de
l’utilisateur, mais la précision résultante sera fonction des caractéristiques propres au
modèle 3D choisi. La précision à atteindre est dictée par le contexte d’application. Pour une
application de génie civil telle qu’illustrée à la Figure 3.28, une différence de quelques
mètres en termes de positionnement peut faire la différence sur les conséquences de creuser
à un endroit plutôt qu’un autre. Par exemple, à l’image a de la Figure 3.28, un
positionnement erroné a fait en sorte de visualiser une conduite de gaz à un emplacement
plus éloigné de sa position réelle et les conséquences dans ce contexte peuvent être très
importantes. Un bon positionnement aurait permis de visualiser la conduite à son
emplacement réel et donc d’empêcher l’excavation à cet endroit (cf. Figure 3.28b). Dans le
contexte d’une application de jeu, un positionnement approximatif du joueur et donc des
éléments virtuels à l’écran de l’utilisateur, tel qu’illustré aux Figure 3.28c et d), pourrait
avoir un impact sur l’immersivité de l’application, mais les conséquences seraient moins
importantes que dans le cas de l’exemple précédent.
111
a) b)
c) d)
Figure 3.28 - Précision du positionnement de la caméra, images du haut, exemple de génie
civil, a) Canalisation mal positionnée par rapport à l’utilisateur b) Canalisation bien
positionnée, images du bas, exemple de jeu de RAM c) élément virtuel mal positionné qui
semble flotter, d) élément virtuel bien positionné
Support aux interactions et à l’augmentation. Au Chapitre 2, nous avons énoncé de
quelle manière un modèle 3D pouvait venir supporter l’augmentation de la réalité et les
interactions. Du point de vue support à l’augmentation, dans les exemples rescencés (ex.
(Piekarski 2004) et (Hengel, et al. 2009)), la présence seule de la géométrie de l’objet est
suffisante pour ancrer des objets virtuels à des éléments réels ou pour la gestion des
ombrages. Pour ce qui est des interactions, le niveau de détails géométriques du modèle 3D
Précision du repositionnement
de la caméra
Faible Forte
112
et la présence d’information sémantiques détermineront ce qu’il est possible d’offrir à
l’utilisateur en termes d’interactions (Mendez, et al. 2008). Un modèle 3D présentant un
haut niveau de détails géométriques ainsi que des informations sémantiques, permettra à un
utilisateur d’interagir avec des parties précises de ce dernier. Par exemple, dans un contexte
de jeu, les interactions proposées seront différentes si des informations sémantiques
permettent d’indiquer si le joueur se trouve près d’une porte (ex. l’ouvrir) ou d’une fenêtre
(ex. regarder à l’intérieur afin d’acquérir un indice). Le Tableau 3.3 propose une illustration
de la variété et de la richesse des interactions possibles en fonction du niveau de détails du
modèle 3D et de la présence d’informations sémantiques. Ainsi, l’échelle à laquelle les
interactions sont proposées guideront le choix du type de modèle 3D et par le fait même la
méthode de capture des données de base intervenant dans l’élaboration du modèle.
Tableau 3.3 - Niveau de détails et informations sémantiques d’un modèle 3D et exemples
d’interactions possibles en contexte de jeu
Faible niveau de détails Fort niveau de détails
Modèle 3D
Exemples d’interactions possibles (ex. application de
jeu)
Attaquer, défendre le bâtiment;
Récupérer un indice sur une des
faces;
Capture du bâtiment;
Acquérir un avantage à proximité ;
Pour récupérer l'indice, il faut
trouver la bonne porte de la
maison, puis l'ouvrir: l'indice
sera à l'intérieur;
113
3.2.6. Cas d’étude
Avant de conclure la présentation de la taxonomie, nous estimons nécessaire de confronter
celle-ci à des cas d’études détaillés afin de valider sa pertinence. Nous présentons donc un
cas d’études par niveau d’augmentation.
MadCity Mystery (NA1). Ivan Illyich est mort. La police affirme que la cause est la
noyade lors d’une partie de pêche dans le Lac Mendota. Cependant, la condition physique
d’Ivan s’était détériorée considérablement depuis peu. Il est de votre devoir d’enquêter afin
de jeter la lumière sur les causes de cette mort. Telle est la trame de fond de l’enquête que
doivent mener les joueurs de ce jeu basé sur la localisation conçu par Squire et Mingfong
(2007). Le but recherché par les auteurs de ce jeu est de développer l’habileté
d’argumentation scientifique chez les jeunes dans un contexte de jeu. Ceux-ci se déplacent
sur le territoire et examinent des indices qui sont liés à leur environnement. Par exemple, en
analysant un poisson du lac Mendota (cf. Figure 3.29), les joueurs peuvent en tirer des
conclusions quand à sa teneur en polluants et ainsi relier la condition physique d’Ivan à son
alimentation. Les joueurs sont donc par le fait même sensibilisés aux problématiques
environnementales locales.
114
Figure 3.29 - Capture d'écran du jeu MadCity Mystery, analyse d'un poisson
Ce jeu représente bien le niveau d’augmentation 1 (NA1). La visualisation est limitée à une
représentation cartographique du territoire où des objets virtuels, c'est-à-dire des points
d’intérêts, ainsi que la position du joueur y sont présents. Le positionnement du joueur y est
déterminé en utilisant un récepteur GPS. Lorsque les joueurs s’approchent de ces points
d’intérêt, un élément multimédia 2D est révélé (i.e. texte, image, audio ou vidéo). Les
données réelles spatiales nécessaires au déroulement du jeu se résument donc à la position
du joueur et à des objets virtuels. Les seules interactions proposées dans cette application
ont lieu entre les joueurs et ces objets virtuels. Des informations sémantiques sont
exploitées dans le jeu. Elles sont associées aux points d’intérêt, par exemple une
information de qualité est associée à l’eau du lac (cf. Figure 3.30).
115
Figure 3.30 - Points d'intérêts dispersés sur la représentation cartographique du territoire
(Squire et Mingfong 2007).
Layar (NA2). Pour le niveau NA2, l’application Layar sera analysée étant donné qu’elle
figure parmi les applications de RAM sur téléphone intelligent les plus populaires
actuellement et les plus avancées en termes de visualisation et d’interactions. De plus, elle a
atteint un niveau de maturité suffisant pour être commercialisée à grande échelle. En effet,
cette application, gratuite, sera pré-installée sur le tiers des téléphones intelligents vendus
cette année mondialement (http://site.layar.com/company/blog/layars-news-round-up-from-
its-anniversary-event/). Layar permet l’affichage de couches d’augmentation 0D-3D de
points d’intérêt parsemés sur toute la planète (cf. Figure 3.31 et Figure 3.32). Une
connexion à Internet est donc nécessaire en tout temps pour la récupération de ces couches
par l’utilisateur en mobilité. Ces informations sont affichées sur le flux vidéo de la caméra
en fonction de la position et de l’orientation de la caméra de l’utilisateur. Le récepteur GPS,
les accéléromètres ainsi que la boussole numérique y sont utilisés afin de connaître le point
de vue de l’utilisateur. La très grande majorité des couches sont en 2D et couvrent plusieurs
116
aspects liés aux activités quotidiennes ou aux déplacements des utilisateurs. Par exemple, il
est possible à partir de l’application de savoir où sont les restaurants ou les bouches de
métros dans un quartier de sa ville. Des vidéos de YouTube ou des articles de Wikipédia qui
ont été géolocalisés peuvent également être récupérés. Les couches d’information peuvent
être réalisées par le grand public ou par des compagnies spécialisées et elles sont par la
suite mises à la disposition de tous les utilisateurs.
En lien avec notre taxonomie, cette application se situe dans le niveau NA2 du continuum
relatif aux niveaux d’augmentation. En effet, l’augmentation de la réalité s’effectue à partir
d’un flux vidéo de la caméra en arrière-plan, ce qui positionne bien l’application au niveau
NA2 ou NA3 plutôt qu’au niveau NA1. Cependant, si un élément virtuel se retrouve
derrière un objet qui est lui est bien réel (ex. un bâtiment), les occlusions se seront pas
gérées. Par conséquent, d’après les spécifications associées au niveau NA3, Layar ne peut
figurer à ce niveau d’augmentation. Les interactions sont également limitées dans une
application de niveau NA2. Dans Layar, les interactions interviennent uniquement entre
l’utilisateur et les objets virtuels. Les actions qu’il est possible d’effectuer sont les
suivantes : naviguer vers une page web, appeler un numéro de téléphone, envoyer un
courriel et jouer un fichier audio ou vidéo.
117
Figure 3.31 - Layar et quelques couches d'information 2D proposées à l’utilisateur à des
fins de visualisation (www.layar.com)
a)
b)
Figure 3.32 - a) et b) Market Hall de Rotterdam en construction, modèle 3D du bâtiment
terminé vu sous deux angles différents (www.layar.com)
ARQuake (NA3). ARQuake, conçu par Thomas et al. (2000), est une adaptation en RAM
du jeu de tir Quake développé initialement en 1996 par idSoftware. Le but de ce jeu est
assez simple et se résume à tirer sur tout ce qui bouge. ARQuake propose une visualisation
où les objets virtuels 3D (ex. monstres, armes et équipement) sont intégrés à
118
l’environnement du joueur et superposés à sa vision de la réalité. Pour cela, il est essentiel
de connaître la position et l’orientation du champ de vision du joueur. À l’époque de la
mise en œuvre du jeu (2002), le joueur devait porter un équipement imposant comprenant
entres autres : une antenne GPS de haute précision, une boussole numérique, un
visiocasque et un ordinateur portable (cf. Figure 3.33a). De nos jours, cet équipement est
plus léger et compact. La pose du joueur peut être calculée soit par vision numérique, soit à
partir des composantes physiques (i.e. récepteur GPS et boussole numérique). En effet, la
librairie ARToolKit (www.hitl.washington.edu/artoolkit/) est mise à profit afin de calculer
le champ de vue de l’utilisateur par rapport à un marqueur préalablement intégré dans
l’environnement et dont la position et l’orientation sont connues (cf. Figure 3.33b). Ainsi, si
un marqueur se situe dans le champ de vision du joueur, le positionnement se fera par
vision numérique. Dans le cas contraire, le positionnement se fera à partir des composantes
physiques. Afin de rendre le jeu plus immersif un modèle 3D de l’environnement est
exploité (cf. Figure 3.33c). Celui-ci sert à gérer les occlusions si un monstre se déplace
derrière un bâtiment réel, mais aussi à empêcher ces personnages virtuels de traverser les
murs, c'est-à-dire de contraindre leurs déplacements. Le fait d’intégrer les objets virtuels en
fonction des éléments présents dans l’environnement fait de ce jeu en RAM une application
de niveau NA3. Le modèle 3D, comprenant une trentaine de bâtiments sur une étendue
d’environ 157000 m2, a été créé par l’éditeur de tableaux de Quake à partir de plans
d’architecte et de relevés terrain (Piekarski et Thomas 2002). Le modèle 3D de
l’environnement ainsi que la position du joueur et des objets virtuels sont des données
nécessaires au déroulement du jeu et aucune information sémantique n’est présente. Les
actions que le joueur peut poser sont un peu plus restreintes que dans le jeu Quake original.
En effet, à l’origine le personnage peut sauter d’une manière surhumaine, se téléporter,
nager. Ces actions ont été éliminées dans la version en RAM car seul le positionnement de
l’utilisateur est pris en compte dans le jeu. Les actions proposées au joueur se résument
donc à tirer, changer d’arme, ramasser des items et ouvrir des portes.
119
a)
b)
c)
Figure 3.33 - a) Équipement de jeu, b) Marqueur sur un mur, c) Scène d'ARQuake (le
modèle 3D est visible par un quadrillage rouge et blanc)
3.3. Détermination des caractéristiques requises pour une
chaîne de production de modèles 3D adaptée aux applications de
RAM
La section précédente a permis de comprendre de quelle manière les caractéristiques des
modèles 3D peuvent avoir un impact sur l’augmentation de la réalité. De plus, les
caractéristiques des principales techniques d’acquisition de données géospatiales ont été
analysées. Cette information est pertinente dans ce projet de recherche afin de mettre en
œuvre une chaîne de production de modèles 3D qui soit adaptée aux applications de RAM
dans un contexte d’Anywhere Augmentation. Afin de répondre à notre deuxième sous-
objectif de recherche, les caractéristiques de la chaîne de production de modèles 3D visée
vont être spécifiées dans cette section en lien avec les informations présentées à la section
précédente.
La revue de la littérature et des chaînes de production de modèles 3D existantes a permis de
mettre en évidence que :
Le coût financier inhérent à la collecte de données géospatiales à la base des
modèles 3D et à l’élaboration des modèles en tant que tel est généralement élevé;
120
Les étapes sont longues en termes de temps d’acquisition et de modélisation;
Une certaine expertise est requise pour le processus de modélisation et d’acquisition
de la donnée;
L’exactitude spatiale des modèles 3D résultants est en général élevée;
Si la récupération des modèles 3D à partir d’infrastructures de données 3D ou de
services web est privilégiée par rapport à la collecte de données géospatiales et à la
modélisation subséquente, il faut s’attendre à faire face aux limitations suivantes :
o La couverture actuelle des services web 3D est peu étendue;
o Les infrastructures de données 3D associés à la plupart des globes virtuels
permettent seulement le téléchargement d’un modèle 3D à la fois et d’une
manière manuelle uniquement;
o La qualité des modèles 3D enregistrés dans ces entrepôts n’est pas garantie;
Le présent projet de recherche s’intéresse spécifiquement aux applications de RAM qui
s’inscrivent dans la philosophie de l’Anywhere Augmentation où l’utilisateur doit être en
mesure d’augmenter son environnement, peu importe sa localisation et ce, sans devoir
recourir à une importante phase d’initialisation ou de préparation. Les chaînes de
production de modèles 3D existantes sont peu/pas orientées vers la production de modèles
3D supportant une augmentation de la réalité de niveau NA3 (i.e. réalité fortement
augmentée). En s’appuyant sur la taxonomie élaborée et notamment sur les liens établis
entre les différents types de modèles 3D et les différents niveaux d’augmentation, nous
pouvons définir les caractéristiques que doivent présenter les solutions de modélisation 3D
adaptées au contexte spécifique de la RAM et de l’Anywhere Augmentation. Ainsi, selon
nous de telles solutions doivent:
Être abordables pour un utilisateur occasionnel ;
Produire un modèle 3D d’un objet de l’environnement le plus rapidement possible;
Produire un modèle 3D pouvant au minimum gérer les occlusions. En se basant sur
notre taxonomie, les critères du modèle 3D à maximiser sont le niveau de détails
géométriques et l’exactitude spatiale (i.e. exactitude du géoréférencement et
121
exactitude géométrique). Puisque le type de texture et les informations sémantiques
sont secondaires à la gestion des occlusions, elles ne seront pas considérés;
Pouvoir être mises en œuvre directement sur le terrain à la volée;
Pouvoir être mise en œuvre sans nécessiter de formation préliminaire ou une
expertise spécialisée;
Pouvoir être implantées sur un appareil disponible dans le commerce, ergonomique
et léger;
La liste de caractéristiques que la chaine de production de modèles 3D visée par cette
recherche doit présenter étant établie (i.e. complétion du deuxième sous-objectif), nous
allons pouvoir maintenant nous consacrer à la conception et au développement d’une telle
solution. Ceci sera abordé dans le chapitre 4. Il est cependant important de noter que nous
allons nous intéresser uniquement à la gestion des occlusions lors de l’exploitation de
modèles 3D produits par notre solution. En effet, le temps imparti pour la complétion de ce
travail ne nous permettait pas de concevoir une solution prenant en compte les deux autres
rôles que peut jouer un modèle 3D au sein d’une application de RAM de niveau NA3. (i.e.
aide au calcul du positionnement de la caméra et support aux augmentations et aux
interactions).
3.4. Conclusion du chapitre
Ce troisième chapitre a permis d’établir les caractéristiques que doit posséder une chaine de
production de modèles 3D adaptée à la RAM dans un contexte d’Anywhere Augmentation.
Une taxonomie a été élaborée et présentée afin de mettre en évidence les liens entre les
différents types de modèles 3D et les différents niveaux d’augmentation de la réalité qu’il
est possible de mettre en œuvre à l’aide de ces derniers. Selon nos connaissances et
lectures, une telle taxonomie n’existait pas. A terme, cette taxonomie pourrait servir de base
à l’élaboration des principes d’exploitation des modèles 3D dans le domaine de la RAM ce
qui pourrait être d’une grande utilité aussi bien aux concepteurs d’application de réalité
augmentée qu’aux intervenants du domaine de la géomatique lors de campagne
d’acquisition de données ou bien encore aux organisations et chercheurs impliqués dans
122
l’élaboration des normes d’échanges et de stockage des données géospatiales, pour ne citer
que quelques exemples.
À partir de ces nouvelles connaissances, nous sommes maintenant aptes à proposer une
solution de modélisation 3D répondant à ces exigences de production. Cette solution sera
présentée sous la forme d’un article publié dans une revue scientifique.
123
How does it feel to be on your own, just like a rolling stone ? – Bob Dylan
4. Chapitre 4 – Modélisation 3D pour la réalité augmentée
mobile dans un environnement non préparé
5.
Le Chapitre 4 est présenté sous la forme d’un article scientifique qui introduit notre chaîne
de production de modèles 3D adaptée pour une application de RAM fortement augmentée.
Celui-ci a été soumis et accepté à la 5e conférence 3DGeoInfo qui se tiendra à Berlin en
novembre 2010. L’article fera l’objet d’une publication dans la série Lecture Notes in
Geoinformation and Cartography de l’éditeur Springer. Le contenu de cet article fournit
des réponses à notre troisième sous-objectif qui était de proposer un modèle conceptuel
pour l’élaboration d’une chaîne de traitement de modèles 3D adaptée à la mise en œuvre
d’applications de RAM fortement augmentée. En plus de ce modèle conceptuel, l’article
présente son implantation sur la plateforme de l’iPhone 3G ainsi que les tests de validation
de cette solution de RAM.
Quelques modifications mineures de mise en page ont été effectuées afin de rendre l’article
conforme pour le présent document.
4.1 Contributions
L’article qui est en langue anglaise et constituant le Chapitre 4 est ainsi référencé :
[Thomas et al., 2010] Thomas, Vincent, Daniel, Sylvie, Pouliot, Jacynthe. « 3D Modeling
for Mobile Augmented Reality in Unprepared Environment » Édité par Thomas H. Kolbe,
Gerhard König et Nagel Claus. Advances in 3D Geo-Information Sciences, (Série: Lecture
Notes in Geoinformation and Cartography). 3D GeoInfo Conference, 2-3 novembre 2010
Berlin: Sprigner, 2010.
4.2 Corps de l’article
Titre. 3D Modeling for Mobile Augmented Reality in Unprepared Environment
124
Auteurs. Vincent Thomas, Sylvie Daniel et Jacynthe Pouliot
Résumé. L’émergence des téléphones mobiles intelligents possédant des composantes
intégrées (i.e. caméra, récepteur GPS, accéléromètres et boussole numérique) a déclenché
beaucoup d’intérêt dans la communauté de la réalité augmentée (RA). De nouvelles
applications s’appuyant sur ces appareils commencent à être disponibles pour le grand
public. Afin d’obtenir une riche augmentation de la réalité en termes d’immersion et
d’interaction, ces applications de RA mobile requiert généralement un modèle 3D de
l’environnement pour la gestion des occlusions et le positionnement de l’utilisateur.
Cependant, la disponibilité des ces modèles 3D basés sur de la donnée géospatiale est
limitée, restreignant la capacité de ces applications à être utilisée n’importe où, n’importe
quand. Afin de surmonter ces limites, nous avons développé une chaîne de traitement
dédiée à la production rapide et simple de modèles 3D. La solution proposée a été conçue
pour le contexte spécifique des applications de réalité augmentée mobile à l’aide d’un
environnement non préparé et testé sur la plateforme iPhone.
Abstract. The emergence of powerful mobile smartphones, with embedded components
(camera, GPS, accelerometers, digital compass), triggered a lot of interest in the mobile
augmented reality (AR) community and new AR applications relying on these devices are
beginning to reach the general public. In order to achieve a rich augmentation in terms of
immersion and interactions, these mobile AR applications generally require a 3D model of
the real environment to provide accurate positioning or to manage occlusions. However, the
availability of these 3D models based on real spatial data is limited, restraining the capacity
of these applications to be used anywhere, anytime. To overcome such limits, we
developed a framework dedicated to the fast and easy production of 3D models. The
proposed solution has been designed for the specific context of mobile augmented reality
applications in unprepared environment and tested on iPhone.
Keywords. 3D modeling, augmented reality, mobility, smartphone, citizen-based solution
125
4.2.1 Introduction
For some years, smartphones made a breakthrough in the telecom market. According to the
information technology research and advisory company Gartner, Inc. ―Smartphones
continued to represent the fastest-growing segment of the mobile-devices market‖ (Gartner,
Inc. 2009). These mobile devices are powerful, small and involve several positioning,
orientation and optical components: Global Positioning System (GPS) receiver, digital
compass, accelerometers and camera. These components, in addition to the smartphone
mobility, make this device a valuable platform for the development of unique and
innovative activities or location-based services such as mobile augmented reality
applications.
Augmented reality (AR) is the enrichment of the reality with virtual elements. These
synthetic objects are projected in a live video stream as if they were part of the reality.
Recently, some mobile augmented reality applications based on smartphones have been
released like Layar (http://layar.com) or Wikitude (www.mobilizy.com). These applications
are world browsers that enable a user to visualize virtual layers of 2D-3D information
superimposed to the camera video stream. A tourist in New-York City can see annotations
with names and information about the skyscrapers in the camera field of view for instance.
One of mobile augmented reality advantages is to clearly link information with real object
as seen by a person on the spot.
The principle on which these applications rely does not involve information about the
user surroundings when rendering the digital graphics. As a result, occlusions are not
managed. Thus, a whole 3D graphic element will be rendered even if part of it is occluded
by a real building for instance. To manage occlusions, it is recommended to integrate
information or knowledge about the environment. Having a 3D model of the environment
where the augmentation takes place offers opportunities for richer interactions and higher
levels of immersion. More specifically, 3D models about objects in the user field of view
can be used to merge more accurately the computer-generated elements with the reality,
providing the user with a better sense of presence of these elements in the real world.
126
However, these 3D models of the environment are not always accessible, therefore limiting
the capabilities to deploy realistic augmented reality solutions anywhere, anytime.
Mobile augmented reality is anticipated as the next social communication and
information hub. Following the current trends of social networking and location-based
applications, citizen can already be foreseen as the main users and contributors of such
technology. The real-world information used for mobile AR will be user-generated, as
applications like Wikitude or Yelp (www.yelp.com) are already demonstrating. Within this
context, tools to create contents for mobile AR need to be simple and intuitive to enable the
user to augment his environment with information that matters to him and to deploy such
applications wherever he chooses to.
This paper will present a new citizen based 3D modeling solution to enable mobile AR
applications anywhere, anytime. The context and principles related to mobile AR will be
first presented. A brief review of current mobile AR work will be provided too. Then, the
proposed 3D modeling approach will be described as well as the prototype implementing
such an approach. Finally, results of tests conducted to assess the prototype performances
will be provided and discussed before concluding.
4.2.2 Mobile Augmented Reality Operational Constraints
The concept of an augmented reality environment is often presented using the Reality-
Virtuality continuum of Milgram (Milgram, et al. 1994) (cf. Figure 4.1). Reality, namely
what is directly perceived by a person or indirectly by a camera, stands at the left extremity
of the continuum. A virtual environment, which is completely synthetic, stands at the right
end of the continuum. Between both extremities are all the mixed reality environments,
which merge computer generated graphics and real elements. Augmented reality, which is
situated next to reality, is a real environment augmented by virtual elements. If the
environment is predominantly synthetic with some real elements included, this context is
related to augmented virtuality. Augmented reality approaches are relevant to many
contexts, like, for instance, the maintenance of mechanical engine (Henderson et Feiner
2007), or teaching and learning 3D contents (Shelton et Hedley 2002). Augmented reality
127
offers also an exceptional potential for gaming (Lindt, Ohlenburg et Pankoke-Babatz, et al.
2007).
Figure 4.1 - Reality-Virtuality Continuum (Milgram, et al. 1994)
An augmented reality application is said to be mobile if the user is his own avatar and his
position in the synthetic world follows his displacements in the real environment (Broll, et
al. 2008). Those types of applications can display various levels of augmentation (Thomas,
Daniel et Pouliot, 3D modeling for Augmented Reality : A Taxonomy s.d.). Mobile
applications with low augmentation (i.e. “weakly augmented”) consist generally in
displaying multimedia elements triggered by the physical proximity of the user to a virtual
point of interest (POI). A POI is simply information, such as image, video or text, linked to
a specific location at the surface of the Earth. Games described in Squire & Mingfong
(2007) or Klopfer & Squire (2007) are good examples of such applications. Increasing the
level of augmentation will increase the level of immersivity and interactivity of the
application and, as a result, the capability to challenge the user interest. Applications with
such level of augmentation are said to be “strongly augmented”. Literature review shows
that very few strongly augmented applications have been developed so far. Most of them
used head mounted display, a laptop, a GPS receiver and an inertial system as their
hardware configuration. However, these devices were rarely integrated and definitely not
ergonomic, limiting their deployment and adoption by user community. With the
emergence of lightweight and powerful smartphones equipped with GPS receiver, digital
compass, camera and accelerometers, there are new opportunities to implement mobile AR
applications using these platforms and to bring mobile AR outside the research community.
Layar 3D application (sprxmobile 2009) is already a good example. Having specified the
various declensions of mixed and augmented reality, we will now address the requirements
128
of strongly augmented solutions. They will be the focus in the following paragraphs and
sections of the paper.
According to Azuma definition of augmented reality (Azuma 1997), computer-generated
graphics and reality should be perfectly co-registered in real time to provide the user with a
strong augmentation of the reality. This requirement allows maintaining the user feeling of
presence and immersion at all time. Good co-registration of virtual elements in the real
world implies to precisely determine the user position and orientation and to tackle
occlusion issues. These positioning and occlusion issues are generally resolved using 3D
models of the environment (Schmalstieg, et al. 2007) (Ohlenburg, Lindt et Pankoke-Babatz
2007). To correctly manage the occlusions, the 3D model of the real environment has to be
first integrated in the same virtual world as the graphic elements. Then, during the
rendering of the scene, the model of the real environment is drawn in a transparent manner
so the background (i.e. the camera live video stream) could be shown in the foreground in
lieu of the occluded parts of the 3D virtual graphic elements. To retrieve a more accurate
position and orientation of the user, the 3D model can be projected in the current video
frame according to the previous camera pose computation as proposed by Reitmayr and
Drummond (Reitmayr et Drummond 2006). Using computer vision algorithms, the 3D
model projection is compared to the model features in the current frame of the video
stream. The detected differences will provide information about the camera movements.
They will complement the pose and orientation measurements provided by the hardware
components (i.e. digital compass, accelerometers, GPS receiver).
As it has been underlined above, a 3D model of the environment is required in order to
build mobile AR applications with rich interactions and high immersivity. Various sources
for 3D models currently exist. Virtual globes such as Google Earth or Bing Maps contain a
handful of 3D models. However, it is not possible to retrieve them seamlessly depending on
the user’s location. Actually, the only way to access a single 3D model from Google Earth
is to manually download it from the 3D warehouse website
(http://sketchup.google.com/3dwarehouse/). Open 3D servers exist like OpenStreetMap-3D
(Neubauer, et al. 2009), but they offer limited coverage and they do not seem to have a
strong community leverage. On the other hand, 2D data is more publicly accessible and the
129
missing elevation data could be derived from other sources (in situ observations, building’s
altitude by adding the number of stories to the ground height). This data process still needs
to be explored in the context of mobile augmented reality modeling. Taking into account
that the availability for 3D models is currently limited, the constraint of having 3D models
anywhere at anytime in mobile AR applications cannot be always satisfied. If a 3D model
of the environment it is not available or cannot be retrieved, the environment is said to be
unprepared for augmented reality. The proposed citizen based 3D modeling solution
presented in this paper specifically addresses this context of unprepared environments
allowing the user to capture on location the 3D model he needs. The next section describes
the criteria such 3D modeling tool should fulfill to supply 3D models adapted to mobile AR
application.
4.2.3 3D Modeling Solution Specifications for Unprepared Environment
The context of mobile AR in unprepared environment focuses on augmented reality
anywhere, anytime. As mentioned in the introduction, the general public is one of the main
targets of such application. Therefore, it can be assumed that mobile AR applications in
unprepared environment should rely on limited external devices beside the smartphone
itself and should not require specific expertise in computer vision or 3D modeling from the
user.
As underlined in the previous section, 3D model of the environment is necessary to achieve
high immersivity and strong augmentation of the real world. How such 3D model can be
made available to the user situated in an unprepared environment? In the current mobile AR
context, the classical 1D-3D (i.e. surveying/geomatics) acquisition techniques and
subsequent processing display strong constraints from a cost and time standpoint. For
example, topographical survey and subsequent 3D modeling can require several work days
before delivering the required 3D model. User cannot wait for days on site before being
able to trigger his augmentation of the world. Terrestrial LiDAR (i.e. Light Detection and
Ranging) offers high potential for fast data collection and large urban coverage. However,
its cost is still expensive (approximately 150 000 $), which limits its availability. Even if
mobile LiDAR data acquisition of large scale environment increases (ex. NAVTEQ
130
recently adopted this technology (NAVTEQ 2010)), a lot of urban environments have not
been scanned yet and mobile LiDAR survey remains very expensive (a survey generally
costs tens of thousands dollars). As a result, these techniques are not considered adapted for
mobile AR applications in an unprepared environment. Other techniques have been
designed especially for mobile AR applications like the working planes (Piekarsky 2004) or
the combination of map coordinates and inertial sensor data (Kim, et al. 2007). Even if
these are successful tools, they are used with specialized and expensive equipment.
Therefore there is a need for 3D modeling techniques dedicated to mobile AR applications
in unprepared environment.
In this context it appears essential that the modeling process be low cost, fast, intuitive,
ergonomic, and require neither survey equipment nor specific knowledge. Since the
purpose of the 3D model is to contribute to the strong augmentation of the environment (i.e.
precise positioning, occlusion management), it is important that the model displays relevant
level of details and spatial precision. All the criteria aforementioned can be synthesized as
the specifications the 3D modeling solution should fulfill to be relevant to mobile AR
application in unprepared environment. Thus anywhere augmentation solution requires a
3D modeling solution:
That is affordable;
That provides a 3D model of item in the environment as fast as possible;
That operates directly on the spot;
That does not require preliminary training and specialized expertise;
That could be implemented on integrated, ergonomic, lightweight on the shelf
devices;
That provides precise and detailed 3D models suitable for a determined
augmentation level;
131
4.2.4 Fast and Easy 3D Modeling Approach for Smartphones
Relying on these specifications of the 3D modeling solution for augmented reality
application in unprepared environment, we designed a fast, easy and generic approach to
built 3D model using a smartphone. Smartphones provide valuable visualization and
positioning functionalities based on their integrated components. The proposed 3D
modeling approach focuses currently only on buildings since these elements are major
landmarks of urban environments. In addition, as man-made structures, their regular shape
eases the 3D modeling process.
The 3D modeling approach we designed consists of three main steps: 1) the retrieval of
the 2D geographical coordinates of the buildings’ corners at the ground level; 2) the
computation of the altitude at the top corners of the building; 3) the 3D modeling process
and the augmentation of the reality. Each of these steps is detailed hereafter.
The first step is carried out manually by the user. The 2D geographical coordinates of the
buildings’ corners at ground level (Xb, Yb) are selected through a web based cartographic
application. This application can rely on maps, airborne or satellite imagery. The only
requirement is for the cartographic representation to display a spatial resolution relevant to
the building corner precise visualization.
The second step is carried out using the camera, the GPS receiver and the accelerometers.
In order to compute the altitude at the top corners of the building, the user must aim with
his mobile device camera at each of the previously identified building’s corners at roof
level. The user can move around the building and choose the most suitable location to
survey each corner. During each survey process, the GPS and accelerometers data are
simultaneously recorded by the application. The elevation angle between the user and the
roof corners is computed using the accelerometer data. Knowing the GPS position of the
user (Xu, Yu, Zu) and the corner coordinates at ground level (Xb, Yb), the distance (d)
between the user and the surveyed corner can be computed. With this distance and the
elevation angle ( ), the altitude difference (dz) between the user and the roof corner can be
easily computed using Equation 1. In Equation 2, the GPS elevation data of the mobile
132
device (Zu) is added to the altitude difference (dz) previously computed in order to assess
the altitude of the corner at roof level (Zb) (cf. Figure 4.2).
dz = d • tan ( ) . (1)
Zb = Zu + dz . (2)
Figure 4.2 - 3D coordinates calculation of a building’s top corner
The third step focuses on the 3D modeling of the building and the augmentation of the
reality including the occlusion management. Since the rendering engine cannot deal with
longitude and latitude angular data, all the building’s rooftop coordinates should be first
transformed from a spherical geographic coordinate system to a planar coordinate system.
Then, the 3D modeling of the building is carried out through a triangular meshing process
relying on the 3D coordinates of the corner at ground and rooftop altitude. Since the
altitudes of the corners at ground level are unknown, these values are set to 0. For now,
such setting is admissible since it has no impact on the subsequent augmentation of the
reality and occlusion management. In the future however, it might become a problem if
texture has to be applied on the 3D model. The augmentation of the real world is performed
through the superimposition of a 3D graphic element on top of the camera live video
stream. The scene rendering takes into account the building 3D model location in relation
to the 3D graphic element location and the user position and orientation. If the building is
in the user’s field of view, the occlusion of the graphic element should be rendered
133
accordingly. The 3D modeling of additional urban elements will be addressed in a near
future.
The diagram below synthesizes all the steps of the proposed fast and easy 3D modeling
approach.
Zoom to current
location in cartographic view
All corners
are suveyed?
Pin down the
building’s corners
at ground level + the position
of the 3D graphic element
with markers
Select the
marker number to survey
Store 2D coordinates
Aim with the camera
view at the
corresponding corner
at roof level and
press capture button
Store GPS +
accelerometers
data
Calculate the altitude
of each corners
at roof level
Trigger
AR mode
YESNO
Transform 3D geographical coordinates
to a cartographic plane projection
Render the building and
the 3D graphic element corresponding
to the user’s position & orientation
Legend
Automatic
process
User action
Figure 4.3 - Citizen-based generic 3D modeling approach for smartphones
4.2.5 iModelAR Prototype
Relying on the approach described in the previous section, we developed a 3D modeling
prototype we entitled iModelAR. iModelAR has been implemented on the iPhone 3G
platform, taking full advantage of all its components (GPS, accelerometers and camera).
The prototype has been programmed in the integrated development environment (IDE)
XCode using Objective-C language. The three main steps of the fast and easy 3D modeling
approach have been implemented as follows in iModelAR prototype:
Step 1: the 2D geographical coordinates of the buildings’ corners at the ground level
are selected using a Google maps view centered at the user’s location. In addition to
134
placing markers at the corner location on the map, the user needs to mark the
location of the 3D graphic element that will augment the real world later on. (cf.
Figure 4.4).
Step 2: the user can rely on a red cross overlaid on the camera view to help him aim
precisely at the previously identified building’s corners at roof level (cf. Figure 4.5).
When surveying a building corner, iModelAR records series of accelerometers data.
The more accelerometers data is recorded, the better the accuracy of the corner
survey is but the longer it takes to complete this survey. Therefore, a trade-off is
required between maximizing the total number of accelerometer records per corner
and minimizing the survey time. According to our experiments, recording 250
accelerometer data values seems to be the right trade-off. While accelerometer data
are recorded, between five to seven GPS readings are recorded as well. These
accelerometer and GPS data series are used to increase the redundancy of the
orientation and position measurements. This will yield to more robust and
representative position and orientation mean values. These values will be involved
in the computation of the roof corner 3D coordinates as explained in the previous
section. Once each corner has been surveyed, the user triggers the augmented reality
view button.
Step 3: the 3D coordinates of the rooftop corners are transformed from the
geographical coordinates system of the GPS receiver (WGS84) to the Universal
Transverse Mercator (UTM) coordinate systems relying on the WGS84 ellipsoid.
The 3D triangular mesh of the building is computed in OpenGL ES environment.
Even though the main focus of this work was 3D modeling, an augmented reality
view managing occlusions was developed to assess the relevance of the proposed
approach and prototype towards anywhere augmentation. Only common lighting
and color OpenGL ES functions have been used to achieve the rendering of the 3D
graphic element (cf. Figure 4.6).
135
a) b)
Figure 4.4 - a) User at location, b) Pinning down the building’s corners in the cartographic
view (A); select the position of the graphic 3D element (B); user’s position (C)
a) b)
Figure 4.5 - a) User at location, surveying a building’s corner, b) Surveying interface of the
photographic view
136
a) b)
Figure 4.6 - a) & b) Rendering of the 3D graphic element according to the user’s position
and orientation while correctly managing occlusions
4.2.5.1 iModelAR Performance Analysis
Within this section, the spatial precision and the fit for use of iModelAR will be presented.
The impact of each of the components involved in the computation of the building’s 3D
coordinates at roof level on the resulting accuracy will be assessed. The fit for use
subsection will consist of the comparison between the criteria previously enounced in
section 4.2.3 and the capabilities of the developed application.
Spatial Accuracy: Tests have been carried out according to the following testing protocol:
Eight top corners on four different buildings with various heights have been
surveyed using a total station. These measurements have been used as the ground
truth;
The corners have been surveyed using iModelAR. This survey has been performed
at the location of two geodesic points with known coordinates;
Three series of observation of the eight corners have been performed at each of the
two geodesic points location;
At the second geodesic point location, only six of the eight corners were visible;
137
Being located on known 3D geodesic points, each position or orientation measures
involved in the computation of the building corner 3D coordinates could be analyzed
individually. Since the distance and the elevation difference between the geodesic points
and all the corners were known precisely, the targeted measurements could be inferred.
Table 4.1 sums up the mean difference in absolute value between the position and
orientation measures recorded using iModelAR and those recorded using the total station.
Table 4.1 - iModelAR accuracy analysis
Component Ground truth Mean Difference Standard Deviation
Xu, Yu Geodesic point 3.0 m 2.4 m
Zu Geodesic point 3.9 m 3.1 m
θ Total station
measurements 1.3° 0.9°
d Total station
measurements 2.3 m 1.6 m
dz Total station
measurements 1.1 m 1.0 m
Xb, Yb Total station
measurements 2.0 m 2.0 m
Zb Total station
measurements 4.2 m 2.9 m
Horizontal Accuracy. When addressing the horizontal accuracy of a building’s corner, the
main sources of error are related to the markers placement on the satellite image, the
georeferencing precision and the highest zoom level available of the cartographic tiles of
Google Maps. Sometimes, and because of projective effects, it is tricky to approximate
where the corner is at ground level if the building is tall (cf. Figure 4.7) or has an extended
cornice. Maximum errors up to five meters have been assessed only for the Google Maps
tile of our test zone on the Université Laval campus. Regarding the georeferencing of the
satellite images of Google Maps, no metadata information was available about the accuracy
of this georeferencing. Therefore an uncertainty remains about the inaccuracy value that
should be attached to this error source. More testing should be done at various locations to
assess its impact on the horizontal precision. Another point is the maximum zoom level
available for a geographic zone. A high resolution Google Maps tile will enable an
138
iModelAR user to achieve precise placements of markers at a building's corner. When
combining the imprecision of the three aforementioned sources of errors, the mean
difference between the coordinates in the (x, y) plane provided by iModelAR and those
provided by the ground truth is about two meters.
Figure 4.7 - Marker at ground level corresponding to the roof where the red cross is
Vertical Accuracy. Three components are needed to compute the altitude of a building’s
roof corner with iModelAR: 1) the distance between the user and the corner that is
surveyed (calculated based on their horizontal positions (x, y)); 2) the elevation angle of the
mobile device during the survey; 3) the altitude of the mobile device during the survey.
Let’s focus at first on the precision of the distance between the user and the corner to
survey. Two components are used to calculate this distance: the user position during the
survey and the 2D coordinates of the marker. The horizontal position (x, y) of the user is
retrieved using the iPhone embedded GPS receiver. Five to seven GPS positions are
averaged each time a corner coordinate is surveyed in order to have redundancy in the data
set. A mean error of about three meters has been computed for the GPS measurement. The
horizontal precision of the corner is about two meters (cf. Horizontal Precision section).
139
When taking into account these two accuracy values, the resulting precision for the distance
was ranging between two and three meters.
The elevation angle is calculated based on the accelerometer data recorded during each
corner survey. 250 accelerometer measurements are recorded and filtered to limit the
effects of the user’s quick movements. By comparing the elevation angles measured using
iModelAR to the total station measurements, a mean difference of only 1.3 degree has been
computed.
When combining the elevation angle with the distance, the mean error between the
building’s roof altitude as provided by iModelAR and the altitude surveyed with the total
station is about one meter. However, the iPhone’s altitude from the GPS receiver should
also be involved in iModelAR computation (i.e. its altitude should be added to the
building’s altitude computed by the prototype) in order to get the correct Z coordinate of
the building’s roof corners. In the context of this study, the iPhone’s GPS provides altitude
measures with four meters imprecision (cf. Table 4.1) and this is the main source of error in
the building’s altitude computation using iModelAR.
The redundancy of 3D coordinates for the same corner can be increased and therefore the
precision of the survey can be improved by aiming at the same corner more than once.
Modeling the building with flat roof helps improving the resulting precision since the mean
value of all the building’s top corners is used.
Fit For Use. Table 4.2 synthesizes the performances of iModelAR from a fit for use
standpoint. In other words, the relevance of the prototype has been assessed in the context
of mobile AR in unprepared environment.
Table 4.2 - List of performances of iModelAR
Criteria iModel AR Performance
3D modeling speed (4 corners
building) < 3 min
Ease of use 43 taps (4 corners)
Cost 699$ CAN (iPhone 3Gs),
(199$ CAN with a
140
Criteria iModel AR Performance
communication plan)
On the fly ? YES
With off the shelf material? YES
Required knowledge in 3D
modeling NONE
The 3D model produced can
be used to augment the reality? YES
Occlusion management? YES
From our experience of showcasing iModelAR, modeling a four corners building takes
about three minutes for a user with no experience. 43 taps are necessary to achieve the
modeling. However the sequence consisting of aiming at the roof for each marker is
repetitive and no long taps sequence needs to be memorized. iModelAR runs on an iPhone
3G which actually costs about 700$ CAN and drops to 199$ CAN with a communication
plan. With only this off the shelf material, iModelAR can model a building directly on the
field, without the post-processing usually needed with common geomatics techniques.
Guiding instructions are providing to the user at each step of the 3D modeling process.
No specific expertise is required to complete the task. The prototype relies on usual tools
available on the Web (i.e. Google Maps) and on the smartphone functions. Therefore it
should be fairly easy for the general public to use such solution. The prototype has been
already showcased at various conferences and workshops. Comments from the attendance
have been very positive. User tests should be conducted in a near future to confirm these
preliminary feedbacks.
User adoption of iModelAR solution will rely, in part, on the AR view quality. In terms
of augmentation performance, the augmented view is refreshed at a speed of about 30
frames/second. The 3D model of a four corners building consists of eight triangles and
2779 triangles are used to model the 3D graphic element (i.e. the famous Utah teapot).
Therefore the rendering task is not too computationally expensive for the model device. If
the user tilts the iPhone and moves in his environment, the augmentation follows
141
accordingly at a fluid pace. Since the iPhone 3G does not have a digital compass, the yaw
angle is not taken into account. This problem can be resolved easily by using the iPhone
3Gs which includes a digital compass. A good calibration of the iPhone’s camera will be
necessary to supply the right field of view parameters to the OpenGL ES rendering function
so that the 3D graphics would be perfectly aligned with the camera view. Actually, this
causes the 3D graphic elements to seem nearer then they really are.
In the current version of the prototype, we can only model one building at once, but no
extensive programming efforts would be needed to enable the software to model more than
one at the time.
Therefore, in the light of the performance tests we conducted, iModelAR fulfills the
specifications of a relevant 3D model solution (cf. 3D modeling solutions specifications for
unprepared environment) in terms of costs, speed and ease of use.
4.2.6 Conclusions and Future Work
In this paper, a novel 3D modeling solution, iModelAR, dedicated to mobile augmented
reality in unprepared environment has been proposed. Although iModelAR accuracy does
not reach the precision performances of common surveying techniques based, for instance,
on total station or LiDAR device, this application displays several other advantages
relevant to mobile AR:
It is rapid (< 3 min)
No post-processing is required (3D modeling + AR on the spot)
It is simple
It is low-cost (any recent smartphone)
No 3D modeling knowledge is required
Future works will be dedicated to precisely assessing the level of augmentation that can
be achieved when using the 3D models provided by iModelAR. The next developments
will also focus on the modeling of several buildings at a time and improving the realism of
142
the augmentation. Some efforts will also be invested in devising a solution to bypass the
GPS error and to be able to tackle building with complex shapes.
On the long term, solution like iModelAR can help develop an AR 2.0 user community
where sharing your 3D models and augmenting your reality anywhere will be possible.
Acknowledgments. The authors would like to thank the GEOIDE Network (GEOmatics
for Informed DEcisions) for their financial support of the GeoEduc3D project.
References
Azuma, Ronald T. "A Survey of Augmented Reality." In Presence: Teleoperators and
Virtual Environments, August 1997: 355-385.
Broll, Wolfgang, Irma Lindt, Iris Herbst, Jan Ohlenburg, Anne-Kathrin Breun, and Richard
Wetzel. "Toward Next-Gen Mobile AR Games." IEEE Computer Graphics and
Applications, Volume 28, Issue 4, July 2008: 40-48.
Gartner, Inc. Gartner Says Grey-Market Sales and Destocking Drive Worldwide Mobile
Phone Sales to 309 Million Units. November 12, 2009.
http://www.gartner.com/it/page.jsp?id=1224645 (accessed 02 27, 2010).
Henderson, Steven J., and Steven K Feiner. "Augmented Reality for Maintenance and
Repair (ARMAR)." Technical Report AFRL-RH-WP-TR-2007-0112, United States Air
Force Research Lab, July 2007.
Kim, Sehwan, Stephen DiVerdi, Jae Sik Chang, Taehyuk Kang, Ronald Iltis, and Tobias
Höllerer. "Implicit 3D Modeling and Tracking for Anywhere Augmentation." Proceedings
of the 2007 ACM symposium on Virtual reality software and technology . Newport Beach,
California: Virtual Reality Software and Technology, 2007. 19-28.
Klopfer, Eric, and Kurt Squire. "Environmental Detectives—the development of an
augmented reality platform for environmental simulations." Educational Technology
Research and Development, Volume 56, Number 2, Springer, April 2007: 203-228.
Lindt, Irma, Jan Ohlenburg, Uta Pankoke-Babatz, and Sabiha Ghellal. "A report on the
crossmedia game epidemic menace." Computers in Entertainment (CIE), Volume 5, Issue 1,
ACM, January 2007.
143
Milgram, Paul, Haruo Takemura, Akira Utsumi, and Fumio Kishino. "Augmented reality: a
class of displays on the reality-virtuality continuum." Telemanipulator and Telepresence
Technologies; Proc. SPIE Vol. 2351, 1994: 282-292.
NAVTEQ. "NAVTEQ Launches Advanced Mapping Collection Technology." NAVTEQ.
January 6, 2010.
http://corporate.navteq.com/webapps/NewsUserServlet?action=NewsDetail&newsId=836&
lang=en&englishonly=true (accessed 03 20, 2010).
Neubauer, N., M. Over, A. Schilling, and A. Zipf. "Virtual Cities 2.0: Generating web-
based 3D city models and landscapes based on free and user generated data
(OpenStreetMap)." GeoViz2009. Hamburg:
http://www.geovisualisierung.net/geoviz_hamburg/geovizhh_program.htm, 2009.
Ohlenburg, Jan, Irma Lindth, and Uta Pankoke-Babatz. "Report about the Crossmedia
Game Epidemic Menace." Computers in Entertainment (CIE), Volume 5 , Issue 1, ACM,
January 2007.
Piekarski, Wayne. interactive 3d modelling in outdoor augmented reality worlds. Research
Thesis for the Degree of Doctor of Philosophy, The University of South Australia, 2004.
Reitmayr, Gerhard, and Tom W. Drummond. "Going out : Robust Tracking for Outdoor
Augmented Reality." Proceedings of the 5th IEEE and ACM International Symposium on
Mixed and Augmented Reality. Santa Barbara, California: IEEE, 2006. 109-118.
Schmalstieg, Dieter, et al. "Managing Complex Augmented Reality Models." IEEE
Computer Graphics and Applications, Volume 272, Number 1716 (IEEE Computer
Society), 2007: 32-41.
Shelton, Brett E., and Nicholas R. Hedley. "Using Augmented Reality for Teaching Earth-
Sun Relationships to Undergraduate Geography Students." The First IEEE International
Augmented Reality Toolkit Workshop. Darmstadt, Germany: IEEE, 2002.
sprxmobile. Layar 3D. 09 22, 2009. http://layar.com/3d/ (accessed 09 30, 2009).
Squire, Kurt, and Jan Mingfong. "Mad city mystery: Developing scientific argumentation
skills with a place-based augmented reality game on handheld computers." Journal of
Science Education and Technology, Volume 16, No. 1, Springer, 2007: 5-29.
Thomas, Vincent, Sylvie Daniel, and Jacynthe Pouliot. "3D modeling for Augmented
Reality : A Taxonomy." To be summited.
144
4.3 Compléments à l’article
L’article scientifique présente l’intégralité des travaux réalisés afin d’atteindre l’atteinte de
notre troisième sous-objectif qui est de proposer un modèle conceptuel pour l’élaboration
d’une chaîne de traitement de modèles 3D adaptée à la mise en œuvre d’applications de
RAM fortement augmentée. Cet article n’adresse cependant pas le positionnement de
l’application développée au sein de la taxonomie proposée au chapitre 3 (cf. Figure 3.1).
Ceci constitue l’objet des paragraphes suivants. L’article ne fait pas mention non plus des
liens existants entre iModelAR et les tendances actuelles du Géoweb 2.0 et du VGI. En
effet, l’application offrant la possibilité de créer simplement des modèles 3D géoréférencés,
elle rejoint parfaitement ces concepts associés notamment à la saisie et au partage de
données géospatiales par et pour le grand public. Cependant, en tenant compte du temps
restreint disponible pour compléter ce travail de maîtrise, il n’a pas été possible d’élaborer
un cadre informatique permettant de stocker et de partager les modèles 3D créés. Seule la
création de contenu a donc été explorée.
Compte tenu des caractéristiques de l’application iModelAR, celle-ci s’inscrit dans le
groupe des techniques d’acquisition de données spatiales qui fait appel à de l’équipement
grand public. Elle doit donc être positionnée à l’extrémité gauche du premier continuum de
la taxonomie. Dans ce groupe, l’acquisition de données se fait rapidement, simplement et à
peu de frais. Comme les résultats obtenus l’on démontré, iModelAR nécessite seulement un
téléphone intelligent accessible à tous et offre la possibilité d’effectuer une modélisation
simple d’un bâtiment en quelques minutes. De plus, lors de démonstrations publiques de
nos travaux, nous avons pu vérifier qu’iModelAR était suffisamment simple d’utilisation
pour être accessible à un large public. Des tests supplémentaires avec plusieurs utilisateurs
auraient permis d’identifier d’une manière plus complète les faiblesses d’iModelAR au
niveau de la facilité d’utilisation et de dégager plus en détails les contextes d’applications
envisageables. Puisque notre application se retrouve dans la catégorie d’acquisition de
données de type « Grand public », l’éventail des individus susceptibles d’être interrogés se
145
verrait être très large. Ces personnes pourraient provenir de plusieurs domaines différents et
posséder une expertise variée (i.e. du néophyte jusqu’au professionnel en modélisation 3D).
Au niveau de la qualité visuelle du rendu d’iModelAR, nous n’avons effectué des tests que
sur des bâtiments de forme régulière. Bien que d’entrée de jeu, notre solution ne soit pas
adaptée à des bâtiments très complexes, il aurait été intéressant de vérifier jusqu’à quel
niveau de détails géométriques notre solution demeure viable. Aussi, l’horizon dépourvu de
hauts bâtiments et de végétation dense de notre site de test, c’est-à-dire le campus de
l’Université Laval, offrait une réception optimale des signaux provenant des satellites GPS.
Il serait intéressant de voir l’impact sur la qualité des résultats d’un site moins propice.
Concernant le deuxième continuum, portant sur les modèles 3D, ceux produits par notre
application s’y situent complètement à gauche. En effet, le niveau de détails géométriques
est limité à des plans formant les murs des bâtiments modélisés. La précision absolue des
coordonnées des points calculés formant le modèle 3D est assez faible (i.e. environ 5 m)
comparativement à d’autres techniques (ex. arpentage, LiDAR), mais cela peut être
amplement suffisant selon le contexte d’application. En nous basant sur notre taxonomie,
les spécifications du modèle 3D produit par iModelAR à valider vis-à-vis d’une
augmentation de niveau 3 offrant seulement une gestion des occlusions sont l’exactitude
géométrique, l’exactitude du géoréférencement ainsi que le niveau de détails géométriques.
Il nous est cependant difficile d’évaluer les possibilités offertes par les caractéristiques du
modèle 3D en termes de qualité d’augmentation. Cependant, il est certain que le niveau de
détails géométriques limité des modèles 3D entraînera une gestion approximative des
occlusions dans le cas d’un bâtiment géométriquement complexe tel le Château Frontenac
(cf. Tableau 3.2). Pour l’exactitude géométrique, iModelAR déforme le bâtiment lors de la
modélisation 3D essentiellement selon l’axe vertical, où l’erreur est la plus grande. Cela se
répercute sur la qualité de la gestion des occlusions en particulier au niveau du toit du
bâtiment modélisé. L’exactitude du géoréférencement est d’environ deux mètres, ce qui
influencera la cohérence entre le réel et le virtuel surtout au niveau des faces verticales de
notre bâtiment modélisé. Par exemple, notre théière virtuelle se verra être cachée sur l’axe
vertical plus que nécessaire ou insuffisamment par le bâtiment modélisé. Du point de vue
146
du rendu, l’engin 3D utilisé, OpenGL ES, est assez évolué pour construire des objets
graphiques 3D complexes en termes de forme, de couleur et de texture. Le réalisme de
l’augmentation aurait pu être amélioré en effectuant une calibration précise de la caméra de
l’appareil mobile au préalable. Cette opération aurait permis d’éliminer les problèmes
d’échelle existant entre le modèle 3D produit par l’application et l’objet virtuel inséré dans
la réalité. En effet, l’effet de perspective entre ces objets ne varie pas tout à fait selon le
déplacement de l’utilisateur. Aussi, les modèles 3D produits ne sont pas texturés et ne
possèdent pas de détails sémantiques. Cependant, bien que les modèles 3D soient assez
rudimentaires, ils permettent néanmoins d’atteindre le troisième niveau d’augmentation
(NA) sur le troisième continuum. En effet, l’intégration dans la réalité d’un objet virtuel 3D
tout en tenant compte de l’environnement réel (i.e. gestion des occlusions) est la
caractéristique discriminant le niveau NA2 du niveau NA3. Bien que peu d’interactions
soient offertes à l’utilisateur par iModelAR (i.e. visualisation seulement), la table est mise
pour le développement d’applications plus évoluées.
Au vue des performances d’iModelAR en termes d’augmentation, il est envisageable
d’utiliser cette solution dans des contextes requérant des modèles 3D rapidement, mais sans
avoir le besoin de posséder un niveau élevé de détails géométriques (ex. contexte de jeu,
simulations simples en architecture). Quelques exemples d’applications futures seront
discutés plus en détails dans le chapitre suivant.
iModelAR a été développé selon les principes de l’Anywhere Augmentation. Ce concept
vise à permettre à n’importe qui de pouvoir augmenter rapidement son environnement
immédiat, peu importe où et quand et ce, d’une manière la plus réaliste possible. En accord
avec l’Anywhere Augmentation, notre application permet à un utilisateur de modéliser en
3D un bâtiment en quelques minutes peu importe sa position géographique (à partir du
moment où un signal GPS, WiFi ou cellulaire est disponible pour le positionnement) puis
d’y intégrer des objets virtuels 3D en fonction de son environnement immédiat.
147
Quand on croit être heureux, vous savez que cela suffit pour l'être – La Fayette
5. Chapitre 5 – Conclusion
5.1. Retour sur les objectifs du projet et la recherche effectuée
L’objectif principal de ce travail de maîtrise était de proposer et d’évaluer une chaîne de
traitement adéquate pour la production rapide de modèles 3D en vue de mettre en œuvre
des applications de réalité augmentée mobile s’inscrivant dans la lignée du concept
d’Anywhere Augmentation. Celui-ci s’est décliné en trois sous-objectifs qui chacun ont
produit des résultats concrets.
Ainsi, le premier sous-objectif était de réaliser l’inventaire, la catégorisation et la
comparaison des chaînes de traitement existantes pour la production de modèles 3D pour
des applications de RAM. Une revue de littérature des domaines de la géomatique et de la
réalité augmentée a été effectuée des domaines de la géomatique et de la réalité augmentée,
recensant les différentes applications de RAM ainsi que leurs principales caractéristiques.
Aussi, les rôles que les modèles 3D de l’environnement peuvent jouer au sein de ces
applications ont été mis en évidence. Nous avons remarqué que le fait de disposer d’un
modèle 3D des éléments présents dans l’environnement pour une zone donnée permet de
mettre en œuvre des applications de RAM fortement augmentée, le modèle intervenant
alors au sein de ces applications afin : de gérer les occlusions entre les objets réels et
virtuels; d’aider au calcul de la pose de la caméra; de supporter l’augmentation et les
interactions. De telles applications seront en mesure d’offrir aux utilisateurs une
augmentation convaincante de la réalité et des interactions riches, et seront par le fait même
plus immersives. A l’heure actuelle, les zones urbaines n’ont pas toutes été modélisées en
3D et pour celles pour lesquelles un modèle 3D existe déjà, il n’est pas certain que le grand
public ait accès librement à ces modèles. Par exemple, la ville de Toronto offre ses modèles
3D, mais l’utilisateur doit débourser quelques centaines de dollars
(www.toronto.ca/mapping/3d.htm) pour les obtenir. Ainsi, pour les applications de RAM
148
conformes au principe d’Anywhere Augmentation (i.e. pouvoir augmenter son
environnement n’importe où, n’importe quand), la disponibilité de modèles 3D reste
souvent problématique. D’autre part, les chaînes de production de modèles 3D actuelles
présentent des contraintes fortes en termes de coûts et de temps pour un utilisateur
occasionnel de RAM. Celles-ci sont ainsi peu adaptées au contexte des applications de
RAM.
Le deuxième sous-objectif du projet visait à déterminer les caractéristiques que doivent
présenter les chaînes de production de modèle 3D adaptées aux applications de RAM
fortement augmentées et s’inscrivant dans le contexte d’Anywhere Augmentation. La revue
de littérature effectuée préalablement a révélé que les liens entres les caractéristiques de ces
modèles 3D et l’augmentation possible de la réalité ne sont pas ou peu définis. Or,
l’élaboration de notre chaîne de production de modèles 3D afin d’augmenter fortement la
réalité requiert la connaissance de ces liens. Afin de les mettre en évidence, une taxonomie
a été élaborée mettant en relation les techniques d’acquisition de données, les modèles 3D
et les niveaux d’augmentation de la réalité. Celle-ci a permis de mettre en évidence
l’impact des caractéristiques des modèles 3D sur l’augmentation de la réalité. De plus, les
principales techniques d’acquisition de données spatiales ont aussi été analysées. Cette
analyse a permis de définir les caractéristiques retenues pour notre chaîne de production de
modèles 3D. Ces caractéristiques sont les suivantes :
Être abordable pour un utilisateur occasionnel;
Produire un modèle 3D d’un objet de l’environnement le plus rapidement possible;
Produire un modèle 3D pouvant au minimum gérer les occlusions. En se basant sur
notre taxonomie, les critères du modèle 3D à maximiser sont le niveau de détails
géométriques et l’exactitude spatiale (i.e. exactitude du géoréférencement et
exactitude géométrique);
Pouvoir être mise en œuvre directement sur le terrain à la volée;
Pouvoir être mise en œuvre sans nécessiter de formation préliminaire ou une
expertise spécialisée;
Pouvoir être implantée sur un appareil disponible dans le commerce, ergonomique
et léger;
149
La mise en évidence des caractéristiques de la chaîne de production élaborée et la
conformité des modèles 3D produits vis-à-vis de l’augmentation de la réalité attendue a été
validée par l’implantation de la chaîne de production et la réalisation d’une série de tests,
visant notamment à augmenter la réalité en conditions réelles.
Le troisième sous-objectif consistait à proposer un modèle conceptuel pour une chaîne de
production de modèles 3D adaptée à la RAM selon les caractéristiques établies au
deuxième sous-objectif. Le modèle conceptuel a été élaboré de manière à être générique
pour les téléphones intelligents. Afin d’en valider sa pertinence pour l’augmentation de la
réalité dans le contexte de l’Anywhere Augmentation, il a été implanté sur la plateforme de
l’iPhone 3G. Les modèles 3D produits par l’application créée, nommée iModelAR, sont des
prismes possédant un faible niveau de détails et adaptés pour la modélisation rapide de
bâtiments. Ceux-ci sont modélisés avec un toit et des murs plats. Le nombre de murs
constitutif du modèle n’est pas limité, mais la modélisation de bâtiments plus complexes,
c’est-à-dire avec un toit en pente ou avec des murs inclinés n’est pas possible avec cette
solution. L’évaluation de la solution de production de modèles 3D a révélé que l’exactitude
spatiale des coins au niveau du toit des modèles 3D de bâtiment résultants demeure
inférieure à cinq mètres en comparant avec des coordonnées relevées par station totale.
Avec un modèle 3D produit par notre solution possédant cette exactitude spatiale et ce
niveau de détails, il a été possible d’augmenter la réalité avec un objet virtuel 3D tout en
gérant grossièrement les occlusions (cf. Erreur ! Source du renvoi introuvable.). Cette
ugmentation est ajustée selon le point de vue de l’utilisateur, déterminé à partir des
accéléromètres et du récepteur GPS du téléphone intelligent.
150
Figure 5.1 - Gestion des occlusions en temps réel dans l’application iModelAR
Cependant, l’équipement utilisé (i.e. iPhone 3G) ne nous a pas permis de prendre en
compte l’orientation de l’appareil selon le Nord magnétique. En utilisant un iPhone 3Gs ou
iPhone 4, qui comprennent une boussole numérique, et en apportant des modifications
simples au code d’iModelAR, il serait aisé de surmonter cette limitation. La plate-forme du
téléphone intelligent a été un choix judicieux pour ce projet pour plusieurs raisons :
Possibilité de développer notre propre application;
Plateforme intégrant les composantes de visualisation et de positionnement
nécessaires à la RAM (i.e. caméra, accéléromètres, récepteur GPS);
Puissance suffisante pour effectuer un rendu fluide à 30 images par seconde;
L’évolution rapide des téléphones intelligents en termes de puissance et d’équipements (ex.
l’iPhone 4 possède un gyroscope) laisse entrevoir plusieurs possibilités pour l’avenir de la
RAM sur ce type de plateforme. D’autres part, la solution proposée est conforme avec le
concept de l’Anywhere Augmentation dans le sens où iModelAR permet à un utilisateur
sans connaissances spécifiques en modélisation 3D de pouvoir augmenter son
environnement et ce, sans une longue initialisation préalable. En effet, le processus de
modélisation est d’environ trois minutes pour un bâtiment constitué de quatre coins
principaux. Des tests de l’application auprès de groupes d’utilisateurs n’ont pas été
effectués étant donné que l’application proposée en est encore au stade de prototype.
Cependant, elle a été présentée à plusieurs reprises à des colloques, conférences et au cours
151
de séances de démonstration et les commentaires obtenus auprès de l’audience et des
participants à ces événements ont été très favorables. Finalement, l’implantation et
l’évaluation de la chaîne de production de modèles 3D reposant sur le modèle conceptuel a
été réalisée avec succès et permet ainsi de conclure à l’atteinte du troisième sous-objectif.
En résumé, les deux premiers sous-objectifs ont permis de recenser l’information nécessaire
pour cerner les caractéristiques d’une chaîne de production de modèles 3D qui soit adaptée
à une application de RAM fortement augmentée. Le troisième sous-objectif a consisté à la
conception, à l’implantation et à l’évaluation de cette chaîne de production en accord avec
le concept d’Anywhere augmentation. La réussite de ces trois sous-objectifs permet de
conclure au succès de l’objectif global de ce projet de maîtrise soit de proposer et d’évaluer
une chaîne de traitement adéquate pour la production rapide de représentations spatiales 3D
requis pour les applications de RAM fortement augmentées.
5.2. Contributions de la recherche
Ce projet de maîtrise propose une nouvelle chaîne de production de modèles 3D de
l’environnement qui est adaptée pour le domaine de la RAM. Plus précisément, nous
sommes maintenant en mesure de modéliser, d’une manière simple et rapide, un bâtiment à
partir de données géospatiales acquises directement sur site. Le travail effectué contribue
ainsi au domaine de la géomatique en proposant une méthode innovante afin de saisir des
coordonnées 3D rapidement en exploitant des appareils simples d’utilisation et abordables.
La possibilité de gérer d’une manière très simple les occlusions entre le réel et le virtuel
dans une application de RAM sur un téléphone intelligent se voit être aussi un aspect
innovant.
La taxonomie développée a contribué à mettre en lumière les interrelations présentes entre
les domaines de la géomatique et de la RAM sous la forme concise de trois continuums.
Tout d’abord, la taxonomie propose une nouvelle catégorisation simple des différentes
techniques d’acquisition de données géospatiales 3D. Pour ce qui est des applications de
RAM, trois catégories sont définies avec des limites claires. Une telle définition représente
une innovation dans le domaine de la RAM où actuellement peu de distinctions sont faites
152
entre les applications existantes. De plus, le lien établi entre les caractéristiques des
modèles 3D et les niveaux d’augmentation de la réalité simplifie le processus de sélection
d’un modèle 3D adéquat et ainsi encourage le déploiement d’applications de RAM
fortement augmentée. La proposition de cette taxonomie est une contribution importante
étant donné qu’aucun travail similaire n’a été proposé jusqu’à présent dans la littérature.
Ce projet de maîtrise a également conduit à la rédaction d’un article scientifique, soumis et
accepté à une conférence internationale de renom dans le domaine de la modélisation 3D
géospatiale. Ceci constitue une contribution importante de la recherche effectuée. Aussi,
notre taxonomie fera l’objet d’un article scientifique qui est actuellement en cours
d’écriture. Les réalisations issues de ce projet de recherche ont donné lieu à plusieurs
présentations et démonstrations au cours d’événements scientifiques et d’activités ouvertes
au grand public ce qui a permis de faire connaître ces travaux et dans un spectre plus large,
de donner le goût de la science à des jeunes.
Pour résumer, ce projet de maitrise a contribué à tisser des liens entre les domaines de la
RA et de la géomatique. De plus, notre travail a permis de montrer la faisabilité d'intégrer
des techniques de mesure et de modélisation 3D à des solutions dites grand public comme
les téléphones intelligents. Ce projet a donc contribué à l’avancement de la science dans le
domaine de la géomatique en valorisant l’apport de ce domaine sur un nouveau contexte
d’application qu’est la Réalité Augmentée Mobile.
5.3. Perspectives
Plusieurs perspectives de recherche sont issues de ce projet. Nous exposons ici quelques
idées afin de pousser plus loin le travail déjà accompli. Premièrement, nous avons prouvé
que les modèles 3D produits par notre chaîne de traitement pouvaient être utilisés afin de
gérer correctement les occlusions entre les éléments virtuels et réels. Cependant, les deux
autres rôles associés aux modèle 3D dans des applications de RAM (i.e. aide au
repositionnement de la caméra et support aux augmentations et aux interactions) n’ont pas
été testés. Il serait intéressant de développer la partie RAM de notre application afin que le
modèle 3D produit par l’utilisateur remplisse les trois rôles décrits. Pour ce qui est de l’aide
153
au calcul de la pose de la caméra, des évolutions récentes du système d’exploitation et de
l’environnement de développement de l’iPhone autorisent maintenant l’accès au flux vidéo
et donc ouvre la porte à l’analyse en temps réel des images. La populaire librairie
d’algorithmes de vision numérique OpenCV (http://opencv.willowgarage.com/wiki/) peut
aussi être implantée dans l’appareil. Celle-ci présente un intérêt compte tenu des
algorithmes puissants d’analyse d’images qu’elle offre et qui pourraient être utilisés lors du
calcul de pose de la caméra à partir des modèles 3D produits. Cependant, le
repositionnement de la caméra dans des environnements extérieurs, où l’illumination et les
éléments présents dans la scène (ex. végétation, passants, voitures, neige) sont hautement
variables, ainsi que les capacités limitées du processeur constituent encore des défis à
relever en vue de la mise en œuvre d’un calcul de pose sur téléphone intelligent et basé sur
l’exploitation d’un modèle 3D. Il serait néanmoins pertinent d’évaluer la capacité de
l’application iModelAR à effectuer un calcul de pose à partir du modèle 3D élaboré et
l’exactitude spatiale atteignable.
Afin de valider pleinement l’adéquation de la chaîne proposée pour des applications de
RAM, il sera nécessaire d’améliorer la complexité et l’exactitude spatiale des modèles 3D
produits. En termes de complexité, des bâtiments constitués de plusieurs paliers, présentant
des surfaces courbes ou une toiture en pente devront figurer parmi les prochains modèles
que l’application devra être à même de produire. Cependant, plus la modélisation devient
élaborée et moins l’application risque d’être simple pour un utilisateur n’ayant pas de
connaissances en modélisation. Un juste équilibre est souhaitable entre le gain au niveau de
l’augmentation amené par un modèle 3D plus détaillé et la simplicité d’utilisation de
l’application. Dans le futur, une modélisation de bâtiment pour iModelAR beaucoup plus
visuelle et intuitive est à envisager. Un bon exemple est Google SketchUp qui propose des
outils simples de modélisation 3D à la portée de tous. Donc une modélisation 3D
s’effectuant directement sur le flux vidéo pourrait constituer une avenue intéressante pour
visualiser immédiatement le résultat (cf. Figure 5.2). Cette idée est déjà en cours de
production au Centre de recherche en géomatique de l’Université Laval et devrait faire
l’objet d’une publication au cours de l’année 2011.
154
Figure 5.2 – Modélisation factice selon une approche similaire à celle de Sketchup en temps
réel sur un appareil mobile
En termes d’exactitude spatiale, le système est lié à Google Maps ainsi qu’aux composantes
physiques de l’appareil, donc peu d’améliorations sont possibles de ce côté puisque hors de
contrôle. Cependant, il serait possible d’utiliser une base de données contenant des points
avec des coordonnées connues précisément (ex. points géodésiques) ainsi que la taille de
l’utilisateur afin d’améliorer considérablement la composante d’altitude des coordonnées
finales du modèles 3D. Pour la composante horizontale des coordonnées des modèles 3D
155
produits, l’utilisation d’autres sources de données plus précises est à envisager, provenant
des services web WMS (Web Map Service) par exemple.
Le développement logiciel effectué pourrait de plus s’appliquer à plusieurs contextes. Par
exemple, une application de jeu où les joueurs doivent modéliser en 3D des bâtiments réels
afin de gagner certains avantages serait envisageable. Aussi, un autre contexte qui tirerait
profit d’une application telle iModelAR est l’architecture. Sur place, des simulations
simples de luminosité entre des bâtiments réels et virtuels (i.e. à construire) pourraient alors
être effectuées.
Une autre fonctionnalité d’iModelAR intéressante à développer dans le futur serait la
diffusion à tous des modèles 3D produits. Une telle approche s’inscrit dans la tendance
actuelle de l’IGV (Information Géographique Volontaire) où les utilisateurs modélisent
leur environnement immédiat puis le partage avec l’ensemble de la communauté Internet.
La possibilité d’avoir un serveur mettant à disposition les modèles 3D produits par
iModelAR permettrait donc d’éviter la phase de modélisation dans certains cas.
Finalement il nous apparait certain que la taxonomie pourrait servir à bien d’autres besoins
que ceux testés dans le cadre de notre prototype (i.e. les jeux). En effet, prenons l’exemple
d’un architecte désirant montrer sur le chantier à l’entrepreneur la future résidence dont il
a effectué les plans tout en exploitant la RAM. Désirant un rendu très réaliste, en se basant
sur notre taxonomie, il opte pour une application de RAM de niveau d’augmentation 3,
gérant les occlusions et effectuant un calcul de pose de la caméra via un modèle 3D et un
algorithme de vision numérique. La taxonomie l’aide à spécifier les solutions possibles de
modélisation 3D et éventuellement à sélectionner une technique d’acquisition adéquate.
L’architecte opte donc pour un modèle 3D possédant une haute exactitude spatiale et
idéalement texturé. Voyant qu’aucun modèle 3D n’est présent dans les infrastructures 3D
populaires pour son secteur, il choisit une reconstruction photogrammétrique à partir de
clichés pris sur site et d’un géoréférencement par arpentage. Cette décision se justifie
puisque les bâtiments présents sont assez simples géométriquement, donc facilement
modélisable par photogrammétrie. De plus, la solution est peu coûteuse comparativement
156
au LiDAR par exemple et elle permet l’ajout de texture. Toutes ces informations sont tirées
de notre taxonomie et des exemples présentés.
Une autre perspective pour notre taxonomie est qu’elle pourrait être un déclencheur pour
l’élaboration de normes d’échanges et de stockage de modèles 3D adaptés au domaine de la
RAM. Des travaux en ce sens sont en cours au Centre de recherche en géomatique de
l’Université Laval.
Nous avons aussi démontré que les téléphones intelligents permettent de fournir des
données 3D rapidement et de manière simple. Une application intéressante permettant le
calcul rapide de surfaces, de distances horizontales, verticales et possiblement de volumes
formerait un « coffre à outil spatial » destiné à une utilisation rapide sur le terrain via un
appareil mobile.
157
Robot-Zombie par Rodrigo Avilés (www.rodrigoaviles.cl/index.html), utilisé en respect de
la licence Creative Commons.
158
Bibliographie
Arguin, Chantal, Maarten Vergauwen, Mustapha Touazi, et Pierre Beaubien. «Le
Programme d'Efficacité Géospatiale du Groupe TRIFIDE : une expertise unique
d'acquisition de données précises.» Géomatique, 2009: 28-29.
Azuma, Ronald T. «A Survey of Augmented Reality.» In Presence: Teleoperators and
Virtual Environments, 1997: 355-385.
Bier, Eric, Maureen Stone, Ken Pier, William Buxton, et Tony DeRose. «Toolglass and
Magic Lenses: The See-Through Interface.» Proceedings of Siggraph '93, Computer
Graphics Annual Conference Series, ACM, 1993: 73-80.
Broll, Wolfgang, Irma Lindt, Iris Herbst, Jan Ohlenburg, Anne-Kathrin Breun, et Richard
Wetzel. «Toward Next-Gen Mobile AR Games.» IEEE Computer Graphics and
Applications, Vol. 28, No. 4, 2008: 40-48.
Cheok, Adrian David, Siew Wan Fong, Kok Hwee Goh, Goh Yang, Wei Liu, et Farzam
Farzbiz. «Human Pacman: A Sensing-based Mobile Entertainment System with Ubiquitous
Computing and Tangible Interaction.» Proceedings of the 2nd workshop on Network and
system support for games, 2003: 106-117.
Comport, Andrew, Éric Marchand, et François Chaumette. «A real-time tracker for
markerless augmented reality.» Proceedings of the 2nd IEEE/ACM International
Symposium on Mixed and Augmented Reality, 2003: 36-45.
Cornelis, Nico, Bastian Leibe, Kurt Cornelis, et Luc Van Gool. «3D Urban Scene Modeling
Integrating Recognition and Reconstruction.» International Journal of Computer Vision,
2007: 121-141.
Côté, Stéphane, Mark Smith, Renaud Gervais, Pierre-Paul Talbot, et Joshua Gillman.
«Experimenting with portable devices for onsite engineering model visualization in
construction.» Proceedings of the 2nd International Workshop on Mobile Geospatial
Augmented Reality, 2008.
De la Losa, Arnaud. Modélisation de la troisième dimension dans les bases de données.
Thèse de doctorat, Noisy-le-Grand, France: Université de Marne-la-Vallée, 2000.
Desgagné, Étienne. Conception et développement d'un SIG 3D dans une approche de
service web. Mémoire de maîtrise, Québec: Université Laval, 2010.
159
DiVerdi, Stephen, Sehwan Kim, Taehee Lee, Jonathan Ventura, Jason Wither, et Tobias
Höllerer. Anywhere Augmentation.
http://ilab.cs.ucsb.edu/index.php/component/content/article/10/28 (accès le décembre 6,
2010).
Fabio, Remondino. «From Point Cloud to Surface: The Modeling And Visualization
Problem.» International Archives of Photogrammetry, 2003.
Feiner, Steven, Blair MacIntyre, Tobias Höllerer, et Anthony Webster. «A Touring
Machine: Prototyping 3D Mobile Augmented Reality Systems for Exploring the Urban
Environment.» International Symposium on Wearable Computing, 1997: 74-81.
Gartner, Inc. Gartner Says Grey-Market Sales and Destocking Drive Worldwide Mobile
Phone Sales to 309 Million Units. 12 Novembre 2009.
http://www.gartner.com/it/page.jsp?id=1224645 (accès le 02 27, 2010).
Gennery, Donald. «Visual tracking of known three-dimensional objects.» International
Journal of Computer Vision, Vol. 7, No. 3, 1991: 243-270.
Glennie, Craig. «Kinematic Terrestrial Lidar Scanning System.» Transportation Research
Board Annual Meeting 2009 Paper #09-0122, 2009.
Google. This Blog Web All Blogs. 09 juillet 2010.
http://googlepolicyeurope.blogspot.com/2010/07/street-view-driving-update.html (accès le
juillet 16, 2010).
Groupe Trifide. «L'expertise géospatiale 4D accessible.» Profil Corporatif, 2010.
Grzeszczuk, Radek, Jana Kosecka, Ramakrishna Vedantham, et Harlan Hile. «Creating
Compact Architectural Models by Geo-registering Image Collections.» 2009 IEEE
International Workshop on 3-D Digital Imaging and Modeling, 2009.
Haala, Norbert, Michael Peter, Alessandro Cefalu, et Jens Kremer. «Mobile Lidar Mapping
For Urban Data Capture.» 14th International Conference on Virtual Systems and
Multimedia (VSMM 2008), 2008: 95-100.
Henderson, Steven J., et Steven K Feiner. «Augmented Reality for Maintenance and Repair
(ARMAR).» Technical Report AFRL-RH-WP-TR-2007-0112, United States Air Force
Research Lab, juillet 2007.
Hengel, Anton van den, Rhys Hill, Ben Ward, et Anthony Dick. «In situ image-based
modeling.» Proceedings of the 2009 8th IEEE International Symposium on Mixed and
Augmented Reality, 2009: 107-110.
160
Herbst, Iris, Anne-Kathrin Braun, Rod McCall, et Wolfgang Broll. «TimeWarp: Interactive
Time Travel with a Mobile Mixed Reality Game.» Proceedings of the 10th international
conference on Human computer interaction with mobile devices and services. Amsterdam,
Pays-Bas: ACM International Conference Proceeding Series, 2008. 235-244.
Herbst, Iris, Sabiha Ghellah, et Ann-Kathrin Braun. «TimeWarp: An Explorative Outdoor
Mixed Reality Game.» ACM SIGGRAPH, 2007.
Holden, Windsor. Mobile Augmented Reality ~ A whole new world. Whitepaper,
Hampshire, UK: Juniper Research Ltd., 2009.
Höllerer, Tobias, Jason Wither, et Stephen DiVerdi. «―Anywhere Augmentation‖: Towards
Mobile Augmented Reality in Unprepared Environments.» Location Based Services and
TeleCartography, 2007: 393-416.
Hunt, John. Agile Software Construction. Londres: Springer-Verlag London Limited, 2006.
Inside GNSS. earthmine Launches 3D Mapping System Driven by GPS, Inertial. 8 Avril
2009. http://www.insidegnss.com/node/1430 (accès le juillet 16, 2010).
Janssens-Coron, Éric, Jacynthe Pouliot, et Bernard Moulin. «La construction de modèles
3D assistée par système expert : un exemple appliqué à la géologie.» Géo-Info, Chroniques
du Québec géographique. août 2010.
http://www.quebecgeographique.gouv.qc.ca/approfondir/bibliotheque/geoinfo/geoinfo-
aout-2010.asp (accès le août 28, 2010).
Julier, Simon, Yohan Baillot, Marco Lanzagorta, Lawrence Rosenblum, et Dennis Brown.
«Urban Terrain Modeling For Augmented Reality Applications.» 3D Synthetic
Environments Reconstruction, 2001: 119-136.
Kalogerakis, Evangelos, Stavros Christodoulakis, et Nektarios Moumoutzis. «Coupling
Ontologies with Graphics Content for Knowledge Driven Visualization.» IEEE Virtual
Reality Conference, 2006: 43-50.
Kim, Sehwan, Stephen DiVerdi, Jae Sik Chang, Taehyuk Kang, Ronald Iltis, et Tobias
Höllerer. «Implicit 3D Modeling and Tracking for Anywhere Augmentation.» Proceedings
of the 2007 ACM symposium on Virtual reality software and technology. Newport Beach,
Californie: Virtual Reality Software and Technology, 2007. 19-28.
Klopfer, Eric, et Kurt Squire. «Environmental Detectives—the development of an
augmented reality platform for environmental simulations.» Educational Technology
Research and Development, Volume 56, Number 2, Springer, Avril 2007: 203-228.
161
Kolbe, Thomas H, Klaus Nagel, et Alexandra Stadler. «CityGML- OGC Standard for
Photogrammetry.» Photogrammetric Week 2009. Berlin, Allemagne: Wichmann, 2009.
265-277.
Kolbe, Thomas H., Gerhard Gröger, et Lutz Plümer. «CityGML – Interoperable Access to
3D City Models.» Proceedings of the International Symposium on Geo-information for
Disaster Management. Delft, Pays-Bas: Springer Verlag, 2005.
Lepetit, Vincent, et Marie-Odile Berger. «Handling Occlusion in Augmented Reality
Systems: A Semi-Automatic Method.» International Symposium in Augmented Reality,
2000: 1-10.
Lindt, Irma, Jan Ohlenburg, Sabiha Ghellal, Leif Oppermann, et Matt Adams. «Designing
Cross Media Games.» Pervasive’05 proceedings. Munich, Allemagne, 2005.
Lindt, Irma, Jan Ohlenburg, Uta Pankoke-Babatz, et Sabiha Ghellal. «A report on the
crossmedia game epidemic menace.» Computers in Entertainment, Vol. 5, No. 1, 2007.
McGraw-Hill Construction. Building Information Modeling (BIM). New-York City:
SmartMarket Report, 2008.
McGraw-Hill Construction. Interoperability in the Construction Industry. New-York City:
SmartMarket, 2007.
Mendez, Erick, Gerhard Schall, Sven Havemann, Sebastian Junghanns, Dieter Fellner, et
Dieter Schmalstieg. «Generating Semantic 3D Models of Underground Infrastructure.»
Computer Graphics and Applications IEEE Computer Graphics and Applications (2008):
48-57.
Milgram, Paul, Haruo Takemura, Akira Utsumi, et Fumio Kishino. «Augmented reality: a
class of displays on the reality-virtuality continuum.» Telemanipulator and Telepresence
Technologies; Proc. SPIE Vol. 2351, 1994: 282-292.
NAVTEQ. «NAVTEQ Launches Advanced Mapping Collection Technology.» NAVTEQ. 6
janvier 2010.
http://corporate.navteq.com/webapps/NewsUserServlet?action=NewsDetail&newsId=836&
lang=en&englishonly=true (accès le 03 20, 2010).
Neubauer, N., M. Over, A. Schilling, et A. Zipf. «Virtual Cities 2.0: Generating web-based
3D city models and landscapes based on free and user generated data (OpenStreetMap).»
GeoViz2009. Hamburg, Allemagne:
http://www.geovisualisierung.net/geoviz_hamburg/geovizhh_program.htm, 2009.
162
Ogale, Abhijit. «Google Street View from a computer vision perspective.» Stanford
University CS 223B: Introduction to Computer Vision. 28 janvier 2010.
http://vision.stanford.edu/teaching/cs223b/lecture/google_streetview_slides.pdf (accès le 07
16, 2010).
Ohlenburg, Jan, Irma Lindt, et Uta Pankoke-Babatz. «Report about the Crossmedia Game
Epidemic Menace.» Computers in Entertainment (CIE), Volume 5 , Issue 1, ACM, janvier
2007.
Ordre des arpenteurs-géomètres du Québec. «Guide abrégé des tarifs suggérés.» Ordre des
arpenteurs-géomètres du Québec. janvier 2010.
www.oagq.qc.ca/images/stories/ARPENTEUR/GUIDE_DES_TARIFS_JANVIER_2010.p
df (accès le décembre 7, 2010).
Parian, Amiri Jafar, et Armin Gruen. «Close Range Photogrammetric Network Design for
Panoramic Cameras By Heuristic Simulation.» Optical 3-D Measurement Techniques VII,
Vol I, 2005: 237-244.
Piekarski, Wayne. Interactive 3d modelling in outdoor augmented reality worlds. Adelaide:
Research Thesis for the Degree of Doctor of Philosophy, The University of South
Australia, 2004.
Piekarski, Wayne, et Bruce Thomas. «ARQuake: The Outdoor Augmented Reality Gaming
System.» Communications of the ACM, Vol. 45, No.1, 2002: 36-38.
Pop, Georgeta. «Integrating Advanced Technologies and Methods for Fast and Reliable 3D
Modeling.» ASPRS 2008 Annual Conference, 2008.
Pouliot, Jacynthe, Bernard Lachance, et Donna Kirkwood. «L'importance de la
modélisation géométrique 3D lors de l'élaboration d'un SIG 3D: Exemple du
développement d'une structure topologique pour une application géologique.» Revue
internationale de géomatique, Hermes-Lavoisier, 2006: 29-49.
Pouliot, Jacynthe, Thierry Badard, Étienne Desgagné, Karine Bédard, et Vincent Thomas.
«Development of a Web Geological Feature Server (WGFS) for sharing and querying of
3D objects.» Lecture Notes in Geoinformation and Cartography, Advances in 3D
Geoinformation Systems, Part II, Theme I, 2008: 115-130.
Pressigout, Muriel. «Hybrid tracking algorithms for planar and non-planar structures
subject to illumination changes.» ACM/IEEE Int. Symp. on Mixed and Augmented Reality,
ISMAR’06, 2006: 52-55.
163
Reitmayr, Gerhard, et Tom W. Drummond. «Going out : Robust Tracking for Outdoor
Augmented Reality.» Proceedings of the 5th IEEE and ACM International Symposium on
Mixed and Augmented Reality. Santa Barbara, Californie: IEEE, 2006. 109-118.
Schall, Gerhard, Erick Mendez, Ernst Kruijff, Eduardo Veas, Sebastian Junghanns,
Bernhard Reitinger, Dieter Schmalstieg. «Handheld Augmented Reality for Underground
Infrastructure Visualization.» Journal on Personal and Ubiquitous Computing, Volume 13 ,
Issue 4, 2009: 281 - 291.
Schilling, Arne, et Thomas H. Kolbe. Draft for Candidate OpenGIS® Web 3D Service
Interface Standard. Open Geospatial Consortium, 2010.
Schmalstieg, Dieter, Schall Gerhard, Daniel Wagner, Istvan Barakonyi, Gerhard Reitmayr,
Joseph Newman, Florian Ledermann. «Managing Complex Augmented Reality Models.»
IEEE Computer Graphics and Applications, Volume 272, Number 1716 (IEEE Computer
Society), 2007: 32-41.
Schultz, R. «Ancient Egypt: a social history.» 376. Cambridge: Cambridge University
Press, 1983.
Shan, Jie, et Charles K. Toth. Topographic Laser Ranging and Scanning: Principles and
Processing. Boca Raton: CRC Press, 2009.
Shelton, Brett E., et Nicholas R. Hedley. Using Augmented Reality for Teaching Earth-Sun
Relationships to Undergraduate Geography Students. Darmstadt, Allemagne: IEEE, 2002.
Sonka, Milan, Vaclav Hlavac, et Roger Boyle. Image Processing, Analysis, and Machine
Vision. Toronto, Canada: Thomson Engineering, 2008.
sprxmobile. Layar 3D. 22 09 2009. http://layar.com/3d/ (accès le 09 30, 2009).
Squire, Kurt, et Jan Mingfong. «Mad city mystery: Developing scientific argumentation
skills with a place-based augmented reality game on handheld computers.» Journal of
Science Education and Technology, Vol. 16, No. 1, Springer, 2007: 5-29.
Thomas, Bruce, Ben Close, John Donoghue, John Squires, Phillip De Bondi, et Wayne
Piekarski. «First Person Indoor/Outdoor Augmented Reality Application: ARQuake.»
Personal and Ubiquitous Computing, Vol. 6 , No. 1, 2002: 75-86.
Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. «3D modeling for Augmented Reality
: A Taxonomy.» À être soumis.
164
Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. «3D Modeling for Mobile Augmented
Reality in Unprepared Environment.» Édité par Thomas H. Kolbe, Gerhard König et Nagel
Claus. Advances in 3D Geo-Information Sciences, (Series: Lecture Notes in
Geoinformation and Cartography). 3D GeoInfo Conference, Berlin: Sprigner, 2010.
Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. Revue de littérature - Jeux vidéos et
réalité augmentée. 2008.
Vacchetti, Luca, Vincent Lepetit, et Pascal Fua. «Combining Edge and Texture Information
for Real-Time Accurate 3D Camera Tracking.» Proceedings of ISMAR ‘04, 2004: 48-57.
Vlahakis, Vassilios, Nikos Ioannidis, John Karigiannis, Manolis Tsotros, Michael
Gounaris, Didier Stricker, Tim Gleue, Patrick Dahne, Luis Almeida. «Archeoguide: An
Augmented Reality Guide for Archaeological Sites.» IEEE Computer Graphics, 2002: 52-
60.
Williams, Brian, Georg Klein, et Ian Reid. «Real-Time SLAM Relocalisation - Augmented
Reality sequence.» International Conference on Computer Vision, 2007: 1-8.
Wither, Jason, Chris Coffin, Jonathan Ventura, et Tobias Hollerer. «Fast annotation and
modeling with a single-point laser range finder.» Proceedings of the 7th IEEE/ACM
International Symposium on Mixed and Augmented Reality. Cambridge, UK: IEEE
Computer Society, 2008. 65-68.
Yazawa, Naoyuki, Hideaki Uchiyama, Hideo Saito, Myriam Servières, et Guillaume
Moreau. «Image Based View Localization System Retrieving from a Panorama Database
by SURF.» MVA2009 IAPR Conference on Machine Vision Applications. Yokohama,
Japon, 2009. 118-121.
Zandbergen, Paul A. «Accuracy of iPhone Locations: A Comparison of Assisted GPS,
WiFi and Cellular Positioning.» Transactions in GIS, Vol. 13, 2009: 5-25.
Zhou, Feng, Henry Been-Lirn Duh, et Mark Billinghurst. «Trends in augmented reality
tracking, interaction and display: A review of ten years of ISMAR.» Proceedings of the 7th
IEEE/ACM International Symposium on Mixed and Augmented Reality, 2008: 193-202.
165
6. Annexe 1 – Types de modèles 3D
Cette annexe apporte un complément d’information au lecteur sur les deux grandes
approches de modélisation 3D et d’acquisition de données spatiales soit l’approche
orientée espace et l’approche orientée objet. L’approche choisie afin de collecter les
données spatiales sur le terrain aura un impact significatif au niveau des traitements
subséquents de celles-ci ainsi que sur le modèle 3D résultant.
L’acquisition des données géospatiales peut s’opérer selon deux approches différentes pour
le partitionnement de l’espace et des objets à mesurer:
1. Orientée objet : L’acquisition de données dite orientée objet ou discrète consiste
d’abord à identifier l’objet d’intérêt, puis à extraire explicitement et de manière
discrète sa position et sa forme. Par exemple, le relevé des coins d’un bâtiment fait
par un instrument d’arpentage de type station totale entre dans cette catégorie car il
exige d’abord l’identification, par l’homme, de ces coins de bâtiment.
2. Orientée espace : L’acquisition de données dite orientée espace ou continue
consiste à relever tout ce qui se trouve dans un champ de vue. L’identification des
objets est possible à réaliser par la suite, cela demande cependant soit une étape
d’interprétation ou d’extraction. Ces étapes peuvent être réalisées manuellement ou
automatiquement par des algorithmes de reconnaissance de forme, de segmentation
par exemple.
À partir de ces données géospatiales collectées et selon l’approche d’acquisition utilisée,
plusieurs techniques existent afin de construire un modèles 3D. Desgagné (2010), en
référençant Pouliot et al. (2006) et De La Losa (2000), propose trois niveaux de complexité
basé sur les types de primitives utilisées pour la construction (i.e. les points/lignes, les
surfaces et les solides).
166
La structure de modélisation basée sur des points et des lignes, aussi appelée structure en fil
de fer, utilise des points et des lignes afin de reconstruire un objet en 3D (cf. Figure 6.1).
Cette structure simple et légère en termes de mémoire peut être source d’ambigüités à
savoir si des faces sont pleines ou vides viennent compliquer le processus d’interprétation
et de visualisation.
Figure 6.1 – Modèle 3D de type fil de fer (Wikipedia)
Nous présenterons deux structures basées sur des faces. La première, appelée B-Rep
(Boundary Representation), utilise un assemblage de surfaces afin de former un modèle 3D
(cf. Figure 6.2). Les surfaces peuvent être orientées afin de distinguer l’intérieur de
l’extérieur des objets et cette structure peut être utilisée lors de la représentation d’objets
troués. Pour notre prototype, iModelAR, c’est cette structure qui a d’ailleurs été adoptée.
En effet, le B-Rep est principalement utilisé dans les moteurs 3D tel OpenGL et les
surfaces y sont souvent composées de triangles. Les surfaces courbes peuvent aussi être
représentées, notamment par des NURBS (Non-Uniform Rational Basis Splines).
Figure 6.2 - Modèle 3D par frontières (B-Rep) (image par Hay Kranen)
167
La deuxième est l’approche de modélisation 3D par extrusion qui implique la formation
d’un modèle 3D par le déplacement (rotation ou translation) d’une surface 2D dans l’espace
(cf. Figure 6.3). Cette technique de modélisation 3D est bien adaptée pour les objets
réguliers.
a)
b)
Figure 6.3 - Modélisation 3D à partir d’une surface par une a) translation b) rotation (De la
Losa 2000)
Une plus grande diversité de structures est basée sur des solides. Nous y retrouvons le CSG
(Constructive Solid Geometry), la modélisation basée sur des primitives (Primitive
Instancing), les voxels / octree et les ensembles de solides.
Le CSG permet une modélisation 3D par assemblage de solides élémentaires comme le
cube, le cylindre, ou le cône (cf. Figure 6.4). Le CSG est très utile pour représenter des
formes anthropiques (ex. pièces mécaniques), mais moins bien adapté à des formes
irrégulières tel un arbre.
168
Figure 6.4 - Modélisation 3D par CSG (Wikipedia)
L’approche par voxels implique un découpage régulier de l’espace en cubes de tailles
identiques (cf. Figure 6.5a). Chacun de ces cubes peut faire partie ou non de l’objet
représenté. L’octree est une structure hiérarchique qui divise l’espace en octant (cf. Figure
6.5b). Cette approche permet d’avoir des cubes d’une plus grande taille, réduisant ainsi
l’espace de stockage nécessaire.
a)
b)
Figure 6.5 - a) Modélisation 3D par voxels (De la Losa 2000) et b) division de l’espace par
octree (Wikipedia)
La modélisation par instanciation de primitives utilise des structures complexes
paramétrables à l’instar de du CSG qui tire profits de solides de base. Il est avantageux
169
d’utiliser cette technique lorsque plusieurs objets semblables doivent être créés. À la Figure
6.6 par exemple, des bâtiments sont instanciés selon trois paramètres : la longueur, le
nombre de fenêtres et de cheminées.
Figure 6.6 - Modélisation 3D par instanciation de primitives (De la Losa 2000)
Finalement, une modélisation par assemblage de solide peut s’avérer utile pour modéliser
des objets complexes. Pour ce faire, des solides irréguliers sont assemblés afin de former un
volume. Le tétraèdre par exemple peut être utilisé comme solide de base (cf. Figure 6.7a).
Ce type de modélisation est employé notamment en géologie (cf. Figure 6.7b).
a)
b)
Figure 6.7 - a) tétraèdre (Wikipedia) b) solides géologiques 3D formés par assemblage de
tétraèdres (Desgagné 2010)
Pour une lecture plus complète et détaillée de ces structures géométriques 3D, nous
recommandons Desgagné (2010), Pouliot et al. (2006) et De la Losa (2000).
170
top related