modÉlisation 3d pour la rÉalitÉ augmentÉe une … · modÉlisation 3d pour la rÉalitÉ...

VINCENT THOMAS

MODÉLISATION 3D POUR LA RÉALITÉ

AUGMENTÉE Une première expérimentation avec un téléphone intelligent

Mémoire présenté

à la Faculté des études supérieures de l’Université Laval

dans le cadre du programme de maîtrise en sciences géomatiques

pour l’obtention du grade de Maître ès sciences (M.Sc.)

DÉPARTEMENT DES SCIENCES GÉOMATIQUES

FACULTÉ DE FORESTERIE, DE GÉOGRAPHIE ET DE GÉOMATIQUE

UNIVERSITÉ LAVAL

QUÉBEC

Résumé

Depuis leur introduction, les téléphones intelligents n’ont cessé d’évoluer. Ceux-ci

intègrent généralement plusieurs composantes utiles (i.e. caméra numérique, récepteur

GPS, accéléromètres, boussole numérique et plus récemment le gyroscope) pour des

applications de Réalité Augmentée Mobile (RAM). Ce type d’application génère beaucoup

d’intérêt auprès du grand public qui se voit offrir une nouvelle manière d’explorer son

environnement. Afin d’obtenir une forte augmentation de la réalité en termes d’immersion

de l’utilisateur et des interactions qui lui sont proposées, ces applications de RAM

requièrent généralement un modèle 3D de l’environnement. Ce modèle 3D peut alors être

exploité selon trois finalités différentes au sein de l’application de RAM qui sont : 1) gérer

les occlusions; 2) aider au calcul de la pose (position/orientation) de la caméra de

l’utilisateur; 3) supporter les interactions et l’augmentation de la réalité. Cependant, ces

modèles 3D ne sont pas toujours disponibles à l’endroit où l’on souhaite augmenter la

réalité ce qui nuit au déploiement des applications de RAM n’importe où et n’importe

quand. Afin de surmonter cette contrainte, le présent projet de maîtrise a consisté à

concevoir une chaîne de production de modèles 3D adaptée au contexte des applications de

RAM dites fortement augmentées et facilement exploitable directement sur les lieux ciblés

pour l’augmentation. La chaîne de production élaborée a été implantée sur la plateforme de

l’iPhone 3G puis évaluée selon des critères d’exactitude, de rapidité, d’intuitivité et

d’efficacité de l’augmentation résultante. Les résultats de cette évaluation ont permis de

mettre en évidence la possibilité de modéliser en 3D un bâtiment simplement tout en

atteignant une exactitude sous les 5 mètres en environ 3 minutes à l’aide d’un appareil de

type téléphone intelligent.

Abstract

Recently, a new genre of software applications has emerged allowing the general public to

browse their immediate environment using their smartphone: Mobile Augmented Reality

(MAR) applications. The growing popularity of this type of application is triggered by the

fast evolution of smartphones. These ergonomic mobile platforms embed several pieces of

equipment useful to deploy MAR (i.e. digital camera, GPS receiver, accelerometers, digital

compass and now gyroscope). In order to achieve a strong augmentation of the reality in

terms of user’s immersion and interactions, a 3D model of the real environment is generally

required. The 3D model can be used for three different purposes in these MAR

applications: 1) to manage the occlusions between real and virtual objects; 2) to provide

accurate camera pose (position/orientation) calculation; 3) to support the augmentation and

interactions. However, the availability of such 3D models is limited and therefore

preventing MAR application to be used anywhere at anytime. In order to overcome such

constraints, this proposed research thesis is aimed at devising a new approach adapted to

the specific context of MAR applications and dedicated to the simple and fast production of

3D models. This approach was implemented on the iPhone 3G platform and evaluated

according to precision, rapidity, simplicity and efficiency criteria. Results of the evaluation

underlined the capacity of the proposed approach to provide, in about 3 minutes, a simple

3D model of a building using smartphone while achieving accuracy of 5 meters and higher.

Avant-Propos

J’étais en 3e année au baccalauréat en génie géomatique à l’Université Laval et je sentais

donc le cadran de la « vraie » vie sur le point de sonner! Dans le but de conserver mon style

de vie étudiant pendant au moins deux ans de plus, j’ai discuté avec Jacynthe Pouliot sur le

sujet d’éventuelles études graduées. Elle m’a référé à Sylvie Daniel pour un contrat sur les

îlots de chaleur urbains. Par la suite, j’ai travaillé en alternance pour les deux seules

représentantes féminines de l’allée des profs du Casault. Après l’obtention d’un projet

GEOIDE par Sylvie, celle-ci m’a proposé une maîtrise dans les domaines du jeu vidéo, de

la modélisation 3D, de la réalité augmentée et de la mobilité. Assez difficile à refuser!

Sylvie et Jacynthe ont donc accepté d’être respectivement ma directrice et co-directrice,

tout un duo! J’aimerais donc les remercier à ce point pour leurs conseils, les pages rougies

de corrections, les questions surprenantes (qu’est-ce qu’un objet? qu’est-ce que la réalité?),

les bons moments et surtout de m’avoir accordé leur confiance tout au long du projet.

Aussi, j’ai eu le privilège de voyager à plusieurs endroits, entres autres, Jacynthe m’a

envoyé à Val d’Or puis Sylvie à Santa Barbara (une doit apprécier mon travail plus que

l’autre!). Mais ça ne s’est pas arrêté là, j’ai présenté mes travaux à Vancouver, Kingston,

Montréal, Calgary, Niagara Falls et Berlin. À mes deux cheffes, ce fût un plaisir, vous êtes

les meilleures!

J’aimerais remercier ma famille : Guillaume, Alain, Johanne et Élizabeth pour leur support

inconditionnel et les déjeuners au resto avant la route vers Québec. Désolé de ne pas avoir

appelé plus souvent (oui oui m’man je suis toujours vivant!). Une pensée spéciale pour mes

vieux potes de Laval (surtout ne changez pas), Laurent, Ghislain et Joëlle qui sont toujours

aussi fous (est-ce que vous vous rappelez de quelque chose du voyage à Woodstock, NY. ?).

J’ai eu la chance de graduer du bac avec la plus belle gang de géomatique qui soit : Jean, la

mère à Jean, POM, Phil, Isa, Émilie, Franck & Nath, Jim & Julie, Félix, Sébast, San &

Karine, Brun & Judith-Marie, Julie & Mathieu, Denis, Jessica L., Jessica S., Christine,

Dave, Marilou, Sam et mon éternelle partner Eugénie! C’est toujours un plaisir de se

revoir! À mes deux compères et amis de la légendaire RedHouse, Audrey et Yan qui ont

toujours des histoires incroyables à raconter, YOU ROCK!!

Pour leur dévouement pour la géomatique, j’aimerais souligner le travail du bureau de

direction de l’ACSG-Champlain.

J’ai beaucoup apprécié côtoyer les gens qui ont fait du CRG un endroit agréable à

travailler malgré les nuages d’amiante : Eve, Mathieu P. & Nadia, Tania, Mathieu B,

Matthieu, Princesse Mojgan & Kyarash, Danielle, Élodie, Karine H., Édith, Hedia,

Véronique, Valérie, Mamadou, Naouraz, Attiyeh, Joanie, Fouquet, Gilles & Karine, David,

Christian, Stéphanie, Mike, Louis-Étienne, Nouri, Dan, J-R, et surtout Éric et Alborz les

deux irréductibles du « coin à Jacynthe ». Un gros merci à Carmen (et al.) pour tout le

plaisir des BBQ et de la raquette à Neuville et dans le quotidien du Département. Aussi, à

ceux rencontrés lors de conférences qui sont devenus des amis Amit, Krista, Greg, Wook,

Tim, Adel et Steven.

J’aimerais remercier GEOIDE pour le soutien financier tout au long de ma maîtrise, ainsi

que M. Stéphane Côté pour avoir accepté d’être mon examinateur externe et pour avoir

suivi mes travaux. De plus, à Tobias Höllerer qui m’a accueilli toute une semaine dans son

équipe de recherche en Californie. Un dernier remerciement à Mme. Chantal Arguin et

l’équipe chez Groupe Trifide pour les précieuses informations qui nous faisaient défaut.

Ma vie d’étudiant est terminée (pour l’instant), mais je vais y garder la folie de la jeunesse

toute ma carrière et toute ma vie.

Il y a (XXXX) km d’ici (nom d’une ville éloignée). Nous avons un demi-paquet de

cigarettes, un réservoir plein d’essence, il fait noir et nous avons nos lunettes noires… EN

ROUTE!

- Citation des Blues Brothers dite avant chacun de nos fameux Road Trips (dont celui

sans arrêt jusqu’en Floride, un soir de Noël à une heure de préavis parce qu’on

avait rien de mieux à faire)

Musique écoutée pendant la rédaction : Mad Joker, Brian Wilson, The Rolling Stones, The

Who, Green Day, Beastie Boys, Muse, The Ramones, Iron Maiden & Bob Dylan

À Guillaume, Alain et Johanne

Table des matières

Résumé ..................................................................................................................................... i Abstract .................................................................................................................................. ii

Avant-Propos ........................................................................................................................ iii Table des matières ................................................................................................................. vi Liste des tableaux ................................................................................................................ viii Liste des figures ..................................................................................................................... ix Chapitre 1 – Introduction ...................................................................................................... 13

1.1. Mise en contexte .................................................................................................. 13

1.1.1. Concept de réalité augmentée mobile ....................................................... 13

1.1.2. Réalité fortement augmentée ..................................................................... 15

1.1.3. Réalité augmentée n’importe où, n’importe quand .................................. 16

1.2. Problématique ..................................................................................................... 18

1.3. Objectifs ............................................................................................................... 20

1.3.1. Objectif principal ......................................................................................... 20

1.3.2. Premier sous-objectif .................................................................................. 21

1.3.3. Deuxième sous-objectif ............................................................................... 21

1.3.4. Troisième sous-objectif .............................................................................. 22

1.4. Méthodologie ....................................................................................................... 22

1.5. Cadre expérimental ............................................................................................. 25

1.6. Organisation du mémoire ................................................................................... 26 Chapitre 2 – Revue de littérature .......................................................................................... 27

2.1. Introduction ........................................................................................................... 27 2.2. Principes de la RAM ............................................................................................. 27 2.3. Applications existantes ......................................................................................... 35

2.3.1. Les applications de visite touristique ............................................................ 35 2.3.2. Les applications de jeu .................................................................................. 37

2.3.3. Les applications de gestion des infrastructures ............................................. 40 2.3.4. Les applications sociales issues du Web 2.0 ................................................. 41

2.4. Gestion des occlusions dans les applications de RAM ......................................... 43

2.4.1. Introduction ................................................................................................... 43 2.4.2. Utilisation d’un modèle 3D ........................................................................... 43

2.4.3. Utilisation d’algorithmes de vision numérique et de composantes

physiques ...................................................................................................................... 45

2.4.4. Utilisation d’approches semi-interactives ..................................................... 47 2.5. Les modèles 3D et l’aide au calcul de la pose de la caméra. ................................ 49

2.5.1. Introduction ................................................................................................... 49 2.5.2. Modèle 3D par arêtes ou surfaces ................................................................. 50 2.5.3. Modèle 3D texturés ....................................................................................... 51

2.5.4. Panoramas ..................................................................................................... 52 2.6. Les modèles 3D et le support à l’augmentation et aux interactions ..................... 54

2.6.1. Introduction ................................................................................................... 54 2.6.2. Support aux interactions ............................................................................... 54

2.6.3. Support à l’augmentation .............................................................................. 58

2.7. Conclusion du chapitre ......................................................................................... 60 Chapitre 3 – Modèles 3D et augmentation de la réalité : caractéristiques et taxonomie ...... 61

3.1. Introduction ........................................................................................................... 61 3.2. Taxonomie : Modèles 3D et augmentation de la réalité ....................................... 63

3.2.1. Description générale ..................................................................................... 63 3.2.2. Méthodes d’acquisition et de traitement des données géospatiales .............. 66 3.2.3. Spécifications des modèles 3D ..................................................................... 84

3.2.4. Niveaux d’augmentation ............................................................................... 93 3.2.5. Liens entre les modèles 3D et les niveaux d’augmentation ........................ 102 3.2.6. Cas d’étude ................................................................................................. 113

3.3. Détermination des caractéristiques requises pour une chaîne de production de

modèles 3D adaptée aux applications de RAM .............................................................. 119

3.4. Conclusion du chapitre ....................................................................................... 121 Chapitre 4 – Modélisation 3D pour la réalité augmentée mobile dans un environnement non

préparé ................................................................................................................................ 123

4.1 Contributions ............................................................................................................ 123

4.2 Corps de l’article ....................................................................................................... 123 4.2.1 Introduction ..................................................................................................... 125

4.2.2 Mobile Augmented Reality Operational Constraints...................................... 126 4.2.3 3D Modeling Solution Specifications for Unprepared Environment ............. 129 4.2.4 Fast and Easy 3D Modeling Approach for Smartphones ............................... 131

4.2.5 iModelAR Prototype ....................................................................................... 133 4.2.6 Conclusions and Future Work ........................................................................ 141

References ....................................................................................................................... 142 4.3 Compléments à l’article ............................................................................................ 144

Chapitre 5 – Conclusion ..................................................................................................... 147 5.1. Retour sur les objectifs du projet et la recherche effectuée ................................ 147

5.2. Contributions de la recherche ............................................................................. 151 5.3. Perspectives ........................................................................................................ 152

Bibliographie ...................................................................................................................... 158

Annexe 1 – Types de modèles 3D ...................................................................................... 165

Liste des tableaux

Tableau 3.1 - Niveaux d'augmentation de la réalité ............................................................ 101 Tableau 3.2 - Caractéristiques du modèle 3D pour la gestion des occlusions .................... 105

Tableau 3.3 - Niveau de détails et informations sémantiques d’un modèle 3D et exemples

d’interactions possibles en contexte de jeu ................................................................. 112 Table 4.1 - iModelAR accuracy analysis ............................................................................ 137 Table 4.2 - List of performances of iModelAR .................................................................. 139

Liste des figures

Figure 1.1 - Continuum réalité-virtualité (traduction libre), (Milgram, et al. 1994) ............ 13 Figure 1.2 – Un exemple des premières solutions de RAM élaborées impliquant une

configuration d’équipements peu ergonomique : portable et GPS sur le dos de

l’utilisateur, casque et centrale inertielle sur sa tête, casque vidéo pour la visualisation

de l’augmentation (Thomas, et al. 2002) ..................................................................... 15 Figure 1.3 - Diagramme de la méthodologie utilisée afin de concevoir et évaluer une chaîne

de traitement adéquate pour la production rapide de modèles 3D en vue de mettre en

œuvre des applications de réalité fortement augmentée mobile. .................................. 25

Figure 2.1 - a) Utilisation d’une approche de vision numérique afin de cartographier

l’environnement et b) augmentation de l’environnement sur la base des points saillants

3D obtenus lors de l’étape de cartographie (Williams et al. 2007) ............................... 30 Figure 2.2 - Ajout d'un marqueur dans l'environnement, b) augmentation de la réalité

(http://sndrv.nl/ARflashmob/) ....................................................................................... 31 Figure 2.3 - Schéma de la projection d’un objet virtuel dans le plan image d’une caméra .. 32

Figure 2.4 - Distorsion entre deux images prises du même endroit avec une distance focale

différente, donc variation d’un des paramètres intrinsèques (photos : Jean-Jacques

Milan) ............................................................................................................................ 34 Figure 2.5 - a) Annotation 2D d'un restaurant (Feiner, et al. 1997) b) équipement

nécessaire à la Touring machine (i.e. récepteur GPS, ordinateur portable, visiocasque)

(Feiner, et al. 1997) ....................................................................................................... 37

Figure 2.6 - a) Affichage d’une voiture virtuelle avec gestion des occlusions, b) sans

gestion des occlusions (image de la voiture: © Disney / Pixar) ................................... 37 Figure 2.7 - Modèle 2D de la réalité intégrant la position de l'utilisateur (point rouge) et des

points d'intérêts (carrés bleus et rouges) (Klopfer et Squire 2007)............................... 38 Figure 2.8 - Capture d'écran du jeu Human Pacman (Cheok, et al. 2003) .......................... 40

Figure 2.9 - Infrastructure souterraine virtuelle (Schall, et al. 2009) ................................... 41 Figure 2.10 - Capture d'éran de Layar avec articles de Wikipedia géolocalisés (image :

Danie van der Merwe, www.flickr.com) ...................................................................... 42

Figure 2.11 - L’application iButterfly a) papillon virtuel dans l’environnement b) utilisation

de celui-ci afin d’obtenir un rabais sur un produit ........................................................ 42 Figure 2.12 - Gestion de l’occlusion entre un élément réel (i.e. le bâtiment) et un élément

virtuel (i.e. le pot à thé) dans un environnement de réalité augmentée. ....................... 44 Figure 2.13 - Les différentes étapes intervenant dans l’utilisation d’un modèle 3D pour

gérer les occlusions dans l’application ARQuake (Thomas, et al. 2002) ...................... 45 Figure 2.14 - a) panorama couleur, b) panorama 3D, les régions foncées sont plus près de

l'utilisateur (Wither, et al. 2008) ................................................................................... 46 Figure 2.15 - Occlusion d'un objet virtuel (la Vénus de Milo) par un objet réel (Wither, et

al. 2008) ........................................................................................................................ 47

Figure 2.16 - Approche semi-interactive de modélisation pour la gestion des occlusions

(Traduction libre) (Lepetit et Berger 2000) .................................................................. 48 Figure 2.17 - Gestion des occlusions par un objet à géométrie complexe (Lepetit et Berger

2000) ............................................................................................................................. 48 Figure 2.18 - Extraction des edgels dans une image (Reitmayr et Drummond 2006) .......... 51

Figure 2.19 - a) Modèle 3D avec les points saillants et les arêtes, b) comparaison du modèle

3D avec l'image en cours, c) calcul de la pose de la caméra et augmentation de la

réalité (Kim, et al. 2007) ............................................................................................... 52 Figure 2.20 - Couverture de Google Street View en bleu (http://gmaps-

samples.googlecode.com/svn/trunk/streetview_landing/streetview-map.html) ........... 53 Figure 2.21 - Estimation de l'orientation d’un cliché par éléments semblables entre la vue

caméra et le panorama (Yazawa, et al. 2009) ............................................................... 53

Figure 2.22 - Interactions entre les joueurs du jeu Human Pacman (Cheok, et al. 2003) .... 55 Figure 2.23 - Un personnage virtuel 3D pose le défi d'identifier correctement un blason à

l'utilisateur (Herbst, Ghellah et Braun 2007) ................................................................ 56 Figure 2.24 - a) et b) Interaction entre le joueur et une fenêtre d'un bâtiment réel (Reitmayr

et Drummond 2006) ...................................................................................................... 57

Figure 2.25 - Joueur et virus du jeu Epidemic Menace (Lindt, Ohlenburg et Pankoke-

Babatz, et al. 2007) ....................................................................................................... 58 Figure 2.26 - Avion virtuel 3D et ombrage sur le bâtiment derrière (Lepetit et Berger 2000)

...................................................................................................................................... 59

Figure 2.27 - Un modèle 3D sous-jacent est utilisé afin d’appliquer différentes textures 2D.

(Hengel, et al. 2009) ..................................................................................................... 60

Figure 2.28 - Objet virtuel 3D juxtaposant un bâtiment réel (Thomas, et al. 2002) ............. 60 Figure 3.1 - Taxonomie : Modèles 3D et augmentation de la réalité ................................... 65 Figure 3.2 - Continuum 1 - techniques d'acquisition et de traitement .................................. 66

Figure 3.3 - Modélisation 3D du Merlion de Singapour par le logiciel PhotoModeler

(www.photomodeler.com/applications/architecture_and_preservation/examples.htm)

...................................................................................................................................... 73 Figure 3.4 - Arpentage en Égypte ancienne, scène du tombeau de Menna (Schultz 1983) . 74

Figure 3.5 - a) Sytème LiDAR statique sur trépied (photo : David Monniaux) b) Nuage de

points représentant une maison (www.formz.com/forum2/messages/16/31092.jpg) c)

Processus de modélisation 3D (détermination des arêtes des objets, lignes de couleurs)

(www.kubitusa.com) ..................................................................................................... 76 Figure 3.6 - a) Voiture équipée de caméras (EarthMine), b) Panorama et huit points de vue

différents (Google StreetView) ..................................................................................... 78 Figure 3.7 - a) nuage de pixels 3D, b) Modélisation 3D des surfaces (en blanc) formant les

bâtiments présents dans la scène (Earthmine, vidéo promotionnelle) .......................... 79 Figure 3.8 - Modélisation 3D par un maillage triangulaire (en bleu) (vidéo promotionnelle,

Groupe Trifide) ............................................................................................................. 79 Figure 3.9 - Système LiDAR embarqué sur un camion (LiDAR Titan d’Ambercore) ........ 80 Figure 3.10 - Système de relevé LiDAR Streetmapper (Haala, et al. 2008) (traduction libre

des termes) .................................................................................................................... 81 Figure 3.11 - GeoPortail, Modèles 3D de la ville de Paris ................................................... 84

Figure 3.12 - Continuum 2 – Spécifications des modèles 3D .............................................. 85 Figure 3.13 - Lien entre l'information sémantique à et la géométrie pour un modèle 3D de

bâtiment (Kolbe, Nagel et Stadler 2009) ...................................................................... 88 Figure 3.14 - Modèle 3D réalisé à partir de photographie terrestres (Reitmayr et Drummond

2006) ............................................................................................................................. 89

Figure 3.15 - La Faculté de Mathématique de TU Delft, a) Modélisation dans AutoCAD

2007 à partir des données d’arpentage, b) Modèle final texturé, vu dans Google

Sketchup (Pop 2008) ..................................................................................................... 90

Figure 3.16 - Information 3D dans un panorama, le curseur en bleu suit la géométrie du

panorama en a) sur le sol, b) sur le mur de face c) sur le mur de côté. (Bing Street-side)

...................................................................................................................................... 91 Figure 3.17 - Information sémantique dans Street View (noms des rues et des attraits) ...... 91 Figure 3.18 - a) Emplacements des prises de vue (points rouges) et b) modèle 3D résultant

(Grzeszczuk, et al. 2009) .............................................................................................. 92 Figure 3.19 - Reconstruction du Lindenmuseum de la ville de Stuttgart en Allemagne

(Haala, et al. 2008) ........................................................................................................ 93 Figure 3.20 - Continuum 3, Niveaux d'augmentation ........................................................... 96 Figure 3.21 - a) Utilisateurs d'une application de RAM de niveau 1, b) Écran de jeu

présentant la position de l'utilisateur (i.e. point rouge) et des points d'intérêts (i.e. les

carrés bleus et rouges) (Klopfer et Squire 2007) .......................................................... 97

Figure 3.22 - a) Pochette de l'Album Abbey Road originale, b) Application Layar recréant

la scène .......................................................................................................................... 99 Figure 3.23 - Continuums 2 et 3 (modèles 3D et niveaux d’augmentation) ....................... 103

Figure 3.24 - Zombie-robot virtuel situé derrière une fenêtre réelle semi-transparente ..... 106

Figure 3.25 - Application de visualisation de tuyaux souterrains (Schall, et al. 2009) ...... 107 Figure 3.26 - Vue en plan du terrain. En bleu, position réelle de l’utilisateur (A), de la

Maison Blanche (B), de la canalisation à poser (C) et de la borne fontaine (D). En

rouge, position calculée de l’utilisateur (E), du modèle 3D géoréférencé d’une manière

inexacte de la Maison Blanche (F) et de la canalisation à poser (G). ......................... 109

Figure 3.27 - Écran de visualisation, en réalité augmentée, de l’entrepreneur si a) Modèle

3D géoréférencé d’une manière inexacte de la Maison Blanche, la borne fontaine

apparaît à gauche b) Modèle 3D bien géoréférencé, la borne fontaine apparaît à droite

.................................................................................................................................... 110

Figure 3.28 - Précision du positionnement de la caméra, images du haut, exemple de génie

civil, a) Canalisation mal positionnée par rapport à l’utilisateur b) Canalisation bien

positionnée, images du bas, exemple de jeu de RAM c) élément virtuel mal positionné

qui semble flotter, d) élément virtuel bien positionné ................................................ 111 Figure 3.29 - Capture d'écran du jeu MadCity Mystery, analyse d'un poisson .................. 114

Figure 3.30 - Points d'intérêts dispersés sur la représentation cartographique du territoire

(Squire et Mingfong 2007). ........................................................................................ 115

Figure 3.31 - Layar et quelques couches d'information 2D proposées à l’utilisateur à des

fins de visualisation (www.layar.com) ....................................................................... 117 Figure 3.32 - a) et b) Market Hall de Rotterdam en construction, modèle 3D du bâtiment

terminé vu sous deux angles différents (www.layar.com) .......................................... 117 Figure 3.33 - a) Équipement de jeu, b) Marqueur sur un mur, c) Scène d'ARQuake (le

modèle 3D est visible par un quadrillage rouge et blanc) ........................................... 119 Figure 4.1 - Reality-Virtuality Continuum (Milgram, et al. 1994) ..................................... 127

Figure 4.2 - 3D coordinates calculation of a building’s top corner .................................... 132 Figure 4.3 - Citizen-based generic 3D modeling approach for smartphones ..................... 133 Figure 4.4 - a) User at location, b) Pinning down the building’s corners in the cartographic

view (A); select the position of the graphic 3D element (B); user’s position (C) ...... 135 Figure 4.5 - a) User at location, surveying a building’s corner, b) Surveying interface of the

photographic view ....................................................................................................... 135 Figure 4.6 - a) & b) Rendering of the 3D graphic element according to the user’s position

and orientation while correctly managing occlusions ................................................. 136

Figure 4.7 - Marker at ground level corresponding to the roof where the red cross is ....... 138 Figure 5.1 - Gestion des occlusions en temps réel dans l’application iModelAR .............. 150

Figure 5.2 – Modélisation factice selon une approche similaire à celle de Sketchup en temps

réel sur un appareil mobile .......................................................................................... 154 Figure 6.1 – Modèle 3D de type fil de fer (Wikipedia) ...................................................... 166 Figure 6.2 - Modèle 3D par frontières (B-Rep) (image par Hay Kranen) .......................... 166 Figure 6.3 - Modélisation 3D à partir d’une surface par une a) translation b) rotation (De la

Losa 2000) .................................................................................................................. 167 Figure 6.4 - Modélisation 3D par CSG (Wikipedia) .......................................................... 168 Figure 6.5 - a) Modélisation 3D par voxels (De la Losa 2000) et b) division de l’espace par

octree (Wikipedia) ...................................................................................................... 168 Figure 6.6 - Modélisation 3D par instanciation de primitives (De la Losa 2000) .............. 169

Figure 6.7 - a) tétraèdre (Wikipedia) b) solides géologiques 3D formés par assemblage de

tétraèdres (Desgagné 2010) ........................................................................................ 169

Seul l’inconnu épouvante les hommes. Mais pour quiconque l’affronte, il n’est déjà plus l’inconnu –

Antoine de Saint-Exupéry

1. Chapitre 1 – Introduction

1.1. Mise en contexte

1.1.1. Concept de réalité augmentée mobile

Google Trends nous révèle que le volume de recherche par les internautes du terme

augmented reality connaît un essor fulgurant depuis 2009. Cela reflète une tendance forte

du passage de cette technologie du domaine de la recherche vers le grand public. Le

concept de Réalité Augmentée (RA) est souvent expliqué à l’aide du continuum Réalité-

Virtualité de Milgram et al. (1994) (cf. Figure 1.1). À l’extrémité gauche de ce continuum

se trouve la réalité, c’est à dire l’environnement réel au sein duquel se situe une personne.

Celle-ci perçoit cet environnement directement ou par l’intermédiaire d’une caméra vidéo.

La virtualité correspond à un environnement de synthèse qui n’existe pas dans notre monde

réel. Elle se situe à l’extrémité droite du continuum. Il est nécessaire de disposer de

technologies de visualisation (ex. écran d’ordinateur, visiocasque) pour percevoir cette

virtualité. Entre ces deux extrémités, se trouve les environnements de réalité mixte, qui

impliquent à la fois des objets virtuels et réels. La réalité augmentée, qui se situe tout juste

à la droite de la réalité sur le continuum, est un environnement réel au sein duquel des

objets virtuels sont intégrés. Si l’environnement est virtuel et que des objets réels (ex. flux

vidéo d’une caméra filmant une scène en direct) y sont présents, le terme de virtualité

augmentée s’applique.

Figure 1.1 - Continuum réalité-virtualité (traduction libre), (Milgram, et al. 1994)

La réalité augmentée est qualifiée de mobile si l’utilisateur est son propre avatar1 et si sa

position dans l’application de RA reflète ses déplacements dans son environnement réel

(Broll, et al. 2008). Dans ce contexte, il est nécessaire de suivre et localiser en tout temps

l’utilisateur en fonction de sa mobilité. Le domaine de la réalité augmentée mobile

comporte ainsi plusieurs problématiques communes avec le domaine de la géomatique. Ces

problématiques géomatiques seront mises de en avant-plan au fur et à mesure de la revue de

l’existant concernant les applications de Réalité Augmentée Mobile (RAM) (cf. Sections

1.1.2 et suivantes).

Depuis peu, les applications de RAM connaissent un essor sans précédent. Des revenus de

l’ordre de plus de 730 millions USD sont prévus pour 2014 pour cette industrie (Holden

2009). Cette effervescence coïncide avec l’arrivée de la nouvelle génération de téléphones

intelligents dont fait partie l’iPhone d’Apple par exemple. Ces appareils sont puissants,

ergonomiques et intègrent plusieurs composantes utiles à la mise en œuvre d’applications

de RAM (le chapitre 2 apportera plus de détails sur la mise en œuvre d’une application de

réalité augmentée). En effet, ils possèdent généralement un récepteur GPS (Global

Positioning System) pour la localisation de l’utilisateur, des accéléromètres et une boussole

numérique pour l’orientation de l’appareil dans l’espace ainsi qu’une caméra numérique.

En ayant en tout temps la connaissance de la position et de l’orientation de la caméra de

l’utilisateur (i.e. les paramètres extrinsèques de la caméra), l’intégration d’objets virtuels

dans la réalité de l’utilisateur vue au travers du flux vidéo devient alors possible. Avant la

miniaturisation de ces équipements et la convergence entre ordinateurs de poche et

téléphones intelligents, l’essor de la RAM a été plus lent compte tenu des appareils

dispendieux et peu ergonomiques utilisés alors (cf. Figure 1.2) limitant le nombre de

travaux de recherche menés dans ce domaine et par le fait même l’intérêt de l’industrie et

du grand public pour cette technologie.

Les applications de RAM peuvent être dédiées aussi bien à des environnements intérieurs

(ex. visite touristique d’un musée) qu’à des environnements extérieurs (ex. visite

touristique d’une ville). Cependant, les équipements utilisés et les problématiques relatives

1 L'avatar, ce personnage virtuel incarné par le joueur, est ainsi la projection numérique d'une personne dans

un monde parallèle artificiel. L’étymologie du mot avatar origine du sanskrit avatara désignant chacune des

incarnations successives du dieu Visnu. (Office québécois de la langue française, Le grand dictionnaire

terminologique)

à leur mise en œuvre diffèrent généralement. Dans le cadre du présent projet de recherche

ainsi que dans la suite du document, nous nous intéresserons uniquement au contexte

spécifique de la RAM dans des environnements extérieurs.

Figure 1.2 – Un exemple des premières solutions de RAM élaborées impliquant une

configuration d’équipements peu ergonomique : portable et GPS sur le dos de l’utilisateur,

casque et centrale inertielle sur sa tête, casque vidéo pour la visualisation de l’augmentation

(Thomas, et al. 2002)

1.1.2. Réalité fortement augmentée

La multitude d’applications de RAM récemment disponibles possèdent un niveau

d’augmentation de la réalité qui est variable. Certaines sont dites « faiblement

augmentées » et consistent généralement à afficher sur l’écran de la plateforme mobile (ex.

téléphone intelligent, PDA2) des éléments multimédias associés à des points d’intérêts

localisés à la surface de la Terre (ex. Klopfer et Squire (2007) et Squire et Mingfong

(2007)). Les éléments multimédias sont affichés en fonction de la proximité spatiale de

l’utilisateur vis-à-vis des points d’intérêts recensés. Un point d’intérêt est un élément réel

significatif à la surface terrestre (ex. sommet d’une montagne, commerce). Ces points

d’intérêt peuvent être augmentés, i.e. enrichis, par différents types de données multimédias

(ex. image, vidéo, texte, modèle 3D) qui sont géoréférencées3 par rapport aux coordonnées

2 Personal Digital Assistant

3Un élément géoréférencé indique que des coordonnées dans un référentiel global, soit 2D (ex.

latitude/longitude) ou 3D (ex. latitude/longitude/altitude), y sont rattachées.

géographiques du point d’intérêt auquel elles sont associées. Les applications dites

« fortement augmentées » offrent un rendu visuel plus réaliste que celui des applications

faiblement augmentées impliquant notamment une gestion cohérente des objets virtuels

dans le monde réel (i.e. prise en compte des occlusions) et la possibilité de faire interagir

éléments réels et virtuels. Tous ces aspects contribuent à rendre l’expérience plus

immersive pour l’utilisateur. Le renforcement de l’immersivité et du réalisme des

applications de RA vise à accroitre le sentiment de présence de l’utilisateur au sein de ce

monde augmenté d’éléments virtuels (Milgram, et al. 1994). Que ce soit à des fins ludiques,

professionnelles ou d’apprentissage, le sentiment de présence contribue à soutenir l’intérêt,

l’implication et l’attention de l’utilisateur.

La mise en œuvre de telles applications fortement augmentées nécessite généralement de

disposer d’un modèle 3D de l’environnement réel (ex. Ohlenburg et al. (2007) et Reitmayr

et Drummond (2006)). Ce modèle 3D de l’environnement peut alors jouer trois rôles

distincts dans une application de RAM : le premier rôle vise à gérer les occlusions entre

objets réels et virtuels; le deuxième rôle est d’aider à l’amélioration du calcul de la position

et de l’orientation de l’utilisateur dans l’environnement réel afin d’intégrer précisément et

de manière réaliste les objets virtuels dans le point de vue courant de l’utilisateur; le

troisième rôle vise à supporter l’augmentation de l’environnement réel ainsi que les

interactions entre éléments réels et virtuels présents. Le besoin de disposer ou d’accéder à

des modèles 3D de l’environnement rejoint ici une question d’importance largement

étudiée au sein du domaine de la géomatique, guidant plusieurs travaux de recherche et

comités scientifiques relatifs à l’acquisition, aux modèles de représentation, aux normes

d’échange de ces modèles pour n’en citer que quelques-uns (ex. FIG-cadastre3d

(www.juritecture.net/3d.html), 3dok (www.3dok.org), CityGML

(www.opengeospatial.org/standards/citygml), IFC (Industry Foundation Classes)

(www.buildingsmart.com/bim)).

1.1.3. Réalité augmentée n’importe où, n’importe quand

La plupart des applications de réalité augmentée mobile proposées actuellement s’appuient

sur des bases de données de points d’intérêt géolocalisés et sur la position et l’orientation

du champ de vue de l’utilisateur fournies par, respectivement, le récepteur GPS et la

boussole numérique de l’appareil mobile. Ces applications, telles que Layar

(www.layar.com) ou Wikitude (www.wikitude.org), font partie de la catégorie des

applications dites faiblement augmentées. En effet, les occlusions entre le réel et le virtuel

ne sont pas gérées dans ces deux applications phares du marché de la RAM. De plus,

l’utilisateur n’a pas le sens de la profondeur des objets virtuels par rapport aux objets réels

(i.e. quels objets sont au premier plan et quels objets sont en arrière plan dans son champ de

vue?). Le volume associé à un objet graphique 3D présenté à l’utilisateur est peu tangible

pour celui-ci (i.e. inscrustation d’un objet 3D dans une vue 2D) et les aspects liés à son

échelle de représentation par rapport aux autres éléments figurant dans la réalité ne sont pas

toujours bien gérés. En termes d’interactions, celles-ci sont limitées, l’application visant

essentiellement la visualisation d’informations. Seules les composantes physiques du

téléphone intelligent sont utilisées pour calculer les paramètres extrinsèques du champ de

vue de la caméra (i.e. position et orientation; le terme de pose est souvent utilisé pour

dénommer cette position et orientation). Compte tenu des capacités de ces composantes, le

calcul de pose est plus ou moins précis (ex. environ 8 mètres en moyenne pour le récepteur

GPS de l’iPhone 3G (Zandbergen 2009)) ce qui induit une augmentation limitée de la

réalité mais suffisante pour les objectifs visés par ces applications. Malgré la faible

augmentation de la réalité, de telles applications présentent un véritable intérêt et

engouement auprès du grand public notamment car elles peuvent être mises en œuvre

n’importe où (ex. l’application de RAM Layar est utilisée par 1,6 millions de personnes

(http://site.layar.com)). Elles rejoignent ainsi le concept d’Anywhere Augmentation

introduit par Höllerer et al. (2007). Le principe derrière ce concept est d’être en mesure

d’augmenter la réalité, ceci n’importe où et n’importe quand et ce, avec une période

d’initialisation de quelques secondes à quelques minutes au plus (DiVerdi, et al. s.d.). Dans

cet esprit, l’augmentation de la réalité ne doit pas être restreinte aux environnements qui ont

été préparés à l’avance (ce concept sera décrit plus en détail dans le chapitre 2) pour

supporter de telles augmentations mais elle doit être accessible quelle que soit la

localisation de l’utilisateur. Une idée sous-jacente au concept d’Anywhere Augmentation

concerne la création du contenu nécessaire à la mise en œuvre de l’application de RAM par

les utilisateurs mêmes. Les applications Layar et Wikitude sont ainsi conformes à ce

principe étant donné qu’elles permettent à une masse d’utilisateurs de créer des points

d’intérêts à la volée dans leur environnement, donc de le préparer, puis de les partager

ensuite via une plate-forme commune associée à l’application.

Le concept d’Anywhere Augmentation rejoint ainsi la philosophie du Web 2.0 et la très

forte tendance actuelle des réseaux sociaux où le grand public est à la fois utilisateur et

créateur du contenu de ces applications (ex. Yelp, Twitter, Facebook). Le concept

d’Anywhere Augmentation rejoint également les tendances actuelles du domaine de la

géomatique orientées vers le GéoWeb, où l’information (ex. les messages de Twitter) tend à

être géolocalisée, et vers l’information géographique volontaire (VGI, Volunteered

Geographic Information), où les utilisateurs cartographient eux-même leur environnement.

Open Street Map (www.openstreetmap.org) est l’application phare de cette tendance.

L’importance accordée au contenu généré par l’utilisateur dans toutes les applications

populaires citées précédemment révèle que la percée de la RAM auprès du grand public et

des professionnels passera certainement par le concept du Anywhere Augmentation.

1.2. Problématique

Le succès auprès du grand public des applications dans la lignée du concept d’Anywhere

Augmentation, dont Layar et Wikitude, est dû en partie au fait que la réalité peut être

augmentée n’importe où, n’importe quand et par n’importe qui. Cependant, tel que

mentionné, le niveau d’augmentation de la réalité dans ces applications reste assez faible.

Par exemple, les occlusions entre les objets réels et virtuels ne sont pas gérées ce qui nuit

au réalisme de l’augmentation de la réalité (ex. une voiture virtuelle située derrière un arbre

ne devrait apparaître que partiellement dans le champ de vision d’un utilisateur afin d’avoir

un rendu conforme à ce que l’utilisateur verrait vraiment dans la réalité). Tel qu’expliqué

dans la mise en contexte, pour rendre une application de RAM plus immersive et

interactive auprès des utilisateurs, un modèle 3D de la zone à augmenter est requis. Dans

certains cas de figure, les modèles 3D de la zone géographique à augmenter ont déjà été

élaborés et sont facilement accessibles. Le jeu Time Warp (Broll, et al. 2008) par exemple

utilise un modèle 3D existant de la ville de Cologne comme support aux augmentations

proposées dans le scénario du jeu. Cependant, ce ne sont pas toutes les zones urbaines qui

sont modélisées en 3D et qui sont facilement libres d’accès. Pour donner une idée de la

couverture, Google 3D Warehouse (infrastructure de données 3D pour Google Earth)

contient 179 modèles 3D pour Montréal, 77 pour Québec et seulement dix pour Trois-

Rivières. Il faut noter qu’un modèle 3D dans Google 3D Warehouse ne contient souvent

qu’un seul bâtiment. Faute de modèles 3D disponibles existants ou accessibles, il est

envisageable d’effectuer des relevés préalables des éléments réels du paysage urbain avec

des techniques couramment utilisées dans le domaine de la géomatique, du génie civil, de

l’aménagement du territoire (ex. techniques d’arpentage, levés photogrammétriques, levés

LiDAR aéroporté, …), puis d’effectuer une modélisation 3D à partir de ces mesures.

Cependant, ce processus est généralement coûteux en termes de temps, d’investissement et

demande une certaine expertise afin de pouvoir utiliser les équipements et logiciels

spécialisés de modélisation 3D. De surcroit, ce processus doit être effectué au préalable afin

de pouvoir utiliser l’application de RAM sur le terrain. Toutes ces contraintes au niveau des

solutions actuelles de modélisation 3D limitent la percée des applications de réalité

fortement augmentée mobile auprès du grand public. Faute de solutions de modélisation 3D

adéquates et de disponibilité ou d’accessibilité aux modèles 3D existants, nous constatons

donc qu’actuellement les applications de réalité fortement augmentée mobile ne peuvent

pas être déployées n’importe où, n’importe quand et par n’importe qui.

Ce défaut de solutions de modélisation 3D et d’accès à des modèles 3D existants constitue

la problématique abordée dans le cadre du présent travail de recherche. Son origine peut

ainsi être résumée par les quatre points suivants :

1. Besoin de modèles 3D afin de pouvoir augmenter l’environnement de manière

immersive et interactive;

2. Disponibilité et accessibilité aux modèles 3D existants limitée pour déployer des

applications de réalité fortement augmentée n’importe où et sans contraintes;

3. Coût et temps d’acquisition élevés des approches classiques de levés de données

géospatiales (i.e. arpentage, géomatique) en vue d’effectuer une modélisation 3D

d’un environnement;

4. Complexité des processus de construction des modèles 3D à partir de données

provenant d’approches classiques de levés de données géospatiales;

Parmi les solutions envisageables pour répondre à une telle problématique, l’une d’elle

consiste à offrir aux utilisateurs les moyens nécessaires pour saisir eux-mêmes le modèle

3D de l’endroit où ils désirent augmenter la réalité sur la base des éléments présents dans

l’environnement et de données externes facilement accessibles. Une telle approche répond

aux points 1 et 2 mentionnés plus haut. Dans ce contexte, il est essentiel que la solution, ou

chaine de traitements, pour la production de modèle 3D qui est offerte aux utilisateurs

propose de faibles coûts, qu’elle soit rapide, peu complexe à mettre en œuvre,

ergonomique, accessible et qu’elle n’exige pas de connaissances spécifiques afin de

répondre aux points 3 et 4. Il faut également que le modèle 3D une fois construit puisse être

apte à supporter une forte augmentation de la réalité n’importe où, n’importe quand dans

l’esprit de l’Anywhere Augmentation.

Ainsi, sur la base de la mise en contexte et de la problématique énoncées précédemment et

des éléments décrits ci-dessus, la question à laquelle la recherche proposée tentera de

répondre est la suivante :

« Comment est-il possible de créer une chaîne de traitement produisant des modèles 3D

d’éléments de l’environnement n’importe où, n’importe quand et par n’importe qui afin de

pouvoir mettre en œuvre des applications de réalité fortement augmentée mobile

s’inscrivant dans le concept d’Anywhere Augmentation? »

1.3. Objectifs

1.3.1. Objectif principal

À partir de cette question de recherche, l’objectif principal de ce projet de maîtrise est donc

de proposer et d’évaluer une chaîne de traitement adéquate pour la production rapide de

modèles 3D en vue de mettre en œuvre des applications de réalité augmentée mobile

s’inscrivant dans la lignée du concept d’Anywhere Augmentation. Les applications visées

sont celles qui possèdent la capacité de mettre à profit ces modèles 3D et ainsi augmenter

fortement la réalité. L’objectif principal vise notamment à formaliser les étapes de la chaîne

de production des modèles 3D, c’est-à-dire l’acquisition des données géospatiales, le

traitement de celles-ci en vue de la création d’un modèle 3D puis son exploitation au sein

d’une application de RAM (i.e. utilisation du modèle 3D selon l’un des trois rôles énoncés

au paragraphe 1.1.2). Afin d’atteindre l’objectif principal de ce projet de recherche, celui-ci

a été divisé en trois sous-objectifs.

1.3.2. Premier sous-objectif

La réalisation de l’objectif principal nécessite en premier lieu de recenser les différentes

chaînes de traitement permettant de produire les modèles 3D exploités dans les applications

de RAM. Une revue de littérature préliminaire (Thomas, Daniel et Pouliot 2008) a permis

de mettre en évidence que les caractéristiques que doivent posséder les modèles 3D afin

d’augmenter la réalité ne sont pas explicitement décrits ou même mentionnés. Souvent, les

articles scientifiques dans le domaine de la réalité augmentée laissent de côté la chaîne de

traitement des modèles 3D au profit de l’application même. Des recherches plus

approfondies pour inventorier et catégoriser les approches de production et d’exploitation

des modèles 3D dans certaines applications pertinentes de RAM sont donc nécessaires.

Ceci constitue le premier sous-objectif de ce travail de recherche qui vise à l’acquisition de

connaissances sur le sujet en réalisant l’inventaire, la catégorisation et la comparaison des

chaînes de traitement existantes pour la production de modèles 3D destinées à des

applications de RAM.

1.3.3. Deuxième sous-objectif

Afin de déterminer une chaîne de traitement adaptée au contexte de l’Anywhere

Augmentation pour la production des modèles 3D requis pour des applications de RAM

fortement augmentée, il est nécessaire de spécifier les critères de qualité, d’utilité et de

performance auxquels la solution proposée doit répondre. Afin de pouvoir préciser ces

critères, il est nécessaire d’avoir une bonne compréhension du lien existant entre les

modèles 3D et les applications de RAM, notamment quelles caractéristiques doivent

présenter les modèles 3D afin d’obtenir le niveau d’augmentation ciblé de la réalité.

Comme indiqué plus haut, la littérature scientifique offre peu d’éléments d’information à ce

sujet. Le deuxième sous-objectif de cette recherche est donc le suivant : déterminer les

critères auxquels doit répondre une chaîne de traitement adaptée pour produire des modèles

3D qui permettront d’augmenter fortement la réalité selon une approche conforme au

principe d’Anywhere Augmentation.

1.3.4. Troisième sous-objectif

Le troisième sous-objectif vise à démontrer la faisabilité d’élaborer une chaîne de

traitement de modèles 3D adaptée à la mise en œuvre d’applications de RAM fortement

augmentée. Cette démonstration s’appuiera sur l’inventaire des chaînes de traitement

existantes et sur les critères auxquels doit répondre une chaîne de production de modèles

3D adaptée à la RAM (cf. sous-objectifs 1 et 2). En démontrant la faisabilité de la mise en

œuvre d’une chaîne de traitement adéquate pour l’acquisition, la production et l’intégration

des modèles 3D pour une application de RAM fortement augmentée, une réponse sera alors

apportée à notre question de recherche.

1.4. Méthodologie

La méthodologie suivie dans le cadre de ce projet de maitrise est de type recherche de

développement appliquée. Une première phase d’observation de l’existant forme une base

de connaissances sur laquelle une solution concrète à une problématique cernée est

développée. Ce développement d’une solution constitue la deuxième phase de la

méthodologie. La première phase de la méthodologie adoptée vise à remplir les sous-

objectifs 1 et 2, alors que la deuxième phase cherche à atteindre le sous-objectif 3. Les

grandes étapes de la méthodologie mise en œuvre pour atteindre les sous-objectifs décrits

précédemment et par le fait même l’objectif principal de ce projet de maîtrise sont les

suivantes (cf. Figure 1.3) :

La première étape a concerné la collecte d’information afin de rassembler les

connaissances nécessaires pour entamer le projet. Une revue de la littérature

recensant les applications de RAM a été réalisée à cet effet. Les technologies

évoluant excessivement rapidement dans ce domaine, une veille technologique a

également été effectuée tout au long du projet. Aussi, la rencontre avec certains

partenaires des milieux académique et industriel a permis de prendre du recul sur ce

projet et d’acquérir de nouvelles connaissances. Des réunions, notamment avec la

compagnie Ubisoft et une visite au 4eyes Lab à l’Université de Californie à Santa

Barbara, ont eu lieu. Celles-ci ont respectivement permis de valider l’intérêt de

l’industrie des jeux vidéo pour la RAM et de stimuler la réflexion sur une

taxonomie qui sera présentée au chapitre 3.

La deuxième étape a consisté à rassembler, à synthétiser et à catégoriser

l’information collectée puis à comparer les différentes chaînes de traitement

existantes. Plusieurs tableaux synthèses ont été élaborés pour comparer les

spécifications des chaînes de traitement existantes afin d’identifier les rôles et les

caractéristiques des modèles 3D utilisés dans les différentes applications de RAM.

Cette deuxième étape a également contribué à la réalisation du premier sous-

objectif et à sa complétion.

La troisième étape a consisté à déterminer les critères adéquats auxquels la chaîne

de traitement proposée doit répondre vis-à-vis de l’augmentation de la réalité

envisagée. Elle a donc contribué en ce sens à la réalisation du deuxième sous-

objectif. Une taxonomie a été élaborée à cet effet afin de catégoriser les différents

niveaux d’augmentation de la réalité et de les lier aux types de modèles 3D requis

pour mettre en œuvre une telle augmentation. Cette taxonomie propose également

une mise en relation des modèles 3D avec les différentes techniques d’acquisition

de données géospatiales permettant de les élaborer. Les critères auxquels la chaîne

de traitement visée doit répondre ont été déterminés en s’appuyant sur la revue de

la littérature effectuée, et sur les tableaux de synthèse et la taxonomie qui en ont

découlé.

Les autres étapes, qui font partie de la phase de développement de la méthodologie,

ont contribué à la réalisation du troisième sous-objectif. Elles concernent

spécifiquement le travail de modélisation et d’implantation de la chaîne de

traitement que nous avons conçue relativement aux critères retenus. Afin de

modéliser l’architecture logicielle de celle-ci, un diagramme d’activité de type

Unified Modeling Language (UML) de cette chaîne de traitement a été conçu (cf.

Figure 4.3). Il montre explicitement les différentes étapes de celle-ci. Un premier

prototype simulant la chaîne de traitement a d’abord été réalisé à partir d’un

logiciel de présentation afin de bien planifier l’implantation de celle-ci. Par la suite,

une application fonctionnelle sur iPhone3G nommée iModelAR a été effectivement

codée. La revue de la littérature ayant mis en évidence l’absence d’application

similaire à la chaîne de traitement proposée, le risque de se retrouver dans une

impasse était élevé au moment de démarrer la conception et le développement

d’iModelAR et donc des changements de stratégie en cours de réalisation étaient

envisageables. Par conséquent, la méthodologie d’ingénierie de type agile a été

adoptée pour palier ces difficultés. Plus spécifiquement, la méthodologie agile

nommée Feature-Driven Development (Hunt 2006) a été utilisée afin d’élaborer les

tâches de développement de notre architecture logicielle. Une méthodologie agile a

comme valeurs notamment la livraison régulière de logiciels fonctionnels plutôt

qu’une seule remise finale ainsi qu’une adaptation rapide aux changements (Hunt

2006). Une approche de ce type s’applique bien ici puisque la chaîne de traitement

proposée est novatrice, elle s’appuie sur des technologies nouvelles ce qui engendre

un haut risque de changement dans la direction de stratégie de développement.

Donc, après avoir modélisé l’architecture logicielle, les différentes composantes et

fonctionnalités de la chaîne de traitement ont alors été priorisées selon leur

importance. Par la suite, plusieurs itérations différentes de notre architecture

logicielle ont été planifiées pour le développement du prototype. Pour chacune de

ces itérations, une nouvelle composante a été révisée, analysée, conçue puis

implantée dans l’application. Plusieurs séries de tests ont été effectuées au cours

des itérations de la phase de développement, ceux-ci ayant pour principal objectif

de vérifier la qualité de la solution proposée relativement aux critères spécifiés à la

troisième étape de la méthodologie. Dans le cas de la présente étude, la qualité fait

référence au temps requis pour la production des modèles 3D et à l’erreur de

positionnement spatial entre les modèles 3D produits par iModelAR et leur

emplacement réel relevé à l’aide d’une station totale. Après chaque itération de

l’implantation de la chaîne de traitement, la planification des itérations futures a été

ajustée. La chaîne de traitement a été ensuite améliorée jusqu’à ce qu’un résultat

satisfaisant vis-à-vis des objectifs visés par ce projet de maîtrise et du temps

imparti pour sa réalisation soit atteint.

Figure 1.3 - Diagramme de la méthodologie utilisée afin de concevoir et évaluer une chaîne

de traitement adéquate pour la production rapide de modèles 3D en vue de mettre en œuvre

des applications de réalité fortement augmentée mobile.

1.5. Cadre expérimental

Ce projet de maîtrise s’inscrit dans le cadre du projet de recherche GéoÉduc3D : La

géomatique au service des jeux vidéo et de l'apprentissage (PIV-24)

(www.geoide.ulaval.ca/projects-detail.aspx?i=110 et http://geoeduc3d.scg.ulaval.ca) et est

subventionné par le Réseau GEOIDE (www.geoide.ulaval.ca) qui est financé par le

Gouvernement du Canada par le biais du programme des Réseaux de Centres d'Excellence.

GéoÉduc3D a pour finalité de proposer des jeux interactifs éducatifs s'appuyant sur les

technologies géospatiales. Le présent projet de maîtrise vise donc à proposer une solution

de modélisation 3D simple et rapide qui pourrait, à terme, être utile pour un jeu éducatif

ayant une composante de RAM.

1.6. Organisation du mémoire

Ce mémoire est divisé en cinq chapitres dont un sous forme d’article. Le Chapitre 1 a

introduit le contexte de la recherche proposée ainsi que la problématique à résoudre. Les

objectifs de recherche et la méthodologie visant à soumettre une solution à cette

problématique y ont été présentés. Le Chapitre 2 présente une revue des concepts relatifs au

présent projet ainsi que les articles pertinents s’y rattachant. Le troisième chapitre présente

la taxonomie élaborée, les méthodes actuelles de modélisation 3D ainsi que les critères

caractéristiques que possèdent les modèles 3D en lien avec le niveau d’augmentation des

applications de RAM. Les critères spécifiques auxquels à notre solution doit répondre y

sont également présentés. Le Chapitre 4, qui est structuré sous la forme d’un article, décrit

en détail la solution de modélisation 3D proposée. Cet article a été accepté à la 5e

conférence internationale 3DGeoInfo qui se tiendra à Berlin en novembre 2010. Le

cinquième et dernier chapitre conclut le mémoire et présente un retour sur les objectifs, les

contributions de ce projet notamment au domaine des sciences géomatiques et les

différentes perspectives de recherches futures.

La route, c’est la vie – Jack Kerouac

2. Chapitre 2 – Revue de littérature

Le Chapitre 2 vise à mettre en lumière les différentes applications de réalité augmentée

mobile (RAM) existantes puis les rôles que peuvent jouer les modèles 3D dans celles-ci afin

de rendre l’augmentation plus réaliste et immersive pour l’utilisateur. Les thématiques de

gestion des occlusions, d’aide au repositionnement de la caméra et de support à

l’augmentation et aux interactions seront abordées. Pour chacune de ces thématiques, les

types de solutions possibles seront illustrés par différents exemples.

2.1. Introduction

La présente revue de littérature débutera par une description des mécanismes de mise en

œuvre d’une application de RAM. Des compléments d’information portant sur la

préparation des environnements à des fins de déploiement d’applications de réalité

augmentée mobile seront également fournis. Par la suite, un tour d’horizon des applications

de RAM sera effectué afin de dresser un panorama des différents travaux de recherche et

solutions existantes dans ce domaine. Cette partie sera divisée selon différentes thématiques

d’application ciblées par les solutions de RAM. La section suivante décrira en détail les

trois rôles que peuvent jouer un modèle 3D de l’environnement au sein d’une application

de RAM. Dans cette partie, les publications scientifiques les plus pertinentes seront citées

afin de venir appuyer et illustrer ces différents rôles.

2.2. Principes de la RAM

Le but ultime et idéal d’une application de RAM est qu’un utilisateur de RAM puisse

visualiser des éléments virtuels parfaitement intégrés à sa réalité et ce, en temps réel. Dans

ce contexte, il est donc indispensable que le monde virtuel s’aligne pleinement avec le

monde réel. Cela implique notamment de connaître la position et l’orientation de l’appareil

de visualisation de l’utilisateur en tout temps afin de superposer en temps réel à l’écran les

éléments virtuels au flux vidéo provenant de la caméra (capturant ainsi la réalité perçue par

l’utilisateur). D’une manière imagée, l’appareil de visualisation peut être associé au

paradigme d’une fenêtre magique faisant apparaitre des éléments virtuels au monde réel

(Bier, et al. 1993).

Donc, comment est-il possible d’intégrer des objets virtuels dans le monde réel? En premier

lieu, l’objet virtuel est souvent modélisé par un logiciel de type CAO (Conception Assistée

par Ordinateur) tels que Blender ou 3DStudioMax par exemple. Cet objet virtuel est stocké

dans une base de données ou un fichier, généralement avec des coordonnées locales. Trois

méthodes existent afin de transposer cet élément virtuel dans le même référentiel que le

champ de vue de la caméra de l’utilisateur : 1- Affecter des coordonnées globales à l’objet

virtuel 2- Positionner l’objet virtuel par rapport à des caractéristiques naturelles de

l’environnement et 3- Placer l’objet selon un marqueur présent dans l’environnement.

Coordonnées globales. En connaissant la position et l’orientation (i.e. les paramètres

extrinsèques) de la caméra, il est possible de d’ajouter un objet virtuel dans le flux vidéo

affiché sur l’appareil de visualisation à condition qu’il se trouve dans le même référentiel.

Les paramètres extrinsèques de la caméra peuvent être obtenus à partir de composantes

physiques (ex. accéléromètres, récepteur GPS, centrale inertielle, boussole numérique,

gyroscope) ou à l’aide d’algorithmes de vision numérique si une représentation de

l’environnement sous la forme soit d’un modèle 3D, d’un panorama ou d’une base de

données d’images est disponible. Afin de placer l’objet virtuel dans le même référentiel que

la caméra de l’utilisateur, des transformations affines lui sont appliquées. Celles-ci

consistent en à une translation (t) dans le cas le plus simple, mais des rotations (Rx, Ry, Rz)

autour des trois axes du référentiel sont généralement impliquées ainsi qu’un facteur

d’échelle (S) afin d’ajuster la taille de l’objet au contexte et au champ de vue de

l’utilisateur. Les équations suivantes résument ces transformations permettant de calculer

les coordonnées globales (x’, y’, z’) d’un point admettant (x, y, z) comme coordonnées

locales.

Selon l’application de RAM, une possibilité est que l’emplacement des objets virtuels soit

déterminé arbitrairement par l’utilisateur lors de la mise en œuvre ou en amont, c’est-à-dire

lors de la conception logicielle par le développeur. Cet emplacement peut également être

décidé en fonction de la position de l’utilisateur ou d’autres variables relativement au

scénario de l’application. De plus, il est possible que l’objet virtuel se déplace dans

l’environnement.

Caractéristiques naturelles de l’environnement. En déplaçant une caméra, il est possible

d’apprendre, c’est-à-dire de cartographier en 3D l’environnement immédiat par vision

numérique avant d’augmenter la réalité (ex. algorithme de SLAM4) (cf. Figure 2.1a).

Certains points saillants dans l’image seront extraits et suivis. Les coordonnées 3D

calculées de ces points permettent de repositionner le champ de vue de l’utilisateur dans un

référentiel local. Cette technique ne nécessite pas de préparation préalable de

l’environnement avant sa mise en œuvre. Dans l’exemple présenté à la Figure 2.1b,

4 SLAM (Simultaneous localization and mapping) est la problématique de déterminer la position dans

l’espace d’une entité (ex. caméra) en plus de cartographier la structure de l’environnement dans lequel évolue

cette entité. (www.cs.bris.ac.uk/Research/Vision/slam.jsp)

l’utilisateur fait apparaître un personnage virtuel se déplaçant conformément à son

environnement, c'est-à-dire selon le plan formé par le bureau, simplement en cliquant dans

l’image.

Figure 2.1 - a) Utilisation d’une approche de vision numérique afin de cartographier

l’environnement et b) augmentation de l’environnement sur la base des points saillants 3D

obtenus lors de l’étape de cartographie (Williams et al. 2007)

Marqueurs. En ajoutant à l’environnement un marqueur qui est connu à l’avance par

l’application (cf. Figure 2.2a), il est possible d’extraire la position et l’orientation de la

caméra relativement à celui-ci. Un objet virtuel peut alors être inséré dans ce référentiel

local puis projeté à l’écran de visualisation conformément au champ de vue de l’utilisateur

(cf. Figure 2.2b). Le marqueur doit cependant être présent en tout temps dans le champ de

vue de la caméra. Une librairie populaire librement disponible se nomme ARToolKit et

permet de développer ses propres applications de RA basées sur des marqueurs

(www.hitl.washington.edu/artoolkit/).

Figure 2.2 - Ajout d'un marqueur dans l'environnement, b) augmentation de la réalité

(http://sndrv.nl/ARflashmob/)

Une fois l’objet virtuel dans le même référentiel que le champ de vue de la caméra de

l’utilisateur (en utilisant l’une des trois méthodes décrites précédemment), celui-ci peut être

projeté à l’écran de l’appareil mobile en prenant en compte la position et l’orientation de la

caméra (i.e. le point de vue de l’utilisateur). Afin d’offrir au lecteur une compréhension

accrue des principes inhérents à cette projection, des explications d’ordre plus technique

sont présentées ici. La Figure 2.3 propose le schéma de projection de l’objet dans le plan

image de la caméra (i.e. chaque image du flux vidéo dans une application de RAM). Ce

schéma repose sur le modèle sténopé généralement utilisé pour représenter la géométrie de

formation des images au sein d’une caméra optique. Les explications suivantes sont tirées

de Sonka et al. (2008).

Figure 2.3 - Schéma de la projection d’un objet virtuel dans le plan image d’une caméra

La modélisation mathématique établie à partir du schéma de la Figure 2.3 vise à déterminer

les coordonnées images d’un objet virtuel dont les coordonnées globales dans la scène

visualisée sont connues. Dans cet exemple, l’objet virtuel est représenté par la théière jaune.

Trois systèmes de coordonnées sont impliqués dans cette modélisation :

1. Le système de coordonnées global : celui-ci admet O pour origine. Un point

quelconque de la théière, X, est exprimé dans ce système et sera utilisé comme

exemple dans les équations de changement de référentiel. Le système de

coordonnées global peut être associé à une projection cartographique par exemple

(ex. projection UTM (Universal Transverse Mercator)).

2. Le système de coordonnées de la caméra : il possède son origine au point focal

Oc. L’axe optique Zc est perpendiculaire au plan image π. Une relation unique existe

entre le système de coordonnés global et le système de coordonnées de la caméra.

Celle-ci consiste en la combinaison d’une translation t et d’une rotation R (selon les

trois axes des systèmes de référence).

3. Le système de coordonnées de l’image : il admet le coin supérieur gauche de

l’image comme origine. Ses axes sont colinéaires avec le système de coordonnées

de la caméra. Les axes u et v forment le plan image.

La procédure de projection dans le plan image de la caméra d’un point appartenant à l’objet

virtuel peut être scindée en deux transformations distinctes.

1. La première transformation permet de passer du système de coordonnées global vers

le système de coordonnées de la caméra. L’équation ci-dessous applique la

combinaison d’une rotation et d’une translation aux coordonnées du système global

afin d’aligner les deux systèmes et ainsi obtenir les coordonnées de l’objet X dans

le système de la caméra. Les paramètres caractéristiques de la rotation R et de la

translation t correspondent aux paramètres extrinsèques de la caméra.

2. La deuxième transformation permet de projeter le point de l’objet ( ) dans le plan

image. Cette transformation est exprimée par les équations suivantes :

Où f est la distance focale de la caméra, c’est-à-dire la distance entre le point focal (i.e.

l’endroit où convergent les rayons optiques) et le point principal (i.e. l’intersection de l’axe

optique et du plan image). En appliquant la première composante des équations de

projection les coordonnées images (en valeurs métriques) sont trouvées,

mais l’origine de ce système de coordonnées est située au point principal. Puisque le point

principal ne coïncide pas avec l’origine du système de coordonnées de l’image, les

coordonnées ( ) du point principal doivent être ajoutées au résultat du calcul de la

projection . Les coordonnées du point principal et la distance focale

représentent les paramètres intrinsèques de la caméra. La position du point sur le plan

image (u, v) peut par la suite être transformée en indice de pixels si nous en connaissons la

taille (i.e. multiplier u et v par le nombre de pixels par unité métrique utilisée).

Au moment d’afficher à l’écran de l’appareil mobile le rendu de la superposition de l’objet

virtuel sur la réalité, le point de vue de l’utilisateur sera présenté au travers de la caméra de

l’appareil, alors que les objets virtuels le seront au moyen d’une caméra virtuelle associée

au moteur 3D utilisé (ex. OpenGL, DirectX). Le principe de projection expliqué ci-haut

reste le même pour la caméra virtuelle. Les paramètres extrinsèques et intrinsèques de la

caméra réelle seront appliqués à la caméra virtuelle du moteur 3D utilisé afin qu’il n’y ait

pas de distorsions dans l’alignement de la réalité et des objets virtuels (cf. Figure 2.4). Cela

permettra l’ajout à l’avant plan d’objets virtuels alignés correctement avec le flux vidéo en

arrière-plan.

Figure 2.4 - Distorsion entre deux images prises du même endroit avec une distance focale

différente, donc variation d’un des paramètres intrinsèques (photos : Jean-Jacques Milan)

Afin que les mondes virtuel et réel s’intègrent parfaitement, le monde virtuel doit posséder

des informations relatives au contexte réel. L’ensemble des connaissances requises

comprend la géométrie des éléments présents (ex. bâtiments, végétation), mais également

des informations sémantiques s’y rattachant (ex. type de commerce, notes historiques sur

un bâtiment). Les conditions expérimentales peuvent également être prises en compte (ex.

niveau d’ensoleillement, conditions météorologiques). Idéalement, même les éléments

mobiles (ex. voitures, piétons) devraient être connus. En possédant toutes ces

connaissances sur le monde réel, les éléments virtuels ont donc la possibilité d’agir de se

comporter et d’être affichés d’une manière cohérente avec la réalité. Par exemple, une

annotation 2D virtuelle proposera des informations sémantiques relatives à l’endroit ou à

l’objet auquel elle se rapporte (ex. indication du numéro de la ligne de métro à proximité de

l’utilisateur) ou un modèle virtuel 3D se déplaçant dans l’environnement sera projeté sur

l’appareil de visualisation selon le point de vue de l’observateur en tenant compte des

occlusions possibles, de la luminosité ambiante et des conditions météorologiques.

Bien entendu, à ce jour, tous ces éléments ne sont pas encore pris en compte car un modèle

aussi complet de la réalité et exploitable en temps réel (i.e. créé et obtenu sur le champ) de

la réalité est inexistant. Il est cependant possible que certaines informations à propos de

l’environnement réel soient disponibles (i.e. géométrie 3D, certaines informations

sémantiques), mais si elles ne sont pas accessibles ou non-adaptées pour une application de

RAM (ex. format), l’environnement est qualifié de non-préparé. Dans ce type cas,

l’utilisateur ou le développeur d’une application de RAM doit donc préparer

l’environnement (i.e. Selon les coordonnées globales, par apprentissage des caractéristiques

naturelles de l’environnement ou par pose de marqueurs, cf. Section 2.2). Cette préparation

est d’une complexité variable en fonction de l’application visée et elle va consister à

introduire dans l’environnement les éléments nécessaires à la mise en œuvre de l’une des

trois approches décrites dans cette section. Cela peut varier d’ajout de points d’intérêt 2D

jusqu’à la construction d’un modèle 3D sémantique très détaillé.

2.3. Applications existantes

Afin de bien cerner le domaine de la RAM, un tour d’horizon des différentes applications

existantes va maintenant être proposé.

2.3.1. Les applications de visite touristique

L’aspect mobilité des applications de RAM permet à un utilisateur d’obtenir des

informations sémantiques localisées d’où une connaissance accrue des éléments situés dans

son environnement immédiat. L’application précurseur dans ce domaine est la Touring

machine proposée par Feiner et al. (1997). Le principe de l’application consiste à annoter le

monde réel présent dans le champ de vision de l’utilisateur. Ainsi, celui-ci peut accéder, par

exemple, à la critique d’un restaurant situé à proximité (cf. Figure 2.5a). Quelques

interactions simples sont proposées à l’utilisateur dont la possibilité d’effectuer des

requêtes à une base de données préétablie afin de connaître quels départements sont

présents dans un bâtiment universitaire situé dans le champ de vue de la caméra. Plusieurs

déclinaisons de ce système ont été élaborées, citons l’Archeoguide par Vlahakis et al.

(2000) permettant entres autres de visualiser en 3D des sites historiques n’existant plus à

leur emplacement original. Actuellement, le même principe d’annotations que celui de la

Touring Machine est exploité par deux applications récentes très populaires : Layar et

Wikitude. En effet, celles-ci offrent à l’utilisateur la possibilité de visualiser des couches de

données 0D-3D virtuelles liées à des points d’intérêt à la surface du globe (ex. articles de

Wikipedia géolocalisés, restaurants et bien d’autres). 43 pays possèdent actuellement sur

leur territoire des couches de données Layar. Pour le Canada, quelques- unes sont ciblées

sur des régions urbaines précises (ex. Toronto Subway System Map, Vancouver Parks and

Facilities) tandis que d’autres sont plus globales (ex. Pages Jaunes, Tim Horton’s, Food

and Drink pour trouver les établissements de restauration rapide de chaînes populaires).

L’appareil utilisé ici est un téléphone intelligent intégrant plusieurs composantes physiques

nécessaires au positionnement de l’appareil dans l’espace (i.e. récepteur GPS, boussole

numérique, accéléromètres). A titre de comparaison, au moment du développement de la

Touring machine, tout un ensemble d’équipements était nécessaire à la mise en œuvre de

cette application (cf. Figure 2.5b). Les couches d’information sont produites par les

utilisateurs et peuvent être partagées avec tous. Cette approche s’inscrit pleinement dans la

grande tendance du Web 2.0 où le grand public est à la fois utilisateur et créateur de

contenu. Ces applications sont disponibles gratuitement à tous sous plusieurs systèmes

d’exploitation et Layar sera pré-installé sur le tiers des appareils mobiles qui seront

commercialisés mondialement cette année. Comme il a été mentionné au chapitre 1, les

interactions offertes à l’utilisateur par ce type d’application restent limitées (ex. lancer un

appel, visiter une page web). De plus, les occlusions entre le réel et le virtuel ne sont pas

gérées et les échelles de représentation des objets 3D virtuels ne sont pas toujours

conformes avec la réalité. Cet aspect est illustré par la Figure 2.6. À la Figure 2.6a, les

occlusions sont gérées correctement ce qui donne la perception de l’échelle et le sens de la

profondeur de l’objet virtuel par rapport aux éléments présents dans l’environnement. Cela

n’est pas le cas pour la Figure 2.6b, où les occlusions ne sont pas prises en compte. Dans

cette image, la position de la voiture virtuelle y est ambiguë. Cet élément virtuel, peut aussi

bien être de taille réduite et près de la caméra que plus imposant et plus loin, mais

l’utilisateur ne peut percevoir en aucun cas que sa position réelle est derrière la haie. Un tel

rendu a pour conséquence de dégrader le réalisme de l’augmentation.

Figure 2.5 - a) Annotation 2D d'un restaurant (Feiner, et al. 1997) b) équipement

nécessaire à la Touring machine (i.e. récepteur GPS, ordinateur portable, visiocasque)

(Feiner, et al. 1997)

Figure 2.6 - a) Affichage d’une voiture virtuelle avec gestion des occlusions, b) sans

gestion des occlusions (image de la voiture: © Disney / Pixar)

2.3.2. Les applications de jeu

Le fait d’être en mesure d’intégrer des objets virtuels dans l’environnement d’un joueur

éveille l’imagination. Les possibilités d’interactions entre le joueur, les objets virtuels et

réels deviennent alors, en théorie, infinies. Parmi les différents jeux en RAM développés

jusqu’à présent, certains sont purement ludiques alors que d’autres ont une vocation

éducative. Dans la catégorie des jeux éducatifs, on retrouve les jeux faiblement augmentés

Mad City Mystery (Squire et Mingfong 2007) et Environmental Detective (Klopfer et

Squire 2007), l’enrichissement de la réalité se faisant essentiellement par l’exploitation de

la position réelle du joueur. Ces jeux se déroulent dans un contexte de classe et sont

destinés à des élèves du secondaire. Le but de ces jeux éducatifs est de développer des

habiletés de réflexion et d’argumentation scientifique chez les jeunes. Le scénario de jeu

proposé débute par la présentation aux jeunes d’une situation problématique à résoudre (ex.

un meurtre; une catastrophe environnementale) intervenant sur un territoire donné. Les

élèves doivent alors accumuler des indices afin de proposer une piste de solution logique.

L’interface de jeu est composée d’une représentation 2D du territoire où la position du

joueur et de points d’intérêt y sont présents (cf. Figure 2.7). Le joueur doit donc se déplacer

physiquement afin de déclencher l’apparition d’indices associés à ces points d’intérêt. Ces

indices se présentent sous la forme d’éléments multimédias (ex. texte, vidéo, image). Aussi,

les interactions offertes demeurent assez simples et leur mécanique s’appuie uniquement

sur la position du joueur. En complément du déclenchement de l’apparition d’indices, les

utilisateurs d’Environmental Detectives peuvent virtuellement « creuser dans le sol » afin

de mesurer la concentration de polluant à l’endroit où ils se situent, cette information leur

fournissant un indice quant à la résolution de l’énigme.

Figure 2.7 - Modèle 2D de la réalité intégrant la position de l'utilisateur (point rouge) et des

points d'intérêts (carrés bleus et rouges) (Klopfer et Squire 2007)

Time Warp est un autre jeu éducatif proposant un niveau d’augmentation et d’interaction

plus élevé que les deux précédents. Ce jeu, développé par Herbst et al. (2007), permet

d’apprendre un ensemble de faits historiques et d’informations pertinentes concernant la

ville historique de Cologne en Allemagne. Des défis sont lancés aux joueurs par un

personnage virtuel 3D. Dans le cadre du jeu et compte tenu des technologies proposées aux

joueurs, ceux-ci sont en mesure de visualiser d’anciens bâtiments à leur emplacement

original. Un autre jeu intéressant du point de vue des interactions proposées est Epidemic

Menace (Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007). Le scénario est le suivant : des

équipes sur le terrain tentent d’éliminer des virus virtuels situés sur un campus

universitaire. Ces virus sont influencés par les véritables conditions atmosphériques

affectant le campus, ce qui constitue un aspect unique parmi les différents travaux recensés

dans la littérature. La mécanique de jeu d’Epidemic Menace implique à la fois des joueurs

équipés d’appareils mobiles se déplaçant sur le terrain et une personne sédentaire, jouant le

rôle d’un commandant. Celle-ci est localisée au quartier général du jeu et a pour

responsabilité de coordonner son équipe sur le terrain. Il faut également noter qu’un modèle

3D est exploité dans le contexte de ce jeu afin de gérer les occlusions entre les éléments

réels et virtuels.

Les jeux en RAM purement ludiques ont été les premiers à être développés. On peut citer

parmi ceux-ci Human Pacman (Cheok, et al. 2003) et ARQuake (Thomas, et al. 2002). Le

premier reprend le concept du jeu Pacman original (cf. Figure 2.8). Les personnages de

Pacman et des fantômes sont cette fois-ci bien réels puisqu’incarnés par les joueurs prenant

part à Human Pacman. Le deuxième se base sur le très populaire jeu vidéo Quake, mais

modifié de manière à ce que les déplacements du joueur dans la réalité se reflète dans

l’environnement du jeu vidéo. Les éléments virtuels sont superposés à la réalité et les

occlusions sont gérées grâce à un modèle 3D construit dans l’environnement de

développement de Quake.

Figure 2.8 - Capture d'écran du jeu Human Pacman (Cheok, et al. 2003)

2.3.3. Les applications de gestion des infrastructures

La réalité augmentée peut également servir dans un contexte professionnel. Les premières

applications de ce type, non mobiles cependant, visaient à faciliter la réparation

d’imprimantes ou la pose de câblage sur des avions (Azuma 1997). Plus récemment, les

travaux de Schall et al. (2009) proposent des solutions afin de rendre les infrastructures

souterraines plus accessibles aux services de maintenance et d’intervention, et sans à avoir

à creuser le sol si possible (cf. Figure 2.9). De telles solutions permettraient d’éviter des

erreurs ayant de lourdes conséquences telle une excavation au mauvais endroit ou le

perçage d’une conduite de gaz. À titre d’exemple de l’intérêt grandissant présenté par les

applications de RAM pour la gestion des infrastructures, la compagnie Bentley Systems Inc.

a mené des travaux de recherche en RAM afin d’aider les responsables de chantier à suivre

l’évolution des travaux de construction. Dans le prototype développé par Côté et al. (2008),

un utilisateur sur le terrain est équipé d’un Tablet PC auquel ont été couplés une caméra, un

GPS et une boussole numérique. En fonction du champ de vue de cet utilisateur, un modèle

3D est affiché dans un logiciel de CAO (Conception Assistée par Ordinateur) permettant

ainsi de comparer l’avancement des travaux sur place comparativement à ce qui était prévu

à cette date.

Figure 2.9 - Infrastructure souterraine virtuelle (Schall, et al. 2009)

2.3.4. Les applications sociales issues du Web 2.0

Certaines applications récentes de RAM présentent une forte inclinaison vers les réseaux

sociaux et le volontariat géographique (ou VGI de Volunteer Geographic Information). Le

terme de « AR 2.0 » a d’ailleurs été employé lors de conférences scientifiques et d’ateliers

relatifs au domaine de la réalité augmentée. Réseaux sociaux et VGI place l’individu au

cœur des applications, celui-ci agissant à la fois à titre d’utilisateur et de créateur de

l’information qui sera par la suite massivement partagée. Les deux applications de RAM

populaires déjà citées, Layar et Wikitude, en sont de bons exemples. Les utilisateurs sont

invités à créer et à partager leurs centres d’intérêt ou leurs lieux favoris à la surface de la

Terre. A titre d’exemple, les articles géoréférencés de Wikipédia (i.e. des coordonnées

géographiques sont associées à ces articles, les coordonnées étant en lien avec le contenu de

l’article), écrits par le grand public, sont visibles sous formes d’annotations via Layar ou

Wikitude (cf. Figure 2.10). D’une manière un peu plus ludique, une toute nouvelle

application de la compagnie japonaise Mobile Art Lab, iButterfly

(www.mobileart.jp/ibutterfly_en.html), permet aux utilisateurs de capturer à l’aide de leur

téléphone intelligent des papillons virtuels. Ceux-ci sont différents dans chaque ville et

peuvent être partagés entre les utilisateurs puis être utilisés comme coupons-rabais dans

certains commerces (cf. Figure 2.11). iButterfly peut être considérée comme une application

de « RAM 2.0 » dans le sens où le partage des éléments virtuels est omniprésent et un

contact avec la communauté (i.e. les utilisateurs et les commerçants) y est encouragé.

Figure 2.10 - Capture d'éran de Layar avec articles de Wikipedia géolocalisés (image :

Danie van der Merwe, www.flickr.com)

Figure 2.11 - L’application iButterfly a) papillon virtuel dans l’environnement b) utilisation

de celui-ci afin d’obtenir un rabais sur un produit

Ce tour d’horizon a permis d’explorer les différentes thématiques touchées par les

applications actuelles de RAM. Nous verrons au travers des sections suivantes les trois

rôles que peuvent jouer un modèle 3D de l’environnement au sein de ces applications de

RAM afin de les rendre plus immersives et interactives.

2.4. Gestion des occlusions dans les applications de RAM

2.4.1. Introduction

Comme nous avons mentionné, la gestion cohérente des occlusions entre les objets réels et

virtuels est primordiale afin d’obtenir une application réaliste de RAM. La gestion des

occlusions se voit être notamment le meilleur indice afin de percevoir l’effet de profondeur

des différents objets virtuels présents dans une scène (Azuma 1997). Le sentiment

d’immersion de l’utilisateur est plus élevé si une visualisation conforme à notre vision de la

réalité est offerte au sein de l’application de RAM.

Le recensement des travaux présentés dans la littérature a permis d’identifier trois types de

solutions permettant de gérer les occlusions dans un environnement de RAM : 1) utilisation

d’un modèle 3D; 2) utilisation d’algorithmes de vision numérique et d’un télémètre laser;

3) utilisation d’approches semi-interactives requérant des interventions manuelles de

l’utilisateur. Ces trois familles de solution vont être présentées en détail dans les

paragraphes suivants.

2.4.2. Utilisation d’un modèle 3D

Suite à la récupération ou à la construction du modèle 3D de la zone géographique où

l’application de RAM doit être déployée, il est alors possible de gérer les occlusions

intervenant entre les objets réels et les objets virtuels en exploitant ce modèle. Au moment

du rendu en temps réel de la scène, l’application se doit d’afficher les parties d’un objet

virtuel seulement si elles se situent à l’avant plan (cf. Figure 2.12). Le reste de la scène doit

être remplacé par l’arrière plan, c’est-à-dire le flux vidéo provenant de la caméra de

l’utilisateur en temps réel. Lors de la mise en œuvre de l’application, le point de vue de la

caméra de l’utilisateur dans le monde réel se doit d’être homologue à celui de l’univers

virtuel contenant à la fois le modèle 3D de l’environnement réel et les objets virtuels afin de

conserver une correspondance entre le monde réel et le monde virtuel. Les techniques

utilisées afin de rendre le modèle 3D transparent tout en cachant les parties des objets

virtuels ne devant pas être affichées sont propres à chacun des moteurs 3D exploités dans

les applications de RAM. La Figure 2.13 provenant du jeu ARQuake (Thomas, et al. 2002)

illustre bien les différentes étapes intervenant lors de l’intégration d’un modèle 3D dans une

application de RAM. Celles-ci consistent en:

La construction du modèle 3D de l’environnement (cf. Figure 2.13a);

L’intégration des objets virtuels 3D et du modèle 3D de l’environnement dans le

même univers (cf. Figure 2.13b);

Le rendu en temps réel du flux vidéo provenant de la caméra et du monde virtuel

(cf. Figure 2.13c);

Le remplacement des pixels du modèle 3D de l’environnement par ceux de l’arrière

plan et l’affichage des parties de l’objet virtuel à l’avant-plan (cf. Figure 2.13d).

Figure 2.12 - Gestion de l’occlusion entre un élément réel (i.e. le bâtiment) et un élément

virtuel (i.e. le pot à thé) dans un environnement de réalité augmentée.

a) b) c) d)

Figure 2.13 - Les différentes étapes intervenant dans l’utilisation d’un modèle 3D pour

gérer les occlusions dans l’application ARQuake (Thomas, et al. 2002)

Plusieurs autres applications exploitent un modèle 3D de l’environnement afin de gérer les

occlusions entre les objets réels et virtuels. Malheureusement, peu d’informations sont

présentes dans les articles recensés dans la littérature quant aux caractéristiques que ce

modèle présente. C’est notamment le cas pour Time Warp (Broll, et al. 2008) et Epidemic

Menace (Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007).

2.4.3. Utilisation d’algorithmes de vision numérique et de composantes

physiques

Dans l’esprit de l’Anywhere Augmentation, une technique a été développée par Wither et al.

(2008) afin de gérer les occlusions dans un environnement non-préparé d’avance. Cette

approche hybride comprend l’utilisation d’un télémètre laser en combinaison à des

algorithmes de vision numérique dans le but de créer un panorama 3D5 qui servira de

support à la gestion des occlusions. Dans ce contexte, le télémètre et la caméra sont

conjointement positionnés sur le casque que porte l’utilisateur. L’objectif pour l’utilisateur

est de préparer son environnement rapidement afin de pouvoir ensuite augmenter la réalité

tout en gérant les occlusions intervenant entre le monde réel et les objets virtuels. Pour ce

5 Un panorama 3D est une mosaïque d’images sur 360 degrés où une valeur de distance entre les éléments

présents dans les images et la position de l’utilisateur est attribuée à chacun des pixels.

faire, l’utilisateur construit un panorama 2D (cf. Figure 2.14a) sans se déplacer mais en

effectuant un mouvement de rotation de 360º afin que la caméra capture l’environnement

tout autour de lui. Pendant ce temps, le télémètre laser mesure automatiquement la distance

qui sépare l’utilisateur des différents objets présents dans l’environnement. L’approche

consiste alors, à partir du panorama 2D, à segmenter en différents groupes les pixels en

utilisant certaines caractéristiques visuelles (ex. le gradient d’intensité des pixels) du flux

vidéo ainsi que la distance provenant du télémètre. Ces groupes de pixels semblables

forment alors les différents objets présents dans la scène. Le panorama 3D (cf. Figure

2.14b) est construit en affectant une valeur de distance à chacun de ces groupes de pixels.

Celle-ci correspond à la distance entre les objets de la scène et l’utilisateur et elle est

obtenue grâce au télémètre laser. Le panorama 3D résultant est construit facilement et

rapidement (i.e. entre deux et quatre minutes) par l’utilisateur. Un objet virtuel peut ensuite

être intégré dans le panorama 3D et les occlusions seront gérées avec une très bonne qualité

visuelle, tel qu’illustré à la Figure 2.15. L’une des contraintes de cette approche est que

l’utilisateur doit toujours rester au même endroit lors de l’augmentation. Si celui-ci se

déplace, un autre panorama 3D doit être construit.

Figure 2.14 - a) panorama couleur, b) panorama 3D, les régions foncées sont plus près de

l'utilisateur (Wither, et al. 2008)

Figure 2.15 - Occlusion d'un objet virtuel (la Vénus de Milo) par un objet réel (Wither, et

al. 2008)

2.4.4. Utilisation d’approches semi-interactives

Une autre approche afin de solutionner la gestion des occlusions dans une scène entre des

objets réels et des objets virtuels est proposée par Lepetit et Berger (2000). Celle-ci est

semi-interactive et demande l’intervention de l’utilisateur afin d’extraire les objets réels

dans un environnement non-préparé d’avance. Cette approche, qui ne s’effectue pas en

temps réel, permet de modéliser les objets ayant une géométrie complexe qui peuvent alors

agir en tant qu’occludeur (cf. Figure 2.17). Le principe de l’approche proposée est le

suivant : un utilisateur trace le contour d’un objet réel sur une vue clée d’une vidéo pré-

enregistrée (cf. Figure 2.16a). Une vue clée est une image où un changement marqué

concernant un objet apparait (ex. couleur, nouveau côté visible). L’utilisateur exécutera la

même action sur une seconde image clée du flux vidéo qu’il aura choisie (cf. Figure 2.16b).

Le système définira alors une courbe 3D par stéréo triangulation à partir de ces deux

contours représentant un même objet réel (cf. Figure 2.16c). Cette courbe 3D sera alors

projetée en 2D dans les images de la vidéo situées entre les deux vues clées (cf. Figure

2.16d). Elle sera par la suite améliorée à l’aide d’algorithmes de vision numérique pour

bien représenter le contour 2D de l’objet (cf. Figure 2.16e). Ce contour 2D délimite donc,

dans chacune des images, une région 2D servant à gérer les occlusions avec un objet virtuel

s’il se trouve dans le même univers que la courbe 3D calculée (cf. Figure 2.17). Cette

approche semi-interactive n’est pas très répandue et ne peut être mise en œuvre en temps

réel. Elle montre néamoins que l’utilisateur peut jouer un rôle actif pour modéliser son

environnement en ce qui concerne la gestion des occlusions pour la RAM.

Figure 2.16 - Approche semi-interactive de modélisation pour la gestion des occlusions

(Traduction libre) (Lepetit et Berger 2000)

Figure 2.17 - Gestion des occlusions par un objet à géométrie complexe (Lepetit et Berger

2.5. Les modèles 3D et l’aide au calcul de la pose de la caméra.

2.5.1. Introduction

Lorsqu’un modèle 3D du monde réel dans lequel une application de RAM est mise en

œuvre est disponible ou accessible, il est possible de l’utiliser afin d’aider au calcul de la

pose de la caméra. Les approches exploitées à cet effet relèvent de la vision numérique.

L’objectif ici consiste à estimer plus précisément les paramètres extrinsèques de la caméra.

L’augmentation se voit alors améliorée considérablement comparativement au résultat

obtenu en n’utilisant que des composantes physiques (i.e. récepteur GPS, boussole

numérique et accéléromètres ou centrale inertielle). Il est cependant possible de recalculer

la pose de la caméra d’un utilisateur seulement sur la base des informations fournies par ces

composantes physiques. Mais la précision du calcul de pose à partir de ces composantes

n’est généralement pas suffisante pour obtenir une augmentation réaliste de la réalité. Une

conséquence de l’efficacité du calcul de pose à partir de modèle 3D est la réduction des

effets de tremblement (i.e. flickering) des objets virtuels lors de leur rendu dans le flux

vidéo. Dans ce contexte, ils sont projetés dans le flux vidéo de manière plus conforme avec

la position et l’orientation du champ de vue de l’utilisateur ce qui contribue de manière

importante à l’immersivité de l’application de RAM. Par exemple, Reitmayr (2006) calcule

la pose de sa caméra en utilisant un modèle 3D. La précision qu’il obtient pour la position

de la caméra est inférieure à deux mètres avec un écart-type d’environ quinze centimètres.

En comparaison, le récepteur GPS de l’iPhone 3G possède une précision d’environ 8

mètres avec une erreur quadratique moyenne d’environ 10 mètres (Zandbergen 2009). Étant

donné que le calcul de la pose de caméra constitue l’un des concepts fondamentaux de la

RAM, celui-ci a été l’un des sujets les plus abordés entre 1998 et 2008 dans les conférences

de l’ISMAR6 . A l’heure actuelle, le calcul de pose n’offre toujours pas de solution globale

et satisfaisante pour tous les contextes d’application (Zhou, Duh et Billinghurst 2008).

Deux principaux types de modèles 3D de la réalité sont appelés à être utilisés afin d’aider

au calcul de la position et de l’orientation de la caméra de l’utilisateur pour une application

de RAM (Pressigout 2006): 1) les modèles 3D par arêtes ou surfaces; 2) les modèles 3D

6 International Symposium on Mixed and Augmented Reality, la conférence phare du domaine de la réalité

augmentée

texturés. Les paragraphes suivants vont décrire en détail les principes de leur mise en œuvre

pour le calcul de pose. Les panoramas7 (ex. Google Street View), présentent également un

intérêt grandissant pour le calcul de pose et nous exposerons également quelques travaux

récents réalisés dans ce domaine dans les paragraphes suivants.

2.5.2. Modèle 3D par arêtes ou surfaces

Un modèle 3D formé par arêtes ou par surfaces peut être utilisé afin d’aider au calcul de la

pose de la caméra dans une application de RAM. Ce type de modèle peut être créé, par

exemple, à partir d’un logiciel de type CAO (Conception Assistée par Ordinateur). Le

principe général du calcul de la pose de la caméra à partir de ces modèles 3D se décompose

en quatre étapes distinctes. La première est l’estimation d’une pose initiale. Celle-ci peut

être obtenue à partir du récepteur GPS, des accéléromètres et de la boussole numérique

d’un appareil mobile. La deuxième étape est la projection en 2D du modèle 3D dans le plan

image selon le calcul de la pose initiale. La troisième étape est l’analyse des différences

entre cette projection et l’image en cours du flux vidéo. Pour cette étape, les arêtes sont

extraites de l’image en cours (ex. par algorithmes de Canny ou Sobel, voir Sonka et al.

2008 pour plus de détails) puis comparées à la projection du modèle 3D. Le positionnement

précis de la caméra par rapport au modèle 3D est finalement trouvé en minimisant les

distances entre les arêtes des deux projections.

En utilisant un modèle 3D formé par des arêtes, il a été remarqué que ce procédé est

efficace et n’est pas sensible au changement de luminosité (Zhou et al. 2008). Plusieurs

variantes de ce principe général existent. Citons entre autre l’approche inverse de Gennery

(1991). Le contexte ici consiste en une caméra fixe et un objet mobile, dont on souhaite

obtenir la position. Le principe de l’approche proposée est le même qu’expliqué

précédemment, soit de chercher à comparer les arêtes extraites des images du flux vidéo à

la projection du modèle 3D de l’objet, mais l’objectif est différent car il s’agit de déduire ici

la position de l’objet mobile et non celle de la caméra qui est connue. On peut citer

également les travaux de Comport et al. (2003) qui exploitent plusieurs primitives

7 Un panorama est constitué de plusieurs images prises en même temps d’une même position, mais avec des

orientations différentes puis mosaïquées de manière à couvrir une vue de 360°.

géométriques (i.e. des formes simples prédéfinies comme les cercles, lignes, cylindres) afin

de calculer la pose de la caméra.

2.5.3. Modèle 3D texturés

Les modèles 3D texturés constituent le deuxième type de modèle 3D utilisé pour aider au

calcul de la pose de la caméra dans une application de RAM. Les différentes étapes

impliquées dans ce calcul sont sensiblement les mêmes que celles mises en œuvre pour les

modèles 3D basés sur les arêtes. La différence réside dans les informations analysées dans

les images du flux vidéo qui sont des points saillants extraits de la texture du modèle 3D au

lieu des arêtes. Plusieurs détecteurs peuvent être utilisés pour mettre en évidence ces points

saillants. Reitmayr et Drummond (2006) utilisent par exemple des edgels, qui sont des

pixels qui délimitent un changement marqué dans l’image (cf. Figure 2.18).

Figure 2.18 - Extraction des edgels dans une image (Reitmayr et Drummond 2006)

Un des avantages de cette approche pour le calcul de pose est qu’elle opère un

échantillonnage automatique du niveau de détails présent dans les images et donc elle peut

être utilisée à plusieurs échelles (Reitmayr et Drummond 2006). Cependant, son principal

inconvénient est sa sensibilité au changement d’illumination de la scène (Pressigout 2006).

Afin de tirer profit à la fois des avantages de l’approche exploitant les arêtes du modèle 3D

et de celles basée sur des modèles 3D texturés, des approches hybrides robustes et

performantes ont rapidement été développées. C’est le cas notamment des méthodes

respectivement de Vacchetti et al. (2004), de Kim et al. (2007) (cf. Figure 2.19) et de

Pressigout (2006).

Figure 2.19 - a) Modèle 3D avec les points saillants et les arêtes, b) comparaison du modèle

3D avec l'image en cours, c) calcul de la pose de la caméra et augmentation de la réalité

(Kim, et al. 2007)

2.5.4. Panoramas

L’arrivée de panoramas précisément positionnés (ex. Google Street View, Bing Maps)

couvrant une proportion importante des régions habitées de la surface terrestre (cf. Figure

2.20) a engendré un intérêt grandissant pour l’utilisation de ceux-ci pour le calcul de pose

de la caméra d’une application de RAM. Une approche similaire à celle des modèles 3D

(basés sur des arêtes ou texturés) est utilisée par Yazawa et al. (2009). Une première

estimation de la position de la caméra est réalisée à partir du récepteur GPS de l’appareil

utilisé pour l’augmentation de la réalité. Cette estimation sert à contraindre spatialement la

recherche d’un panorama dans une base de données. Le panorama choisi est celui qui

apparie le plus de points semblables à l’image acquise initialement par la caméra.

L’orientation de la caméra est obtenue en comparant cette même image au panorama

sélectionné (cf. Figure 2.21). Les auteurs mentionnent que cette technique fonctionne très

bien si l’image est prise dans un rayon de sept mètres à partir du centre du panorama. Des

résultats concluants de repositionnement ont été obtenus, mais seulement lorsque les

conditions d’illumination de la scène sont semblables à celles qui prévalaient lors de la

capture des panoramas.

Figure 2.20 - Couverture de Google Street View en bleu (http://gmaps-

samples.googlecode.com/svn/trunk/streetview_landing/streetview-map.html)

Figure 2.21 - Estimation de l'orientation d’un cliché par éléments semblables entre la vue

caméra et le panorama (Yazawa, et al. 2009)

2.6. Les modèles 3D et le support à l’augmentation et aux

interactions

2.6.1. Introduction

Le troisième rôle que peut jouer un modèle 3D au sein d’une application de RAM est de

supporter l’augmentation de la réalité ainsi que les interactions offertes. La présence d’un

modèle 3D permet de lier étroitement les univers virtuel et réel dans une application de

RAM. En d’autres mots, les interactions proposées à l’utilisateur seront plus réalistes si un

couplage des éléments virtuels existe avec certains objets réels. Le modèle 3D peut aussi

être utile pour supporter l’augmentation, notamment en servant d’ancrage pour le

positionnement d’objets virtuels ou pour la génération réaliste d’ombrage.

2.6.2. Support aux interactions

Une application de RAM sera réaliste et immersive si elle offre une vaste gamme

d’interactions à l’utilisateur. Celles-ci peuvent s’effectuer entre plusieurs acteurs :

1. Utilisateur ↔ utilisateur. Si plusieurs personnes utilisent la même application de

réalité augmentée au même endroit, il est intéressant qu’ils puissent interagir

ensemble. C’est notamment le cas avec le jeu Human Pacman (Cheok, et al. 2003)

où certains des utilisateurs incarnent Pacman, le petit personnage jaune, et les

autres incarnent les fantômes du jeu original. L’objectif pour les fantômes est

d’attraper Pacman, ce qui se traduit dans le jeu par un contact entre les joueurs

représentant chacun des personnages (cf. Figure 2.22).

Figure 2.22 - Interactions entre les joueurs du jeu Human Pacman (Cheok, et al.

2. Objet virtuel ↔ objet virtuel. Dans certaines applications, les objets virtuels

présents peuvent interagir ensemble. Un exemple est l’application de réalité

augmentée du Futuroscope appelée Les animaux du futur

(www.lesanimauxdufutur.com). Celle-ci s’appuie sur l’utilisation de marqueurs.

Des animaux futuristes apparaissent à l’écran lorsqu’une caméra numérique détecte

et analyse ces marqueurs. Chaque animal est associé à un marqueur. Quand deux

marqueurs se trouvent à proximité, les animaux qu’ils représentent se reconnaissent

et entament alors un combat.

3. Utilisateur ↔ objet virtuel. Il est possible pour un utilisateur d’interagir avec les

objets virtuels intégrés à l’environnement. Dans le jeu éducatif Time Warp (Herbst,

Ghellah et Braun 2007) un personnage virtuel 3D pose plusieurs défis à un

utilisateur voulant en savoir plus sur l’histoire de la ville de Cologne en Allemagne

(cf. Figure 2.23).

Figure 2.23 - Un personnage virtuel 3D pose le défi d'identifier correctement un

blason à l'utilisateur (Herbst, Ghellah et Braun 2007)

Il est important de garder en tête ces types d’interactions car elles sont au centre de toutes

les applications de RAM. Cependant, dans le présent projet de recherche, c’est le rôle du

modèle 3D de l’environnement qui importe. En prenant en compte un modèle 3D de

l’environnement comme appui aux interactions proposées, l’intégration du réel et du virtuel

n’en est que plus homogène. Le recensement de la littérature a mis en évidence le peu

d’exemples qui existent actuellement en termes d’interactions avec des modèles 3D. Nous

avons néanmoins pu noter deux types d’interaction impliquant des modèles 3D:

1. Utilisateur ↔ modèles 3D. Le modèle 3D de l’environnement peut être une partie

structurante d’une application en RAM. Les actions posées par l’utilisateur en

relation avec le modèle 3D auront un effet sur le déroulement du scénario de

l’application. Par exemple, Reitmayr et Drummond (2006) proposent un jeu simple

où l’utilisateur vient interagir avec des parties précises d’un modèle 3D de bâtiment.

Ce dernier doit trouver une échelle virtuelle puis se déplacer à la bonne fenêtre du

bâtiment afin d’envoyer un mot doux à la personne aimée avant que le temps ne soit

écoulé (cf. Figure 2.24).

Figure 2.24 - a) et b) Interaction entre le joueur et une fenêtre d'un bâtiment réel

(Reitmayr et Drummond 2006)

2. Modèle 3D ↔ objets virtuels. Bien peu d’exemples viennent illustrer les

interactions que peut avoir le modèle 3D de l’environnement avec les éléments

virtuels de l’application de RAM. Le jeu Epidemic Menace (Lindt, Ohlenburg et

Pankoke-Babatz, et al. 2007) propose pour sa part une approche unique, originale et

très innovatrice en termes d’interaction entre modèle 3D et objets virtuels. Elle

consiste en la prise en compte des conditions atmosphériques en temps réel dans le

comportement d’objets virtuels. Le scénario d’Epidemic Menace implique des virus

virtuels tentant de se propager dans l’environnement (cf. Figure 2.25). Ces virus

virtuels se déplacent selon la direction et l’intensité du vent et augmentent de

volume en fonction de la température ambiante. Lorsque l’on fait référence aux

modèles 3D de l’environnement exploité dans les applications de RAM, ceux-ci ne

se limitent donc pas à des éléments anthropiques statiques. La modélisation de

phénomènes continus est également possible.

Figure 2.25 - Joueur et virus du jeu Epidemic Menace (Lindt, Ohlenburg et

Pankoke-Babatz, et al. 2007)

Les exemples présentés illustrent la pertinence de l’utilisation d’un modèle 3D de

l’environnement afin de bien lier le monde réel et le monde virtuel au niveau des

interactions proposées. Contrairement aux deux premiers rôles du modèle 3D qui sont plus

rigides conceptuellement, celui-ci n’est pas restreint et sollicite l’imagination des

développeurs.

2.6.3. Support à l’augmentation

En possédant une connaissance de l’environnement où se déroule l’application de RAM, il

est possible de supporter l’augmentation de la réalité des deux façons suivantes :

1. Ombrage. La prise en compte des ombres des éléments virtuels 3D dans une scène

permet de resserrer les liens entre le monde réel et le monde virtuel. L’effet est

d’autant plus réaliste si l’illumination en temps réel (i.e. position du soleil et

conditions météorologiques) est prise en compte. La Figure 2.26 illustre bien ce

principe. On peut effectivement bien voir l’ombre de l’avion virtuel 3D sur le

bâtiment en arrière-plan.

Figure 2.26 - Avion virtuel 3D et ombrage sur le bâtiment derrière (Lepetit et

Berger 2000)

2. Ajout d’éléments virtuels relativement au modèle 3D. Un modèle 3D peut

également servir à ancrer des objets virtuels dans la réalité. En d’autres mots, un

modèle 3D servira d’appui au positionnement d’éléments 0D-3D virtuels. Comme

illustré à la Figure 2.27, un modèle 3D de l’Opéra de Sydney est utilisé pour

l’application de différentes textures. Un autre exemple de support à l’augmentation

est présenté à la Figure 2.28 où un pont virtuel 3D est positionné par rapport à un

bâtiment existant, ceci dans le cadre d’une application de jeu.

Figure 2.27 - Un modèle 3D sous-jacent

est utilisé afin d’appliquer différentes

textures 2D. (Hengel, et al. 2009)

Figure 2.28 - Objet virtuel 3D

juxtaposant un bâtiment réel

(Thomas, et al. 2002)

2.7. Conclusion du chapitre

Dans ce chapitre, nous avons en premier lieu présenté les principes de la réalité augmentée

et de la réalité augmentée mobile. Par la suite, un survol du domaine de la RAM au travers

d’applications existantes a été effectué. Ces applications touchent plusieurs thématiques et

les plus récentes encouragent les utilisateurs à créer et à partager de l’information

géolocalisée, ce qui s’inscrit dans les mouvements actuels du Web 2.0 et du VGI. Nous

avons par la suite passé en revue les trois rôles que peut jouer un modèle 3D de

l’environnement dans les applications de RAM. Ces rôles sont la gestion des occlusions, le

calcul de la pose de la caméra et le support aux interactions et à l’augmentation. Un modèle

3D d’un environnement spécifique possède donc le potentiel de rendre une application de

RAM plus immersive et interactive pour l’utilisateur, donc d’augmenter « plus fortement »

la réalité. En ayant une bonne vue d’ensemble de la manière dont les modèles 3D sont mis

à profit dans les applications de RAM, la catégorisation des chaînes de production de ces

modèles 3D peut être effectuée ainsi que la formulation des caractéristiques que devra

posséder la chaîne de traitement visée par ce travail de recherche. Ces différents aspects

seront abordés dans le chapitre suivant.

Ah! Comme la neige a neigé, Ma vitre est un jardin de givre – Émile Nelligan

3. Chapitre 3 – Modèles 3D et augmentation de la réalité :

caractéristiques et taxonomie

Ce troisième chapitre vise à répondre au deuxième sous-objectif de ce projet de recherche

à savoir la détermination des critères auxquels doit répondre une chaîne de production de

modèles 3D adaptée aux applications de RAM fortement augmentées. Pour aider à la

définition de cette chaîne, nous proposons également la création d’une taxonomie qui

caractérise de manière détaillée trois thèmes intervenant dans de telles applications de

RAM fortement augmentées soit le niveau d’augmentation, le contenu des modèles 3D et

les méthodes d’acquisition.

3.1. Introduction

Comme il a été souligné dans les précédents chapitres, les modèles 3D de l’environnement

sont essentiels afin de mettre en œuvre une application de RAM qui propose un haut niveau

d’immersion et d’interaction. À la lumière de la revue de littérature effectuée dans les

domaines de la réalité augmentée mobile et des sciences géomatiques, le lien entre les

caractéristiques de ces modèles 3D et le niveau d’augmentation de la réalité qu’elles

peuvent induire n’est cependant pas clair, voire même non spécifié dans bon nombre de

travaux. Pourtant cette information nous parait essentielle pour mener à terme et de manière

efficiente un projet de RAM (que ce soit pour identifier les besoins relatifs à ces modèles

3D, les étapes d’acquisition et de traitement ainsi que les coûts associés). Ainsi, selon nous,

il n’existe à l’heure actuelle aucun guide, standard ou classification mettant en relation

explicitement modèle 3D et niveau d’augmentation. Donc actuellement, un concepteur

d’application de RAM ne possède aucun indice à propos des caractéristiques à valider lors

du choix d’un modèle 3D apte à supporter l’augmentation de la réalité visée. Par exemple,

nous estimons que l’exactitude du géoréférencement devrait être déterminée, même

grossièrement, dès le début d’un projet de RAM. Cette caractéristique du modèle 3D peut

avoir un impact direct sur le niveau d’augmentation réalisable. Un géoréférencement

approximatif du modèle 3D peut amener des imprécisions au niveau de la gestion des

occlusions entre éléments réels et virtuels et ainsi dégrader le sentiment d’immersion à

l’intérieur d’une application de jeu par exemple. L'intégration des objets virtuels dans le

champ de vue de l’utilisateur ne serait pas alors cohérente avec la réalité. Quelles sont donc

ces caractéristiques du modèle 3D qui influencent la qualité8 de l’augmentation? Nous

tenterons dans ce chapitre de répondre à ces questions notamment par la présentation d’une

taxonomie mettant en relation modèles 3D et niveaux d’augmentation possibles de la

réalité.

Dans le cadre plus restreint de ce projet de maîtrise, nous nous sommes butés à ce manque

d’information liant modèles 3D et augmentation de la réalité. En effet, le projet vise à

développer une chaîne de production de modèles 3D adaptée à la mise en œuvre de solution

de RAM s’inscrivant dans le contexte d’Anywhere Augmentation. Mais pour ce faire, il est

nécessaire de déterminer en premier lieu quelles sont les caractéristiques des modèles 3D

qui ont un impact sur la qualité de l’augmentation de la réalité. Il sera alors possible, dans

un deuxième temps, de proposer une chaîne de traitement produisant des modèles 3D qui

soient aptes à augmenter fortement la réalité. Une taxonomie a été élaborée afin de faire la

lumière sur ce point précis. Cette taxonomie présente trois thématiques, représentées

chacune sous la forme d’un continuum, à savoir le niveau d’augmentation de la réalité, les

spécifications des modèles 3D de l’environnement et les techniques d’acquisition et de

traitements des données géospatiales permettant d’élaborer ces modèles 3D. Compte tenu

de la complexité de la tâche que représente la conception de cette taxonomie, l’absence de

travaux similaires dans la littérature et le temps restreint alloué à ce projet de maîtrise, nous

présentons ici l’état actuel de nos réflexions, mais la taxonomie n’est pas considérée

comme étant achevée. La rédaction d’un article scientifique sur ce sujet est prévue

prochainement.

Ce chapitre est principalement consacré à la justification et à la description de la taxonomie

que nous avons été amenés à élaborer afin de pouvoir répondre au deuxième sous-objectif

de cette maîtrise. Les caractéristiques que doit présenter la chaîne de production de modèles

3D visée dans le cadre du présent projet de recherche seront décrites dans la dernière partie

8 La qualité de l’augmentation caractérise le degré d’aptitude d’un utilisateur d’une application de RA à

distinguer le réel du virtuel.

du chapitre en s’appuyant sur les éléments de la taxonomie. Le prototype conçu à partir de

l’énoncé de ces caractéristiques ainsi que les expérimentations qui ont été menées afin de

valider sa robustesse et sa capacité à augmenter la réalité seront présentés au prochain

chapitre.

3.2. Taxonomie : Modèles 3D et augmentation de la réalité

3.2.1. Description générale

Tel qu’illustré par la Figure 3.1, la taxonomie élaborée est constituée de trois continuums.

Ceux-ci font l’objet d’une gradation en fonction d’un ensemble de caractéristiques propres

à chacun d’eux. Ces continuums ont été identifiés suite à une revue de littérature portant sur

les modèles 3D exploités dans les applications de RAM et ils ont été jugés décisifs pour la

prise de décision et la caractérisation des modèles 3D en vue d’une augmentation de la

réalité. La taxonomie proposée possède l’avantage de présenter d’une manière succincte et

visuelle les trois continuums élaborés. La validation préliminaire de cette taxonomie a été

réalisée par plusieurs rencontres et échanges avec certains chercheurs impliqués dans le

projet GeoÉduc3D.

Le premier continuum (en haut de la Figure 3.1) représente les différentes techniques

d’acquisition et les traitements appliqués aux données géospatiales afin de construire des

modèles 3D de l’environnement. Les caractéristiques prises en compte pour ce continuum

sont le coût monétaire, le temps nécessaire, l’expertise requise, l’exactitude spatiale et le

niveau de détails géométriques atteignable. Celles-ci sont impliquées dans la phase

d’acquisition des données ainsi que dans celle de modélisation 3D. La gradation pour ce

continuum relativement aux caractéristiques choisies passe de faible à l’extrémité gauche

(ex. moins dispendieux) à fort à l’extrémité droite (ex. très dispendieux).

Le deuxième continuum (au milieu de la Figure 3.1) propose une hiérarchisation du

contenu possible des modèles 3D selon leur exactitude spatiale, le niveau de détails

géométriques, le type de texture puis le niveau de détails sémantiques. Par exemple, les

modèles les moins exacts ou les moins détaillés se retrouvent à gauche sur le continuum,

les modèles très exacts et très détaillés se retrouvent à droite.

Le troisième continuum (en bas de la Figure 3.1) concerne les différentes applications de

RAM. L’augmentation de la réalité y est divisée en trois niveaux qui seront décrits en détail

dans la section 3.2.4. Les applications de RAM sont positionnées le long du continuum en

fonction du niveau d’immersivité et de la richesse des interactions proposés à l’utilisateur.

Une application peu immersive et offrant peu ou pas d’interactions se retrouve à gauche sur

le continuum. Une application très immersive et riche en interactions se positionne à

l’extrémité droite du continuum.

La revue de la littérature a permis de déduire les liens existants entre les modèles 3D et les

différents niveaux d’augmentation du troisième continuum. À la section 3.2.5, les

caractéristiques des modèles 3D seront confrontées aux trois rôles (i.e. gestion des

occlusions, aide au calcul de la pose de la caméra et support à l’augmentation et aux

interactions) qu’ils peuvent jouer au sein d’une application de RAM. Une telle

confrontation a pour but de dégager les liens et les impacts existants entre ces

caractéristiques et la qualité de l’augmentation de la réalité (i.e. si le modèle 3D possède

des caractéristiques lui permettant de jouer l’un de ces trois rôles, une forte augmentation

de la réalité sera possible).

Les trois continuums vont maintenant être présentés en détails dans les prochaines sections.

Figure 3.1 - Taxonomie : Modèles 3D et augmentation de la réalité

3.2.2. Méthodes d’acquisition et de traitement des données géospatiales

Le premier continuum de la taxonomie concerne à la fois les diverses techniques

d’acquisition de données géospatiales et les traitements appliqués à ces données afin de

produire des modélisations 3D de l’environnement (cf. Figure 3.2). Il nous est apparu

évident que les instruments ayant servi à l’acquisition des données spatiales constituent la

première source d’information permettant de caractériser les modèles 3D élaborés. Nous

nous intéressons ici aux instruments de mesure au sol, à courte portée, et non aux

techniques d’acquisition aériennes ou spatiales. En effet, les techniques au sol s’inscrivent

spécifiquement dans le contexte visé par le présent projet impliquant un utilisateur ayant un

point de vue sur son environnement depuis la rue (i.e. street view). De plus, comme il a été

mis en évidence dans le chapitre 2, l’exploitation des modèles 3D dans les applications de

RAM impliquent généralement un recalage entre ceux-ci et la vue acquise par la caméra de

la plateforme mobile utilisée. Il est donc nécessaire que ces points de vue se correspondent.

D’autre part, le choix entre une technique d’acquisition terrestre ou aérienne/spatiale

s’effectue selon l’échelle et le niveau de détails requis pour l’utilisation subséquente des

données (i.e. la création de modèle 3D dans le présent contexte). Les techniques

d’acquisition au sol sont celles qui sont les plus appropriées aux cas des applications de

RAM fortement augmentées, c’est-à-dire celles spécifiquement visées dans ce projet. Ce

dernier point sera davantage mis en évidence lors de la confrontation des caractéristiques

des modèles 3D au trois rôles qu’ils peuvent jouer dans une application de RAM (cf.

section 3.2.5). Étant donné qu’il est difficile de présenter de manière exhaustive toutes ces

techniques d’acquisition de données spatiales à l’aide d’instrument au sol, nous nous

sommes concentrés sur celles qui sont les plus couramment utilisées dans l’industrie de la

géomatique afin d’illustrer le premier continuum.

Figure 3.2 - Continuum 1 - techniques d'acquisition et de traitement

Tel qu’indiqué à la Figure 3.2, les techniques d’acquisition de données spatiales ont été

classées en trois catégories, selon que l’équipement utilisé est :

1- Grand public : Cette catégorie rassemble les techniques reposant sur des

équipements accessibles à tous en magasin (ex. caméra, téléphone intelligent);

2- Statique spécialisé : Cette deuxième catégorie englobe les équipements spécialisés

de levé terrain statique (ex. station totale, GPS de type géodésique, LiDAR

terrestre). Au niveau du coût, ces équipements sont plus dispendieux que ceux

destinés au grand public. Ils peuvent être mis en œuvre rapidement sur le terrain par

une personne possédant une expertise sur leur fonctionnement;

3- Mobile spécialisé : Cette catégorie implique une planification préalable de

l’acquisition, réalisée par l’entreprise offrant des services de relevé avec le

l’équipement mobile très spécialisé (ex. système de LiDAR ou de caméras

embarqués sur un camion).

La gradation le long du continuum prend en compte les caractéristiques de coût monétaire,

de temps, d’expertise requise, d’exactitude spatiale et de niveau de détails géométriques.

Les techniques d’acquisition (ex. arpentage, photogrammétrie terrestre) qui figurent sur le

continuum sont des catégories remarquables, sans posséder toutefois de limites bien

définies, dans la continuité de ce continuum. La phase d’acquisition des données

géospatiales tout comme celle de l’élaboration des modèles 3D construits à partir de ces

données seront analysés en fonction des caractéristiques cités ci-dessus. Ces

caractéristiques sont jugées décisives dans le processus de construction de modèles 3D.

Elles ont été identifiées à partir de notre revue de littérature (ex. (Reitmayr et Drummond

2006), (Julier, et al. 2001)) et de rencontres avec des professionnels œuvrant dans

l'industrie du géospatial 3D (ex. Rob Harrap (Queen’s University), Chantal Arguin (Groupe

Trifide) et Paul Mrstik (Terrapoint)). Ces caractéristiques vont bien entendu déterminer

celles du modèle 3D résultant. Les caractéristiques des modèle 3D seront présentées à la

prochaine section. Voici donc une description détaillée des éléments auxquels font

référence chacune des cinq caractéristiques retenues :

1. Temps : Le temps requis afin d’effectuer un relevé sur le terrain. Il faut noter que si

les techniques nécessitant de l’équipement grand public ou spécialisé statique

peuvent être mises en œuvre immédiatement, les techniques nécessitant de

l’équipement spécialisé mobile requiert une planification préalable et

l’établissement d’un contrat de levé terrain. Le temps requis pour la modélisation

3D subséquente est également pris en compte dans ce continuum;

2. Coût : Le coût monétaire inhérent à l’achat de l’instrument d’acquisition et à la

réalisation des relevés. Pour les techniques mobiles spécialisées, le coût attendu

pour un contrat est indiqué. La présente caractéristique implique également le coût

d’achat des logiciels de modélisation 3D requis;

3. Expertise requise : Le niveau de connaissances techniques des ressources

humaines requises afin de mettre en œuvre la collecte de données et d’effectuer la

modélisation 3D subséquente. La connaissance nécessaire pour mettre en œuvre

une technique d’acquisition ou pour l’utilisation d’un logiciel de modélisation 3D

peut être mesurée simplement selon une échelle basée sur le niveau d’études de

l’utilisateur: 1- une courte formation de quelques heures, 2- un diplôme d’études

professionnelles, 3- un diplôme d’études collégiales et 4 - un diplôme d’études

universitaires;

4. Exactitude spatiale : Le niveau de correspondance en termes de taille, de forme et

de position entre les données géospatiales acquises et l’objet de la modélisation.

L’exactitude spatiale inclut l’exactitude géométrique (taille et forme) et

l’exactitude du géoréférencement (position);

a. Exactitude géométrique : Le niveau de correspondance en termes de taille

et de forme entre les données servant à la modélisation 3D et l’objet de la

modélisation. Une manière d’évaluer l’exactitude spatiale est de vérifier si

les données géospatiales captées respectent un écart acceptable, donné selon

l’application finale visée, à l’objet mesuré. Par exemple, pour l’arpentage

d’une maison, si la différence entre le relevé terrain et les mesures réelles

concernant la largeur, la hauteur et la longueur de l’édifice est inférieure à

une tolérance donnée, alors l’exactitude géométrique du relevé est

considérée comme validée;

b. Exactitude du géoréférencement : Le niveau de correspondance en termes

de position entre les données servant à la construction d’un modèle 3D et

l’objet de la modélisation. Le géoréférencement est l’association d’une

position géographique à un objet. Une transformation mathématique est

nécessaire afin de convertir les coordonnées d’origines d’un objet (ex.

référentiel local) dans un référentiel géographique global (ex. projection

UTM (Universal Transverse Mercator)). Un indicateur de l’exactitude du

géoréférencement est la distance ( x, y, z) entre les coordonnées

géographiques de l’objet mesuré et l’objet réel. Le contexte d’application

dictera la tolérance minimale à atteindre. Le géoréférencement s’effectue en

connaissant au minimum trois points dans les deux systèmes de

coordonnées. Cette connaissance permet de déterminer la translation, la

rotation et le facteur échelle à appliquer à tout le jeu de données pour le

transformer dans le référentiel global. Pour ce faire, plusieurs techniques

existent, chacune conduisant à une exactitude variable. Un relevé par

récepteur GPS de haute précision conduira à un géoréférencement du

modèle 3D résultant avec une exactitude centimétrique. Une exactitude

semblable sera atteinte si l’équipement utilisé est une station totale. Dans ce

cas, des points géodésiques (i.e. points de références physiques avec des

coordonnées connues dans un référentiel global) ainsi qu’au minimum trois

points ayant servis à la construction du modèle 3D doivent être relevés. Une

autre approche de géoréférencement implique l’utilisation d’une application

de cartographie (ex. Google Maps) afin d’obtenir rapidement des

coordonnées dans un système global. Cependant, l’exactitude obtenue par

cette méthode est de quelques mètres (Thomas, Daniel et Pouliot 2010).

Notons que le géoréférencement peut être effectué à tout moment, sur le

terrain lors de la collecte de données (ex. utilisation d’un récepteur GPS ou

d’une station totale en relevant des points géodésiques), au moment de

manipuler les données brutes, lors de la modélisation 3D ou sur une fois le

modèle 3D complété;

5. Niveau de détails géométriques : La capacité de la technique d’acquisition et de

modélisation 3D à fournir facilement et rapidement certains éléments géométriques

en fonction d’une classification pré-établie. Un niveau de détails géométriques pour

un modèle 3D fait référence à la complétude d’éléments de la géométrie modélisés

en fonction de l’objet de la modélisation. Pour un modèle 3D de bâtiment, des

exemples de niveaux de détails géométriques peuvent être l’aspect général, les

détails du toit, la présence de fenêtres et plus. Un bon exemple de classification

pré-établie de modèles 3D par niveaux de détails est CityGML

(www.opengeospatial.org/standards/citygml). Cette norme de l’OGC (Open

Geospatial Consortium) propose cinq niveaux de détails bien définis. Les

différentes techniques d’acquisition de données géospatiales vont permettre

d’obtenir facilement ou non un niveau de détails géométriques décidé par une

personne en charge. Par exemple, un relevé LiDAR permettra de construire

facilement et rapidement un modèle 3D comprenant des petits détails géométriques

(ex. poignée de porte, gouttières), tandis que cela se voit être beaucoup plus long et

ardu à réaliser avec un relevé d’arpentage. Une technique d’acquisition de données

sera adéquate que si elle permet une modélisation 3D qui est respecte les

spécifications d’un niveau de détails géométriques visé.

Nous venons de présenter les caractéristiques impliquées au niveau du premier continuum

de la taxonomie. Celles-ci permettent de situer une technique d’acquisition de données

géospatiales et de modélisation 3D le long de ce continuum. Les prochains paragraphes

vont passer en revue les différentes techniques d’acquisition de données spatiales

actuellement mises en œuvre dans l’industrie de la géomatique et les confronter aux

caractéristiques énumérées précédemment. Une telle démarche permettra d’illustrer par des

exemples concrets le premier continuum de notre taxonomie.

3.2.2.1. Acquisition de données

3.2.2.1.1. Techniques impliquant de l’équipement accessible au grand public

Instruments à la portée de tous. L’acquisition de données spatiales peut être réalisée avec

des instruments de mesures simples et à la portée de tous. Nous pouvons citer par exemple

l’utilisation d’une chaîne d’arpentage ou d’une corde, d’une boussole et il est même

possible de simplement compter ses pas en marchant pour obtenir une approximation d’une

distance. Toutes ces approches constituent des techniques d’acquisition rapides de données

spatiales. Une courte formation peut être nécessaire pour mettre ces techniques en œuvre.

Notons aussi que les téléphones intelligents, qui possèdent généralement une caméra, des

accéléromètres, une boussole numérique et un récepteur GPS, peuvent aussi être utilisés

afin de collecter des données à caractère spatial.

Photogrammétrie terrestre. Une modélisation 3D par approche photogrammétrique

implique la détermination de propriétés géométriques d’éléments à partir de photos prises

depuis plusieurs points de vue et présentant des régions communes se superposant. Le

processus d’acquisition de la donnée de base (i.e. les photographies) est simple, rapide (i.e.

quelques minutes pour un bâtiment) et ne requiert comme équipement qu’une caméra

numérique grand public que l’on retrouve en magasin. L’approche d’acquisition de

photographies est dite orientée espace (cf. Annexe 1), c'est-à-dire que tout l’espace est

capturé sans distinction entre les objets présents dans l’environnement. Par la suite, les

images acquises sont transférées dans un logiciel spécialisé de photogrammétrie où les

objets présents dans l’environnement seront définis et extraits individuellement (soit à

partir d’interprétation humaine ou informatisée). Le coût pour un logiciel de

photogrammétrie terrestre peut varier de 1000$ jusqu’à environ 3000$

(www.photomodeler.com, www.iwitnessphoto.com) selon les fonctionnalités voulues (ex.

automatisation de certaines opérations; création de surfaces denses; ajout de formats

d’entrées-sorties). Certains logiciels issus du domaine du Code Ouvert (i.e. open source)

sont accessibles tel que Arpenteur (http://sudek.esil.univmed.fr/atk/). La compagnie

Autodesk offre aussi un logiciel gratuit, Photo Scene Editor, qui permet d’extraire un

modèle 3D à partir d’images prises d’une caméra non-calibrée

(http://labs.autodesk.com/utilities/photo_scene_editor/). Un technicien formé à l’utilisation

d’un tel logiciel (sans connaissances préalables en géomatique ou photogrammétrie

requises) peut alors interpréter puis extraire la géométrie de l’objet photographié puis

reconstruire le modèle 3D associé. La modélisation d’un bâtiment très complexe tel le

Château Frontenac représenté dans le Tableau 3.2 peut être ardue et demander une longue

période de travail, même pour un technicien expérimenté. Cependant, ces logiciels de

photogrammétrie permettent d’effectuer des modélisations de bâtiment et de détails

architecturaux complexes avec un haut niveau de détails tel qu’illustré à la Figure 3.3 où la

modélisation 3D a nécessité plus de 200 clichés.

L’exactitude et le niveau de détails géométriques du modèle 3D produit repose sur un

ensemble de facteurs : la force du réseau des prises de photos9, la précision de la calibration

de la caméra si requise par le logiciel, l’expertise du technicien, le temps accordé pour la

réalisation de la modélisation, la résolution et l’orientation des photos. Eos Systems Inc.,

une compagnie spécialisée en photogrammétrie, affirme obtenir à l’aide de son logiciel

Photomodeler une exactitude géométrique inférieure à cinq centimètres pour un objet

d’environ 15 mètres de largeur dans le sens de la photo

(www.photomodeler.com/kb/entry/25/).

9 En photogrammétrie terrestre, le réseau défini l’ensemble des emplacements des clichés pour un objet donné

et son design a pour but de satisfaire les critères de qualité pré-définis (i.e. précision et fiabilité) en un

minimum d’efforts (Parian et Gruen 2005). Une géométrie forte fera en sorte que les rayons optiques pour un

même point se croisent à un angle le plus près possible de 90° afin d’obtenir une meilleure précision des

coordonnées 3D résultantes. Aussi, l’ajout de clichés augmentera la redondance dans le réseau et en

améliorera sa robustesse.

Figure 3.3 - Modélisation 3D du Merlion de Singapour par le logiciel PhotoModeler

(www.photomodeler.com/applications/architecture_and_preservation/examples.htm)

3.2.2.1.2. Techniques requérant de l’équipement statique spécialisé

Arpentage. L’apparition de l’arpentage remonte au début de la civilisation égyptienne. Un

« tendeur de corde » à l’aide d’une corde à nœuds permettait de rétablir les limites des

propriétés après les crues annuelles du Nil en Égypte ancienne (cf. Figure 3.4). Aujourd’hui

des équipements sophistiqués sont utilisés tels la station totale ou le récepteur GPS de haute

précision pour effectuer ce même type de tâche. En conditions normales, ces appareils

permettent de relever des objets ponctuels à une précision centimétrique. Cependant, un

seul point à la fois peut être enregistré et la cadence d’acquisition peut être augmentée en

utilisant une station totale robotisée. Cette approche est dite orientée objet, car la collecte de

données ne s’effectue pas sur tout l’espace mais bel et bien en en fonction de l’existence ou

non d’un objet (autrement dit aucune étape ultérieure d’interprétation n’est requise pour

savoir que tel ou tel objet dans l’environnement est capté, comme cela était nécessaire dans

le contexte de l’approche d’acquisition orientée espace). Certaines stations totales récentes

(ex. la série GPT-7000i de Topcon) possèdent également une caméra numérique afin de

capter les images des points relevés et ainsi permettre l’application de textures lors de la

modélisation 3D. Le temps consacré à l’acquisition peut être de plusieurs heures voire

plusieurs jours selon la couverture et le nombre d’objets présents dans l’environnement.

Julier et al. (2001) expliquent qu’en contexte de modélisation 3D, certains détails de

bâtiments sont difficiles à relever par les techniques d’arpentage (ex. fenêtres, toitures

complexes, ornements architecturaux). Le coût d’achat des appareils est de quelques

milliers de dollars et une formation est nécessaire pour une personne n’ayant aucune

expérience avec ces appareils afin de pouvoir les utiliser correctement. Pour un relevé

effectué par des techniciens en arpentage, l’Ordre des arpenteurs-géomètres du Québec

indique que le coût pour une équipe terrain est d’environ de 165$ de l’heure (Ordre des

arpenteurs-géomètres du Québec 2010). Les points relevés peuvent ensuite servir de base à

la modélisation 3D en utilisant par exemple un logiciel spécialisé de type CAO (Conception

Assistée par Ordinateur). Ce dernier peut coûter quelques milliers de dollars (ex. 4000$

pour le populaire logiciel AutoCAD (http://store.autodesk.com)), mais quelques gratuiciels

existent également (ex. Archimedes, BRL-CAD, gCAD3D). Le temps requis pour la

modélisation dépend de l’expérience du modeleur avec le logiciel ainsi que de la

complexité du modèle 3D à produire.

Figure 3.4 - Arpentage en Égypte ancienne, scène du tombeau de Menna (Schultz 1983)

LiDAR terrestre. Le LiDAR (Light Detection And Ranging) terrestre (ou statique) est un

appareil conçu pour balayer une scène en 3D en utilisant un rayon laser (cf. Figure 3.5a).

La distance entre le LiDAR et un objet est calculée en mesurant soit le temps écoulé soit la

différence de phase entre l’émission et la réception du rayon laser en fonction de la

technologie utilisée (Shan et Toth 2009). La coordonnée 3D de l’endroit où le rayon laser a

intersecté l’objet est calculée à partir de cette distance et de l’orientation du capteur laser au

moment de l’émission/réception du signal. Les appareils récents (ex. ScanStation C10 de

Leica) permettent d’atteindre des précisions angulaires de 12" (horizontal/vertical) et des

précisions au delà du centimètre pour un objet situé à une distance de l’appareil variant de 1

à 50 mètres (Leica Geosystems, 2009). La plupart des LiDAR terrestres permettent de

balayer la scène sur 360 degrés à une cadence allant jusqu’à 50 000 points par seconde pour

le ScanStation C10. Le LiDAR peut être considéré comme étant une technique orientée

espace et objet à la fois, car tout l’espace est scanné d’une manière non fonctionnelle (i.e.

peu importe les objets s’y trouvant), mais les surfaces formant les objets de

l’environnement se voient être définies (en totalité ou en partie) explicitement en 3D selon

la densité des points relevés. Une modélisation 3D de type matricielle (ex. voxels) ou

vectorielle (ex. B-Rep) (cf. Annexe 1) peut être produite à partir d’un nuage de points

LiDAR. Les données enregistrées sont constituées de plusieurs milliers, voire millions de

points 3D, ce qui complexifie à la fois leur interprétation et leur traitement. En effet, peu de

logiciels encore actuellement sont en mesure d’offrir une visualisation et une manipulation

fluides de telles quantités de données (cf. Figure 3.5b). Certains appareils possèdent une

caméra et donc permettent le drapage de textures sur le modèle 3D élaboré à partir du

nuage de points ou bien encore l’association d’une information de couleur (i.e.

composantes Rouge, Vert, Bleu) aux points 3D. Le coût d’achat d’un appareil de ce type

est de l’ordre de 150K$ CAN et une courte formation sur ce type d’équipement est

nécessaire afin de savoir comment mettre en œuvre le processus d’acquisition de donnée.

La modélisation 3D subséquente peut être ardue et coûteuse en termes de temps. En effet, il

existe peu de fonctions automatisées pour la construction de modèles 3D à partir de

données LiDAR terrestre. L’essentiel du travail est réalisé manuellement par un opérateur

(cf. Figure 3.5c). Celui-ci doit composer avec des données qui sont ponctuelles pour saisir

des primitives géométriques qui sont continues (ex. les coins et arêtes de bâtiment sont

souvent mal définis dans un levé LiDAR) et avec un nombre important de points de bruit

relatifs aux éléments présents dans l’environnement (ex. végétation, arbre, piéton, …). Par

conséquent, ce processus de modélisation requiert un technicien expérimenté, familier avec

les représentations spatiales en trois dimensions. Pour en savoir plus sur les différentes

approches élaborées pour réaliser une modélisation 3D à partir d’un nuage de points, on

référera le lecteur à l’article de Fabio (2003). En termes de coût, les logiciels spécialisés

permettant de traiter ces nuages de points peuvent varier de quelques centaines de dollars à

plusieurs dizaines de milliers de dollars tels que PolyWorks d’Innovmetric

(www.innovmetric.com), PointCloud de Kubit (www.kubit-software.com) ou Bentley

CloudWorx (www.bentley.com). Plus récemment, un logiciel d’édition de nuage de points

nommé Meshlab en code ouvert est disponible à tous (http://meshlab.sourceforge.net/).

Figure 3.5 - a) Sytème LiDAR statique sur trépied (photo : David Monniaux) b) Nuage de

points représentant une maison (www.formz.com/forum2/messages/16/31092.jpg) c)

Processus de modélisation 3D (détermination des arêtes des objets, lignes de couleurs)

(www.kubitusa.com)

3.2.2.1.3. Techniques requérant de l’équipement mobile spécialisé

Photographie mobile. Un modèle 3D peut être créé à partir de photos prises

simultanément depuis plusieurs caméras calibrées montées sur un véhicule selon une

configuration prédéfinie impliquant un positionnement relatif des caméras entre elles et vis-

à-vis des instruments de positionnement du véhicule s’ils sont présents (i.e. récepteur GPS,

centrale inertielle) (Cornelis, et al. 2007) (cf. Figure 3.6a). Les images captées, une fois

mosaïquées, produisent des panoramas (cf. Figure 3.6b) qui sont géoréférencés et

redressés10

à partir des données provenant des capteurs de positionnement à bord du

véhicule ou à partir de points de contrôles connus et repérables dans les panoramas.

Comme mentionné, ces panoramas sont très populaires actuellement dans les applications

de cartographie en ligne (ex. Google Maps et Bing Maps) et présentent une couverture

spatiale très étendue (cf. Figure 2.20). Le véhicule de captage n’a pas besoin de réduire sa

vitesse au moment d’effectuer l’acquisition des photos pour les applications de panoramas

populaire (ex. Google Maps), mais elle est réduite lorsque l’exactitude spatiale des données

est critique (ex. environ 30km/h pour le système GeoAutomation pour une exactitude du

géoréférencement sous les deux centimètres pour un point au sol (Arguin, et al. 2009)).

L’enregistrement des données caractérisant un environnement donné s’effectue donc

rapidement. Un conducteur et parfois un opérateur ayant reçu une courte formation peuvent

être présents lors du relevé. Certaines compagnies privées proposent des panoramas pour

lesquels une coordonnée géographique 3D est associée à chacun des pixels. Une compagnie

québécoise, Groupe Trifide, quant à elle obtient une précision absolue (X, Y, Z) pour

chacun des pixels inférieure à dix centimètres (Groupe Trifide 2010). Les coûts inhérents à

la réalisation d’un tel panorama sont variables mais se situent autour de quelques centaines

de dollars par kilomètre linéaire. Un contrat de relevé est nécessaire et donc implique une

planification préalable au levé. Une discussion avec une compagnie privée offrant ce

service nous a permis de déterminer qu’en général, un délai de deux et à quatre semaines

s’écoule entre la signature du contrat et le levé. Les panoramas résultants sont utilisables

dans un logiciel de type CAO ou SIG (i.e. via un plugin) dans le but d’extraire les objets

présents dans l’environnement souvent dans un contexte cartographique 2D. Une

modélisation 3D est également possible. Dans ce contexte, la modélisation est effectuée à

partir de nuages de pixels 3D obtenus par corrélation entre les différentes images de

l’environnement acquises suivant différents points de vue (cf. Figure 3.7a). Cette méthode

d’acquisition est orientée espace. En effet, les objets présents dans les images captées

Le redressement est une opération qui consiste à « reproduire » une photographie aérienne et à la rendre

telle qu'elle eût été si l'appareil de prise de vues avait été « rigoureusement » vertical au moment de

l'ouverture de l'obturateur. (Office québécois de la langue française, 2010)

devront être extraits d’une manière manuelle ou automatique. Une modélisation manuelle à

partir du nuage de pixels est possible (cf. Figure 3.7b). Cependant, nous n’avons pas reçu

de réponse à nos demandes faites à une compagnie spécialisée afin d’obtenir des

informations supplémentaires à ce sujet. Nous avons recensé une autre approche

automatique de modélisation 3D qui est basée sur un maillage triangulaire à partir du nuage

de points. À titre d’exemple du temps nécessaire pour élaborer une modélisation 3D à partir

de données acquises selon une approche de photographie mobile, le groupe Trifide utilise

un logiciel maison, reposant sur une méthode de maillage triangulaire, qui nécessite

quelques dizaines d’heures de calculs afin de faire le rendu d’une scène 3D possédant un

niveau élevé de détails géométriques (cf. Figure 3.8).

Figure 3.6 - a) Voiture équipée de caméras (EarthMine), b) Panorama et huit points de vue

différents (Google StreetView)

Figure 3.7 - a) nuage de pixels 3D, b) Modélisation 3D des surfaces (en blanc) formant les

bâtiments présents dans la scène (Earthmine, vidéo promotionnelle)

Figure 3.8 - Modélisation 3D par un maillage triangulaire (en bleu) (vidéo promotionnelle,

Groupe Trifide)

LiDAR mobile. Un appareil LiDAR peut également être installé à bord d’un véhicule (cf.

Figure 3.9). Des récepteurs GPS ainsi qu’une centrale inertielle équipent également le

véhicule afin de connaître la position et l’orientation de l’appareil en tout temps (cf. Figure

3.10). Le balayage de la scène est effectué à une vitesse de conduite sécuritaire ne requérant

pas de fermeture de voie, même sur les autoroutes

(www.ambercore.com/infrastructure.php). Le type des données acquises est similaire à

celui du LiDAR statique à savoir des nuages de points 3D. Une caméra peut aussi être

montée sur le véhicule afin de capter une séquence vidéo du trajet effectué et donc des

objets et éléments scannés. Ce type de levés est généralement effectué par des compagnies

spécialisées, et il faut prévoir quelques dizaines de milliers de dollars en termes de coût

pour le service offert. Pour ce qui est de l’exactitude spatiale d’un tel levé, elle peut être

supérieure à 15 centimètres pour certains systèmes (Glennie 2009). Récemment, les

voitures de saisie de données de Google, Navteq et TeleAtlas se sont équipées de LiDAR

pour capter des nuages de points 3D (Google 2010), mais la possibilité future d’utiliser ces

données librement pour le développement d’applications est incertaine. En termes de

modélisation 3D, les techniques et logiciels utilisés sont similaires à ceux exploités dans le

contexte du LiDAR terrestre étant donné que les données acquises sont les mêmes. Le

volume de données engendrées dans le cas du LiDAR mobile est bien supérieur à celui des

données LiDAR terrestre. Il est donc fréquent de découper le nuage de points 3D global

sous forme de tuiles adjacentes afin d’en faciliter le traitement.

Figure 3.9 - Système LiDAR embarqué sur un camion (LiDAR Titan d’Ambercore)

Figure 3.10 - Système de relevé LiDAR Streetmapper (Haala, et al. 2008) (traduction libre

des termes)

Les techniques d’acquisition de données spatiales présentées en lien avec le continuum

doivent être mises en œuvre si aucun modèle 3D n’est présent. Cependant, l’acquisition de

données n’est pas toujours requise car il est possible que des modèles 3D soient disponibles

et récupérables pour une zone géographique donnée.

3.2.2.2. Récupération de modèles 3D existants

Les techniques d’acquisition de données géospatiales décrites précédemment sont mises en

œuvre si aucun modèle 3D n’existent pour un environnement donné. Cependant, une autre

possibilité est que les modèles 3D existent déjà et soient disponibles et récupérables. La

récupération de données existantes évite donc la capture de données géospatiales sur le

terrain et la modélisation 3D qui suit. Conséquemment, en fonction de notre taxonomie (cf.

Figure 3.1), le premier continuum n’intervient pas puisque les modèles 3D sont récupérés

d’une source tierce. Cela n’exclut pas que ces modèles 3D puissent subir des traitements

avant d’être utilisés dans un contexte de RAM. Ces modèles 3D peuvent être récupérés à

partir d’infrastructures de données 3D ou bien en utilisant des services web 3D. Bien que

ces deux approches de mise à disponibilité de modèles 3D ne s’inscrivent pas dans la

catégorie des techniques d’acquisitions de données géospatiales ou des procédés de

modélisation 3D, leur popularité actuelle en fait des sources pertinentes pour l’obtention de

modèles 3D.

Infrastructures de données 3D. Plusieurs modèles 3D sont disponibles et accessibles au

travers d’infrastructures de données 3D (ex. Google 3D Warehouse, 3DVia). Celles-ci

peuvent contenir des modèles 3D géoréférencés (i.e. pouvant être affichés au travers de

globes virtuels tels que Google Earth ou Bing) ou non (ex. objets virtuels : personnage,

végétation, véhicule). Les développeurs de ces applications incitent le grand public à

modéliser une partie de leur environnement puis à partager ces modèles 3D au sein de ces

globes virtuels (ex. http://sketchup.google.com/intl/fr/3dwh/citiesin3d/). Les modèles 3D

ainsi produits par le grand public seront également stockés dans l’infrastructure de données

3D associé au globe virtuel. Les utilisateurs peuvent déposer et télécharger des modèles 3D

sous forme de fichier depuis ces infrastructures, mais seulement un à la fois. Une telle

approche peut devenir problématique en termes du temps impliqué advenant le besoin de

télécharger tout un quartier d’une ville. En effet, la plupart les modèles déposés ne

contiennent qu’un seul bâtiment. Le grand public étant à la source des modèles stockés

dans ces infrastructures, la qualité en termes d’exactitude spatiale et de niveau de détails

géométriques n’est pas garantie. Google 3D Warehouse propose une approche de contrôle

de la qualité de ces modélisations où une cote est attribuée à chaque modèle. L’évaluation

est effectuée par les pairs et visualisable par à l’aide d’une symbologie simple (i.e. une à

cinq étoiles). Cependant, avant qu’un modèle 3D ne soit publié et accessible à tous dans

Google Earth, une évaluation est effectuée par le personnel de Google. Les modèles publiés

doivent entre autres être : texturés, correctement positionnés selon l’imagerie satellitaire et

ne doivent pas être trop complexes afin de limiter le temps de chargement

(http://sketchup.google.com/intl/fr/3dwh/acceptance_criteria.html).

Services web 3D. Une autre manière de récupérer de l’information via l’Internet consiste à

utiliser des services web. Ces applications utilisent des protocoles standards afin de donner

un accès en ligne à ces sources d’information par un client distant. Seule une poignée de

serveurs sont en mesure actuellement de fournir des objets 3D. Un exemple est

OpenStreetMap-3D, qui est développé au sein du projet de recherche ―Geodata

Infrastructure 3D‖ (www.gdi3d.de) en Allemagne. L’entrepôt de données 3D est peuplé par

la combinaison des données 2D d’OpenStreetMap et des données d’élévation des bâtiments

fournies par la Shuttle Radar Topography Mission (SRTM). Une application Java est

nécessaire pour la visualisation de ces modèles 3D. La couverture actuelle de ce service

web 3D est restreinte à l’Allemagne et la communauté supportant de telles initiatives reste

encore discrète. Citons aussi le GeoPortail (www.geoportail.fr) de l’IGN France,

permettant l’affichage de données 3D (ex. modèles numériques de terrain et bâtiments)

directement dans le navigateur web via le moteur 3D TerraExplorer (cf. Figure 3.11).

Aussi, l’organisation Geoscience Australia

(www.ga.gov.au/resources/multimedia/3dmodels.jsp) permet l’affichage de données

géophysiques 3D via le globe virtuel de la NASA WorldWind.

En parallèle du développement de ces services web, des efforts sont réalisés en termes de

standardisation des services de données 3D. L’OGC (Open Geospatial Consortium)

travaille actuellement sur le W3DS (Web 3D service). Ce standard de service web sera en

mesure de fournir, avec plusieurs niveaux de détails, des objets 3D tels que des bâtiments

texturés, des modèles de terrain, de la végétation et du mobilier urbain (Schilling et Kolbe

2010). Citons aussi Pouliot et al. (2008) qui ont développé une architecture de service web,

basée sur le standard Geography Markup Language (GML) et Web Feature Server (WFS),

nommée Web Geological Feature Server (WGFS) qui est adaptée à la géologie. Ce service

web permet de requêter, spatialement ou par attributs, des solides géologiques 3D puis de

les afficher.

Figure 3.11 - GeoPortail, Modèles 3D de la ville de Paris

3.2.3. Spécifications des modèles 3D

La Figure 3.12 présente le deuxième continuum de la taxonomie qui porte sur les modèles

3D en tant que tels et sur leur niveau de représentation ou de contenu. Ces modèles sont

issus de la modélisation 3D réalisée à partir des données géospatiales et des techniques

abordées lors de la description du premier continuum. Les caractéristiques retenues pour

décrire ces modèles 3D sont l’exactitude spatiale, le niveau de détails géométriques, le type

de texture et le niveau de détails sémantiques. Par exemple, sur le continuum plus le

modèle 3D se situe à la gauche du continuum et plus il possède une faible exactitude

spatiale et un faible niveau de détails sémantiques. A l’inverse, plus le modèle 3D se situe à

la droite du continuum, plus son exactitude spatiale et son niveau de détails sémantiques

sont élevés.

Figure 3.12 - Continuum 2 – Spécifications des modèles 3D

Voici une description détaillée des éléments auxquels font référence chacune des quatre

caractéristiques retenues :

1. Exactitude spatiale : Cette caractéristique a été discutée pour le continuum

précédent et s’applique également pour le deuxième continuum. Il s’agit du niveau

de correspondance en termes de taille, de forme et de position entre le modèle 3D

et l’objet de la modélisation. L’exactitude spatiale inclut l’exactitude géométrique

(taille et forme) et l’exactitude du géoréférencement (position);

a. Exactitude géométrique : Le niveau de correspondance en termes de taille

et de forme entre le modèle 3D et l’objet de la modélisation. Cette

exactitude se mesure à la déformation spatiale du modèle 3D par rapport à

l’objet original. Un barème de cette déformation spatiale peut être établi

selon le contexte d’utilisation afin de valider ou non l’exactitude

géométrique. Une application simple de visualisation de modèles 3D

impliquera par exemple une exactitude géométrique beaucoup plus faible

qu’un modèle 3D d’échangeurs d’autoroutes dans un contexte de génie civil.

À la Figure 3.12, à gauche, l’exactitude géométrique est assez faible compte

tenu que le modèle 3D ne respecte pas les proportions de l’objet original.

L’exactitude géométrique augmente au centre du continuum jusqu’à

parfaitement respecter les proportions originales de l’objet dans l’image de

droite.

b. Exactitude du géoréférencement : Le niveau de correspondance en termes

de position entre le modèle 3D et l’objet de la modélisation. Tout comme le

continuum précédent, un indicateur de l’exactitude du géoréférencement

peut être la différence spatiale ( x, y, z) entre les coordonnées

géographiques du modèle 3D et de l’objet réel. Dans la Figure 3.12 le

géoréférencement se voit être plus exact à mesure que l’on se déplace vers la

droite du continuum (le rectangle en pointillé rouge représente ici la position

réelle de la maison).

2. Niveau de détails géométriques : La complétude des éléments de la géométrie du

modèle 3D par rapport à l’objet de la modélisation. Étant donné qu'un modèle est

une simplification d'une réalité, il est d'abord évident que nous devons simplifier

cette réalité et que des choix doivent se faire. Il est donc pertinent de se demander,

jusqu'à quel niveau de simplification un modèle demeure adéquat pour répondre à

un besoin spécifique de représentation. Nous estimons que ce niveau de détails est

estimable à partir du nombre d'éléments géométriques contenus dans le modèle par

rapport à la réalité. Par exemple, imaginons que nous devons représenter une

maison possédant une corniche, un patio, une verrière, plusieurs fenêtres, etc. Si le

modèle 3D utilisé pour représenter cette maison est un cube, qui représente en fait

une unique simplification de la structure principale de la maison, nous pourrons

alors indiquer que le niveau de détail est bas (par rapport aux éléments constituants

la maison réelle). Le niveau de détails géométriques est illustré au deuxième

continuum. À la gauche de la Figure 3.12, le modèle 3D possède très peu de détails

(une simple boîte), le niveau de détails augmente dans l’image du centre où la

toiture est présente et l’image de droite illustre un niveau de détails très élevé étant

donné que la cheminée, les fenêtres et la véranda y sont modélisées.

3. Type de texture : L’apparence graphique d’un modèle 3D. Le type de texture

évolue d’une extrémité à l’autre du deuxième continuum. À gauche, le modèle 3D

n’est pas texturé; au milieu du continuum, le modèle 3D est simplement texturé par

une couleur uniforme; à droite, la texture appliquée au modèle 3D admet un attribut

relatif au matériel constitutif des éléments de la maison (ex. briques, bois) en plus

de l’attribut de couleur. Le niveau final situé le plus à droite mais non illustré dans

le continuum, serait une texture photo-réaliste, donc provenant d’images réelles

prises sur le terrain.

4. Niveau de détails sémantiques: Selon Kolbe et al. (2005), l’information

sémantique permet de préciser la définition et les caractéristiques (attributs) d’un

objet ainsi que ses relations possibles avec d’autres objets, cela dépendant souvent

du domaine d’application. Par exemple, dans notre deuxième continuum (cf. Figure

3.12) la dernière image contient des informations sémantiques sur le modèle en

général (i.e. nom du propriétaire) et sur certaines parties de la géométrie du modèle

3D (i.e. porte et fenêtres). L’intégration de données sémantiques avec les modèles

géométriques est possible et souhaitable. Cependant, les formats actuels des

modèles 3D tels OBJ ne permettent pas ou peu cette intégration. La norme

CityGML (www.opengeospatial.org/standards/citygml) est surement l’un des

efforts notables dans l’intégration des données sémantiques (cf. Figure 3.13).

L’intégration de détails sémantiques est une préoccupation dans le milieu de la

construction et de l’entretien de bâtiments et par conséquent des percées sont

réalisées dans ces domaines. Par exemple, le modèle d’information standard IFC

(Industry Foundation Classes), utilisé dans les fichiers CAO (Conception Assistée

par Ordinateur) de type Building Information Model (BIM), vise l’interopérabilité

entre les différentes disciplines (ex. architecture, ventilation, chauffage,

planification de construction)

(www.iso.org/iso/catalogue_detail.htm?csnumber=38056). Ce modèle est apte à

gérer autant les données géométriques que sémantiques. Celles-ci peuvent donc

être échangées entre les acteurs selon le standard de l’IFC. La consommation

d’énergie, l’émission de CO2, le taux d’occupation d’un immeuble sont des

exemples d’informations sémantiques d’importance et supportés par ce standard

(www.buildingsmart.com/bim). Pour plus de détails concernant les BIM qui

utilisent le standard IFC, nous dirigerons le lecteur vers les rapports de la firme

McGraw-Hill (McGraw-Hill Construction 2008), (McGraw-Hill Construction

2007).

Figure 3.13 - Lien entre l'information sémantique à et la géométrie pour un modèle 3D de

bâtiment (Kolbe, Nagel et Stadler 2009)

Afin d’illustrer les spécifications possibles de ces modèles 3D, les sections suivantes

présentes différents exemples concrets de modèles 3D provenant de plusieurs sources

d’acquisition. .

Cet exemple illustre un modèle 3D issu de données acquises par photogrammétrie terrestre.

Reitmayr (2006) a produit un modèle 3D par photogrammétrie terrestre afin de supporter

une application de RAM. Tel qu’illustré à la Figure 3.14, le niveau de détails géométriques

est limité aux façades et les petits éléments ne sont pas pris en compte (ex. les montants de

fenêtres). Le modèle 3D est formé par des plans sur lesquels la texture provenant des

photographies y a été drapée. Cette texture est hautement détaillée et photo-réaliste. Le

géoréférencement est effectué à partir des données de cadastre de l’Ordnance Survey de

Grande-Bretagne. Des erreurs maximales de l’ordre d’un demi-mètre entre le modèle 3D et

les données de cadastre y ont été observées. Cette différence peut être attribuée à

l’exactitude spatiale du modèle 3D par rapport au bâtiment réel, car il est mentionné que

l’empreinte au sol du modèle 3D créé ne correspond pas parfaitement aux points de

cadastre. Peu de détails sémantiques y sont présents hormis les fenêtres qui font partie du

scénario de jeu en RAM développé et exploitant ce modèle 3D. Le logiciel utilisé pour la

modélisation est PhotoModeler.

Figure 3.14 - Modèle 3D réalisé à partir de photographie terrestres (Reitmayr et Drummond

Un modèle 3D issu de données acquises avec des techniques d’arpentage sera présenté dans

ce paragraphe. L’exemple exposé ici provient de Pop (2008) qui compare la performance

de différentes technologies (i.e. arpentage, LiDAR terrestre et photogrammétrie) pour la

modélisation 3D d’un bâtiment (cf. Figure 3.15). Pour le modèle 3D provenant de données

géospatiales acquises avec des instruments d’arpentage, 400 points ont été relevés, ce qui a

été une tâche assez longue selon les auteurs. Le niveau de détails géométriques du modèle

3D résultant est donc beaucoup moins élevé en comparaison avec ’un modèle construit à

partir de relevés LiDAR. Par conséquent, seules les faces principales ont été modélisées. Le

géoréférencement du modèle 3D a été effectué par l’utilisation d’un globe virtuel (Google

Earth), mais l’exactitude spatiale résultante n’est malheureusement pas indiquée par les

auteurs. Un fait très intéressant est qu’une station totale avec une caméra intégrée (GPT-

7003i de Topcon) a été utilisée et donc le drapage de textures photo-réalistes a été possible.

Aucun détail concernant l’aspect sémantique n’a été ajouté par la suite.

Figure 3.15 - La Faculté de Mathématique de TU Delft, a) Modélisation dans AutoCAD

2007 à partir des données d’arpentage, b) Modèle final texturé, vu dans Google Sketchup

(Pop 2008)

Les deux exemples suivants présentent des modèles 3D obtenus à partir de données

acquises par photographie mobile. Le premier explique comment la 3D est traitée dans les

applications panoramiques très populaires telles que Google Street View et Bing Maps. Le

deuxième exemple provient de l’article de Grzeszczuk et al. (2009) qui traite de la

reconstruction automatique de modèle 3D à partir de photographie mobile.

Pour les applications panoramiques, la reconstruction automatique de panoramas 3D à

partir d’images 2D peut être effectuée en s’appuyant sur des approches issues du domaine

de la vision numérique. En effet, le panorama 3D est généré automatiquement à partir du

flux optique11

entre les prises de vues lors de l’acquisition (Ogale 2010). Les panoramas 3D

produits sont texturés d’une manière photo-réaliste car des images sont prises lors de

l’acquisition et elles se trouvent au cœur du processus de construction des panoramas 3D.

La Figure 3.16 illustre le résultat final offert aux utilisateurs. Des informations sémantiques

telles que les noms de rues et de commerces sont présentes dans les panoramas populaires

(ex. Google Street View ou Bing Street-side) (cf. Figure 3.17). Le peu d’information

Le flux optique reflète le changement dans une suite d’images dû au mouvement durant un intervalle de

temps (Sonka, Hlavac et Boyle 2008).

divulguée par les fournisseurs de panoramas rend difficile la tâche de spécification de

l’exactitude spatiale ainsi que du niveau de détails géométriques atteint.

Figure 3.16 - Information 3D dans un panorama, le curseur en bleu suit la géométrie du

panorama en a) sur le sol, b) sur le mur de face c) sur le mur de côté. (Bing Street-side)

Figure 3.17 - Information sémantique dans Street View (noms des rues et des attraits)

Le deuxième exemple provient de l’article de Grzeszczuk et al. (2009). Les auteurs

décrivent une chaîne de traitement exploitant des techniques de vision numérique et

permettant de reconstruire en 3D de manière automatisée des bâtiments à partir d’un

ensemble de panoramas provenant de la compagnie Earthmine (cf. Figure 3.18). Il est

spécifié que les modèles 3D résultants sont constitués d’environ 1000 rectangles et texturés

d’une manière photo-réaliste par 10 à 20 images. Les façades des bâtiments sont

modélisées et détaillées, mais les toitures ne sont pas prises en compte dû à l’angle de prise

de vue des images constitutives du panorama. Le géoréférencement du bâtiment a été

effectué à l’aide d’une image satellite, mais aucune indication sur l’exactitude résultante

n’est apportée. La reconstruction 3D est le sujet principal de l’article et l’ajout

d’informations sémantiques dans les modèles 3D résultants n’est pas discuté. Un fait

intéressant concernant les modèles 3D produits est que la texture peut facilement posséder

plusieurs niveaux de détails et donc être utilisables sur une large variété de plates-formes

selon la puissance du processeur (ex. téléphone intelligent, ordinateur de bureau).

Figure 3.18 - a) Emplacements des prises de vue (points rouges) et b) modèle 3D résultant

(Grzeszczuk, et al. 2009)

Cet exemple explicite les spécifications d’un modèle 3D issu de données acquises avec un

LiDAR mobile. Il est tiré de l’article de Haala et al. (2008) qui implique le cas d’un modèle

3D issu de données acquises à l’aide d’un LiDAR mobile. Dans cet article, les auteurs

décrivent le modèle 3D résultant d’un relevé provenant du système LiDAR mobile

StreetMapper, où les fenêtres ont fait l’objet d’une reconstruction automatisée (cf. Figure

3.19). La densité du nuage de points permet d’atteindre un très haut niveau de détails

géométriques. En effet, les auteurs citent en exemple la possibilité de reconstruire les

fenêtres, les balcons, les ornements et la maçonnerie. Bien que des caméras vidéo soient

présentes dans le système d’acquisition, la texture n’a pas été appliquée sur le modèle 3D

résultant. Une exactitude spatiale inférieure à dix centimètres a été atteinte en comparant le

nuage de points initial à un modèle 3D précis existant. Aucune information sémantique

n’est présente dans cet exemple.

Figure 3.19 - Reconstruction du Lindenmuseum de la ville de Stuttgart en Allemagne

(Haala, et al. 2008)

3.2.4. Niveaux d’augmentation

Le troisième continuum (cf. Figure 3.20) de la taxonomie proposée décrit les différents

niveaux d’augmentation des applications de RAM. L’augmentation fait référence à la

capacité ou non des systèmes à ajouter ou enlever des objets à la réalité (Azuma 1997).

L’augmentation sera décrite selon deux points de vue soit l’interaction et l’immersivité.

1. Niveau d’interaction : Le niveau d’interaction dans un contexte de RAM caractérise la

richesse et la variété des échanges qui peuvent survenir entre ses différents acteurs. Une

revue des techniques d’interactions existantes dans le domaine de la RA est présentée

par Zhou et al. (2008). Les facteurs qui impactent le niveau d’interaction sont la variété

des acteurs y prenant part, la nature des échanges entre ceux-ci ainsi que les

informations sémantiques présentes à propos de ces acteurs.

1.1. Les acteurs possibles d’une application de RAM sont les utilisateurs de

l’application, les objets virtuels au sein de cette application ainsi que le modèle 3D

de l’environnement. Ceux-ci peuvent interagir ensemble à tous les niveaux. Par

exemple, un utilisateur peut faire équipe avec une autre personne au sein d’une

application de RAM afin de battre à la course un personnage virtuel tout en

acquérant des indices à propos d’endroits réels. L’intégration de ces trois acteurs au

sein d’une application de RAM est un facteur qui permettra le développement

d’interactions évoluées.

1.2. La nature des interactions concerne les éléments constitutifs, c’est-à-dire les

propriétés des échanges qui peuvent survenir entre les différents acteurs afin de

remplir des fonctions précises selon l’application de RAM. Par exemple, la nature

des interactions d’une application de génie civil visera l’efficacité de l’application

vis-à-vis de la tâche professionnelle à compléter, tandis que pour une application de

jeu, ce sera la jouabilité. Dans le même contexte, un jeu en RAM où les utilisateurs

ne peuvent que visualiser un personnage virtuel ne sera pas très interactif, mais

s’ils peuvent échanger des informations ou même jouer à la « tague » avec celui-ci

par exemple, l’application retiendra l’attention et sera très interactive.

1.3. La présence d’informations sémantiques à propos des trois acteurs décrits

précédemment permettra des interactions plus personnalisées et reliées au contexte

de l’augmentation. Par exemple, si un jeu en RAM possède l’information qu’un

bâtiment réel est un hôpital, alors le scénario de jeu pourrait permettre à un joueur

se trouvant à proximité de récupérer de l’énergie virtuelle qu’il aurait perdue

auparavant. Dans un autre ordre d’idée, le fait de connaître le nom de l’utilisateur

permettra de personnaliser ses échanges avec un personnage virtuel.

2. Niveau d’immersion : Il s’agit de la qualité des informations sensorielles sur lesquelles

s’appuie l’application de RAM pour convaincre un utilisateur de sa présence dans une

réalité qui est augmentée par des éléments virtuels. Les sous-critères qui influencent le

niveau d’immersion sont le réalisme de ces informations sensorielles ainsi que la

gestion des occlusions.

2.1. Parmi les informations sensorielles sur lesquelles une application de RAM

s’appuie, la vision est généralement le sens le plus sollicité. Si l’illumination des

objets virtuels est réalisée en fonction de l’éclairage ambiant et que les ombrages

sont pris en compte, alors l’intégration de ces objets virtuels dans la réalité se verra

être très réaliste. De plus, afin d’obtenir une représentation convaincante d’un point

de vue visuel, il faut que l’augmentation soit stable et en temps réel en fonction du

champ de vue de l’utilisateur (cas d’un visiocasque) ou de la caméra (cas d’un

appareil portable). Un autre sens déjà abordé dans le domaine de la RAM est l’ouïe

(Lindt, Ohlenburg et Pankoke-Babatz, et al. 2007). Une bonne gestion des effets

sonores virtuels améliorera l’immersion de l’utilisateur (ex. plus on s’approche de

la source d’un bruit et plus il sera fort).

2.2. Une application de RAM affichant les objets virtuels en fonction de la position et

de l’orientation du champ de vue de la caméra, mais également selon la profondeur

de la scène en tenant compte des éléments réels présents (i.e. gestion des

occlusions) possédera un réalisme accru. En effet, le fossé entre réalité et virtualité

sera réduit si un mécanisme de gestion des occlusions est mis en place.

Plus l’application de RAM est située à gauche sur le continuum, et plus faibles sont

l’immersion et les interactions proposées. Plus l’application de RAM est située à droite sur

le continuum et plus l’immersion et les interactions proposées sont avancées. Nous avons

déterminé trois niveaux d’augmentation à l’intérieur du continuum, dont la description et

les spécifications sont fournies ci-dessous. Le Tableau 3.1 regroupant les explications des

niveaux d’augmentation présentés ci-dessous suivra.

Figure 3.20 - Continuum 3, Niveaux d'augmentation

Niveaux d’augmentation 1 (NA1). Le premier niveau d’augmentation est basé sur la

localisation de l’utilisateur. Nous avons déterminé que l’utilisation ou non de la position de

l’utilisateur représente le premier niveau d’augmentation à catégoriser. Le niveau NA1

inclut donc les applications dont seule la position de l’utilisateur est prise en compte afin de

déclencher, par proximité physique, l’affichage d’objets virtuels 0D-2D rattachés à des

points d’intérêt distribués dans l’environnement. Ces points d’intérêts sont affichés

relativement à une cartographie 2D de l’environnement (cf. Figure 3.21b). Les seules

données réelles requises sont donc la position de ces points d’intérêts et la position de

l’utilisateur. Par conséquent, l’utilisateur est généralement équipé d’un récepteur GPS et

d’un appareil mobile (cf. Figure 3.21a). Dans certaines applications, les interactions

proposées à l’utilisateur varient et interviennent en fonction de sa position. Par exemple,

dans le jeu Environmental Detective (Klopfer et Squire 2007) les joueurs peuvent creuser le

sol virtuellement en appuyant sur un bouton afin de mesurer la concentration de polluant

s’y trouvant. La quantité de polluant variant dans l’espace, la fonctionnalité est offerte à

l’utilisateur où qu’il soit et la mesure s’ajuste en fonction de sa position. Les acteurs des

interactions se limitent généralement aux utilisateurs et aux objets virtuels. La présence

d’information sémantique relativement à l’environnement est possible. Par exemple, dans

le jeu Mad City Mystery (Squire et Mingfong 2007), des points d’intérêts sont positionnés

selon l’environnement réel et contiennent des informations relatives aux problématiques

environnementales locales (ex. pollution d’un lac par les industries à proximité). Ce niveau

d’augmentation est le seul parmi les trois présentés dans cette section qui ne rencontre pas

les trois critères établis par Azuma (1997) pour qualifier une application de réalité

augmentée (i.e. une application de réalité augmentée doit : 1- combiner le réel et le virtuel,

2- être interactive en temps réel, 3- intégrer les objets virtuels en 3D). Cependant, certains

auteurs comme Klopfer et Squire (2007) et Squire et Mingfong (2007) qualifient ce type

d’application comme étant de la RAM et c’est pourquoi nous l’avons inclus dans cette

taxonomie.

Figure 3.21 - a) Utilisateurs d'une application de RAM de niveau 1, b) Écran de jeu

présentant la position de l'utilisateur (i.e. point rouge) et des points d'intérêts (i.e. les carrés

bleus et rouges) (Klopfer et Squire 2007)

Niveaux d’augmentation 2 (NA2). Le deuxième niveau d’augmentation se distingue par le

co-positionement ou non en temps réel du flux vidéo de la caméra, des objets virtuels et de

l’utilisateur. Nous définissons cette caractéristique comme étant celle permettant de

différencier le niveau NA1 du niveau NA2. La connaissance du point de vue de l’utilisateur

(i.e. position/orientation), souvent fournie par le récepteur GPS, les accéléromètres et la

boussole numérique du téléphone intelligent, sera ainsi utilisée afin de positionner

correctement les objets virtuels 0D-3D à l’écran sur le flux vidéo. Les applications de

niveau NA2 contiennent en grande majorité des couches d’information 2D géolocalisées

créées par le grand public. Les éléments virtuels présents dans ces couches d’information

2D sont la plupart du temps affichés afin de toujours faire face à l’utilisateur et sont liés à

un point d’intérêt à la surface de la Terre. Les données réelles requises se résument donc au

point de vue de l’utilisateur et à la position des objets virtuels. Des informations

sémantiques peuvent être présentes dans ces couches d’information, par exemple la couche

d’information de Wikipedia disponible sur l’application Layar fournit des explications sur

certains éléments présents dans l’environnement (cf. Figure 2.10). Certaines couches

d’information sont en 3D et l’utilisateur est apte à visualiser ces objets sous tous les angles.

Par exemple, l’application Layar propose de visualiser en 3D la célèbre scène des quatre

Beatles traversant Abbey Road (cf. Figure 3.22). Un autre exemple relatif à l’application

Layar concerne le modèle 3D du Market Hall de Rotterdam, qui est actuellement en

construction. Il est possible de visualiser le bâtiment complété sur place via une couche 3D

de Layar (cf. Figure 3.32). Cependant, dans des applications de niveau NA2, l’utilisateur

n’a absolument aucun indice sur la profondeur de ces objets virtuels dans son champ de

vision. Si un objet réel (ex. un bâtiment) est situé entre l’utilisateur et l’objet virtuel, ce

dernier sera quand même rendu en totalité (alors qu’il devrait être partiellement caché) et

cela dégradera le sentiment d’immersion de l’utilisateur au sein de l’application. Dans une

application de niveau NA2, les interactions interviennent essentiellement entre l’utilisateur

et les éléments graphiques. Dans l’application Layar par exemple, l’utilisateur peut, à partir

d’une annotation 2D, naviguer vers une page web, appeler un numéro de téléphone,

envoyer un courriel ou jouer un fichier audio ou vidéo. Actuellement, ce sont les

applications de niveau NA2 qui sont de plus en plus populaires auprès du grand public sur

les téléphones intelligents (ex. en mai 2010, il a été recensé 1.6 million d’utilisateurs de

l’application Layar, http://site.layar.com/company/blog/layar-announces-layar-stream/).

Figure 3.22 - a) Pochette de l'Album Abbey Road originale, b) Application Layar recréant

la scène

Niveaux d’augmentation 3 (NA3). La principale différence entre le niveau NA2 et le

niveau NA3 est la gestion des occlusions. La profondeur d’un objet dans une image vidéo

fait référence à son l’éloignement par rapport à la caméra et à son champ de vue. Cette

profondeur est perçue dans un NA3 en fonction de l’environnement réel, c'est-à-dire que si

un objet présent dans l’environnement est plus proche de la caméra qu’un objet virtuel, ce

dernier sera caché, en partie ou en totalité, par l’objet réel qui est en avant-plan (cf. Section

2.4). Ainsi, les applications de niveau NA3 fonctionnent de telle manière que ce type

d’occlusion est pris en compte au moment d’effectuer le rendu de l’objet virtuel.

L’immersion de l’utilisateur en est davantage augmentée et plus encore si de riches

interactions et une visualisation de haute qualité lui sont offertes. Les interactions peuvent

survenir entre plusieurs acteurs de l’application (i.e. l’utilisateur, le modèle 3D de

l’environnement et les objets virtuels). Par exemple, dans le jeu Epidemic Menace, les

utilisateurs tentent d’éliminer des virus virtuels se déplaçant dans l’environnement. Pour

cela, ils disposent virtuellement d’un vaporisateur anti-virus qui est matérialisé par une

souris sans fil. Avec celui-ci, les joueurs doivent s’approcher des virus virtuels pour ensuite

les vaporiser afin de les éliminer. Dans ce jeu, les objets virtuels se retrouvent intégrés à la

réalité et projetés sur l’écran de visualisation du joueur (i.e. visiocasque) en fonction de sa

position et de l’orientation de son champ de vue (captée au travers de la caméra de

l’appareil mobile du joueur). La localisation des objets virtuels dans l’environnement est

donc mise à jour au fur et à mesure des déplacements du joueur. Il y a ainsi cohérence entre

les éléments respectivement virtuels et réels tout le long du jeu ce qui enrichit son

immersivité. De plus, les occlusions entre éléments réels et virtuels présents dans

l’environnement sont prises en compte au moment du rendu des objets virtuels à l’aide d’un

modèle 3D géoréférencé de l’environnement. Donc, si un virus virtuel se déplace derrière

une bâtisse réelle, alors celui-ci ne sera pas affiché à l’utilisateur. Cette gestion des

occlusions renforce la qualité de l’augmentation ainsi que l’immersion des joueurs car,

ainsi, les objets virtuels semblent vraiment faire partie de l’environnement. Afin d’assurer

une intégration complète des objets virtuels dans la réalité tel qu’illustrée par l’exemple du

jeu Epidemic Menace, un modèle 3D est généralement requis lors de la mise en œuvre

d’une application de niveau NA3. Celui-ci pourra alors intervenir pour la gestion des

occlusions, aider au calcul de la pose de la caméra et supporter l’augmentation de la réalité.

Si des informations sémantiques sont présentes au sein d’une application de RAM, le lot

d’interactions offert à l’utilisateur en sera bonifié (ex. interactions avec des parties précises

d’un bâtiment : fenêtres, poignée de porte). Cette catégorie inclut donc les applications les

plus immersives de RAM.

Le Tableau 3.1 présente les différents niveaux d’augmentation de la réalité tels que

présentés dans le troisième continuum de la taxonomie proposée. Il a été élaboré afin de

regrouper et expliciter les informations relatives à chacun des niveaux d’augmentation de la

réalité. Il permet au lecteur d’avoir une vue d’ensemble et de comparer facilement ces trois

niveaux d’augmentation. Ces informations sont présentées selon différentes thématiques :

niveau d’augmentation de la réalité, positionnement et orientation du champ de vue de

l’utilisateur, données réelles requises, objets virtuels, visualisation et interactions possibles.

Tableau 3.1 - Niveaux d'augmentation de la réalité

Thématiques Caractéristiques NA1 NA2 NA3 N

Niveau d’augmentation de la réalité

Légère Moyenne Forte

e l’

Utilisation d’un GPS (P) Généralement Généralement Généralement Utilisation d’une

boussole numérique (O) Non Généralement Généralement

Utilisation d’accéléromètres (O)

Non Possible Généralement

Repositionnement à l’aide du flux vidéo et

d’un modèle 3D en mémoire (P/O)

Non Non Possible

Information spatiale

Coordonnées (2D) de points d’intérêts et position de l’utilisateur

Coordonnées (2D) de points d’intérêts et

position/ orientation de l’appareil de visualisation

Modèle 3D nécessaire et

position/orienta-tion de l’appareil de visualisation

Information sémantique

Possible - Information

liées aux points d’intérêts

Possible - Information

liées aux points

d’intérêts

Possible - D’aucune info sémantique

jusqu’à un modèle sémantique détaillé de

l’environnement (ex. : fenêtres,

portes)

Dimension géométrique des OV

0D-2D 0D-3D 0D-3D

Affichage des OV selon la position de l’utilisateur

Obligatoire Obligatoire Obligatoire

Affichage des OV selon la position et l’orientation

l’utilisateur Non Obligatoire Obligatoire

Thématiques Caractéristiques NA1 NA2 NA3 Affichage des OV selon la position et l’orientation

de l’utilisateur et à la profondeur de l’OV p/r à

l’environnement

Non Non Obligatoire V

Gestion des occlusions Non Non Obligatoire

L’arrière-plan est le flux vidéo en direct de la

caméra Non Obligatoire Obligatoire

Acteurs des interactions possibles

Utilisateur ↔ utilisateur

Utilisateur ↔ objet virtuel

Utilisateur ↔ utilisateur

Objet virtuel

↔ objet virtuel

Objet virtuel ↔ objet virtuel

Modèle 3D ↔ objets virtuels

Utilisateur ↔

utilisateur

Utilisateur ↔

modèle 3D

3.2.5. Liens entre les modèles 3D et les niveaux d’augmentation

Maintenant que chacun des continuums de la taxonomie a été décrit, les liens existants

entre les modèles 3D (i.e. deuxième continuum) et les niveaux d’augmentation (i.e.

troisième continuum) (cf. Figure 3.23) vont être mis en évidence. L’établissement de ces

liens et leur justification permettra par la suite de spécifier les caractéristiques que doit

présenter la chaine de production de modèles 3D visée par ce travail de maîtrise. Dans une

perspective plus large, la connaissance des impacts des caractéristiques des modèles 3D sur

le niveau d’augmentation possible de la réalité va permettre de guider les acteurs du

domaine de la RAM lorsqu’ils seront amenés à choisir le type de modèle 3D dont ils ont

besoin pour atteindre le niveau d’augmentation requis dans leur application de RAM.

Figure 3.23 - Continuums 2 et 3 (modèles 3D et niveaux d’augmentation)

Liens entre modèles 3D et niveaux d’augmentation NA1 et NA2. Comme il a été

présenté précédemment, les niveaux NA1 et NA2 ne nécessitent pas de modèles 3D de

l’environnement afin de réaliser l’augmentation de la réalité. Les objets virtuels présents

dans ces applications requièrent uniquement d’être positionnés à la surface de la Terre. Par

conséquent, les seuls liens existants entre ces deux niveaux et les différents éléments

composant le deuxième continuum concernent les points d’intérêt 2D.

Liens entre modèles 3D et niveau d’augmentation NA3

Tel que mentionné au Chapitre 2, un modèle 3D de l’environnement peut jouer trois rôles

(i.e. gestion des occlusions; aide au calcul de la pose de la caméra de l’appareil mobile

utilisé; support aux interactions et à l’augmentation de la réalité) dans une application de

RAM fortement augmentée, c'est-à-dire correspondant au niveau NA3 selon notre

taxonomie. Afin de déterminer l’impact des modèles 3D du deuxième continuum à la mise

en œuvre d’une application de niveau NA3, leurs caractéristiques (i.e. niveau de détails

géométriques, exactitude spatiale, type de texture et niveau de détails des informations

sémantiques), présentées au paragraphe 3.2.3, vont être confrontées à ces trois rôles.

Gestion des occlusions. Deux caractéristiques propres au modèle 3D de l’environnement

influencent la qualité de la gestion des occlusions soient le niveau de détails géométriques

et l’exactitude spatiale. Le Tableau 3.2 propose une illustration de cette influence. Un

modèle 3D spatialement exact et avec un niveau de détails géométriques élevé sera en

mesure de gérer les occlusions d’une manière très réaliste. Par opposition, un modèle 3D

peu détaillé et spatialement inexact offrira une gestion approximative des occlusions entre

réel et virtuel. La présence de texture peut influencer, quant à elle, la manière de gérer les

occlusions. En effet, une texture semi transparente et colorée du modèle 3D (ex. une fenêtre

stylisée) pourrait révéler d’une manière réaliste un objet virtuel situé derrière le modèle 3D

translucide. Quant aux informations sémantiques, peu de travaux existent en RA sur ce

sujet, mais le domaine de la réalité virtuelle nous apprend que la présence de telles

informations peut avoir un impact sur les attributs graphiques de notre modèle 3D

(Kalogerakis, Christodoulakis et Moumoutzis 2006). En effet, si un objet virtuel se trouve

derrière un mur réel et que la composante sémantique indique que ce dernier est composé

de verre semi-translucide alors le rendu de l’objet devrait pouvoir être ajusté en

conséquence par l’application (cf. Figure 3.24).

Tableau 3.2 - Caractéristiques du modèle 3D pour la gestion des occlusions

Bas niveau de détails Haut niveau de détails

Haute exactitude du

géoréférencement du modèle 3D

Basse exactitude du

géoréférencement du modèle 3D

Figure 3.24 - Zombie-robot virtuel situé derrière une fenêtre réelle semi-transparente

Nous pouvons déduire qu’il existe actuellement un large spectre de modèles 3D permettant

la gestion des occlusions au sein d’une application de RAM de niveau NA3. Cependant ce

ne sont pas tous les modèles 3D qui offriront la même qualité en termes de gestion des

occlusions. Cela aura un impact direct sur le réalisme de l’application et sur sa capacité à

maintenir l’immersion de l’utilisateur. Par exemple, un jeu de RAM où le réalisme n’est

pas toujours au rendez-vous, où les éléments virtuels apparaissent devant les bâtiments

mêmes s’ils sont positionnés derrière, ne retiendra pas l’attention des joueurs longtemps.

Dans le cas d’une application de génie civil telle que présentée à la Figure 3.25, c’est la

position des canalisations souterraines par rapport au point de vue de l’utilisateur qui

importe beaucoup plus que le réalisme de l’application. La gestion des occlusions dans

cette application (ex. si les tuyaux disparaissent derrière un bâtiment) devient donc

d’importance secondaire.

Figure 3.25 - Application de visualisation de tuyaux souterrains (Schall, et al. 2009)

Aide au calcul de la pose de la camera. Lorsque l’on dispose d’un modèle 3D de

l’environnement, celui-ci peut intervenir dans le calcul de la pose de la camera de

l’utilisateur (cf. Chapitre 2). Tel que mentionné, les modèles 3D par arêtes ou surfaces et

les modèles 3D texturés peuvent être utilisés à cette fin. Le type de texture sur le modèle est

donc un des critères à considérer lorsque l’on cherche à évaluer l’adéquation d’un type de

modèle 3D pour effectuer cette tâche. Une texture détaillée (i.e. photo-réaliste) permettra à

l’application d’apparier plus facilement des points saillants afin de calculer la pose de la

caméra. Le deuxième critère d’importance est le niveau de détails géométriques. Reitmayr

(2006), qui utilise un modèle 3D composé de larges surfaces planes, souligne que le

manque de détails géométriques contribue directement aux erreurs observées dans

l’estimation de la pose de la caméra.

L’exactitude spatiale du modèle 3D de l’environnement est aussi d’une grande importance.

Généralement, une première estimation de la pose est effectuée par les composantes

physiques de positionnement et d’orientation de l’appareil mobile (i.e. récepteur GPS,

accéléromètres, boussole numérique) et le modèle 3D est ainsi projeté selon cette

approximation initiale. Si le modèle 3D n’est pas conforme à l’objet réel, il se peut que

l’algorithme de vision numérique qui tente de trouver une correspondance entre cette

projection et le flux vidéo de la caméra en soit incapable. Analysons maintenant plus en

détails l’exactitude du géoréférencement, car cette composante peut avoir des conséquences

importantes sur l’augmentation de la réalité. En supposant que l’algorithme soit en mesure

de repositionner l’utilisateur par rapport au modèle 3D qui est mal géoréférencé, la pose de

la caméra sera cohérente relativement à ce modèle 3D, mais une position absolue erronée

dans le référentiel global lui sera attribuée. Afin d’illustrer cette situation complexe et les

impacts possibles, nous présentons une simulation dans un contexte de génie civil. Un

entrepreneur doit effectuer des travaux à la Maison Blanche consistant à poser une

canalisation et une borne fontaine. Il possède trois modèles 3D : le premier est celui de la

Maison Blanche, le deuxième est celui de la canalisation et le troisième est celui de la borne

fontaine. Malheureusement, le modèle 3D de la Maison Blanche est géoréférencé d’une

manière peu exacte. Le modèle 3D de la canalisation à poser a été géoréférencé à partir du

modèle 3D de la Maison Blanche. Le modèle 3D de la canalisation est donc positionné

précisément relativement au modèle 3D de la Maison Blanche, mais se voit donc être

également être géoréférencé d’une manière approximative. Le modèle 3D de la borne

fontaine possède des coordonnées qui correspondent parfaitement à son emplacement

désiré et est donc géoréférencé d’une manière exacte. Ces objets sont représentés à la

Figure 3.26. Sur cette figure, la position réelle des objets (i.e. entrepreneur (A), Maison

Blanche (B), canalisation (C) et borne fontaine (D)) est représentée en bleu, et les éléments

mal géoréférencés (i.e. Maison Blanche (F), canalisation (G) et la position erronée de

l’entrepreneur (E) calculée à partir du modèle 3D de la Maison Blanche (F)) sont

représentés en rouge. Cela donne donc lieu à la situation suivante : l’utilisateur est

repositionné au cercle rouge (en E au lieu d’en A, qui est sa position réelle) par rapport au

modèle 3D de la Maison Blanche géoréférencé approximativement. Cela n’affecte pas la

position de la canalisation dans la vue en RA (cf. Figure 3.27 a)), car celle-ci est

positionnée précisément relativement au modèle 3D du bâtiment. Cependant, puisque la

borne fontaine est bien géoréférencée, elle apparait à la gauche de l’image au lieu d’être à

droite (cf. Figure 3.27 a)). L’entrepreneur posera donc la canalisation au bon endroit, mais

la borne fontaine au mauvais endroit, ce qui irritera profondément le Président. La Figure

3.27 b) illustre l’écran de visualisation en supposant un calcul de pose de caméra à partir

d’un modèle 3D bien géoréférencé (B) et où la borne fontaine apparait à la droite. Cet

exemple démontre bien l’importance du géoréférencement du modèle 3D dans un contexte

de RAM lors de l’aide au calcul de pose de la caméra.

Figure 3.26 - Vue en plan du terrain. En bleu, position réelle de l’utilisateur (A), de la

Maison Blanche (B), de la canalisation à poser (C) et de la borne fontaine (D). En rouge,

position calculée de l’utilisateur (E), du modèle 3D géoréférencé d’une manière inexacte de

la Maison Blanche (F) et de la canalisation à poser (G).

Figure 3.27 - Écran de visualisation, en réalité augmentée, de l’entrepreneur si a) Modèle

3D géoréférencé d’une manière inexacte de la Maison Blanche, la borne fontaine apparaît à

gauche b) Modèle 3D bien géoréférencé, la borne fontaine apparaît à droite

Au final, tous les modèles 3D peuvent être utilisés pour aider au calcul de la pose de

l’utilisateur, mais la précision résultante sera fonction des caractéristiques propres au

modèle 3D choisi. La précision à atteindre est dictée par le contexte d’application. Pour une

application de génie civil telle qu’illustrée à la Figure 3.28, une différence de quelques

mètres en termes de positionnement peut faire la différence sur les conséquences de creuser

à un endroit plutôt qu’un autre. Par exemple, à l’image a de la Figure 3.28, un

positionnement erroné a fait en sorte de visualiser une conduite de gaz à un emplacement

plus éloigné de sa position réelle et les conséquences dans ce contexte peuvent être très

importantes. Un bon positionnement aurait permis de visualiser la conduite à son

emplacement réel et donc d’empêcher l’excavation à cet endroit (cf. Figure 3.28b). Dans le

contexte d’une application de jeu, un positionnement approximatif du joueur et donc des

éléments virtuels à l’écran de l’utilisateur, tel qu’illustré aux Figure 3.28c et d), pourrait

avoir un impact sur l’immersivité de l’application, mais les conséquences seraient moins

importantes que dans le cas de l’exemple précédent.

Figure 3.28 - Précision du positionnement de la caméra, images du haut, exemple de génie

civil, a) Canalisation mal positionnée par rapport à l’utilisateur b) Canalisation bien

positionnée, images du bas, exemple de jeu de RAM c) élément virtuel mal positionné qui

semble flotter, d) élément virtuel bien positionné

Support aux interactions et à l’augmentation. Au Chapitre 2, nous avons énoncé de

quelle manière un modèle 3D pouvait venir supporter l’augmentation de la réalité et les

interactions. Du point de vue support à l’augmentation, dans les exemples rescencés (ex.

(Piekarski 2004) et (Hengel, et al. 2009)), la présence seule de la géométrie de l’objet est

suffisante pour ancrer des objets virtuels à des éléments réels ou pour la gestion des

ombrages. Pour ce qui est des interactions, le niveau de détails géométriques du modèle 3D

Précision du repositionnement

de la caméra

Faible Forte

et la présence d’information sémantiques détermineront ce qu’il est possible d’offrir à

l’utilisateur en termes d’interactions (Mendez, et al. 2008). Un modèle 3D présentant un

haut niveau de détails géométriques ainsi que des informations sémantiques, permettra à un

utilisateur d’interagir avec des parties précises de ce dernier. Par exemple, dans un contexte

de jeu, les interactions proposées seront différentes si des informations sémantiques

permettent d’indiquer si le joueur se trouve près d’une porte (ex. l’ouvrir) ou d’une fenêtre

(ex. regarder à l’intérieur afin d’acquérir un indice). Le Tableau 3.3 propose une illustration

de la variété et de la richesse des interactions possibles en fonction du niveau de détails du

modèle 3D et de la présence d’informations sémantiques. Ainsi, l’échelle à laquelle les

interactions sont proposées guideront le choix du type de modèle 3D et par le fait même la

méthode de capture des données de base intervenant dans l’élaboration du modèle.

Tableau 3.3 - Niveau de détails et informations sémantiques d’un modèle 3D et exemples

d’interactions possibles en contexte de jeu

Faible niveau de détails Fort niveau de détails

Modèle 3D

Exemples d’interactions possibles (ex. application de

Attaquer, défendre le bâtiment;

Récupérer un indice sur une des

faces;

Capture du bâtiment;

Acquérir un avantage à proximité ;

Pour récupérer l'indice, il faut

trouver la bonne porte de la

maison, puis l'ouvrir: l'indice

sera à l'intérieur;

3.2.6. Cas d’étude

Avant de conclure la présentation de la taxonomie, nous estimons nécessaire de confronter

celle-ci à des cas d’études détaillés afin de valider sa pertinence. Nous présentons donc un

cas d’études par niveau d’augmentation.

MadCity Mystery (NA1). Ivan Illyich est mort. La police affirme que la cause est la

noyade lors d’une partie de pêche dans le Lac Mendota. Cependant, la condition physique

d’Ivan s’était détériorée considérablement depuis peu. Il est de votre devoir d’enquêter afin

de jeter la lumière sur les causes de cette mort. Telle est la trame de fond de l’enquête que

doivent mener les joueurs de ce jeu basé sur la localisation conçu par Squire et Mingfong

(2007). Le but recherché par les auteurs de ce jeu est de développer l’habileté

d’argumentation scientifique chez les jeunes dans un contexte de jeu. Ceux-ci se déplacent

sur le territoire et examinent des indices qui sont liés à leur environnement. Par exemple, en

analysant un poisson du lac Mendota (cf. Figure 3.29), les joueurs peuvent en tirer des

conclusions quand à sa teneur en polluants et ainsi relier la condition physique d’Ivan à son

alimentation. Les joueurs sont donc par le fait même sensibilisés aux problématiques

environnementales locales.

Figure 3.29 - Capture d'écran du jeu MadCity Mystery, analyse d'un poisson

Ce jeu représente bien le niveau d’augmentation 1 (NA1). La visualisation est limitée à une

représentation cartographique du territoire où des objets virtuels, c'est-à-dire des points

d’intérêts, ainsi que la position du joueur y sont présents. Le positionnement du joueur y est

déterminé en utilisant un récepteur GPS. Lorsque les joueurs s’approchent de ces points

d’intérêt, un élément multimédia 2D est révélé (i.e. texte, image, audio ou vidéo). Les

données réelles spatiales nécessaires au déroulement du jeu se résument donc à la position

du joueur et à des objets virtuels. Les seules interactions proposées dans cette application

ont lieu entre les joueurs et ces objets virtuels. Des informations sémantiques sont

exploitées dans le jeu. Elles sont associées aux points d’intérêt, par exemple une

information de qualité est associée à l’eau du lac (cf. Figure 3.30).

Figure 3.30 - Points d'intérêts dispersés sur la représentation cartographique du territoire

(Squire et Mingfong 2007).

Layar (NA2). Pour le niveau NA2, l’application Layar sera analysée étant donné qu’elle

figure parmi les applications de RAM sur téléphone intelligent les plus populaires

actuellement et les plus avancées en termes de visualisation et d’interactions. De plus, elle a

atteint un niveau de maturité suffisant pour être commercialisée à grande échelle. En effet,

cette application, gratuite, sera pré-installée sur le tiers des téléphones intelligents vendus

cette année mondialement (http://site.layar.com/company/blog/layars-news-round-up-from-

its-anniversary-event/). Layar permet l’affichage de couches d’augmentation 0D-3D de

points d’intérêt parsemés sur toute la planète (cf. Figure 3.31 et Figure 3.32). Une

connexion à Internet est donc nécessaire en tout temps pour la récupération de ces couches

par l’utilisateur en mobilité. Ces informations sont affichées sur le flux vidéo de la caméra

en fonction de la position et de l’orientation de la caméra de l’utilisateur. Le récepteur GPS,

les accéléromètres ainsi que la boussole numérique y sont utilisés afin de connaître le point

de vue de l’utilisateur. La très grande majorité des couches sont en 2D et couvrent plusieurs

aspects liés aux activités quotidiennes ou aux déplacements des utilisateurs. Par exemple, il

est possible à partir de l’application de savoir où sont les restaurants ou les bouches de

métros dans un quartier de sa ville. Des vidéos de YouTube ou des articles de Wikipédia qui

ont été géolocalisés peuvent également être récupérés. Les couches d’information peuvent

être réalisées par le grand public ou par des compagnies spécialisées et elles sont par la

suite mises à la disposition de tous les utilisateurs.

En lien avec notre taxonomie, cette application se situe dans le niveau NA2 du continuum

relatif aux niveaux d’augmentation. En effet, l’augmentation de la réalité s’effectue à partir

d’un flux vidéo de la caméra en arrière-plan, ce qui positionne bien l’application au niveau

NA2 ou NA3 plutôt qu’au niveau NA1. Cependant, si un élément virtuel se retrouve

derrière un objet qui est lui est bien réel (ex. un bâtiment), les occlusions se seront pas

gérées. Par conséquent, d’après les spécifications associées au niveau NA3, Layar ne peut

figurer à ce niveau d’augmentation. Les interactions sont également limitées dans une

application de niveau NA2. Dans Layar, les interactions interviennent uniquement entre

l’utilisateur et les objets virtuels. Les actions qu’il est possible d’effectuer sont les

suivantes : naviguer vers une page web, appeler un numéro de téléphone, envoyer un

courriel et jouer un fichier audio ou vidéo.

Figure 3.31 - Layar et quelques couches d'information 2D proposées à l’utilisateur à des

fins de visualisation (www.layar.com)

Figure 3.32 - a) et b) Market Hall de Rotterdam en construction, modèle 3D du bâtiment

terminé vu sous deux angles différents (www.layar.com)

ARQuake (NA3). ARQuake, conçu par Thomas et al. (2000), est une adaptation en RAM

du jeu de tir Quake développé initialement en 1996 par idSoftware. Le but de ce jeu est

assez simple et se résume à tirer sur tout ce qui bouge. ARQuake propose une visualisation

où les objets virtuels 3D (ex. monstres, armes et équipement) sont intégrés à

l’environnement du joueur et superposés à sa vision de la réalité. Pour cela, il est essentiel

de connaître la position et l’orientation du champ de vision du joueur. À l’époque de la

mise en œuvre du jeu (2002), le joueur devait porter un équipement imposant comprenant

entres autres : une antenne GPS de haute précision, une boussole numérique, un

visiocasque et un ordinateur portable (cf. Figure 3.33a). De nos jours, cet équipement est

plus léger et compact. La pose du joueur peut être calculée soit par vision numérique, soit à

partir des composantes physiques (i.e. récepteur GPS et boussole numérique). En effet, la

librairie ARToolKit (www.hitl.washington.edu/artoolkit/) est mise à profit afin de calculer

le champ de vue de l’utilisateur par rapport à un marqueur préalablement intégré dans

l’environnement et dont la position et l’orientation sont connues (cf. Figure 3.33b). Ainsi, si

un marqueur se situe dans le champ de vision du joueur, le positionnement se fera par

vision numérique. Dans le cas contraire, le positionnement se fera à partir des composantes

physiques. Afin de rendre le jeu plus immersif un modèle 3D de l’environnement est

exploité (cf. Figure 3.33c). Celui-ci sert à gérer les occlusions si un monstre se déplace

derrière un bâtiment réel, mais aussi à empêcher ces personnages virtuels de traverser les

murs, c'est-à-dire de contraindre leurs déplacements. Le fait d’intégrer les objets virtuels en

fonction des éléments présents dans l’environnement fait de ce jeu en RAM une application

de niveau NA3. Le modèle 3D, comprenant une trentaine de bâtiments sur une étendue

d’environ 157000 m2, a été créé par l’éditeur de tableaux de Quake à partir de plans

d’architecte et de relevés terrain (Piekarski et Thomas 2002). Le modèle 3D de

l’environnement ainsi que la position du joueur et des objets virtuels sont des données

nécessaires au déroulement du jeu et aucune information sémantique n’est présente. Les

actions que le joueur peut poser sont un peu plus restreintes que dans le jeu Quake original.

En effet, à l’origine le personnage peut sauter d’une manière surhumaine, se téléporter,

nager. Ces actions ont été éliminées dans la version en RAM car seul le positionnement de

l’utilisateur est pris en compte dans le jeu. Les actions proposées au joueur se résument

donc à tirer, changer d’arme, ramasser des items et ouvrir des portes.

Figure 3.33 - a) Équipement de jeu, b) Marqueur sur un mur, c) Scène d'ARQuake (le

modèle 3D est visible par un quadrillage rouge et blanc)

3.3. Détermination des caractéristiques requises pour une

chaîne de production de modèles 3D adaptée aux applications de

La section précédente a permis de comprendre de quelle manière les caractéristiques des

modèles 3D peuvent avoir un impact sur l’augmentation de la réalité. De plus, les

caractéristiques des principales techniques d’acquisition de données géospatiales ont été

analysées. Cette information est pertinente dans ce projet de recherche afin de mettre en

œuvre une chaîne de production de modèles 3D qui soit adaptée aux applications de RAM

dans un contexte d’Anywhere Augmentation. Afin de répondre à notre deuxième sous-

objectif de recherche, les caractéristiques de la chaîne de production de modèles 3D visée

vont être spécifiées dans cette section en lien avec les informations présentées à la section

précédente.

La revue de la littérature et des chaînes de production de modèles 3D existantes a permis de

mettre en évidence que :

Le coût financier inhérent à la collecte de données géospatiales à la base des

modèles 3D et à l’élaboration des modèles en tant que tel est généralement élevé;

Les étapes sont longues en termes de temps d’acquisition et de modélisation;

Une certaine expertise est requise pour le processus de modélisation et d’acquisition

de la donnée;

L’exactitude spatiale des modèles 3D résultants est en général élevée;

Si la récupération des modèles 3D à partir d’infrastructures de données 3D ou de

services web est privilégiée par rapport à la collecte de données géospatiales et à la

modélisation subséquente, il faut s’attendre à faire face aux limitations suivantes :

o La couverture actuelle des services web 3D est peu étendue;

o Les infrastructures de données 3D associés à la plupart des globes virtuels

permettent seulement le téléchargement d’un modèle 3D à la fois et d’une

manière manuelle uniquement;

o La qualité des modèles 3D enregistrés dans ces entrepôts n’est pas garantie;

Le présent projet de recherche s’intéresse spécifiquement aux applications de RAM qui

s’inscrivent dans la philosophie de l’Anywhere Augmentation où l’utilisateur doit être en

mesure d’augmenter son environnement, peu importe sa localisation et ce, sans devoir

recourir à une importante phase d’initialisation ou de préparation. Les chaînes de

production de modèles 3D existantes sont peu/pas orientées vers la production de modèles

3D supportant une augmentation de la réalité de niveau NA3 (i.e. réalité fortement

augmentée). En s’appuyant sur la taxonomie élaborée et notamment sur les liens établis

entre les différents types de modèles 3D et les différents niveaux d’augmentation, nous

pouvons définir les caractéristiques que doivent présenter les solutions de modélisation 3D

adaptées au contexte spécifique de la RAM et de l’Anywhere Augmentation. Ainsi, selon

nous de telles solutions doivent:

Être abordables pour un utilisateur occasionnel ;

Produire un modèle 3D d’un objet de l’environnement le plus rapidement possible;

Produire un modèle 3D pouvant au minimum gérer les occlusions. En se basant sur

notre taxonomie, les critères du modèle 3D à maximiser sont le niveau de détails

géométriques et l’exactitude spatiale (i.e. exactitude du géoréférencement et

exactitude géométrique). Puisque le type de texture et les informations sémantiques

sont secondaires à la gestion des occlusions, elles ne seront pas considérés;

Pouvoir être mises en œuvre directement sur le terrain à la volée;

Pouvoir être mise en œuvre sans nécessiter de formation préliminaire ou une

expertise spécialisée;

Pouvoir être implantées sur un appareil disponible dans le commerce, ergonomique

et léger;

La liste de caractéristiques que la chaine de production de modèles 3D visée par cette

recherche doit présenter étant établie (i.e. complétion du deuxième sous-objectif), nous

allons pouvoir maintenant nous consacrer à la conception et au développement d’une telle

solution. Ceci sera abordé dans le chapitre 4. Il est cependant important de noter que nous

allons nous intéresser uniquement à la gestion des occlusions lors de l’exploitation de

modèles 3D produits par notre solution. En effet, le temps imparti pour la complétion de ce

travail ne nous permettait pas de concevoir une solution prenant en compte les deux autres

rôles que peut jouer un modèle 3D au sein d’une application de RAM de niveau NA3. (i.e.

aide au calcul du positionnement de la caméra et support aux augmentations et aux

interactions).

3.4. Conclusion du chapitre

Ce troisième chapitre a permis d’établir les caractéristiques que doit posséder une chaine de

production de modèles 3D adaptée à la RAM dans un contexte d’Anywhere Augmentation.

Une taxonomie a été élaborée et présentée afin de mettre en évidence les liens entre les

différents types de modèles 3D et les différents niveaux d’augmentation de la réalité qu’il

est possible de mettre en œuvre à l’aide de ces derniers. Selon nos connaissances et

lectures, une telle taxonomie n’existait pas. A terme, cette taxonomie pourrait servir de base

à l’élaboration des principes d’exploitation des modèles 3D dans le domaine de la RAM ce

qui pourrait être d’une grande utilité aussi bien aux concepteurs d’application de réalité

augmentée qu’aux intervenants du domaine de la géomatique lors de campagne

d’acquisition de données ou bien encore aux organisations et chercheurs impliqués dans

l’élaboration des normes d’échanges et de stockage des données géospatiales, pour ne citer

que quelques exemples.

À partir de ces nouvelles connaissances, nous sommes maintenant aptes à proposer une

solution de modélisation 3D répondant à ces exigences de production. Cette solution sera

présentée sous la forme d’un article publié dans une revue scientifique.

How does it feel to be on your own, just like a rolling stone ? – Bob Dylan

4. Chapitre 4 – Modélisation 3D pour la réalité augmentée

mobile dans un environnement non préparé

Le Chapitre 4 est présenté sous la forme d’un article scientifique qui introduit notre chaîne

de production de modèles 3D adaptée pour une application de RAM fortement augmentée.

Celui-ci a été soumis et accepté à la 5e conférence 3DGeoInfo qui se tiendra à Berlin en

novembre 2010. L’article fera l’objet d’une publication dans la série Lecture Notes in

Geoinformation and Cartography de l’éditeur Springer. Le contenu de cet article fournit

des réponses à notre troisième sous-objectif qui était de proposer un modèle conceptuel

pour l’élaboration d’une chaîne de traitement de modèles 3D adaptée à la mise en œuvre

d’applications de RAM fortement augmentée. En plus de ce modèle conceptuel, l’article

présente son implantation sur la plateforme de l’iPhone 3G ainsi que les tests de validation

de cette solution de RAM.

Quelques modifications mineures de mise en page ont été effectuées afin de rendre l’article

conforme pour le présent document.

4.1 Contributions

L’article qui est en langue anglaise et constituant le Chapitre 4 est ainsi référencé :

[Thomas et al., 2010] Thomas, Vincent, Daniel, Sylvie, Pouliot, Jacynthe. « 3D Modeling

for Mobile Augmented Reality in Unprepared Environment » Édité par Thomas H. Kolbe,

Gerhard König et Nagel Claus. Advances in 3D Geo-Information Sciences, (Série: Lecture

Notes in Geoinformation and Cartography). 3D GeoInfo Conference, 2-3 novembre 2010

Berlin: Sprigner, 2010.

4.2 Corps de l’article

Titre. 3D Modeling for Mobile Augmented Reality in Unprepared Environment

Auteurs. Vincent Thomas, Sylvie Daniel et Jacynthe Pouliot

Résumé. L’émergence des téléphones mobiles intelligents possédant des composantes

intégrées (i.e. caméra, récepteur GPS, accéléromètres et boussole numérique) a déclenché

beaucoup d’intérêt dans la communauté de la réalité augmentée (RA). De nouvelles

applications s’appuyant sur ces appareils commencent à être disponibles pour le grand

public. Afin d’obtenir une riche augmentation de la réalité en termes d’immersion et

d’interaction, ces applications de RA mobile requiert généralement un modèle 3D de

l’environnement pour la gestion des occlusions et le positionnement de l’utilisateur.

Cependant, la disponibilité des ces modèles 3D basés sur de la donnée géospatiale est

limitée, restreignant la capacité de ces applications à être utilisée n’importe où, n’importe

quand. Afin de surmonter ces limites, nous avons développé une chaîne de traitement

dédiée à la production rapide et simple de modèles 3D. La solution proposée a été conçue

pour le contexte spécifique des applications de réalité augmentée mobile à l’aide d’un

environnement non préparé et testé sur la plateforme iPhone.

Abstract. The emergence of powerful mobile smartphones, with embedded components

(camera, GPS, accelerometers, digital compass), triggered a lot of interest in the mobile

augmented reality (AR) community and new AR applications relying on these devices are

beginning to reach the general public. In order to achieve a rich augmentation in terms of

immersion and interactions, these mobile AR applications generally require a 3D model of

the real environment to provide accurate positioning or to manage occlusions. However, the

availability of these 3D models based on real spatial data is limited, restraining the capacity

of these applications to be used anywhere, anytime. To overcome such limits, we

developed a framework dedicated to the fast and easy production of 3D models. The

proposed solution has been designed for the specific context of mobile augmented reality

applications in unprepared environment and tested on iPhone.

Keywords. 3D modeling, augmented reality, mobility, smartphone, citizen-based solution

4.2.1 Introduction

For some years, smartphones made a breakthrough in the telecom market. According to the

information technology research and advisory company Gartner, Inc. ―Smartphones

continued to represent the fastest-growing segment of the mobile-devices market‖ (Gartner,

Inc. 2009). These mobile devices are powerful, small and involve several positioning,

orientation and optical components: Global Positioning System (GPS) receiver, digital

compass, accelerometers and camera. These components, in addition to the smartphone

mobility, make this device a valuable platform for the development of unique and

innovative activities or location-based services such as mobile augmented reality

applications.

Augmented reality (AR) is the enrichment of the reality with virtual elements. These

synthetic objects are projected in a live video stream as if they were part of the reality.

Recently, some mobile augmented reality applications based on smartphones have been

released like Layar (http://layar.com) or Wikitude (www.mobilizy.com). These applications

are world browsers that enable a user to visualize virtual layers of 2D-3D information

superimposed to the camera video stream. A tourist in New-York City can see annotations

with names and information about the skyscrapers in the camera field of view for instance.

One of mobile augmented reality advantages is to clearly link information with real object

as seen by a person on the spot.

The principle on which these applications rely does not involve information about the

user surroundings when rendering the digital graphics. As a result, occlusions are not

managed. Thus, a whole 3D graphic element will be rendered even if part of it is occluded

by a real building for instance. To manage occlusions, it is recommended to integrate

information or knowledge about the environment. Having a 3D model of the environment

where the augmentation takes place offers opportunities for richer interactions and higher

levels of immersion. More specifically, 3D models about objects in the user field of view

can be used to merge more accurately the computer-generated elements with the reality,

providing the user with a better sense of presence of these elements in the real world.

However, these 3D models of the environment are not always accessible, therefore limiting

the capabilities to deploy realistic augmented reality solutions anywhere, anytime.

Mobile augmented reality is anticipated as the next social communication and

information hub. Following the current trends of social networking and location-based

applications, citizen can already be foreseen as the main users and contributors of such

technology. The real-world information used for mobile AR will be user-generated, as

applications like Wikitude or Yelp (www.yelp.com) are already demonstrating. Within this

context, tools to create contents for mobile AR need to be simple and intuitive to enable the

user to augment his environment with information that matters to him and to deploy such

applications wherever he chooses to.

This paper will present a new citizen based 3D modeling solution to enable mobile AR

applications anywhere, anytime. The context and principles related to mobile AR will be

first presented. A brief review of current mobile AR work will be provided too. Then, the

proposed 3D modeling approach will be described as well as the prototype implementing

such an approach. Finally, results of tests conducted to assess the prototype performances

will be provided and discussed before concluding.

4.2.2 Mobile Augmented Reality Operational Constraints

The concept of an augmented reality environment is often presented using the Reality-

Virtuality continuum of Milgram (Milgram, et al. 1994) (cf. Figure 4.1). Reality, namely

what is directly perceived by a person or indirectly by a camera, stands at the left extremity

of the continuum. A virtual environment, which is completely synthetic, stands at the right

end of the continuum. Between both extremities are all the mixed reality environments,

which merge computer generated graphics and real elements. Augmented reality, which is

situated next to reality, is a real environment augmented by virtual elements. If the

environment is predominantly synthetic with some real elements included, this context is

related to augmented virtuality. Augmented reality approaches are relevant to many

contexts, like, for instance, the maintenance of mechanical engine (Henderson et Feiner

2007), or teaching and learning 3D contents (Shelton et Hedley 2002). Augmented reality

offers also an exceptional potential for gaming (Lindt, Ohlenburg et Pankoke-Babatz, et al.

2007).

Figure 4.1 - Reality-Virtuality Continuum (Milgram, et al. 1994)

An augmented reality application is said to be mobile if the user is his own avatar and his

position in the synthetic world follows his displacements in the real environment (Broll, et

al. 2008). Those types of applications can display various levels of augmentation (Thomas,

Daniel et Pouliot, 3D modeling for Augmented Reality : A Taxonomy s.d.). Mobile

applications with low augmentation (i.e. “weakly augmented”) consist generally in

displaying multimedia elements triggered by the physical proximity of the user to a virtual

point of interest (POI). A POI is simply information, such as image, video or text, linked to

a specific location at the surface of the Earth. Games described in Squire & Mingfong

(2007) or Klopfer & Squire (2007) are good examples of such applications. Increasing the

level of augmentation will increase the level of immersivity and interactivity of the

application and, as a result, the capability to challenge the user interest. Applications with

such level of augmentation are said to be “strongly augmented”. Literature review shows

that very few strongly augmented applications have been developed so far. Most of them

used head mounted display, a laptop, a GPS receiver and an inertial system as their

hardware configuration. However, these devices were rarely integrated and definitely not

ergonomic, limiting their deployment and adoption by user community. With the

emergence of lightweight and powerful smartphones equipped with GPS receiver, digital

compass, camera and accelerometers, there are new opportunities to implement mobile AR

applications using these platforms and to bring mobile AR outside the research community.

Layar 3D application (sprxmobile 2009) is already a good example. Having specified the

various declensions of mixed and augmented reality, we will now address the requirements

of strongly augmented solutions. They will be the focus in the following paragraphs and

sections of the paper.

According to Azuma definition of augmented reality (Azuma 1997), computer-generated

graphics and reality should be perfectly co-registered in real time to provide the user with a

strong augmentation of the reality. This requirement allows maintaining the user feeling of

presence and immersion at all time. Good co-registration of virtual elements in the real

world implies to precisely determine the user position and orientation and to tackle

occlusion issues. These positioning and occlusion issues are generally resolved using 3D

models of the environment (Schmalstieg, et al. 2007) (Ohlenburg, Lindt et Pankoke-Babatz

2007). To correctly manage the occlusions, the 3D model of the real environment has to be

first integrated in the same virtual world as the graphic elements. Then, during the

rendering of the scene, the model of the real environment is drawn in a transparent manner

so the background (i.e. the camera live video stream) could be shown in the foreground in

lieu of the occluded parts of the 3D virtual graphic elements. To retrieve a more accurate

position and orientation of the user, the 3D model can be projected in the current video

frame according to the previous camera pose computation as proposed by Reitmayr and

Drummond (Reitmayr et Drummond 2006). Using computer vision algorithms, the 3D

model projection is compared to the model features in the current frame of the video

stream. The detected differences will provide information about the camera movements.

They will complement the pose and orientation measurements provided by the hardware

components (i.e. digital compass, accelerometers, GPS receiver).

As it has been underlined above, a 3D model of the environment is required in order to

build mobile AR applications with rich interactions and high immersivity. Various sources

for 3D models currently exist. Virtual globes such as Google Earth or Bing Maps contain a

handful of 3D models. However, it is not possible to retrieve them seamlessly depending on

the user’s location. Actually, the only way to access a single 3D model from Google Earth

is to manually download it from the 3D warehouse website

(http://sketchup.google.com/3dwarehouse/). Open 3D servers exist like OpenStreetMap-3D

(Neubauer, et al. 2009), but they offer limited coverage and they do not seem to have a

strong community leverage. On the other hand, 2D data is more publicly accessible and the

missing elevation data could be derived from other sources (in situ observations, building’s

altitude by adding the number of stories to the ground height). This data process still needs

to be explored in the context of mobile augmented reality modeling. Taking into account

that the availability for 3D models is currently limited, the constraint of having 3D models

anywhere at anytime in mobile AR applications cannot be always satisfied. If a 3D model

of the environment it is not available or cannot be retrieved, the environment is said to be

unprepared for augmented reality. The proposed citizen based 3D modeling solution

presented in this paper specifically addresses this context of unprepared environments

allowing the user to capture on location the 3D model he needs. The next section describes

the criteria such 3D modeling tool should fulfill to supply 3D models adapted to mobile AR

application.

4.2.3 3D Modeling Solution Specifications for Unprepared Environment

The context of mobile AR in unprepared environment focuses on augmented reality

anywhere, anytime. As mentioned in the introduction, the general public is one of the main

targets of such application. Therefore, it can be assumed that mobile AR applications in

unprepared environment should rely on limited external devices beside the smartphone

itself and should not require specific expertise in computer vision or 3D modeling from the

As underlined in the previous section, 3D model of the environment is necessary to achieve

high immersivity and strong augmentation of the real world. How such 3D model can be

made available to the user situated in an unprepared environment? In the current mobile AR

context, the classical 1D-3D (i.e. surveying/geomatics) acquisition techniques and

subsequent processing display strong constraints from a cost and time standpoint. For

example, topographical survey and subsequent 3D modeling can require several work days

before delivering the required 3D model. User cannot wait for days on site before being

able to trigger his augmentation of the world. Terrestrial LiDAR (i.e. Light Detection and

Ranging) offers high potential for fast data collection and large urban coverage. However,

its cost is still expensive (approximately 150 000 $), which limits its availability. Even if

mobile LiDAR data acquisition of large scale environment increases (ex. NAVTEQ

recently adopted this technology (NAVTEQ 2010)), a lot of urban environments have not

been scanned yet and mobile LiDAR survey remains very expensive (a survey generally

costs tens of thousands dollars). As a result, these techniques are not considered adapted for

mobile AR applications in an unprepared environment. Other techniques have been

designed especially for mobile AR applications like the working planes (Piekarsky 2004) or

the combination of map coordinates and inertial sensor data (Kim, et al. 2007). Even if

these are successful tools, they are used with specialized and expensive equipment.

Therefore there is a need for 3D modeling techniques dedicated to mobile AR applications

in unprepared environment.

In this context it appears essential that the modeling process be low cost, fast, intuitive,

ergonomic, and require neither survey equipment nor specific knowledge. Since the

purpose of the 3D model is to contribute to the strong augmentation of the environment (i.e.

precise positioning, occlusion management), it is important that the model displays relevant

level of details and spatial precision. All the criteria aforementioned can be synthesized as

the specifications the 3D modeling solution should fulfill to be relevant to mobile AR

application in unprepared environment. Thus anywhere augmentation solution requires a

3D modeling solution:

That is affordable;

That provides a 3D model of item in the environment as fast as possible;

That operates directly on the spot;

That does not require preliminary training and specialized expertise;

That could be implemented on integrated, ergonomic, lightweight on the shelf

devices;

That provides precise and detailed 3D models suitable for a determined

augmentation level;

4.2.4 Fast and Easy 3D Modeling Approach for Smartphones

Relying on these specifications of the 3D modeling solution for augmented reality

application in unprepared environment, we designed a fast, easy and generic approach to

built 3D model using a smartphone. Smartphones provide valuable visualization and

positioning functionalities based on their integrated components. The proposed 3D

modeling approach focuses currently only on buildings since these elements are major

landmarks of urban environments. In addition, as man-made structures, their regular shape

eases the 3D modeling process.

The 3D modeling approach we designed consists of three main steps: 1) the retrieval of

the 2D geographical coordinates of the buildings’ corners at the ground level; 2) the

computation of the altitude at the top corners of the building; 3) the 3D modeling process

and the augmentation of the reality. Each of these steps is detailed hereafter.

The first step is carried out manually by the user. The 2D geographical coordinates of the

buildings’ corners at ground level (Xb, Yb) are selected through a web based cartographic

application. This application can rely on maps, airborne or satellite imagery. The only

requirement is for the cartographic representation to display a spatial resolution relevant to

the building corner precise visualization.

The second step is carried out using the camera, the GPS receiver and the accelerometers.

In order to compute the altitude at the top corners of the building, the user must aim with

his mobile device camera at each of the previously identified building’s corners at roof

level. The user can move around the building and choose the most suitable location to

survey each corner. During each survey process, the GPS and accelerometers data are

simultaneously recorded by the application. The elevation angle between the user and the

roof corners is computed using the accelerometer data. Knowing the GPS position of the

user (Xu, Yu, Zu) and the corner coordinates at ground level (Xb, Yb), the distance (d)

between the user and the surveyed corner can be computed. With this distance and the

elevation angle ( ), the altitude difference (dz) between the user and the roof corner can be

easily computed using Equation 1. In Equation 2, the GPS elevation data of the mobile

device (Zu) is added to the altitude difference (dz) previously computed in order to assess

the altitude of the corner at roof level (Zb) (cf. Figure 4.2).

dz = d • tan ( ) . (1)

Zb = Zu + dz . (2)

Figure 4.2 - 3D coordinates calculation of a building’s top corner

The third step focuses on the 3D modeling of the building and the augmentation of the

reality including the occlusion management. Since the rendering engine cannot deal with

longitude and latitude angular data, all the building’s rooftop coordinates should be first

transformed from a spherical geographic coordinate system to a planar coordinate system.

Then, the 3D modeling of the building is carried out through a triangular meshing process

relying on the 3D coordinates of the corner at ground and rooftop altitude. Since the

altitudes of the corners at ground level are unknown, these values are set to 0. For now,

such setting is admissible since it has no impact on the subsequent augmentation of the

reality and occlusion management. In the future however, it might become a problem if

texture has to be applied on the 3D model. The augmentation of the real world is performed

through the superimposition of a 3D graphic element on top of the camera live video

stream. The scene rendering takes into account the building 3D model location in relation

to the 3D graphic element location and the user position and orientation. If the building is

in the user’s field of view, the occlusion of the graphic element should be rendered

accordingly. The 3D modeling of additional urban elements will be addressed in a near

future.

The diagram below synthesizes all the steps of the proposed fast and easy 3D modeling

approach.

Zoom to current

location in cartographic view

All corners

are suveyed?

Pin down the

building’s corners

at ground level + the position

of the 3D graphic element

with markers

Select the

marker number to survey

Store 2D coordinates

Aim with the camera

view at the

corresponding corner

at roof level and

press capture button

Store GPS +

accelerometers

Calculate the altitude

of each corners

at roof level

Trigger

AR mode

Transform 3D geographical coordinates

to a cartographic plane projection

Render the building and

the 3D graphic element corresponding

to the user’s position & orientation

Legend

Automatic

process

User action

Figure 4.3 - Citizen-based generic 3D modeling approach for smartphones

4.2.5 iModelAR Prototype

Relying on the approach described in the previous section, we developed a 3D modeling

prototype we entitled iModelAR. iModelAR has been implemented on the iPhone 3G

platform, taking full advantage of all its components (GPS, accelerometers and camera).

The prototype has been programmed in the integrated development environment (IDE)

XCode using Objective-C language. The three main steps of the fast and easy 3D modeling

approach have been implemented as follows in iModelAR prototype:

Step 1: the 2D geographical coordinates of the buildings’ corners at the ground level

are selected using a Google maps view centered at the user’s location. In addition to

placing markers at the corner location on the map, the user needs to mark the

location of the 3D graphic element that will augment the real world later on. (cf.

Figure 4.4).

Step 2: the user can rely on a red cross overlaid on the camera view to help him aim

precisely at the previously identified building’s corners at roof level (cf. Figure 4.5).

When surveying a building corner, iModelAR records series of accelerometers data.

The more accelerometers data is recorded, the better the accuracy of the corner

survey is but the longer it takes to complete this survey. Therefore, a trade-off is

required between maximizing the total number of accelerometer records per corner

and minimizing the survey time. According to our experiments, recording 250

accelerometer data values seems to be the right trade-off. While accelerometer data

are recorded, between five to seven GPS readings are recorded as well. These

accelerometer and GPS data series are used to increase the redundancy of the

orientation and position measurements. This will yield to more robust and

representative position and orientation mean values. These values will be involved

in the computation of the roof corner 3D coordinates as explained in the previous

section. Once each corner has been surveyed, the user triggers the augmented reality

view button.

Step 3: the 3D coordinates of the rooftop corners are transformed from the

geographical coordinates system of the GPS receiver (WGS84) to the Universal

Transverse Mercator (UTM) coordinate systems relying on the WGS84 ellipsoid.

The 3D triangular mesh of the building is computed in OpenGL ES environment.

Even though the main focus of this work was 3D modeling, an augmented reality

view managing occlusions was developed to assess the relevance of the proposed

approach and prototype towards anywhere augmentation. Only common lighting

and color OpenGL ES functions have been used to achieve the rendering of the 3D

graphic element (cf. Figure 4.6).

Figure 4.4 - a) User at location, b) Pinning down the building’s corners in the cartographic

view (A); select the position of the graphic 3D element (B); user’s position (C)

Figure 4.5 - a) User at location, surveying a building’s corner, b) Surveying interface of the

photographic view

Figure 4.6 - a) & b) Rendering of the 3D graphic element according to the user’s position

and orientation while correctly managing occlusions

4.2.5.1 iModelAR Performance Analysis

Within this section, the spatial precision and the fit for use of iModelAR will be presented.

The impact of each of the components involved in the computation of the building’s 3D

coordinates at roof level on the resulting accuracy will be assessed. The fit for use

subsection will consist of the comparison between the criteria previously enounced in

section 4.2.3 and the capabilities of the developed application.

Spatial Accuracy: Tests have been carried out according to the following testing protocol:

Eight top corners on four different buildings with various heights have been

surveyed using a total station. These measurements have been used as the ground

truth;

The corners have been surveyed using iModelAR. This survey has been performed

at the location of two geodesic points with known coordinates;

Three series of observation of the eight corners have been performed at each of the

two geodesic points location;

At the second geodesic point location, only six of the eight corners were visible;

Being located on known 3D geodesic points, each position or orientation measures

involved in the computation of the building corner 3D coordinates could be analyzed

individually. Since the distance and the elevation difference between the geodesic points

and all the corners were known precisely, the targeted measurements could be inferred.

Table 4.1 sums up the mean difference in absolute value between the position and

orientation measures recorded using iModelAR and those recorded using the total station.

Table 4.1 - iModelAR accuracy analysis

Component Ground truth Mean Difference Standard Deviation

Xu, Yu Geodesic point 3.0 m 2.4 m

Zu Geodesic point 3.9 m 3.1 m

θ Total station

measurements 1.3° 0.9°

d Total station

measurements 2.3 m 1.6 m

dz Total station

Xb, Yb Total station

Zb Total station

Horizontal Accuracy. When addressing the horizontal accuracy of a building’s corner, the

main sources of error are related to the markers placement on the satellite image, the

georeferencing precision and the highest zoom level available of the cartographic tiles of

Google Maps. Sometimes, and because of projective effects, it is tricky to approximate

where the corner is at ground level if the building is tall (cf. Figure 4.7) or has an extended

cornice. Maximum errors up to five meters have been assessed only for the Google Maps

tile of our test zone on the Université Laval campus. Regarding the georeferencing of the

satellite images of Google Maps, no metadata information was available about the accuracy

of this georeferencing. Therefore an uncertainty remains about the inaccuracy value that

should be attached to this error source. More testing should be done at various locations to

assess its impact on the horizontal precision. Another point is the maximum zoom level

available for a geographic zone. A high resolution Google Maps tile will enable an

iModelAR user to achieve precise placements of markers at a building's corner. When

combining the imprecision of the three aforementioned sources of errors, the mean

difference between the coordinates in the (x, y) plane provided by iModelAR and those

provided by the ground truth is about two meters.

Figure 4.7 - Marker at ground level corresponding to the roof where the red cross is

Vertical Accuracy. Three components are needed to compute the altitude of a building’s

roof corner with iModelAR: 1) the distance between the user and the corner that is

surveyed (calculated based on their horizontal positions (x, y)); 2) the elevation angle of the

mobile device during the survey; 3) the altitude of the mobile device during the survey.

Let’s focus at first on the precision of the distance between the user and the corner to

survey. Two components are used to calculate this distance: the user position during the

survey and the 2D coordinates of the marker. The horizontal position (x, y) of the user is

retrieved using the iPhone embedded GPS receiver. Five to seven GPS positions are

averaged each time a corner coordinate is surveyed in order to have redundancy in the data

set. A mean error of about three meters has been computed for the GPS measurement. The

horizontal precision of the corner is about two meters (cf. Horizontal Precision section).

When taking into account these two accuracy values, the resulting precision for the distance

was ranging between two and three meters.

The elevation angle is calculated based on the accelerometer data recorded during each

corner survey. 250 accelerometer measurements are recorded and filtered to limit the

effects of the user’s quick movements. By comparing the elevation angles measured using

iModelAR to the total station measurements, a mean difference of only 1.3 degree has been

computed.

When combining the elevation angle with the distance, the mean error between the

building’s roof altitude as provided by iModelAR and the altitude surveyed with the total

station is about one meter. However, the iPhone’s altitude from the GPS receiver should

also be involved in iModelAR computation (i.e. its altitude should be added to the

building’s altitude computed by the prototype) in order to get the correct Z coordinate of

the building’s roof corners. In the context of this study, the iPhone’s GPS provides altitude

measures with four meters imprecision (cf. Table 4.1) and this is the main source of error in

the building’s altitude computation using iModelAR.

The redundancy of 3D coordinates for the same corner can be increased and therefore the

precision of the survey can be improved by aiming at the same corner more than once.

Modeling the building with flat roof helps improving the resulting precision since the mean

value of all the building’s top corners is used.

Fit For Use. Table 4.2 synthesizes the performances of iModelAR from a fit for use

standpoint. In other words, the relevance of the prototype has been assessed in the context

of mobile AR in unprepared environment.

Table 4.2 - List of performances of iModelAR

Criteria iModel AR Performance

3D modeling speed (4 corners

building) < 3 min

Ease of use 43 taps (4 corners)

Cost 699$ CAN (iPhone 3Gs),

(199$ CAN with a

Criteria iModel AR Performance

communication plan)

On the fly ? YES

With off the shelf material? YES

Required knowledge in 3D

modeling NONE

The 3D model produced can

be used to augment the reality? YES

Occlusion management? YES

From our experience of showcasing iModelAR, modeling a four corners building takes

about three minutes for a user with no experience. 43 taps are necessary to achieve the

modeling. However the sequence consisting of aiming at the roof for each marker is

repetitive and no long taps sequence needs to be memorized. iModelAR runs on an iPhone

3G which actually costs about 700$ CAN and drops to 199$ CAN with a communication

plan. With only this off the shelf material, iModelAR can model a building directly on the

field, without the post-processing usually needed with common geomatics techniques.

Guiding instructions are providing to the user at each step of the 3D modeling process.

No specific expertise is required to complete the task. The prototype relies on usual tools

available on the Web (i.e. Google Maps) and on the smartphone functions. Therefore it

should be fairly easy for the general public to use such solution. The prototype has been

already showcased at various conferences and workshops. Comments from the attendance

have been very positive. User tests should be conducted in a near future to confirm these

preliminary feedbacks.

User adoption of iModelAR solution will rely, in part, on the AR view quality. In terms

of augmentation performance, the augmented view is refreshed at a speed of about 30

frames/second. The 3D model of a four corners building consists of eight triangles and

2779 triangles are used to model the 3D graphic element (i.e. the famous Utah teapot).

Therefore the rendering task is not too computationally expensive for the model device. If

the user tilts the iPhone and moves in his environment, the augmentation follows

accordingly at a fluid pace. Since the iPhone 3G does not have a digital compass, the yaw

angle is not taken into account. This problem can be resolved easily by using the iPhone

3Gs which includes a digital compass. A good calibration of the iPhone’s camera will be

necessary to supply the right field of view parameters to the OpenGL ES rendering function

so that the 3D graphics would be perfectly aligned with the camera view. Actually, this

causes the 3D graphic elements to seem nearer then they really are.

In the current version of the prototype, we can only model one building at once, but no

extensive programming efforts would be needed to enable the software to model more than

one at the time.

Therefore, in the light of the performance tests we conducted, iModelAR fulfills the

specifications of a relevant 3D model solution (cf. 3D modeling solutions specifications for

unprepared environment) in terms of costs, speed and ease of use.

4.2.6 Conclusions and Future Work

In this paper, a novel 3D modeling solution, iModelAR, dedicated to mobile augmented

reality in unprepared environment has been proposed. Although iModelAR accuracy does

not reach the precision performances of common surveying techniques based, for instance,

on total station or LiDAR device, this application displays several other advantages

relevant to mobile AR:

It is rapid (< 3 min)

No post-processing is required (3D modeling + AR on the spot)

It is simple

It is low-cost (any recent smartphone)

No 3D modeling knowledge is required

Future works will be dedicated to precisely assessing the level of augmentation that can

be achieved when using the 3D models provided by iModelAR. The next developments

will also focus on the modeling of several buildings at a time and improving the realism of

the augmentation. Some efforts will also be invested in devising a solution to bypass the

GPS error and to be able to tackle building with complex shapes.

On the long term, solution like iModelAR can help develop an AR 2.0 user community

where sharing your 3D models and augmenting your reality anywhere will be possible.

Acknowledgments. The authors would like to thank the GEOIDE Network (GEOmatics

for Informed DEcisions) for their financial support of the GeoEduc3D project.

References

Azuma, Ronald T. "A Survey of Augmented Reality." In Presence: Teleoperators and

Virtual Environments, August 1997: 355-385.

Broll, Wolfgang, Irma Lindt, Iris Herbst, Jan Ohlenburg, Anne-Kathrin Breun, and Richard

Wetzel. "Toward Next-Gen Mobile AR Games." IEEE Computer Graphics and

Applications, Volume 28, Issue 4, July 2008: 40-48.

Gartner, Inc. Gartner Says Grey-Market Sales and Destocking Drive Worldwide Mobile

Phone Sales to 309 Million Units. November 12, 2009.

http://www.gartner.com/it/page.jsp?id=1224645 (accessed 02 27, 2010).

Henderson, Steven J., and Steven K Feiner. "Augmented Reality for Maintenance and

Repair (ARMAR)." Technical Report AFRL-RH-WP-TR-2007-0112, United States Air

Force Research Lab, July 2007.

Kim, Sehwan, Stephen DiVerdi, Jae Sik Chang, Taehyuk Kang, Ronald Iltis, and Tobias

Höllerer. "Implicit 3D Modeling and Tracking for Anywhere Augmentation." Proceedings

of the 2007 ACM symposium on Virtual reality software and technology . Newport Beach,

California: Virtual Reality Software and Technology, 2007. 19-28.

Klopfer, Eric, and Kurt Squire. "Environmental Detectives—the development of an

augmented reality platform for environmental simulations." Educational Technology

Research and Development, Volume 56, Number 2, Springer, April 2007: 203-228.

Lindt, Irma, Jan Ohlenburg, Uta Pankoke-Babatz, and Sabiha Ghellal. "A report on the

crossmedia game epidemic menace." Computers in Entertainment (CIE), Volume 5, Issue 1,

ACM, January 2007.

Milgram, Paul, Haruo Takemura, Akira Utsumi, and Fumio Kishino. "Augmented reality: a

class of displays on the reality-virtuality continuum." Telemanipulator and Telepresence

Technologies; Proc. SPIE Vol. 2351, 1994: 282-292.

NAVTEQ. "NAVTEQ Launches Advanced Mapping Collection Technology." NAVTEQ.

January 6, 2010.

http://corporate.navteq.com/webapps/NewsUserServlet?action=NewsDetail&newsId=836&

lang=en&englishonly=true (accessed 03 20, 2010).

Neubauer, N., M. Over, A. Schilling, and A. Zipf. "Virtual Cities 2.0: Generating web-

based 3D city models and landscapes based on free and user generated data

(OpenStreetMap)." GeoViz2009. Hamburg:

http://www.geovisualisierung.net/geoviz_hamburg/geovizhh_program.htm, 2009.

Ohlenburg, Jan, Irma Lindth, and Uta Pankoke-Babatz. "Report about the Crossmedia

Game Epidemic Menace." Computers in Entertainment (CIE), Volume 5 , Issue 1, ACM,

January 2007.

Piekarski, Wayne. interactive 3d modelling in outdoor augmented reality worlds. Research

Thesis for the Degree of Doctor of Philosophy, The University of South Australia, 2004.

Reitmayr, Gerhard, and Tom W. Drummond. "Going out : Robust Tracking for Outdoor

Augmented Reality." Proceedings of the 5th IEEE and ACM International Symposium on

Mixed and Augmented Reality. Santa Barbara, California: IEEE, 2006. 109-118.

Schmalstieg, Dieter, et al. "Managing Complex Augmented Reality Models." IEEE

Computer Graphics and Applications, Volume 272, Number 1716 (IEEE Computer

Society), 2007: 32-41.

Shelton, Brett E., and Nicholas R. Hedley. "Using Augmented Reality for Teaching Earth-

Sun Relationships to Undergraduate Geography Students." The First IEEE International

Augmented Reality Toolkit Workshop. Darmstadt, Germany: IEEE, 2002.

sprxmobile. Layar 3D. 09 22, 2009. http://layar.com/3d/ (accessed 09 30, 2009).

Squire, Kurt, and Jan Mingfong. "Mad city mystery: Developing scientific argumentation

skills with a place-based augmented reality game on handheld computers." Journal of

Science Education and Technology, Volume 16, No. 1, Springer, 2007: 5-29.

Thomas, Vincent, Sylvie Daniel, and Jacynthe Pouliot. "3D modeling for Augmented

Reality : A Taxonomy." To be summited.

4.3 Compléments à l’article

L’article scientifique présente l’intégralité des travaux réalisés afin d’atteindre l’atteinte de

notre troisième sous-objectif qui est de proposer un modèle conceptuel pour l’élaboration

d’une chaîne de traitement de modèles 3D adaptée à la mise en œuvre d’applications de

RAM fortement augmentée. Cet article n’adresse cependant pas le positionnement de

l’application développée au sein de la taxonomie proposée au chapitre 3 (cf. Figure 3.1).

Ceci constitue l’objet des paragraphes suivants. L’article ne fait pas mention non plus des

liens existants entre iModelAR et les tendances actuelles du Géoweb 2.0 et du VGI. En

effet, l’application offrant la possibilité de créer simplement des modèles 3D géoréférencés,

elle rejoint parfaitement ces concepts associés notamment à la saisie et au partage de

données géospatiales par et pour le grand public. Cependant, en tenant compte du temps

restreint disponible pour compléter ce travail de maîtrise, il n’a pas été possible d’élaborer

un cadre informatique permettant de stocker et de partager les modèles 3D créés. Seule la

création de contenu a donc été explorée.

Compte tenu des caractéristiques de l’application iModelAR, celle-ci s’inscrit dans le

groupe des techniques d’acquisition de données spatiales qui fait appel à de l’équipement

grand public. Elle doit donc être positionnée à l’extrémité gauche du premier continuum de

la taxonomie. Dans ce groupe, l’acquisition de données se fait rapidement, simplement et à

peu de frais. Comme les résultats obtenus l’on démontré, iModelAR nécessite seulement un

téléphone intelligent accessible à tous et offre la possibilité d’effectuer une modélisation

simple d’un bâtiment en quelques minutes. De plus, lors de démonstrations publiques de

nos travaux, nous avons pu vérifier qu’iModelAR était suffisamment simple d’utilisation

pour être accessible à un large public. Des tests supplémentaires avec plusieurs utilisateurs

auraient permis d’identifier d’une manière plus complète les faiblesses d’iModelAR au

niveau de la facilité d’utilisation et de dégager plus en détails les contextes d’applications

envisageables. Puisque notre application se retrouve dans la catégorie d’acquisition de

données de type « Grand public », l’éventail des individus susceptibles d’être interrogés se

verrait être très large. Ces personnes pourraient provenir de plusieurs domaines différents et

posséder une expertise variée (i.e. du néophyte jusqu’au professionnel en modélisation 3D).

Au niveau de la qualité visuelle du rendu d’iModelAR, nous n’avons effectué des tests que

sur des bâtiments de forme régulière. Bien que d’entrée de jeu, notre solution ne soit pas

adaptée à des bâtiments très complexes, il aurait été intéressant de vérifier jusqu’à quel

niveau de détails géométriques notre solution demeure viable. Aussi, l’horizon dépourvu de

hauts bâtiments et de végétation dense de notre site de test, c’est-à-dire le campus de

l’Université Laval, offrait une réception optimale des signaux provenant des satellites GPS.

Il serait intéressant de voir l’impact sur la qualité des résultats d’un site moins propice.

Concernant le deuxième continuum, portant sur les modèles 3D, ceux produits par notre

application s’y situent complètement à gauche. En effet, le niveau de détails géométriques

est limité à des plans formant les murs des bâtiments modélisés. La précision absolue des

coordonnées des points calculés formant le modèle 3D est assez faible (i.e. environ 5 m)

comparativement à d’autres techniques (ex. arpentage, LiDAR), mais cela peut être

amplement suffisant selon le contexte d’application. En nous basant sur notre taxonomie,

les spécifications du modèle 3D produit par iModelAR à valider vis-à-vis d’une

augmentation de niveau 3 offrant seulement une gestion des occlusions sont l’exactitude

géométrique, l’exactitude du géoréférencement ainsi que le niveau de détails géométriques.

Il nous est cependant difficile d’évaluer les possibilités offertes par les caractéristiques du

modèle 3D en termes de qualité d’augmentation. Cependant, il est certain que le niveau de

détails géométriques limité des modèles 3D entraînera une gestion approximative des

occlusions dans le cas d’un bâtiment géométriquement complexe tel le Château Frontenac

(cf. Tableau 3.2). Pour l’exactitude géométrique, iModelAR déforme le bâtiment lors de la

modélisation 3D essentiellement selon l’axe vertical, où l’erreur est la plus grande. Cela se

répercute sur la qualité de la gestion des occlusions en particulier au niveau du toit du

bâtiment modélisé. L’exactitude du géoréférencement est d’environ deux mètres, ce qui

influencera la cohérence entre le réel et le virtuel surtout au niveau des faces verticales de

notre bâtiment modélisé. Par exemple, notre théière virtuelle se verra être cachée sur l’axe

vertical plus que nécessaire ou insuffisamment par le bâtiment modélisé. Du point de vue

du rendu, l’engin 3D utilisé, OpenGL ES, est assez évolué pour construire des objets

graphiques 3D complexes en termes de forme, de couleur et de texture. Le réalisme de

l’augmentation aurait pu être amélioré en effectuant une calibration précise de la caméra de

l’appareil mobile au préalable. Cette opération aurait permis d’éliminer les problèmes

d’échelle existant entre le modèle 3D produit par l’application et l’objet virtuel inséré dans

la réalité. En effet, l’effet de perspective entre ces objets ne varie pas tout à fait selon le

déplacement de l’utilisateur. Aussi, les modèles 3D produits ne sont pas texturés et ne

possèdent pas de détails sémantiques. Cependant, bien que les modèles 3D soient assez

rudimentaires, ils permettent néanmoins d’atteindre le troisième niveau d’augmentation

(NA) sur le troisième continuum. En effet, l’intégration dans la réalité d’un objet virtuel 3D

tout en tenant compte de l’environnement réel (i.e. gestion des occlusions) est la

caractéristique discriminant le niveau NA2 du niveau NA3. Bien que peu d’interactions

soient offertes à l’utilisateur par iModelAR (i.e. visualisation seulement), la table est mise

pour le développement d’applications plus évoluées.

Au vue des performances d’iModelAR en termes d’augmentation, il est envisageable

d’utiliser cette solution dans des contextes requérant des modèles 3D rapidement, mais sans

avoir le besoin de posséder un niveau élevé de détails géométriques (ex. contexte de jeu,

simulations simples en architecture). Quelques exemples d’applications futures seront

discutés plus en détails dans le chapitre suivant.

iModelAR a été développé selon les principes de l’Anywhere Augmentation. Ce concept

vise à permettre à n’importe qui de pouvoir augmenter rapidement son environnement

immédiat, peu importe où et quand et ce, d’une manière la plus réaliste possible. En accord

avec l’Anywhere Augmentation, notre application permet à un utilisateur de modéliser en

3D un bâtiment en quelques minutes peu importe sa position géographique (à partir du

moment où un signal GPS, WiFi ou cellulaire est disponible pour le positionnement) puis

d’y intégrer des objets virtuels 3D en fonction de son environnement immédiat.

Quand on croit être heureux, vous savez que cela suffit pour l'être – La Fayette

5. Chapitre 5 – Conclusion

5.1. Retour sur les objectifs du projet et la recherche effectuée

L’objectif principal de ce travail de maîtrise était de proposer et d’évaluer une chaîne de

traitement adéquate pour la production rapide de modèles 3D en vue de mettre en œuvre

des applications de réalité augmentée mobile s’inscrivant dans la lignée du concept

d’Anywhere Augmentation. Celui-ci s’est décliné en trois sous-objectifs qui chacun ont

produit des résultats concrets.

Ainsi, le premier sous-objectif était de réaliser l’inventaire, la catégorisation et la

comparaison des chaînes de traitement existantes pour la production de modèles 3D pour

des applications de RAM. Une revue de littérature des domaines de la géomatique et de la

réalité augmentée a été effectuée des domaines de la géomatique et de la réalité augmentée,

recensant les différentes applications de RAM ainsi que leurs principales caractéristiques.

Aussi, les rôles que les modèles 3D de l’environnement peuvent jouer au sein de ces

applications ont été mis en évidence. Nous avons remarqué que le fait de disposer d’un

modèle 3D des éléments présents dans l’environnement pour une zone donnée permet de

mettre en œuvre des applications de RAM fortement augmentée, le modèle intervenant

alors au sein de ces applications afin : de gérer les occlusions entre les objets réels et

virtuels; d’aider au calcul de la pose de la caméra; de supporter l’augmentation et les

interactions. De telles applications seront en mesure d’offrir aux utilisateurs une

augmentation convaincante de la réalité et des interactions riches, et seront par le fait même

plus immersives. A l’heure actuelle, les zones urbaines n’ont pas toutes été modélisées en

3D et pour celles pour lesquelles un modèle 3D existe déjà, il n’est pas certain que le grand

public ait accès librement à ces modèles. Par exemple, la ville de Toronto offre ses modèles

3D, mais l’utilisateur doit débourser quelques centaines de dollars

(www.toronto.ca/mapping/3d.htm) pour les obtenir. Ainsi, pour les applications de RAM

conformes au principe d’Anywhere Augmentation (i.e. pouvoir augmenter son

environnement n’importe où, n’importe quand), la disponibilité de modèles 3D reste

souvent problématique. D’autre part, les chaînes de production de modèles 3D actuelles

présentent des contraintes fortes en termes de coûts et de temps pour un utilisateur

occasionnel de RAM. Celles-ci sont ainsi peu adaptées au contexte des applications de

Le deuxième sous-objectif du projet visait à déterminer les caractéristiques que doivent

présenter les chaînes de production de modèle 3D adaptées aux applications de RAM

fortement augmentées et s’inscrivant dans le contexte d’Anywhere Augmentation. La revue

de littérature effectuée préalablement a révélé que les liens entres les caractéristiques de ces

modèles 3D et l’augmentation possible de la réalité ne sont pas ou peu définis. Or,

l’élaboration de notre chaîne de production de modèles 3D afin d’augmenter fortement la

réalité requiert la connaissance de ces liens. Afin de les mettre en évidence, une taxonomie

a été élaborée mettant en relation les techniques d’acquisition de données, les modèles 3D

et les niveaux d’augmentation de la réalité. Celle-ci a permis de mettre en évidence

l’impact des caractéristiques des modèles 3D sur l’augmentation de la réalité. De plus, les

principales techniques d’acquisition de données spatiales ont aussi été analysées. Cette

analyse a permis de définir les caractéristiques retenues pour notre chaîne de production de

modèles 3D. Ces caractéristiques sont les suivantes :

Être abordable pour un utilisateur occasionnel;

Produire un modèle 3D d’un objet de l’environnement le plus rapidement possible;

Produire un modèle 3D pouvant au minimum gérer les occlusions. En se basant sur

notre taxonomie, les critères du modèle 3D à maximiser sont le niveau de détails

géométriques et l’exactitude spatiale (i.e. exactitude du géoréférencement et

exactitude géométrique);

Pouvoir être mise en œuvre directement sur le terrain à la volée;

Pouvoir être mise en œuvre sans nécessiter de formation préliminaire ou une

expertise spécialisée;

Pouvoir être implantée sur un appareil disponible dans le commerce, ergonomique

et léger;

La mise en évidence des caractéristiques de la chaîne de production élaborée et la

conformité des modèles 3D produits vis-à-vis de l’augmentation de la réalité attendue a été

validée par l’implantation de la chaîne de production et la réalisation d’une série de tests,

visant notamment à augmenter la réalité en conditions réelles.

Le troisième sous-objectif consistait à proposer un modèle conceptuel pour une chaîne de

production de modèles 3D adaptée à la RAM selon les caractéristiques établies au

deuxième sous-objectif. Le modèle conceptuel a été élaboré de manière à être générique

pour les téléphones intelligents. Afin d’en valider sa pertinence pour l’augmentation de la

réalité dans le contexte de l’Anywhere Augmentation, il a été implanté sur la plateforme de

l’iPhone 3G. Les modèles 3D produits par l’application créée, nommée iModelAR, sont des

prismes possédant un faible niveau de détails et adaptés pour la modélisation rapide de

bâtiments. Ceux-ci sont modélisés avec un toit et des murs plats. Le nombre de murs

constitutif du modèle n’est pas limité, mais la modélisation de bâtiments plus complexes,

c’est-à-dire avec un toit en pente ou avec des murs inclinés n’est pas possible avec cette

solution. L’évaluation de la solution de production de modèles 3D a révélé que l’exactitude

spatiale des coins au niveau du toit des modèles 3D de bâtiment résultants demeure

inférieure à cinq mètres en comparant avec des coordonnées relevées par station totale.

Avec un modèle 3D produit par notre solution possédant cette exactitude spatiale et ce

niveau de détails, il a été possible d’augmenter la réalité avec un objet virtuel 3D tout en

gérant grossièrement les occlusions (cf. Erreur ! Source du renvoi introuvable.). Cette

ugmentation est ajustée selon le point de vue de l’utilisateur, déterminé à partir des

accéléromètres et du récepteur GPS du téléphone intelligent.

Figure 5.1 - Gestion des occlusions en temps réel dans l’application iModelAR

Cependant, l’équipement utilisé (i.e. iPhone 3G) ne nous a pas permis de prendre en

compte l’orientation de l’appareil selon le Nord magnétique. En utilisant un iPhone 3Gs ou

iPhone 4, qui comprennent une boussole numérique, et en apportant des modifications

simples au code d’iModelAR, il serait aisé de surmonter cette limitation. La plate-forme du

téléphone intelligent a été un choix judicieux pour ce projet pour plusieurs raisons :

Possibilité de développer notre propre application;

Plateforme intégrant les composantes de visualisation et de positionnement

nécessaires à la RAM (i.e. caméra, accéléromètres, récepteur GPS);

Puissance suffisante pour effectuer un rendu fluide à 30 images par seconde;

L’évolution rapide des téléphones intelligents en termes de puissance et d’équipements (ex.

l’iPhone 4 possède un gyroscope) laisse entrevoir plusieurs possibilités pour l’avenir de la

RAM sur ce type de plateforme. D’autres part, la solution proposée est conforme avec le

concept de l’Anywhere Augmentation dans le sens où iModelAR permet à un utilisateur

sans connaissances spécifiques en modélisation 3D de pouvoir augmenter son

environnement et ce, sans une longue initialisation préalable. En effet, le processus de

modélisation est d’environ trois minutes pour un bâtiment constitué de quatre coins

principaux. Des tests de l’application auprès de groupes d’utilisateurs n’ont pas été

effectués étant donné que l’application proposée en est encore au stade de prototype.

Cependant, elle a été présentée à plusieurs reprises à des colloques, conférences et au cours

de séances de démonstration et les commentaires obtenus auprès de l’audience et des

participants à ces événements ont été très favorables. Finalement, l’implantation et

l’évaluation de la chaîne de production de modèles 3D reposant sur le modèle conceptuel a

été réalisée avec succès et permet ainsi de conclure à l’atteinte du troisième sous-objectif.

En résumé, les deux premiers sous-objectifs ont permis de recenser l’information nécessaire

pour cerner les caractéristiques d’une chaîne de production de modèles 3D qui soit adaptée

à une application de RAM fortement augmentée. Le troisième sous-objectif a consisté à la

conception, à l’implantation et à l’évaluation de cette chaîne de production en accord avec

le concept d’Anywhere augmentation. La réussite de ces trois sous-objectifs permet de

conclure au succès de l’objectif global de ce projet de maîtrise soit de proposer et d’évaluer

une chaîne de traitement adéquate pour la production rapide de représentations spatiales 3D

requis pour les applications de RAM fortement augmentées.

5.2. Contributions de la recherche

Ce projet de maîtrise propose une nouvelle chaîne de production de modèles 3D de

l’environnement qui est adaptée pour le domaine de la RAM. Plus précisément, nous

sommes maintenant en mesure de modéliser, d’une manière simple et rapide, un bâtiment à

partir de données géospatiales acquises directement sur site. Le travail effectué contribue

ainsi au domaine de la géomatique en proposant une méthode innovante afin de saisir des

coordonnées 3D rapidement en exploitant des appareils simples d’utilisation et abordables.

La possibilité de gérer d’une manière très simple les occlusions entre le réel et le virtuel

dans une application de RAM sur un téléphone intelligent se voit être aussi un aspect

innovant.

La taxonomie développée a contribué à mettre en lumière les interrelations présentes entre

les domaines de la géomatique et de la RAM sous la forme concise de trois continuums.

Tout d’abord, la taxonomie propose une nouvelle catégorisation simple des différentes

techniques d’acquisition de données géospatiales 3D. Pour ce qui est des applications de

RAM, trois catégories sont définies avec des limites claires. Une telle définition représente

une innovation dans le domaine de la RAM où actuellement peu de distinctions sont faites

entre les applications existantes. De plus, le lien établi entre les caractéristiques des

modèles 3D et les niveaux d’augmentation de la réalité simplifie le processus de sélection

d’un modèle 3D adéquat et ainsi encourage le déploiement d’applications de RAM

fortement augmentée. La proposition de cette taxonomie est une contribution importante

étant donné qu’aucun travail similaire n’a été proposé jusqu’à présent dans la littérature.

Ce projet de maîtrise a également conduit à la rédaction d’un article scientifique, soumis et

accepté à une conférence internationale de renom dans le domaine de la modélisation 3D

géospatiale. Ceci constitue une contribution importante de la recherche effectuée. Aussi,

notre taxonomie fera l’objet d’un article scientifique qui est actuellement en cours

d’écriture. Les réalisations issues de ce projet de recherche ont donné lieu à plusieurs

présentations et démonstrations au cours d’événements scientifiques et d’activités ouvertes

au grand public ce qui a permis de faire connaître ces travaux et dans un spectre plus large,

de donner le goût de la science à des jeunes.

Pour résumer, ce projet de maitrise a contribué à tisser des liens entre les domaines de la

RA et de la géomatique. De plus, notre travail a permis de montrer la faisabilité d'intégrer

des techniques de mesure et de modélisation 3D à des solutions dites grand public comme

les téléphones intelligents. Ce projet a donc contribué à l’avancement de la science dans le

domaine de la géomatique en valorisant l’apport de ce domaine sur un nouveau contexte

d’application qu’est la Réalité Augmentée Mobile.

5.3. Perspectives

Plusieurs perspectives de recherche sont issues de ce projet. Nous exposons ici quelques

idées afin de pousser plus loin le travail déjà accompli. Premièrement, nous avons prouvé

que les modèles 3D produits par notre chaîne de traitement pouvaient être utilisés afin de

gérer correctement les occlusions entre les éléments virtuels et réels. Cependant, les deux

autres rôles associés aux modèle 3D dans des applications de RAM (i.e. aide au

repositionnement de la caméra et support aux augmentations et aux interactions) n’ont pas

été testés. Il serait intéressant de développer la partie RAM de notre application afin que le

modèle 3D produit par l’utilisateur remplisse les trois rôles décrits. Pour ce qui est de l’aide

au calcul de la pose de la caméra, des évolutions récentes du système d’exploitation et de

l’environnement de développement de l’iPhone autorisent maintenant l’accès au flux vidéo

et donc ouvre la porte à l’analyse en temps réel des images. La populaire librairie

d’algorithmes de vision numérique OpenCV (http://opencv.willowgarage.com/wiki/) peut

aussi être implantée dans l’appareil. Celle-ci présente un intérêt compte tenu des

algorithmes puissants d’analyse d’images qu’elle offre et qui pourraient être utilisés lors du

calcul de pose de la caméra à partir des modèles 3D produits. Cependant, le

repositionnement de la caméra dans des environnements extérieurs, où l’illumination et les

éléments présents dans la scène (ex. végétation, passants, voitures, neige) sont hautement

variables, ainsi que les capacités limitées du processeur constituent encore des défis à

relever en vue de la mise en œuvre d’un calcul de pose sur téléphone intelligent et basé sur

l’exploitation d’un modèle 3D. Il serait néanmoins pertinent d’évaluer la capacité de

l’application iModelAR à effectuer un calcul de pose à partir du modèle 3D élaboré et

l’exactitude spatiale atteignable.

Afin de valider pleinement l’adéquation de la chaîne proposée pour des applications de

RAM, il sera nécessaire d’améliorer la complexité et l’exactitude spatiale des modèles 3D

produits. En termes de complexité, des bâtiments constitués de plusieurs paliers, présentant

des surfaces courbes ou une toiture en pente devront figurer parmi les prochains modèles

que l’application devra être à même de produire. Cependant, plus la modélisation devient

élaborée et moins l’application risque d’être simple pour un utilisateur n’ayant pas de

connaissances en modélisation. Un juste équilibre est souhaitable entre le gain au niveau de

l’augmentation amené par un modèle 3D plus détaillé et la simplicité d’utilisation de

l’application. Dans le futur, une modélisation de bâtiment pour iModelAR beaucoup plus

visuelle et intuitive est à envisager. Un bon exemple est Google SketchUp qui propose des

outils simples de modélisation 3D à la portée de tous. Donc une modélisation 3D

s’effectuant directement sur le flux vidéo pourrait constituer une avenue intéressante pour

visualiser immédiatement le résultat (cf. Figure 5.2). Cette idée est déjà en cours de

production au Centre de recherche en géomatique de l’Université Laval et devrait faire

l’objet d’une publication au cours de l’année 2011.

Figure 5.2 – Modélisation factice selon une approche similaire à celle de Sketchup en temps

réel sur un appareil mobile

En termes d’exactitude spatiale, le système est lié à Google Maps ainsi qu’aux composantes

physiques de l’appareil, donc peu d’améliorations sont possibles de ce côté puisque hors de

contrôle. Cependant, il serait possible d’utiliser une base de données contenant des points

avec des coordonnées connues précisément (ex. points géodésiques) ainsi que la taille de

l’utilisateur afin d’améliorer considérablement la composante d’altitude des coordonnées

finales du modèles 3D. Pour la composante horizontale des coordonnées des modèles 3D

produits, l’utilisation d’autres sources de données plus précises est à envisager, provenant

des services web WMS (Web Map Service) par exemple.

Le développement logiciel effectué pourrait de plus s’appliquer à plusieurs contextes. Par

exemple, une application de jeu où les joueurs doivent modéliser en 3D des bâtiments réels

afin de gagner certains avantages serait envisageable. Aussi, un autre contexte qui tirerait

profit d’une application telle iModelAR est l’architecture. Sur place, des simulations

simples de luminosité entre des bâtiments réels et virtuels (i.e. à construire) pourraient alors

être effectuées.

Une autre fonctionnalité d’iModelAR intéressante à développer dans le futur serait la

diffusion à tous des modèles 3D produits. Une telle approche s’inscrit dans la tendance

actuelle de l’IGV (Information Géographique Volontaire) où les utilisateurs modélisent

leur environnement immédiat puis le partage avec l’ensemble de la communauté Internet.

La possibilité d’avoir un serveur mettant à disposition les modèles 3D produits par

iModelAR permettrait donc d’éviter la phase de modélisation dans certains cas.

Finalement il nous apparait certain que la taxonomie pourrait servir à bien d’autres besoins

que ceux testés dans le cadre de notre prototype (i.e. les jeux). En effet, prenons l’exemple

d’un architecte désirant montrer sur le chantier à l’entrepreneur la future résidence dont il

a effectué les plans tout en exploitant la RAM. Désirant un rendu très réaliste, en se basant

sur notre taxonomie, il opte pour une application de RAM de niveau d’augmentation 3,

gérant les occlusions et effectuant un calcul de pose de la caméra via un modèle 3D et un

algorithme de vision numérique. La taxonomie l’aide à spécifier les solutions possibles de

modélisation 3D et éventuellement à sélectionner une technique d’acquisition adéquate.

L’architecte opte donc pour un modèle 3D possédant une haute exactitude spatiale et

idéalement texturé. Voyant qu’aucun modèle 3D n’est présent dans les infrastructures 3D

populaires pour son secteur, il choisit une reconstruction photogrammétrique à partir de

clichés pris sur site et d’un géoréférencement par arpentage. Cette décision se justifie

puisque les bâtiments présents sont assez simples géométriquement, donc facilement

modélisable par photogrammétrie. De plus, la solution est peu coûteuse comparativement

au LiDAR par exemple et elle permet l’ajout de texture. Toutes ces informations sont tirées

de notre taxonomie et des exemples présentés.

Une autre perspective pour notre taxonomie est qu’elle pourrait être un déclencheur pour

l’élaboration de normes d’échanges et de stockage de modèles 3D adaptés au domaine de la

RAM. Des travaux en ce sens sont en cours au Centre de recherche en géomatique de

l’Université Laval.

Nous avons aussi démontré que les téléphones intelligents permettent de fournir des

données 3D rapidement et de manière simple. Une application intéressante permettant le

calcul rapide de surfaces, de distances horizontales, verticales et possiblement de volumes

formerait un « coffre à outil spatial » destiné à une utilisation rapide sur le terrain via un

appareil mobile.

Robot-Zombie par Rodrigo Avilés (www.rodrigoaviles.cl/index.html), utilisé en respect de

la licence Creative Commons.

Bibliographie

Arguin, Chantal, Maarten Vergauwen, Mustapha Touazi, et Pierre Beaubien. «Le

Programme d'Efficacité Géospatiale du Groupe TRIFIDE : une expertise unique

d'acquisition de données précises.» Géomatique, 2009: 28-29.

Azuma, Ronald T. «A Survey of Augmented Reality.» In Presence: Teleoperators and

Virtual Environments, 1997: 355-385.

Bier, Eric, Maureen Stone, Ken Pier, William Buxton, et Tony DeRose. «Toolglass and

Magic Lenses: The See-Through Interface.» Proceedings of Siggraph '93, Computer

Graphics Annual Conference Series, ACM, 1993: 73-80.

Broll, Wolfgang, Irma Lindt, Iris Herbst, Jan Ohlenburg, Anne-Kathrin Breun, et Richard

Wetzel. «Toward Next-Gen Mobile AR Games.» IEEE Computer Graphics and

Applications, Vol. 28, No. 4, 2008: 40-48.

Cheok, Adrian David, Siew Wan Fong, Kok Hwee Goh, Goh Yang, Wei Liu, et Farzam

Farzbiz. «Human Pacman: A Sensing-based Mobile Entertainment System with Ubiquitous

Computing and Tangible Interaction.» Proceedings of the 2nd workshop on Network and

system support for games, 2003: 106-117.

Comport, Andrew, Éric Marchand, et François Chaumette. «A real-time tracker for

markerless augmented reality.» Proceedings of the 2nd IEEE/ACM International

Symposium on Mixed and Augmented Reality, 2003: 36-45.

Cornelis, Nico, Bastian Leibe, Kurt Cornelis, et Luc Van Gool. «3D Urban Scene Modeling

Integrating Recognition and Reconstruction.» International Journal of Computer Vision,

2007: 121-141.

Côté, Stéphane, Mark Smith, Renaud Gervais, Pierre-Paul Talbot, et Joshua Gillman.

«Experimenting with portable devices for onsite engineering model visualization in

construction.» Proceedings of the 2nd International Workshop on Mobile Geospatial

Augmented Reality, 2008.

De la Losa, Arnaud. Modélisation de la troisième dimension dans les bases de données.

Thèse de doctorat, Noisy-le-Grand, France: Université de Marne-la-Vallée, 2000.

Desgagné, Étienne. Conception et développement d'un SIG 3D dans une approche de

service web. Mémoire de maîtrise, Québec: Université Laval, 2010.

DiVerdi, Stephen, Sehwan Kim, Taehee Lee, Jonathan Ventura, Jason Wither, et Tobias

Höllerer. Anywhere Augmentation.

http://ilab.cs.ucsb.edu/index.php/component/content/article/10/28 (accès le décembre 6,

2010).

Fabio, Remondino. «From Point Cloud to Surface: The Modeling And Visualization

Problem.» International Archives of Photogrammetry, 2003.

Feiner, Steven, Blair MacIntyre, Tobias Höllerer, et Anthony Webster. «A Touring

Machine: Prototyping 3D Mobile Augmented Reality Systems for Exploring the Urban

Environment.» International Symposium on Wearable Computing, 1997: 74-81.

Gartner, Inc. Gartner Says Grey-Market Sales and Destocking Drive Worldwide Mobile

Phone Sales to 309 Million Units. 12 Novembre 2009.

http://www.gartner.com/it/page.jsp?id=1224645 (accès le 02 27, 2010).

Gennery, Donald. «Visual tracking of known three-dimensional objects.» International

Journal of Computer Vision, Vol. 7, No. 3, 1991: 243-270.

Glennie, Craig. «Kinematic Terrestrial Lidar Scanning System.» Transportation Research

Board Annual Meeting 2009 Paper #09-0122, 2009.

Google. This Blog Web All Blogs. 09 juillet 2010.

http://googlepolicyeurope.blogspot.com/2010/07/street-view-driving-update.html (accès le

juillet 16, 2010).

Groupe Trifide. «L'expertise géospatiale 4D accessible.» Profil Corporatif, 2010.

Grzeszczuk, Radek, Jana Kosecka, Ramakrishna Vedantham, et Harlan Hile. «Creating

Compact Architectural Models by Geo-registering Image Collections.» 2009 IEEE

International Workshop on 3-D Digital Imaging and Modeling, 2009.

Haala, Norbert, Michael Peter, Alessandro Cefalu, et Jens Kremer. «Mobile Lidar Mapping

For Urban Data Capture.» 14th International Conference on Virtual Systems and

Multimedia (VSMM 2008), 2008: 95-100.

Henderson, Steven J., et Steven K Feiner. «Augmented Reality for Maintenance and Repair

(ARMAR).» Technical Report AFRL-RH-WP-TR-2007-0112, United States Air Force

Research Lab, juillet 2007.

Hengel, Anton van den, Rhys Hill, Ben Ward, et Anthony Dick. «In situ image-based

modeling.» Proceedings of the 2009 8th IEEE International Symposium on Mixed and

Augmented Reality, 2009: 107-110.

Herbst, Iris, Anne-Kathrin Braun, Rod McCall, et Wolfgang Broll. «TimeWarp: Interactive

Time Travel with a Mobile Mixed Reality Game.» Proceedings of the 10th international

conference on Human computer interaction with mobile devices and services. Amsterdam,

Pays-Bas: ACM International Conference Proceeding Series, 2008. 235-244.

Herbst, Iris, Sabiha Ghellah, et Ann-Kathrin Braun. «TimeWarp: An Explorative Outdoor

Mixed Reality Game.» ACM SIGGRAPH, 2007.

Holden, Windsor. Mobile Augmented Reality ~ A whole new world. Whitepaper,

Hampshire, UK: Juniper Research Ltd., 2009.

Höllerer, Tobias, Jason Wither, et Stephen DiVerdi. «―Anywhere Augmentation‖: Towards

Mobile Augmented Reality in Unprepared Environments.» Location Based Services and

TeleCartography, 2007: 393-416.

Hunt, John. Agile Software Construction. Londres: Springer-Verlag London Limited, 2006.

Inside GNSS. earthmine Launches 3D Mapping System Driven by GPS, Inertial. 8 Avril

2009. http://www.insidegnss.com/node/1430 (accès le juillet 16, 2010).

Janssens-Coron, Éric, Jacynthe Pouliot, et Bernard Moulin. «La construction de modèles

3D assistée par système expert : un exemple appliqué à la géologie.» Géo-Info, Chroniques

du Québec géographique. août 2010.

http://www.quebecgeographique.gouv.qc.ca/approfondir/bibliotheque/geoinfo/geoinfo-

aout-2010.asp (accès le août 28, 2010).

Julier, Simon, Yohan Baillot, Marco Lanzagorta, Lawrence Rosenblum, et Dennis Brown.

«Urban Terrain Modeling For Augmented Reality Applications.» 3D Synthetic

Environments Reconstruction, 2001: 119-136.

Kalogerakis, Evangelos, Stavros Christodoulakis, et Nektarios Moumoutzis. «Coupling

Ontologies with Graphics Content for Knowledge Driven Visualization.» IEEE Virtual

Reality Conference, 2006: 43-50.

Kim, Sehwan, Stephen DiVerdi, Jae Sik Chang, Taehyuk Kang, Ronald Iltis, et Tobias

Höllerer. «Implicit 3D Modeling and Tracking for Anywhere Augmentation.» Proceedings

of the 2007 ACM symposium on Virtual reality software and technology. Newport Beach,

Californie: Virtual Reality Software and Technology, 2007. 19-28.

Klopfer, Eric, et Kurt Squire. «Environmental Detectives—the development of an

augmented reality platform for environmental simulations.» Educational Technology

Research and Development, Volume 56, Number 2, Springer, Avril 2007: 203-228.

Kolbe, Thomas H, Klaus Nagel, et Alexandra Stadler. «CityGML- OGC Standard for

Photogrammetry.» Photogrammetric Week 2009. Berlin, Allemagne: Wichmann, 2009.

265-277.

Kolbe, Thomas H., Gerhard Gröger, et Lutz Plümer. «CityGML – Interoperable Access to

3D City Models.» Proceedings of the International Symposium on Geo-information for

Disaster Management. Delft, Pays-Bas: Springer Verlag, 2005.

Lepetit, Vincent, et Marie-Odile Berger. «Handling Occlusion in Augmented Reality

Systems: A Semi-Automatic Method.» International Symposium in Augmented Reality,

2000: 1-10.

Lindt, Irma, Jan Ohlenburg, Sabiha Ghellal, Leif Oppermann, et Matt Adams. «Designing

Cross Media Games.» Pervasive’05 proceedings. Munich, Allemagne, 2005.

Lindt, Irma, Jan Ohlenburg, Uta Pankoke-Babatz, et Sabiha Ghellal. «A report on the

crossmedia game epidemic menace.» Computers in Entertainment, Vol. 5, No. 1, 2007.

McGraw-Hill Construction. Building Information Modeling (BIM). New-York City:

SmartMarket Report, 2008.

McGraw-Hill Construction. Interoperability in the Construction Industry. New-York City:

SmartMarket, 2007.

Mendez, Erick, Gerhard Schall, Sven Havemann, Sebastian Junghanns, Dieter Fellner, et

Dieter Schmalstieg. «Generating Semantic 3D Models of Underground Infrastructure.»

Computer Graphics and Applications IEEE Computer Graphics and Applications (2008):

48-57.

Milgram, Paul, Haruo Takemura, Akira Utsumi, et Fumio Kishino. «Augmented reality: a

class of displays on the reality-virtuality continuum.» Telemanipulator and Telepresence

Technologies; Proc. SPIE Vol. 2351, 1994: 282-292.

NAVTEQ. «NAVTEQ Launches Advanced Mapping Collection Technology.» NAVTEQ. 6

janvier 2010.

http://corporate.navteq.com/webapps/NewsUserServlet?action=NewsDetail&newsId=836&

lang=en&englishonly=true (accès le 03 20, 2010).

Neubauer, N., M. Over, A. Schilling, et A. Zipf. «Virtual Cities 2.0: Generating web-based

3D city models and landscapes based on free and user generated data (OpenStreetMap).»

GeoViz2009. Hamburg, Allemagne:

http://www.geovisualisierung.net/geoviz_hamburg/geovizhh_program.htm, 2009.

Ogale, Abhijit. «Google Street View from a computer vision perspective.» Stanford

University CS 223B: Introduction to Computer Vision. 28 janvier 2010.

http://vision.stanford.edu/teaching/cs223b/lecture/google_streetview_slides.pdf (accès le 07

16, 2010).

Ohlenburg, Jan, Irma Lindt, et Uta Pankoke-Babatz. «Report about the Crossmedia Game

Epidemic Menace.» Computers in Entertainment (CIE), Volume 5 , Issue 1, ACM, janvier

Ordre des arpenteurs-géomètres du Québec. «Guide abrégé des tarifs suggérés.» Ordre des

arpenteurs-géomètres du Québec. janvier 2010.

www.oagq.qc.ca/images/stories/ARPENTEUR/GUIDE_DES_TARIFS_JANVIER_2010.p

df (accès le décembre 7, 2010).

Parian, Amiri Jafar, et Armin Gruen. «Close Range Photogrammetric Network Design for

Panoramic Cameras By Heuristic Simulation.» Optical 3-D Measurement Techniques VII,

Vol I, 2005: 237-244.

Piekarski, Wayne. Interactive 3d modelling in outdoor augmented reality worlds. Adelaide:

Research Thesis for the Degree of Doctor of Philosophy, The University of South

Australia, 2004.

Piekarski, Wayne, et Bruce Thomas. «ARQuake: The Outdoor Augmented Reality Gaming

System.» Communications of the ACM, Vol. 45, No.1, 2002: 36-38.

Pop, Georgeta. «Integrating Advanced Technologies and Methods for Fast and Reliable 3D

Modeling.» ASPRS 2008 Annual Conference, 2008.

Pouliot, Jacynthe, Bernard Lachance, et Donna Kirkwood. «L'importance de la

modélisation géométrique 3D lors de l'élaboration d'un SIG 3D: Exemple du

développement d'une structure topologique pour une application géologique.» Revue

internationale de géomatique, Hermes-Lavoisier, 2006: 29-49.

Pouliot, Jacynthe, Thierry Badard, Étienne Desgagné, Karine Bédard, et Vincent Thomas.

«Development of a Web Geological Feature Server (WGFS) for sharing and querying of

3D objects.» Lecture Notes in Geoinformation and Cartography, Advances in 3D

Geoinformation Systems, Part II, Theme I, 2008: 115-130.

Pressigout, Muriel. «Hybrid tracking algorithms for planar and non-planar structures

subject to illumination changes.» ACM/IEEE Int. Symp. on Mixed and Augmented Reality,

ISMAR’06, 2006: 52-55.

Reitmayr, Gerhard, et Tom W. Drummond. «Going out : Robust Tracking for Outdoor

Augmented Reality.» Proceedings of the 5th IEEE and ACM International Symposium on

Mixed and Augmented Reality. Santa Barbara, Californie: IEEE, 2006. 109-118.

Schall, Gerhard, Erick Mendez, Ernst Kruijff, Eduardo Veas, Sebastian Junghanns,

Bernhard Reitinger, Dieter Schmalstieg. «Handheld Augmented Reality for Underground

Infrastructure Visualization.» Journal on Personal and Ubiquitous Computing, Volume 13 ,

Issue 4, 2009: 281 - 291.

Schilling, Arne, et Thomas H. Kolbe. Draft for Candidate OpenGIS® Web 3D Service

Interface Standard. Open Geospatial Consortium, 2010.

Schmalstieg, Dieter, Schall Gerhard, Daniel Wagner, Istvan Barakonyi, Gerhard Reitmayr,

Joseph Newman, Florian Ledermann. «Managing Complex Augmented Reality Models.»

IEEE Computer Graphics and Applications, Volume 272, Number 1716 (IEEE Computer

Society), 2007: 32-41.

Schultz, R. «Ancient Egypt: a social history.» 376. Cambridge: Cambridge University

Press, 1983.

Shan, Jie, et Charles K. Toth. Topographic Laser Ranging and Scanning: Principles and

Processing. Boca Raton: CRC Press, 2009.

Shelton, Brett E., et Nicholas R. Hedley. Using Augmented Reality for Teaching Earth-Sun

Relationships to Undergraduate Geography Students. Darmstadt, Allemagne: IEEE, 2002.

Sonka, Milan, Vaclav Hlavac, et Roger Boyle. Image Processing, Analysis, and Machine

Vision. Toronto, Canada: Thomson Engineering, 2008.

sprxmobile. Layar 3D. 22 09 2009. http://layar.com/3d/ (accès le 09 30, 2009).

Squire, Kurt, et Jan Mingfong. «Mad city mystery: Developing scientific argumentation

skills with a place-based augmented reality game on handheld computers.» Journal of

Science Education and Technology, Vol. 16, No. 1, Springer, 2007: 5-29.

Thomas, Bruce, Ben Close, John Donoghue, John Squires, Phillip De Bondi, et Wayne

Piekarski. «First Person Indoor/Outdoor Augmented Reality Application: ARQuake.»

Personal and Ubiquitous Computing, Vol. 6 , No. 1, 2002: 75-86.

Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. «3D modeling for Augmented Reality

: A Taxonomy.» À être soumis.

Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. «3D Modeling for Mobile Augmented

Reality in Unprepared Environment.» Édité par Thomas H. Kolbe, Gerhard König et Nagel

Claus. Advances in 3D Geo-Information Sciences, (Series: Lecture Notes in

Geoinformation and Cartography). 3D GeoInfo Conference, Berlin: Sprigner, 2010.

Thomas, Vincent, Sylvie Daniel, et Jacynthe Pouliot. Revue de littérature - Jeux vidéos et

réalité augmentée. 2008.

Vacchetti, Luca, Vincent Lepetit, et Pascal Fua. «Combining Edge and Texture Information

for Real-Time Accurate 3D Camera Tracking.» Proceedings of ISMAR ‘04, 2004: 48-57.

Vlahakis, Vassilios, Nikos Ioannidis, John Karigiannis, Manolis Tsotros, Michael

Gounaris, Didier Stricker, Tim Gleue, Patrick Dahne, Luis Almeida. «Archeoguide: An

Augmented Reality Guide for Archaeological Sites.» IEEE Computer Graphics, 2002: 52-

Williams, Brian, Georg Klein, et Ian Reid. «Real-Time SLAM Relocalisation - Augmented

Reality sequence.» International Conference on Computer Vision, 2007: 1-8.

Wither, Jason, Chris Coffin, Jonathan Ventura, et Tobias Hollerer. «Fast annotation and

modeling with a single-point laser range finder.» Proceedings of the 7th IEEE/ACM

International Symposium on Mixed and Augmented Reality. Cambridge, UK: IEEE

Computer Society, 2008. 65-68.

Yazawa, Naoyuki, Hideaki Uchiyama, Hideo Saito, Myriam Servières, et Guillaume

Moreau. «Image Based View Localization System Retrieving from a Panorama Database

by SURF.» MVA2009 IAPR Conference on Machine Vision Applications. Yokohama,

Japon, 2009. 118-121.

Zandbergen, Paul A. «Accuracy of iPhone Locations: A Comparison of Assisted GPS,

WiFi and Cellular Positioning.» Transactions in GIS, Vol. 13, 2009: 5-25.

Zhou, Feng, Henry Been-Lirn Duh, et Mark Billinghurst. «Trends in augmented reality

tracking, interaction and display: A review of ten years of ISMAR.» Proceedings of the 7th

IEEE/ACM International Symposium on Mixed and Augmented Reality, 2008: 193-202.

6. Annexe 1 – Types de modèles 3D

Cette annexe apporte un complément d’information au lecteur sur les deux grandes

approches de modélisation 3D et d’acquisition de données spatiales soit l’approche

orientée espace et l’approche orientée objet. L’approche choisie afin de collecter les

données spatiales sur le terrain aura un impact significatif au niveau des traitements

subséquents de celles-ci ainsi que sur le modèle 3D résultant.

L’acquisition des données géospatiales peut s’opérer selon deux approches différentes pour

le partitionnement de l’espace et des objets à mesurer:

1. Orientée objet : L’acquisition de données dite orientée objet ou discrète consiste

d’abord à identifier l’objet d’intérêt, puis à extraire explicitement et de manière

discrète sa position et sa forme. Par exemple, le relevé des coins d’un bâtiment fait

par un instrument d’arpentage de type station totale entre dans cette catégorie car il

exige d’abord l’identification, par l’homme, de ces coins de bâtiment.

2. Orientée espace : L’acquisition de données dite orientée espace ou continue

consiste à relever tout ce qui se trouve dans un champ de vue. L’identification des

objets est possible à réaliser par la suite, cela demande cependant soit une étape

d’interprétation ou d’extraction. Ces étapes peuvent être réalisées manuellement ou

automatiquement par des algorithmes de reconnaissance de forme, de segmentation

par exemple.

À partir de ces données géospatiales collectées et selon l’approche d’acquisition utilisée,

plusieurs techniques existent afin de construire un modèles 3D. Desgagné (2010), en

référençant Pouliot et al. (2006) et De La Losa (2000), propose trois niveaux de complexité

basé sur les types de primitives utilisées pour la construction (i.e. les points/lignes, les

surfaces et les solides).

La structure de modélisation basée sur des points et des lignes, aussi appelée structure en fil

de fer, utilise des points et des lignes afin de reconstruire un objet en 3D (cf. Figure 6.1).

Cette structure simple et légère en termes de mémoire peut être source d’ambigüités à

savoir si des faces sont pleines ou vides viennent compliquer le processus d’interprétation

et de visualisation.

Figure 6.1 – Modèle 3D de type fil de fer (Wikipedia)

Nous présenterons deux structures basées sur des faces. La première, appelée B-Rep

(Boundary Representation), utilise un assemblage de surfaces afin de former un modèle 3D

(cf. Figure 6.2). Les surfaces peuvent être orientées afin de distinguer l’intérieur de

l’extérieur des objets et cette structure peut être utilisée lors de la représentation d’objets

troués. Pour notre prototype, iModelAR, c’est cette structure qui a d’ailleurs été adoptée.

En effet, le B-Rep est principalement utilisé dans les moteurs 3D tel OpenGL et les

surfaces y sont souvent composées de triangles. Les surfaces courbes peuvent aussi être

représentées, notamment par des NURBS (Non-Uniform Rational Basis Splines).

Figure 6.2 - Modèle 3D par frontières (B-Rep) (image par Hay Kranen)

La deuxième est l’approche de modélisation 3D par extrusion qui implique la formation

d’un modèle 3D par le déplacement (rotation ou translation) d’une surface 2D dans l’espace

(cf. Figure 6.3). Cette technique de modélisation 3D est bien adaptée pour les objets

réguliers.

Figure 6.3 - Modélisation 3D à partir d’une surface par une a) translation b) rotation (De la

Losa 2000)

Une plus grande diversité de structures est basée sur des solides. Nous y retrouvons le CSG

(Constructive Solid Geometry), la modélisation basée sur des primitives (Primitive

Instancing), les voxels / octree et les ensembles de solides.

Le CSG permet une modélisation 3D par assemblage de solides élémentaires comme le

cube, le cylindre, ou le cône (cf. Figure 6.4). Le CSG est très utile pour représenter des

formes anthropiques (ex. pièces mécaniques), mais moins bien adapté à des formes

irrégulières tel un arbre.

Figure 6.4 - Modélisation 3D par CSG (Wikipedia)

L’approche par voxels implique un découpage régulier de l’espace en cubes de tailles

identiques (cf. Figure 6.5a). Chacun de ces cubes peut faire partie ou non de l’objet

représenté. L’octree est une structure hiérarchique qui divise l’espace en octant (cf. Figure

6.5b). Cette approche permet d’avoir des cubes d’une plus grande taille, réduisant ainsi

l’espace de stockage nécessaire.

Figure 6.5 - a) Modélisation 3D par voxels (De la Losa 2000) et b) division de l’espace par

octree (Wikipedia)

La modélisation par instanciation de primitives utilise des structures complexes

paramétrables à l’instar de du CSG qui tire profits de solides de base. Il est avantageux

d’utiliser cette technique lorsque plusieurs objets semblables doivent être créés. À la Figure

6.6 par exemple, des bâtiments sont instanciés selon trois paramètres : la longueur, le

nombre de fenêtres et de cheminées.

Figure 6.6 - Modélisation 3D par instanciation de primitives (De la Losa 2000)

Finalement, une modélisation par assemblage de solide peut s’avérer utile pour modéliser

des objets complexes. Pour ce faire, des solides irréguliers sont assemblés afin de former un

volume. Le tétraèdre par exemple peut être utilisé comme solide de base (cf. Figure 6.7a).

Ce type de modélisation est employé notamment en géologie (cf. Figure 6.7b).

Figure 6.7 - a) tétraèdre (Wikipedia) b) solides géologiques 3D formés par assemblage de

tétraèdres (Desgagné 2010)

Pour une lecture plus complète et détaillée de ces structures géométriques 3D, nous

recommandons Desgagné (2010), Pouliot et al. (2006) et De la Losa (2000).

modÉlisation 3d pour la rÉalitÉ augmentÉe une … · modÉlisation 3d pour la rÉalitÉ...

Documents

promesses de la réalité augmentée mobile

la réalité augmentée, applications et tendances

la réalité augmentée - diaporama exposé

réalité augmentée, réalité virtuelle comment vont-elles...

lidar et réalité augmentée

jeux de réalité augmentée pour android

rapiditÉ et simplicitÉ de pointe en numÉrisation...

initiation à la réalité augmentée

réalité augmentée : tendances et opportunités...

et si vous osiez la rÉalitÉ...

exporea - événements en réalité augmentée

réalité augmentée et marketing - roxane domalain

· ca buzze!!! la réalité augmentée. watch 1) notre...

la modélisation 3d à des fins de réalité augmentée...

développer l’audition augmentée · virtualité...

jumeau numérique pour le bâtiment scan 3d - réalité...

jedisbim & réalité virtuelle, réalité augmentée - etat...

formations de haut niveau, mÉtiers d’avenir...rompus à...

cours : vision pour la réalité augmentée

projet réalité augmentée