0tudes de cas en analyse des données

120
tudes de cas en analyse des donnØes Bernard Colin (diteur) DØpartements de mathØmatiques et d informatique FacultØ des Sciences UniversitØ de Sherbooke Rapport de recherche No 86 1

Upload: trinhnhu

Post on 17-Jan-2017

223 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 0tudes de cas en analyse des données

Études de cas en analyse des données

Bernard Colin (Éditeur)Départements de mathématiques et d�informatique

Faculté des SciencesUniversité de Sherbooke

Rapport de recherche No 86

1

Page 2: 0tudes de cas en analyse des données

AVANT-PROPOS

Ce rapport, présente les travaux réalisés, lors de la session de l�automne 2009, par les étudiantes etles étudiants des départements de mathématiques et d�informatique de l�Université de Sherbrooke, dansle cadre de l�activité pédagogique STT 707 �Analyse des données�, inscrite au programme de maîtrise enmathématiques et de maîtrise en imagerie. En très grande majorité, ces analyses portent sur des donnéesdirectement issues de travaux de recherches en cours et je tiens, à cette occasion, à remercier très sincèrementMessieurs Maxime Descoteaux, François Dubeau, Pierre-Marc Jodoin et Ernest Monga qui, en tant quedirecteurs de recherche des étudiantes et étudiants participant à cette activité, ont accepté de m�apporterleur support et leur collaboration.

Mes plus sincères remerciements vont également aux étudiantes et étudiants qui, avec ardeur et enthou-siasme, ont participé à cette activité pédagogique et qui n�ont ménagé ni leur temps ni leurs e¤orts dans laréalisation de ces travaux.

Sherbrooke, mars 2010,

Bernard ColinDépartement de mathématiquesFaculté des SciencesUniversité de Sherbrooke

2

Page 3: 0tudes de cas en analyse des données

Tables des matières

[1] Anthony Adam : Analyse des techniques semi-automatiques de segmentation de l�aorte humaine.

[2] Arnaud Boré et Etienne Saint-Amant : Analyse des données issues de l�imagerie médicale, signal dedi¤usion et ODF estimées.

[3] Pierre Clarot : Analyse d�une séquence vidéo basée sur l�activité.

[4] Véronique Croteau : Analyse des données de mesures anthropologiques.

[5] Jean-Christophe Houde : Analyse de l�in�uence de caractéristiques de mise en correspondance sur lavision stéréoscopique par ordinateur.

[6] Youness Mir : Classi�cation et caractérisation des rivières au Québec.

[7] Julien Prémont : Segmentation par nuées dynamiques de nuages de points en plans.

3

Page 4: 0tudes de cas en analyse des données

COLLOQUE d�ANALYSE des DONNÉES : Études de cas

Date : Le mercredi le 17 février 2010

Heure : de 9 h à 15 h 30

Local : D3-2035

Les exposés qui suivent, s�inscrivent dans le cadre du cours STT 707 : �Modèles Statistiques multidimen-sionnels et Analyse des Données�et portent, pour l�essentiel, sur des appplications en imagerie rencontréesdans le contexte de projets de recherches.

Programme de la journée

� 8 h 45 à 9 h : Ouverture du colloque.

� 9 h à 9 h 30

Conférencier : Julien Prémont (Maîtrise en informatique).

Titre : Segmentation par nuées dynamiques de nuages de points en plans

Résumé : Embryonnaire il y a quinze ans, déjà bien établie cinq ans plus tard et omniprésente de nosjours, la 3D a rapidement fait sa place dans de nombreuses sphères d�activités, des jeux vidéos et du cinéma,bien sûr, au design industriel, en passant par l�architecture ou le génie civil. Dans bien des cas, des artistessont chargés de créer à l�aide d�un ordinateur des modèles 3D, mais il est aussi fréquent d�avoir à représenteren 3D, sur un ordinateur, des objets réels. Des capteurs (visuels ou non) sont généralement utilisés pourfaire l�acquisition des données sous forme d�un nuage de points. Il su¢ t alors d�utiliser un algorithme pourreconstituer les objets (décomposés en primitives géométriques) à partir du nuage de points. À cette �n, uneméthode de détection de plans se basant sur l�algorithme des nuées dynamiques est ici explorée.

� 9 h 40 à 10 h 20

Conférencière : Véronique Croteau (Maîtrise en mathémariques).

Titre : Analyse de données des mesures anthropologiques.

Résumé : Comment peut-on déterminer, à l�aide de mesures anthropologiques (mesures prises sur lecorps humain), si l�individu que l�on étudie est un homme ou une femme? Pour ce faire, il faut étudier quellesmesures sont utiles sans être toutefois redondantes. Nous allons partir de 24 variables, pour ensuite réduirele plus possible ces variables a�n de diminuer le temps et le coût de prise de données. Cette étude ce fait en2 étapes, tout d�abord en e¤ectuant une analyse en composantes principales a�n de trouver les variables quisont pertinentes, ensuite en conduisant une analyse discriminante permettant d�associer les individus à leursexe à l�aide des variables gardées en première partie du travail.

1

Page 5: 0tudes de cas en analyse des données

� 10 h 30 à 10 h 50 : Pause.

� 10 h 50 à 11h 20

Conférencier : Jean-Christophe Houde (Maîtrise en informatique).

Titre : Analyse de l�in�uence des caractéristiques de mise en correspondance, sur la vision stéréoscopiquepar ordinateur.

Résumé : L�une des tâches les plus importantes de la vision par ordinateur est la mise en correspondancedes pixels d�une paire d�images stéréoscopiques.Les résultats de cette mise en correspondance permettent d�estimer la position 3D des points d�une scène,

et permettent donc à l�ordinateur de «voir» . La plupart des techniques de mise en correspondance utilisentdes primitives, a�n de trouver les parties les plus semblables des images. Dans notre travail, nous e¤ectuonsune analyse expérimentale de l�importance et de l�utilité de certaines des primitives les plus utilisées. Cetteanalyse est faite à l�aide de l�analyse en composantes principales. Nous présenterons brièvement le domaine,les données de notre expérience, de même que les résultats et conclusions auxquelles nous sommes parvenus.

� 11 h 30 à 12 h

Conférenciers : Arnaud Boré et Étienne Saint-Amant (Maîtrise en informatique).

Titre : Analyse de données en di¤usion issues de l�imagerie cérébrale.

Résumé : Les données de di¤usion permettent une nouvelle approche de l�imagerie cérébrale. Elle donnel�information sur la façon dont les molécules d�eau se déplacent dans le cerveau. Elle apporte donc un plusquant à l�organisation des �bres dans notre cerveau. Notre première analyse a pris comme jeu de données lesignal de di¤usion a�n de saisir le comportement global des �bres dans une région donnée.A la suite de cette analyse, nous nous sommes penchés sur la reconstruction de cette di¤usion apparente,

qui se fait grâce au Q-Ball Imaging et nous donne des objets représentant l�orientation des �bres (ODF).Ces données vivent sur la sphère. Notre première approche a été de voir s�il existait une direction priv-

ilégiée dans une partie spéci�que du cerveau appelé corps calleux et ceci, à l�aide de l�analyse en composantesprincipales. Dans un second temps nous avons cherché à savoir s�il était possible de réduire la dimensionnalitéde ces objets.Notre étude essaie donc de répondre à ces questions.Comment peut-on obtenir l�information sur l�anatomie cérébrale et plus particulièrement de la matière

blanche ?Existe-t-il une direction privilégiée des �bres de la matière blanche dans le cerveau?Est-il possible de réduire le jeu de données, tout en conservant l�information de di¤usion?

� 12h10 à 13 h 30 : Repas.

� 13 h 30 à 14 h

Conférencier : Anthony Adam Duquette (Maîtrise en informatique).

Titre : Analyse des techniques semi-automatiques de segmentation de l�aorte humaine.

Résumé : Les images par résonance magnétique et scan sont fortement utiles dans le domaine de la santé.Dans le cadre de ma recherche, des chirurgiens cardiaques les analysent a�n de faire des choix judicieux pourleurs patients. Dans cette présentation, nous parlerons plus précisément de l�aorte sortant du coeur et quidescend jusqu�aux reins. Le but étant de montrer statistiquement que certaines techniques aideront à biensegmenter l�aorte dans ces images. Pour ce faire, l�utilisation d�une MDS (positionement multidimentionnel)est de mise.

2

Page 6: 0tudes de cas en analyse des données

� 14 h 10 à 14 h 40

Conférencier : Pierre Clarot (Maîtrise en informatique).

Titre : Analyse d�une séquence vidéo à l�aide de l�activité détectée.

Résumé : Le domaine de la vidéo-surveillance est actuellement en pleine expansion. Les camérassont partout dans les villes à enregistrer nos moindres faits et gestes. Cependant la grande majorité desvidéos enregistrées ne sont pas utilisées. Elles sont justes sauvegardées sur un serveur a�n d�être visionnéesultérieurement en cas d�incident. Malheureusement, visionner une très longue vidéo n�est pas une choseagréable et facile à faire.Nous allons présenter une méthode consistant à analyser une séquence vidéo en utilisant le mouvement

détecté dans chaque image, dans le but de déterminer les redondances temporelles d�activités. Une vidéopeut alors être résumée en une suite de types ou de classes d�activités. Il est aussi possible de détecter lesimages de la vidéo qui contiennent de l�activité très di¤érente par rapport au reste de la séquence. Cesinformations peuvent être utilisées pour alerter un opérateur humain en temps réel a�n de véri�er s�il y aun problème. Il est aussi possible d�annoter la séquence a�n de permettre un visionnement ultérieur pluse¢ cace.

� 14h 50 à 15 h 20

Conférencier : Youness Mir (Doctorat en mathématiques).

Titre : Classi�cation et caractérisation des rivières au Québec.

Résumé : Le réseau hydrologique du Québec se caractérise par son étendue à l�échelle de toute laprovince et compte une centaine de rivières dont le débit varie considérablement sur toute l�année.Dans cet exposé, nous proposons de caractériser et de classi�er les rivières selon leurs débits saisonniers.

A �n de résoudre ce problème, nous exploiterons la méthode d�analyse en composantes principales.

15 h 30 : Fin du colloque.

Organisateur : Bernard Colin,Département de mathématiques (poste 62012)[email protected]

3

Page 7: 0tudes de cas en analyse des données

Analyse des données STT 707 : Rapport de recherche ∗

Anthony Adam

1er mars 2010

Université de SherbrookeSherbrooke (Qc), Canada, J1K 2R1

[email protected]

∗Professeur : Colin Bernard

1

Page 8: 0tudes de cas en analyse des données

Anthony Adam

Analyse des techniques semi-automatiques desegmentation de l’aorte humaine

1 IntroductionDe plus en plus, les gens souffrent de maladies cardiaques dans le monde. Parfois, c’est le coeur lui-

même qui lâche, parfois c’est ce qui y est connecté. Dans cette recherche, nous nous intéressons plusprécisément à l’aorte. Le présent rapport porte sur le problème de la segmentation d’images de l’aortehumaine. La segmentation d’images consiste à diviser une image en deux parties. Dans ce cas-ci, il ya deux parties, soient les parois interne et externe de l’aorte. L’analyse des résultats est faite à partir desegmentations manuelles dessinées par des médecins et des segmentations semi-automatiques calculéesà partir de diverses techniques de vision par ordinateur. Le but est de déterminer si des algorithmesdéveloppés avec la technique du « graph cut » [4] permettent d’obtenir des résultats aussi précis que leferait une personne qualifiée pour ce travail. Il s’agit d’un problème auquel font face des techniciennes ettechniciens, car ils doivent segmenter plusieurs patients par jour. La segmentation de l’aorte est faite avecdes images par résonance magnétique. Pour l’instant, la technique actuelle consiste en une segmentationmanuelle, grâce à un ordinateur et un logiciel simpliste, du contour de l’aorte par une personne assignéeà cette tâche. Cela est long, fatiguant, sans oublier qu’il y a toujours une probabilité d’erreurs.

2 Position du problème

(a) Segmentation manuelle interne (b) Segmentation manuelle externe

FIGURE 2.1 – Exemples de résultats de segmentations sur une même image d’un patient.

Pour chaque patient, il faut déterminer l’avancement de ses problèmes. Cela s’effectue en prenantles dimensions de son aorte au niveau du torse. Pour se faire, il faut segmenter les parois intérieures et

2

Page 9: 0tudes de cas en analyse des données

Anthony Adam

extérieures de l’aorte, comme le montre la figure 2.1. Ce qui crée un problème, c’est qu’il faut faire dessegmentations sur plusieurs images afin d’obtenir les dimensions sur toute l’aorte d’une personne. Bref,déterminer les dimensions de l’aorte d’un patient peu prendre beaucoup de temps.

3 Présentation des données

FIGURE 3.1 – Image d’une « ciné 3D »

3.1 Données brutesLes données à analyser sont les sommes des différences entre les segmentations. Pour chaque patient,

on a une série d’environ vingt images sur le plan axial (voir figure 2.1) et une dizaine pour la « ciné 3D» (voir figure 3.1). La coupe axiale représente une tranche du corps sur sa largeur. Le devant du corpsest au haut de l’image et le derrière est au bas de celle-ci. La ciné en trois dimensions représente un peula même idée, mais c’est une tranche perpendiculaire à l’aorte au lieu d’être perpendiculaire au corps. Ilfaut remarquer que ce type d’images est toujours plus flou et moins précis que la coupe sur le plan axial.C’est donc un type d’images plus difficile à segmenter. Chaque série d’images est segmentée sur lesparois interne et externe de l’aorte. Il en résulte donc quatre séquences au total à segmenter pour chaquepatient. Pour le présent rapport, il y a dix patients en tout. Afin de valider les résultats de la recherche,il y a une comparaison entre trois médecins et 32 techniques. Cela permet d’analyser les différences desegmentations entre médecins, celles entre les médecins et les techniques et celles entre les techniques.Il faut donc voir les données comme suit : pour une séquence segmentée (que ce soit les résultats d’unmédecin ou d’une technique), il faut la comparer aux 34 autres. Les calculs résultent donc en une matricedes distances 35 par 35.

3

Page 10: 0tudes de cas en analyse des données

3.2 Obtention des données Anthony Adam

3.2 Obtention des données

(a) Différence entre les deux images bi-naires

(b) Première image binaire (c) Seconde image binaire

FIGURE 3.2 – Résultat d’un calcul de différence en valeur absolue entre deux images binaires

Id(x, y) = |I1(x, y)− I2(x, y)| (3.1)

Afin de calculer la différence entre deux images de segmentation, il faut d’abord savoir comment ellessont faites. Lorsqu’une segmentation est terminée, elle est transformée, comme à la figure 3.2 b) et c). Ils’agit d’une image dite binaire. Elle ne contient que deux valeurs possibles soient des uns et des zéros.L’étiquette 1 (blanc) indique que ce pixel se trouve à l’intérieur et l’étiquette 0 (noir) attribut un pixel àl’extérieur. Une différence entre deux images est calculée avec la valeur absolue de la soustraction d’uneimage à l’autre (voir éq. 3.1). Il faut faire ce calcul sur tous les pixels (aux positions x et y) des deuximages. ∑

Id(x, y) (3.2)

Dij =

√√√√nbPatients∑1

nbImages∑1

nbP ixels∑1

Id(x, y) (3.3)

La métrique de différence entre deux images est la somme des pixels étiquetés à 1 dans l’image dite dedifférence, comme le montre l’équation 3.2. Donc, pour deux techniques i et j données, il faut calculer lasomme des différences pour toutes les séquences de tous les patients. Afin d’assurer que la norme entredeux techniques soit euclidienne, il faut calculer la racine carrée de cette dernière somme (voir éq. 3.3).Après ces calculs pour toutes les techniques, on obtient la matrice des distances 35 par 35. Il y a doncquatre matrices de distances à représenter avec l’analyse du positionnement multidimensionnel.

4

Page 11: 0tudes de cas en analyse des données

Anthony Adam

4 Modèle

4.1 Choix du modèleComme mentionné précédemment, le modèle d’analyse choisi est le positionnement multidimension-

nel [2]. Cette analyse permet justement de traiter une matrice de similarité ou de dissimilarité afin demieux l’analyser et d’en tirer des conclusions [3]. Puisqu’il n’y a pas beaucoup de médecins et de tech-niques, il est certain que les calculs ne prendrons pas beaucoup de temps.

(a) Graphique des données de base (b) Graphique des données à dimensionnalité réduite

FIGURE 4.1 – Exemple de données avant et après projection par positionnement muiltidimensionnel

4.2 Présentation du modèleLe positionnement multidimensionnel prend en entrée une matrice de distances. Ensuite, il réduit la

dimensionnalité des données de la matrice afin de mieux les représenter. Pour la présente recherche, lenuage de points est réduit à deux dimensions pour un affichage plus instinctif des données. Ce graphiquepermet de voir, avec beaucoup de facilité, les ressemblances et les distances entre chaque technique. Deplus, la projection des données est faite de façon à optimiser la visibilité et la variance entre elles, commele montre la figure 4.1. Les couleurs aident à remarquer que les données projetées en deux dimensionsse « suivent » d’une certaine façon.

4.3 Critique du modèleIl y a quand même des problèmes reliés à l’utilisation de cette analyse. Les distances dans la matrice

D doivent être dans un espace euclidien. Malgré que les calculs soient fais avec une norme euclidienne,il arrive que la matrice d’entrée doive être modifiée. Cette situation se produit lorsqu’on regarde lesvaleurs propres calculées avec la matrice de sortie Y . Si la matrice Y tY n’est pas semi-définie positive,

5

Page 12: 0tudes de cas en analyse des données

4.3 Critique du modèle Anthony Adam

les résultats se sont pas représentés dans une espace euclidien. Il est possible de ne pas tenir compte desvaleurs propres qui ont une amplitude négative quasiment nulles, cependant il faut s’en occuper dans lecas contraire.

Avant Après1 5.5842e+04 5.7937e+042 1.0782e+04 1.2878e+043 5.0909e+03 7.1865e+034 5.0489e+03 7.1445e+035 3.9023e+03 5.9979e+036 2.9314e+03 5.0270e+037 2.6282e+03 4.7238e+038 1.9729e+03 4.0685e+039 1.7166e+03 3.8122e+0310 1.3245e+03 3.4201e+0311 1.1146e+03 3.2101e+0312 1.0182e+03 3.1138e+0313 829.9838 2.9256e+03... ... ...33 54.1276 2.1497e+0334 2.8422e-13 3.4198e-1235 -2.0956e+03 -4.2724e-12

TABLE 4.1 – Valeurs propres de Y tY avant et après modifications

Dij =√

D2ij + c (4.1)

c = −2λmin (4.2)

Pour cela, il existe une technique [1] de réglage de la matrice d’entrée. Il suffit de modifier toutes sesvaleurs comme à l’équation 4.1. Évidement, à l’équation 4.2, il faut savoir que λmin représente la pluspetite valeur propre de la matrice Y tY . Le tableau 4.1 montre un exemple des valeurs propres avant etaprès ce réglage sur la matrice D. Il est possible qu’il y ait encore des valeurs propres négatives, maiselles seront toujours à faible amplitude à force de refaire le même réglage. De plus, il existe une autresource de problème au positionnement multidimensionnel. Il s’agit de la représentation des donnéesdans le nouvel espace réduit à deux dimensions. Assurément, il est possible de réduire toute matrice dedistance à la dimensionnalité voulue, mais à quel prix ? Il ne semble pas y avoir de problème lorsque ladimension de départ est petite, mais c’est quasi-impossible d’avoir une bonne qualité de représentationlorsque la dimension de départ est grande.

6

Page 13: 0tudes de cas en analyse des données

Anthony Adam

θ = arccos ∥ Y1,2 ∥ / ∥ Y ∥ (4.3)

Donc, pour savoir si la projection des données est bonne, il faut faire un calcul de qualité. Ce calculde l’angle entre les vecteurs à deux dimensions et celui avec toutes le dimensions de départ (voir éq. 4.3)permet de vérifier la qualité. Plus l’angle est petit, meilleure est la réduction de dimensionnalité pour cepoint. On peut donc faire confiance aux points bien projetés et en tirer des conclusions sans problème.

5 Analyse des résultats

5.1 Traitement informatiquePour le traitement des données, j’ai utilisé le langage informatique Matlab. Il a une fonction appelée

cmdscale qui prend une matrice de distances en paramètre et qui retourne la matrice des résultatsY . Le réglage de la matrice D est fait au besoin si Y tY a des valeurs propres négatives. La qualité dereprésentation est donnée avec la couleur du point dans le graphique du nouveau nuage de points à deuxdimensions. Un point rouge signifie qu’il est très mal projeté et vert le contraire. Les segmentationsdes médecins sont les points 1, 30 et 31 pour les quatre graphiques. Les autres points représentent destechniques semi-automatiques.

5.2 Analyse des données et interprétation des résultats

FIGURE 5.1 – Nuage de points pour les segmentations internes sur le plan axial

7

Page 14: 0tudes de cas en analyse des données

5.2 Analyse des données et interprétation des résultats Anthony Adam

Les segmentations semi-automatiques internes de l’aorte pour le plan axial des IRM donnent lesmeilleurs résultats. Comme le démontre la figure 5.1, les médecins sont quasiment aussi distants entreeux que l’est la pire technique. Même si la technique la plus près des médecins est rouge, ses segmenta-tions sont bien bonnes lorsqu’on regarde ses résultats. Cela prouve donc que les médecins 1 et 31 sontbien différents et qu’on peut affirmer que j’ai assurément une technique aussi bonne.

FIGURE 5.2 – Nuage de points pour les segmentations internes des images « ciné 3D »

Les résultats de la segmentation interne des « ciné 3D » sont moins bons. Tel que mentionné plus haut,ce type d’images est très difficile à segmenter. Les techniques tiennent toutes compte de l’image avant etaprès celle courante pour la segmenter. Cependant, ces images sont faites sur des plans différents d’uneimage à l’autre. Cela explique les moins bons résultats des techniques. Par contre, la figure 5.2 montreque les résultats sont presque tous bien projetés. Il demeure que le trio de points composé des médecins1, 30 et 31 a des résultats semblables et différents de tous les autres. Il y donc place à l’amélioration pources segmentations.

8

Page 15: 0tudes de cas en analyse des données

Anthony Adam

(a) Nuage axial externe (b) Nuage ciné 3D externe

FIGURE 5.3 – Nuage de points pour les segmentations externes des images axiales et « ciné 3D »

Les pires résultats sont ceux des segmentations externes, peut importe le type d’images. Les figures 5.3a) et b) montrent que les nuages de points sont plus ou moins bien représentés, mais aussi que lesmédecins sont toujours dans un groupe séparé des autres. La difficulté des « ciné 3D » explique encoreune fois ces mauvaises segmentations. Pour ce qui est du plan axial, il faut regarder les images et lesrésultats des médecins pour se rendre compte de la difficulté de ce type de segmentation. En effet, ilfaut segmenter à des endroits où il ne semble pas y avoir de contour. Il faut donc en déduire que lesmédecins semblent découper la paroi externe avec un « indice » de contour flou dans l’image. Il fautdonc complètement revoir les techniques pour imiter cette intuition.

6 ConclusionLe bilan de ce rapport est donc « à moitié positif ». L’analyse des données à l’aide du positionnement

multidimensionnel aide à déterminer si mes techniques de segmentations d’images sont près de la réalité.Il semble qu’il y ait du potentiel pour les segmentations internes de la paroi de l’aorte, mais beaucoup depain sur la planche pour obtenir d’aussi bons résultats pour la paroi externe. Aussi, il serait intéressantd’augmenter le nombre de médecins avec qui les résultats seraient comparés. Pour l’avenir, il faut doncrepenser les algorithmes de segmentation pour la paroi externe de l’aorte, peu importe le type d’imagesà segmenter. Finalement, afin d’obtenir des résultats vraiment concluants, il faudrait qu’il n’y ait qu’uneseule technique qui donne des résultats semblables aux médecins pour tous les type d’images.

9

Page 16: 0tudes de cas en analyse des données

BIBLIOGRAPHIE Anthony Adam

Bibliographie[1] F. CAILLIEZ : The analytical solution of the additive constant problem. Psychometrika, 48:305–308,

1983.

[2] B. COLIN : Le positionnement multidimensionnel. Cours stt707 : Analyse des données, 2009.

[3] D. DESBOIS : Introduction au positionnement multidimensionnel. MODULAD, 32, 2005.

[4] Y. Boykov et M.-P. JOLLY : Interactive graph cuts for optimal boundary and region segmentation.Proceeding of ICCV, 1, 2001.

10

Page 17: 0tudes de cas en analyse des données

Analyse des données issues de l'imagerie médi ale, signal de

di�usion et ODF estimées

Arnaud Boré et Etienne Saint-Amant

28 février 2010

Table des matières

1 Introdu tion 2

2 Présentation des données 2

3 Position du problème 3

4 Modèle 3

5 Analyse des données de di�usion 4

5.1 Analyse de la matière blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.2 Analyse du orps alleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

6 Analyse des données ODF 6

6.1 Analyse de la matière blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

6.2 Analyse du orps alleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

6.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

6.4 Re onstru tion des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6.4.1 Matière Blan he . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6.4.2 Corps Calleux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

7 Con lusion 9

7.1 Perspe tives d'avenir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

8 Bibliographie 10

1

Page 18: 0tudes de cas en analyse des données

1 Introdu tion

L'imagerie par résonan e magnétique nu léaire (IRM) est la te hnologie a tuelle par ex ellen e pour

"imager" et "voir" l'intérieur du orps humain en trois dimensions de façon non invasive. Pour réaliser es

images, on ou he le patient dans un hamp magnétique puissant de l'ordre de 1.5 à 3 T (Tesla) (équivalent à

environ 50 000 à 100 000 fois la for e du hamp magnétique terrestre qu'on ressent normalement à la surfa e).

Les spins des protons des atomes d'hydrogène se pla eront parallèlement (en vaste majorité) au hamp. À

l'aide d'autres hamps magnétiques (appelés gradients) et de la bonne fréquen e radio, on forme une sé-

quen e spé iale qui a pour but d'"é outer" le omportement de ette magnétisation du orps. On ré upère

ses informations à l'aide d'antennes et les données sont enregistrées dans le domaine fréquentiel (de Fourier).

En e�e tuant une opération mathématique (appelée transformée de Fourier inverse), on peut ainsi ré upé-

rer les données dans le domaine spatiale. Ces données forment une image tri-dimensionnelle du orps humain.

L'IRM de di�usion est une autre méthode utilisée pour l'a quisition de données. Elle permet de mesurer

la di�usion des molé ules d'eau dans le orps humain. Le omportement de la di�usion peut être isotrope ou

anisotrope. Un milieu est dit isotrope si la di�usion ne subit au une ontrainte dire tionnelle (e.g. une goutte

d'en re dans un verre d'eau). À l'opposé, un milieu est dit anisotrope si la di�usion subit une ontrainte

dire tionnelle (e.g. l'eau oulera le long d'un �l). Dans le adre de notre étude, on étudiera le omportement

de la di�usion des molé ules dans le erveau humain. Étant donné que la matière blan he du erveau (les

autoroutes intra érébrales) est très �breuse, la di�usion y est anisotrope.

2 Présentation des données

Les données d'IRM de di�usion utilisées pour notre analyse sont elles du sujet 07 fournies par notre

dire teur de re her he, Maxime Des �teaux. Ce sont des données d'imagerie de di�usion à haute résolution

angulaire (HARDI : high angular resolution di�usion imaging). Les images du sujet 07 présentent un erveau

sain. On a utilisé deux jeux de données di�érents : soit un jeu de 41 dire tions de di�usion et un autre de

200 dire tions. Les dimensions du premier jeu sont 128 par 128 par 60 par 41 (résolution en X, résolution

en Y, résolution en Z, dire tions des gradients de di�usion). Les dimensions du deuxième jeu sont 128 par

128 par 60 par 200. On a utilisé deux segmentations de la matière blan he : une de l'hémisphère gau he

et l'autre de l'hémisphère droit. On a fusionné es deux segmentations pour obtenir la segmentation totale

de la matière blan he du erveau. Ensuite, on a utilisé une transformation de Talaira h a�n de superposer

exa tement ette segmentation ave les données de l'imagerie de di�usion. On a aussi onstruit à la main, à

l'aide du logi iel Anatomist, une segmentation sur le orps alleux (matière blan he interhémisphérique).

Cette dernière sera pratique ar on a a priori la onnaissan e des propriétés anisotropiques de ette région.

2

Page 19: 0tudes de cas en analyse des données

3 Position du problème

Notre première analyse a pris omme jeu de données le signal de di�usion a�n de saisir le omportement

global des �bres dans une région donnée. À la suite de ette analyse, on s'est pen hés sur la re onstru -

tion de ette di�usion apparente, qui se fait grâ e au Q-Ball Imaging et on donne des objets représentant

l'orientation des �bres (ODF : Orientation Distribution Fun tion). Ces données vivent sur la sphère. Notre

première appro he a été de voir s'il existait une dire tion privilégiée dans une partie spé i�que du erveau

appelé orps alleux et e i, à l'aide de l'analyse en omposantes prin ipales. Dans un se ond temps, on a

her hé à savoir s'il était possible de réduire la dimensionnalité de es objets.

Notre étude essaie don de répondre à es questions.

• Comment peut-on obtenir l'information sur l'anatomie érébrale et plus parti ulièrement de la matière

blan he ?

• Existe-t-il une dire tion privilégiée des �bres de la matière blan he dans le erveau ?

• Est-il possible de réduire le jeu de données, tout en onservant l'information de di�usion ?

4 Modèle

Le modèle i i implémenté est l'analyse en omposante prin ipale qui permet de ressortir les dire tions

prin ipales d'inertie de nos points. Ce i permettra de voir si l'ensemble des gradients utilisés sont intéressants

et interviennent de façon signi� ative dans les images.

L'idée prin ipale de e projet était de mettre en lumière l'utilisation d'un ertain nombre de gradients

lors de l'a quisition des images.

L'analyse en omposantes prin ipales permet à partir d'un é hantillon d'observations dé�nis par des va-

riables de trouver les variables qui ara térisent au mieux l'é hantillon en question. Pour ela on trouve une

ombinaison linaire de es variables. Ensuite on trouve un axe prin ipal d'inertie qui permet d'expliquer un

pour entage de valeurs expliquées. Le but étant d'avoir un maximum de pour entage d'inertie expliquée ave

un minimum d'axes prin ipaux.

Notons X l'é hantillon des observations : X1 (observation 1). On prendra suivant nos jeux de données 1000

observations de manière aléatoire. L'ensemble des variables par lesquelles l'observation X1 est ara térisée

représentent les gradients que l'on a utilisés pour l'a quisition de l'image. On a aussi D la matri e des poids

qui représente la matri e identité (au un de nos gradients et prépondérant par rapport à un autre). On

obtient don la matri e des varian es- ovarian es

V= tXDX

Ensuite, il faut onnaître les ve teurs propres de la matri e V qui représenteront les ombinaisons linéaires

des ve teurs propres initiaux. Notre intérêt i i ne repose pas sur la qualité de proje tion des variables mais

il faut les pour entages d'inertie expliquée par les ve teurs propres et ainsi on pourra savoir s'il existe une

dire tion privilégiée des �bres dans la matière blan he ou plus pré isément dans le orps alleux.

L'ensemble des al uls et des graphes ont été e�é tués à l'aide du logi iel Matlab.

3

Page 20: 0tudes de cas en analyse des données

5 Analyse des données de di�usion

5.1 Analyse de la matière blan he

Notre analyse donne les résultats suivants :

Fig. 1 � Pour entage d'inertie expliquée par les ve teurs prin ipaux

On voit que l'analyse en omposantes prin ipales donne près de 50 % de l'inertie expliquée par le premier

ve teur propre e qui est vraiment intéressant et pousse à roire qu'il existe une dire tion privilégiée dans

le erveau. A�n de on�rmer notre idée, on va e�e tuer la même analyse mais i i on va prendre un jeu de

données plus restreint en l'endroit du orps alleux.

5.2 Analyse du orps alleux

Notre analyse donne les résultats suivants :

Fig. 2 � Inertie expliquée par les ve teurs prin ipaux

L'analyse sur le orps alleux ne donne pas de très bons résultats mais on sent une tendan e relative

pro he de elle des voxels de la matière blan he.

4

Page 21: 0tudes de cas en analyse des données

5.3 Interprétation

On pourrait être satisfait de es résultats, ependant on remarque qu'il y a un problème. En e�et, om-

ment expliquer que l'inertie soit plus importante dans la matière blan he, où les dire tions de propagations

dans le erveau se font dans tous les sens, que dans le orps alleux là où on a lairement une dire tion

privilégiée des �bres.

Pour ela, il faut que l'on revienne à la signi� ation de nos données initiales. L'imagerie de di�usion donne

des images en degradé de gris. Dans es images, plus la di�usion est grande plus l'image est noire dès lors la

valeur de nos pixels est très petite. Or, l'analyse en omposante prin ipale travaille sur les observations qui

ont de grandes valeurs sur des variables parti ulières alors que e qu'on veut 'est totalement l'inverse. On

doit don her her un nouvel objet mathématique qui permet d'avoir des valeurs élevées lorsque la di�usion

est grande. Cet objet existe déjà, il s'appelle l'ODF (Orientation Distribution Fun tion).

L'ODF est issue de la transformée de Funk-Radon qui donne l'intégrale sur le ontour du signal. L'ODF

est un objet qui vit sur la sphère grâ e à 15 oe� ients uniformément répartis qui déforment la sphère

suivant l'intensité des oe� ients. Comme notre analyse porte sur la dire tion des �bres dans notre erveau,

on doit projeter nos ODF suivant les gradients utilisés lors de l'a quisition de nos images et ensuite faire

notre analyse sur e nouveau jeu de données.

Signal de di�usion pour une seule dire tion ODF résultante

Fig. 3 � La transformée de Funk-Radon permet de passer du signal à l'ODF

5

Page 22: 0tudes de cas en analyse des données

6 Analyse des données ODF

6.1 Analyse de la matière blan he

I i, on analyse un jeu de données 1000 voxels hoisis aléatoirement dans la matière blan he.

Fig. 4 � Pour entage d'inertie expliquée par les ve teurs prin ipaux

On notera que e graphe est plus pro he de e à quoi on pouvait attendre au début de l'analyse ependant

les résultats sont assez impressionnants du fait qu'ave seulement 15 dire tions on est apable d'expliquer

100 % des données.

6.2 Analyse du orps alleux

On hoisit 1000 voxels aléatoirement dans le orps alleux.

Fig. 5 � Pour entage d'inertie expliquée par les ve teurs prin ipaux

6.3 Interprétation

Sur les graphiques pré édents, on est rassuré sur le pour entage d'inertie de la première ombinaison

linéaire puisque le pour entage d'inertie expliquée est plus important pour les données du orps alleux que

pour la matière blan he en générale. Comme on peut le voir, on est apable de ré upérer 90 % de l'information

en utilisant seulement 5 ombinaisons linéaires de nos gradients initiaux, e qui revient à donner 5 nouveaux

gradients. On remarque aussi qu'il existe une sorte de palier pour les 5 premiers ve teurs propres. A l'aide

de 15 ombinaisons, on est apable de re onstruire 100 % de la l'information.

6

Page 23: 0tudes de cas en analyse des données

6.4 Re onstru tion des données

L'idée i i, est de re onstruire ertaines ODF a�n de voir si ave un nombre restreint de gradients on est

apable de ré upérer les ara téristiques globales de nos �bres. Pour un raisonnement plus omplet, on a

e�e tué ette re onstru tion sur des jeux de données di�érents apparentés à la matière blan he ou au orps

alleux.

6.4.1 Matière Blan he

ODF d'origine 5 Gradients 10 Gradients 15 Gradients

Fig. 6 � ODF re onstruites suivant des nombres de gradients di�érents

Comme on peut le voir i i, la re onstru tion des ODF de la matière blan he n'est pas bonne si l'on utilise

uniquement 5 gradients. En e�et, même si le pour entage d'inertie expliquée par les 5 premiers gradients est

de plus de 90 %, on est in apable de retrouver le roisement de �bres initial.

ODF d'origine 5 Gradients 10 Gradients 15 Gradients

Fig. 7 � ODF re onstruites suivant des nombres de gradients di�érents

I i, le problème semble ne pas se poser puisque l'on a une seule dire tion de �bre et ette dire tion est

visible dès la re onstru tion à partir de 5 gradients.

7

Page 24: 0tudes de cas en analyse des données

6.4.2 Corps Calleux

ODF d'origine 5 Gradients 10 Gradients 15 Gradients

Fig. 8 � ODF re onstruites suivant des nombres de gradients di�érents

ODF d'origine 5 Gradients 10 Gradients 15 Gradients

Fig. 9 � ODF re onstruites suivant des nombres de gradients di�érents

Dans le orps alleux, la re onstru tion semble n'avoir besoin que de 5 gradients, e i étant dû à la nature

même du orps alleux, les �bres y sont orientées dans la dire tion transverse au erveau et où les roisements

se font rares.

8

Page 25: 0tudes de cas en analyse des données

7 Con lusion

Nos analyses auront permis de voir que les données en di�usions brutes ne sont pas exploitables par

l'analyse en omposantes prin ipales, ar en e�et, les valeurs intéressantes sont les valeurs les plus faibles.

La ompressibilité des ODF n'est pas vraiment exploitable puisque l'information des roisements se

trouvent dans les hautes fréquen es, dès lors, il faut absolument les 15 gradients a�n de re onstruire à

100 % nos données d'origine. Ave 90 % de l'information On se trouve in apable de déterminer les roi-

sements de �bres. Cependant, on a dé ouvert qu'il existe une base de même dimensionnalité que les ODF

mais dé�nie par une ombinaisons linéaires des gradients initiaux. Ces gradients sont relatifs au sujet, aux

paramètres d'a quisition e qui en fait une analyse ara téristique du sujet et non généralisable.

Fig. 10 � Etapes de travail

7.1 Perspe tives d'avenir

Il faudrait tout d'abord véri�er en linique ave les nouveaux gradients trouvés lors de nos analyses si

l'on peut réellement retrouver toute l'information de nos �bres. Une autre perspe tive de travail serait de

refaire l'analyse sur d'autres sujets a�n de on�rmer nos interprétations.

9

Page 26: 0tudes de cas en analyse des données

8 Bibliographie

• M.Des �teaux, High Angular Resolution Di�usion MRI : From Lo al Estimation to Segmentation and

Tra tography. PhD Thesis, Universite de Ni e - Sophia Antipolis, Febuary 2008.

• B.Colin, Cours d'analyse de données STT 707, Université de Sherbrooke - Département de mathéma-

tiques, Automne 2009.

10

Page 27: 0tudes de cas en analyse des données

Analyse d’une séquence vidéo basée sur l’activité

Pierre Clarot

3 mars 2010

1 Introduction.Le domaine de la vidéo-surveillance est actuellement en pleine expansion. Les caméras sont partout

dans les villes à enregistrer nos moindres faits et gestes. Mais quelle est la véritable utilisation de ces vi-déos ? Certaines d’entre elles sont parfois visionnées en temps réel par un opérateur humain. Cependantun opérateur humain n’est pas infaillible, il se fatigue, s’ennuie rapidement et peut facilement omettreune information importante dans une vidéo. De plus, avec la multiplication des caméras avoir du per-sonnel pour visionner toutes caméras coute très chères. Finalement une grande majorité des vidéos nesont pas utilisées. Elles sont juste sauvegardées sur un serveur afin d’être visionnée ultérieurement encas d’incident. Par exemple, lors d’un cambriolage il peut être intéressant de visionner les vidéos ducambriolage afin de reconnaître les malfaiteurs. Mais il est aussi intéressant de visionner les vidéos descaméras dans les rues adjacentes pour voir si les voleurs ont fait du repérage dans les jours précédents leméfait. On peut aussi vouloir retrouver le parcours du véhicule utilisé par les malfaiteurs en cherchant lavoiture dans le réseau de caméras de surveillance de la ville.

Malheureusement visionner et rechercher des informations dans une très longue vidéo n’est pas unechose agréable et facile à faire. Généralement la recherche consiste à avoir un opérateur qui visionnela vidéo en vitesse rapide. On retrouve alors les mêmes problèmes que pour la surveillance en tempsréel. L’opérateur coute chère et n’est pas parfait. Puisque le visionnement n’est pas efficace même en casd’incident les vidéos ne sont pas toujours utilisées.

Finalement, la majorité des informations contenues dans les séquences vidéos ne sont pas exploitées.Nous allons présenter dans cet article une ébauche de réponse à ce problème en analysant l’activité desvidéos.

2 Position du problème.Nous allons présenter une méthode consistant à analyser une séquence vidéo en utilisant le mouvement

détecté dans chaque image, afin de déterminer les redondances temporelles d’activité. Une vidéo est alorsrésumée a une suite de types ou classes d’activités. À partir de cet ensemble de classes d’activité il estpossible de détecter les images de la vidéo qui contiennent des choses inhabituelles. En effet, si l’activitédans une ou plusieurs images ne correspond pas à une des classes détectées précédemment alors ces

1

Page 28: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

images ne font pas partie de l’activité normale qui a été perçue par la caméra. Il y a de fortes chancesque la caméra perçoit une activité problématique. On peut alors afficher les images enregistrées par lacaméra a un opérateur humain afin qu’il dise si il y a effectivement un problème. On diminue alors lenombre d’opérateurs nécessaires pour surveiller un réseau de caméras puisque seulement les camérasqui sont susceptibles de contenir une information intéressante seront affichées aux yeux des opérateurs.De la même façon la création de ce résumé permet d’optimiser un visionnement ultérieur de la vidéo.

3 Présentation des données.

3.1 Présentation des séquences vidéos.Les données initiales sont composées de plusieurs séquences vidéos comprenant de l’activité dite nor-

male et des évènements inhabituels. Les séquences peuvent être classées dans deux groupes différents.Le premier groupe contient des vidéos que l’on peut qualifier de simple. Elles sont constituées d’uneactivité faible ou moyenne presque constante, et puis a des moments bien particuliers il y a beaucoupd’activité dans le champ de la caméra. Par exemple une des vidéos a été générée en filmant un pland’eau. Le mouvement de l’eau crée de l’activité et puis d’un seul coup on a un bateau qui passe. Uneautre des séquences consiste à filmer une fontaine et des piétons qui passent devant la fontaine. Ce pre-mier groupe de vidéos est considéré comme simple car il serait facile de détecter l’activité inhabituellejuste en regardant l’activité moyenne à un moment donnée. La méthode développée doit impérativementmarcher avec ces séquence, c’est le minimum requis. Le deuxième groupe comprend deux vidéos où ilest plus difficile de différencier l’activité problématique. La première est une vidéo d’un croisement àBoston. Il y a donc une succession d’activité, puis de non-activité. Pour cette vidéo on cherche à détecterles virages en U qui sont illégaux sur ce croisement. La deuxième vidéo a été filmé sur un trottoir del’université de Sherbrooke. Il y a des piétons qui marchent le long du trottoir dans les deux sens, puis ona un piéton qui dépose un sac, et quelques temps plus tard quelqu’un d’autre le ramasse. Avec cette vidéoon cherche à détecter le fait qu’un sac a été abandonné. Ces vidéos sont moins simples car l’activité ditenormale ne se résume pas à un type d’activité mais plusieurs. De plus, on cherche a détecter des activitésinhabituelle complexe. Le but de ce projet est de trouver une méthode qui fonctionne avec ces vidéos.

3.2 Extraction des données à partir des séquences vidéos.L’extraction de l’information et la création de nos observations se fait a l’aide de plusieurs étapes. Il

faut tout d’abord estimer quels sont les pixels qui ont vu du mouvement pour chaque image de chaquecaméra (Figure 3.1). Pour cela il faut estimer la couleur des pixels du fond de la scène pour chaquecaméra. Cette estimation se fait très bien avec un filtre médian sur la séquence lorsque il y a moins de50% d’activité. Il suffit ensuite de faire la soustraction entre cette image du fond et une image de laséquence. Si la différence est grande alors il y a de fortes chances qu’il y ait un objet en mouvemententre la caméra et le fond de la scène. Par contre, si la différence est faible alors il y a de fortes chancesque ce pixel est en train de voir le fond de la scène. Afin d’être robuste aux changements d’illuminationl’image du fond est régulièrement mit a jour lorsque l’on parcours la séquence.

2

Page 29: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

FIGURE 3.1 – Détection de mouvement avec algorithme de soustraction de fond

FIGURE 3.2 – Volume 3D binaire

Comme le montre la figure 3.2 dès que la détection de mouvement est effectuée on obtient un volume3D binaire pour chaque séquence. Il faut maintenant sélectionner un ensemble de sous volumes de taillefixe dans ce grand volume afin d’avoir notre ensemble d’observation (Figure 3.3). Dans notre cas on afixé la position du volume spatialement, puis on l’a décalé au fur à mesure sur l’axe temporelle. On adonc pour chacun de ces décalages une observation qui contient l’activité que la caméra a perçut dansune région donnée entre deux instants.

FIGURE 3.3 – Sélection de sous-volumes

Afin de réduire la taille des données et la durée des calculs une dernière étape est utilisée. Pour uncertain voisinage 3D dans la volume on garde la moyenne de l’activité. La figure 3.4 illustre cette étape

3

Page 30: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

avec un exemple en deux dimensions.

FIGURE 3.4 – Exemple de réduction de la taille des données avec une moyenne sur un voisinage

4 Modèle.

4.1 Présentation du modèle4.1.1 Description de la méthode

On a donc une série de volumes 3D qui résument l’activité dans différentes parties de la séquencevidéo. Le but du projet est de trouver une fonction de coût qui permettra de discriminer les volumes quicontiennent de l’activité différentes, et de regrouper les volumes similaires.

Pour cela la méthode comprend les étapes suivantes :

– Extraction des caractéristiques des différents volumes.– Calcul d’une distance euclidienne entre les volumes à partir des caractéristiques.– Construction d’une matrice de distance.– Utilisation du positionnement multidimensionnel pour visualiser les résultats.– Calcul de la qualité de la représentation.– Utilisation du spectral clustering pour segmenter le nuage de points.

4.1.2 Explication du positionnement multidimensionnel

Le positionnement multidimensionnel permet de projeter dans un espace euclidien des points à partirdes distances entre eux. Par exemple, à partir des distances entre des villes il permet de retrouver à unerotation près la carte d’une région. Dans notre cas on va l’utiliser afin de retrouver la projection de nosvolumes 3D après avoir mesuré une distance entre nos volumes à l’aide d’une certaine fonction de coût.Il nous permettra aussi de réduire le nombre de dimensions de notre nuage de points afin de pouvoirvisualiser les résultats et vérifier si les volumes ont été convenablement discriminés et regroupés.

Pour calculer le positionnement multidimensionnel on utilise la fonction MATLAB suivante :

4

Page 31: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

[Y, e] = cmdscale(D);

Avec :

D matrice carré symétrique euclidienne des distances de taille N par N .Y coordonnées des points. Matrice de taille N par P .e valeur propres de Y ∗ Y ′.

Lorsque D est euclidienne les premiers P éléments de e sont positifs, le reste est nulle. Si les premiersk éléments de e sont beaucoup plus grands que les (N − k) restant, alors le nuage de points peut êtreraisonnablement réduit a k dimensions.

Si D n’est pas euclidienne certains des éléments de e vont être négatifs. La fonction cmdscale vachoisir p comme étant le nombre de valeurs propres positives. La réduction à p ou moins de dimensionsest alors un raisonnable approximation de D seulement si l’amplitude des valeurs propres négatives estfaible par rapport aux positives.

Si vous désirez plus de détails sur le fonctionnement du positionnement multidimensionnel veuillezregarder les références [5] et [6].

4.1.3 Calcul de la qualité de la représentation

Comme dit ci-dessus nous allons utiliser le positionnement multidimensionnel afin de visualiser nosrésultat dans une dimension plus faible que leur dimensions d’origine et vérifier si notre fonction de coûtest approprié. Une fonction de coût est bonne si les volumes contenant de l’activité normale sont regrou-pés sur notre plan, et que les volumes avec les évènements problématiques sont loin de tout les autres. Onva donc regarder les distances entre les points sur notre plan de projection et faire des conclusions a partirde ce que l’on voit. Ces conclusions sont valides seulement si les distances entre les points sur le plansont les mêmes que celles dans la matrice de distance. C’est-à-dire qu’il faut vérifier pour chaque point sila réduction à deux dimensions est valide. Pour cela on calcule l’angle entre nos points dans l’espace à Ndimensions et leur projection sur le plan. Si l’angle est petit alors la réduction à deux dimensions pour cepoint est valide et on peut faire des conclusions en regardant la distance entre ce point et d’autres pointsavec une bonne représentation. Par contre si l’angle est grand alors on ne peut faire aucune conclusion.La figure 4.1 montre un exemple de résultat de calcul de la qualité de le représentation. Les points enrouge sont mal représentés et les points en vert sont bien représentés.

4.1.4 Segmentation du nuage de points à l’aide du spectral clustering

Comme on peut le voir sur la figure 4.1 de nombreux points sont mal représentés. Normalement pourpouvoir faire l’analyse de nos résultats il faudrait pour chacun de ces points aller regarder les valeurs dansla matrice des distances lorsque l’on veut faire une conclusion sur leur distance par rapport aux autrespoints. On a généralement environ la moitié des points qui sont mal représentés. Pour l’exemple de lafigure 4.1 cela correspond à 350 points mal représentés sur 700. Aller vérifier les valeurs dans la matricede distance pour ses points afin de faire l’analyse est une tâche longue et laborieuse. C’est pour celaque l’on a ajouté une dernière étape dans notre méthode. Cette étape consiste a utiliser un algorithme de

5

Page 32: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

FIGURE 4.1 – Qualité de la représentation : rouge = mauvaise, vert = bonne

segmentation sur notre nuage de points dans N dimensions, puis ajouter l’information renvoyé par cettealgorithme sur notre affichage. Les points qui sont proches seront dans des classes communes quelquesoit la qualité de leur représentation. La figure 4.2 est un exemple de résultats obtenus en segmentant lemême nuage de points que de la figure 4.1 en trois classes. Les points sont colorés en fonction de leurappartenance à une classe. Les deux figures peuvent sembler être totalement différente, mais ce n’est pasle cas, il y a juste une rotation entre les deux.

Si vous désirez plus de détails sur le fonctionnement du spectral clustering veuillez regarder les réfé-rences [2] et [1]. L’implémentation utilisée du spectral clustering est celui qui a été développé par [8]pour leur article. Leur implémentation MATLAB de leur technique est disponible sur internet.

4.2 Limite du modèleComme vu ci-dessus si la matrice des distances n’est pas euclidienne e va contenir des valeurs propres

négatives. La réduction du nombre de dimensions est alors valide si l’amplitude des valeurs propres né-gatives est faible par rapport aux positives. Malheureusement ce n’est pas toujours le cas, si la distanceentre nos volumes n’est pas euclidienne, il y aura des valeurs propres négatives avec une forte amplitude.Pour régler ce problème on peut comme le préconise [4] modifier la matrice de distance afin d’obtenirune matrice euclidienne. Dans notre cas l’utilisation de cette méthode n’aura pas été efficace. Elle a

6

Page 33: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

FIGURE 4.2 – Segmentation 3 classes à l’aide du spectral clustering

tout simplement généré d’autres problèmes que nous ne détaillerons pas dans ce document. Il aura falluretourner à la base de notre problème, c’est-à-dire le fait que notre fonction de coût n’était pas eucli-dienne. Il a fallu légèrement modifier la fonction de coût pour qu’elle soit euclidienne. Mais c’est unedes grosses contraintes de la méthode, il faut être sûre d’avoir bien une matrice euclidienne sinon lesrésultats ne correspondent pas à la réalité des données. L’autre limite de la méthode est la nombre dedimensions. N points définissent un espace à N − 1 dimensions. Pour chaque séquence on a toujoursplusieurs centaine de points. On a donc à chaque fois des espaces avec énormément de dimensions. Parconséquent on a toujours beaucoup de points qui sont mal représentés dans un plan. C’est pour cela quel’on a été obligé de rajouter une étape de segmentation à notre méthode pour pouvoir faire l’analyse.Puisque l’on ne peut pas faire confiance à la projection sur un plan on est obligé de faire confiance à unalgorithme de segmentation. Mais l’utilisation d’un autre algorithme pourrait changer les résultats finauxet l’analyse que l’on fait. La multiplication des dimensions et le fait que l’on ne puisse pas visualiser nosrésultats facilement avec notre méthode nous crée une dépendance à un autre outil.

7

Page 34: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

5 Analyse des résultats.

5.1 Fonctions de coût implémentées– Distance euclidienne directement entre les volumes :

La première fonction de coût est juste une distance euclidienne entre les volumes 3D. Cette fonctionest invariante a rien du tout et ne fonctionne pas du tout. Elle a été rapidement éliminé.

– Fonction basée sur les transformées de Fourier rapides (FFT) :Comme l’article [3] nous avons voulu utiliser les transformées de Fourier rapides pour extraire descaractéristiques de nos volumes. Pour cela on vectorise le volume, puis on applique une transforméde Fourier rapide sur le vecteur. On a donc pour chaque volume un vecteur de coefficient de laFFT. La fonction de coût est ensuite une distance euclidienne entre les vecteurs de coefficient desdifférents volumes.

– Moment invariant à deux dimensions :En nous inspirant de l’article [9] de reconnaissance de mouvement nous avons implémenté uneméthode basée sur des moments invariants à deux dimensions. Pour cela, pour chaque volume ongénère deux images qui indiquent quels sont les pixels qui ont vu du mouvement et comment parrapport à l’axe temporelle les pixels ont vu du mouvement. Puis on calcule une série de momentsinvariants à deux dimensions sur les deux images. Les moments invariants sont placés dans unvecteur. Il suffit ensuite de calculer une distance euclidienne entre les vecteurs pour avoir notredistance entre les volumes.

– Moment invariant à trois dimensions :Nous avons aussi essayé des moments invariants à trois dimensions comme le propose une partiede cette article [7]. Il suffit de calculer directement les moments invariants sur le volume 3D, puisplacer les résultats dans un vecteur. Comme pour les fonctions précédentes on calcule ensuite unedistance euclidienne entre les vecteurs des volumes pour construire la matrice des distances.

5.2 Exemple d’analyse de résultatDans cette section nous allons présenter comment nous analysont les résultats de la méthode. Nous

allons faire l’analyse de la séquence du cours d’eau avec un bateau. La fonction de coût utilisée sera cellebasée sur les transformées de Fourier rapides. Tout d’abord pour une séquence donnée on numérote lesvolumes 3D en ordre croissant au niveau temporelle. Puis on note quels sont les numéros des volumesqui contiennent l’activité inhabituelle. Pour la séquence du bateau ce sont les volumes de 240 à 250environ.

Nous calculons ensuite la matrice des distances à partir de la fonction de coût et de l’ensemble devolumes. Comme indiqué précédemment on utilise ensuite le positionnement multidimensionnel, et oncalcule la qualité de le représentation pour obtenir la figure 4.1. Puisque de nombreux points sont malreprésentés on ne peut pas conclure avec seulement cette figure. Mais elle nous indique cependant une

8

Page 35: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

idée générale de l’efficacité de la fonction de coût. Il est intéressant de voir que les volumes que l’onvoulait détecter sont loin de tout les autres points. C’est plutôt rassurant. On remarque aussi un autregroupe de points qui sont légèrement éloignés du gros groupe de points. Ces points correspondent auxvolumes de 620 à 640 environ. Si on regarde les images de la séquence qui correspondent à ces volumeson se rend compte qu’il y a eu un changement de luminosité dans la scène. C’est surement dû à unnuage qui passe devant le soleil. Il est logique de les détecter différents du reste de la séquence car ilscontiennent de l’activité inhabituelles. Par contre puisqu’il se passe rien de vraiment étrange dans lechamp de la caméra ces volumes sont considérés comme étant des faux positifs.

Pour pouvoir vérifier si les points mal représentés au niveau du gros conglomérat de points sont toutde mêmes proches les uns des autres on utilise le spectral clustering avec un différent nombre de classes.On affiche ensuite le résultat (voir figures 5.1, 4.2, et 5.2 ). Il suffit ensuite de voir si il y un nombrede classes telle que l’on différencie les points contenant l’activité normale de ceux contenant l’activitéinhabituelle. La figure 4.2 est particulièrement intéressante. En effet l’activité dite normale est regroupéedans deux classes (mauve et vert). Par contre tout les volumes contenant de l’activité inhabituelle commele changement de luminosité et le bateau sont dans une classe à part (bleu clair). Ce résultat est vraimenttrès bon, on peut donc conclure que la fonction de coût fonctionne bien avec cette séquence. Par contrenotre système d’affichage ne nous permet pas de savoir facilement si le résultat est cohérent au niveautemporelle. Pour cet exemple on voit parfaitement qu’on a réussie à détecter ce que l’on voulait, mais ilpeut être intéressant d’utiliser une autre forme d’affichage pour conforter nos conclusions. La figure 5.3nous permet de visualiser les transitions entre les différentes classes par rapport à un axe temporelle. Celafonctionne parce que l’on a numéroté nos volumes en ordre croissant. Si notre fonction de coût marchebien alors il ne devrait pas avoir énormément de transition. Et effectivement lorsqu’on regarde la figureil y a quelques transitions entre les classes 1 et 3 que l’on peut ignorer, car elles correspondent toutes lesdeux a l’activité normale. Et puis on a deux petits paliers pour la classe 2 correspondant aux volumesque l’on cherchait à détecter. Cette figure nous conforte sur le fait que la fonction de coût marche bien.

9

Page 36: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

FIGURE 5.1 – Segmentation 2 classes à l’aide du spectral clustering

FIGURE 5.2 – Segmentation 4 classes à l’aide du spectral clustering

10

Page 37: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

FIGURE 5.3 – Transition des classes par rapport à l’axe temporelle

5.3 Analyse des résultats des différentes fonction de coût– Distance euclidienne directement entre les volumes :

Cette méthode ne marche pas du tout.

– Fonction basée sur les transformées de Fourier rapides :Donne de bon résultats avec les séquences simples mais ne fonctionne pas du tout avec les deuxséquences complexes.

– Moment invariant à deux dimensions :Ne donne pas de bon résultats.

– Moment invariant à trois dimensions :Ne fonctionne pas.

6 ConclusionFinalement, seulement la méthode basée sur les transformées de Fourier rapide donne des résultats

acceptables. Malheureusement, cette méthode ne fonctionne pas avec les séquences complexes. Commecela a été indiqué dans les présentation des données il est possible d’avoir de bon résultats avec les

11

Page 38: 0tudes de cas en analyse des données

DI, Université de Sherbrooke Présentation interne

séquences simples juste en regardant la quantité d’activité. L’utilisation des transformées de Fourier adonc ajouté de la complexité sans avoir de meilleurs résultats.

Les fonctions implémentées sont pourtant utilisées dans le domaine de le reconnaissance de mouve-ment. Mais à la différence du domaine de la reconnaissance de mouvement nous ne travaillons pas dansune environnement totalement contrôlée. Dans leur domaine ils ont peu de bruit dans les images, peud’objets en mouvement et pas de changement de luminosité durant la vidéo. De plus, lorsque plusieursobjets sont en mouvement ils arrivent à les différencier pour les traiter de façon indépendante. Nous, nousavons du bruit, et un nombre arbitraire d’objets en mouvement et souvent des changement de luminosité.Une autre grosse différence est la normalisation temporelle. La plupart des techniques de reconnaissancede mouvement détectent le début et la fin d’un mouvement, puis ils génèrent un volume normalisé detaille fixe. Un volume contiendra donc à chaque fois un mouvement complet. À la différence de nous quiéchantillonnons notre séquence régulièrement. C’est a dire que deux mouvements identiques mais à deuxvitesses différentes auront des signatures différentes avec notre technique. En conclusion les techniquesdéveloppées dans le domaine de la reconnaissance de mouvement manque de robustesse pour pouvoirbien fonctionner dans le domaine de la vidéo surveillance.

Références[1] F.R. BACH et M.I. JORDAN : Learning spectral clustering. Computer, 2003.

[2] P. BIELA et D. HAMAD : Introduction to spectral clustering.

[3] A.F. BOBICK et J.W. DAVIS : The recognition of human movement using temporal templates. IEEETrans. on Pattern Anal. and Machine Intell, 2001.

[4] F. CAILLIEZ : The analytical solution of the additive constant problem. Psychometrika, 48(2):305–308, 1983.

[5] F. CAILLIEZ et J.P. PAGES : Introduction à l’analyse des données. Smash, 1976.

[6] D. DESBOIS : Une introduction au positionnement multidimensionnel. Revue MODULAD, 32:28,2005.

[7] L. GORELICK, M. BLANK, E. SHECHTMAN, M. IRANI et R. BASRI : Actions as space-time shapes.IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(12):2247, 2007.

[8] Y. SONG, W.Y. CHEN, H. BAI, C.J. LIN et E.Y. CHANG : Parallel spectral clustering. In Proc. ofECML/PKDD. Springer, 2008.

[9] D. WEINLAND, R. RONFARD et E. BOYER : Free viewpoint action recognition using motion historyvolumes. Computer Vision and Image Understanding, 104(2-3):249–257, 2006.

12

Page 39: 0tudes de cas en analyse des données

Analyse des données de mesures anthropologiques par Véronique Croteau

1. Introduction

Comment peut-on déterminer le sexe d’un individu, à l’aide de ses mesures anthropologiques (mesures prises sur le corps humain)? L’étude suivante portera uniquement sur des hommes et des femmes actifs âgés dans la vingtaine et la trentaine. Pour ce faire, il faut sélectionner les mesures qui sont utiles sans toutefois être redondantes. À partir de 24 variables différentes, nous diminuerons au maximum le nombre de variables afin de réduire le temps et les coûts reliés à la prise de données. Cette étude se fait en deux étapes, la première consistant en l’application de l’analyse en composantes principales pour déterminer les variables qui sont pertinentes. Puis, une analyse discriminante permet d’associer les individus à leur sexe à l’aide des variables sélectionnées préalablement.

2. Présentation des données

Les données utilisées pour la présente étude ont été recueillies par les auteurs de l’article « Exploring relationships in body dimensions » (2003) apparu dans la revue « Journal of statistics Education ». L’étude a été faite sur 507 individus (247 hommes et 260 femmes) de 20 à 40 ans et en bonne condition physique. Les variables étudiées sont : le diamètre de l’os au niveau des épaules (biacromial), le diamètre de la crète iliaque (au niveau du bassin) (biiliac), le diamètre de l’os au niveau de la hanche (bitrochanteric) (ces variables sont représentées sur l’image 1 de l’annexe 1), l’épaisseur de la poitrine, le diamètre du squelette au niveau de la poitrine, du coude, du poignet, du genou et de la cheville, la circonférence de l’épaule, de la poitrine, de la taille, du corps au niveau du nombril, de la hanche, de la cuisse, du biceps, de l’avant-bras, du genou, du mollet, de la cheville et du poignet, l’âge, le poids, la taille et le sexe (voir annexe 2 pour l’abréviation des variables). Il est à noter que toutes les mesures de diamètre, de circonférence et la taille sont exprimées en centimètres, le poids en kilogrammes, l’âge en années et le sexe est représenté par 1 ou 0 selon qu’il s’agit d’un homme ou d’une femme. Les données sont inscrites de façon à ce que chaque colonne représente une variable classée dans le même ordre où elles ont été énumérées précédemment et chaque ligne représente un individu. Vous trouverez ci-dessous les données portant sur les trois premiers individus. Cependant, dans le cas suivant, nous ne pouvons mettre toutes les données d’un individu sur une seule ligne.

42.9 26.0 31.5 17.7 28.0 13.1 10.4 18.8 14.1 106.2 89.5 71.5 74.5 93.5 51.5 32.5 26.0 34.5 36.5 23.5 16.5 21.0 65.6 174.0 1

43.7 28.5 33.5 16.9 30.8 14.0 11.8 20.6 15.1 110.5 97.0 79.0 86.5 94.8 51.5 34.4 28.0 36.5 37.5 24.5 17.0 23.0 71.8 175.3 1

40.1 28.2 33.3 20.9 31.7 13.9 10.9 19.7 14.1 115.1 97.5 83.2 82.9 95.0 57.3 33.4 28.8 37.0 37.3 21.9 16.9 28.0 80.7 193.5 1

Par exemple, d’après ces données, on remarque que le deuxième individu est un homme mesurant 174,0 centimètres et la circonférence de ces cuisses est de 51,5 centimètres.

Page 40: 0tudes de cas en analyse des données

Pour les données recueillies sur le squelette, on utilise un grand et un petit vernier (voir l’image 2 de l’annexe 1). Quant aux données portant sur la circonférence, on utilise un ruban en s’assurant de ne pas faire de compression sur les membres étudiés.

3. Modèle 3.1. Choix du modèle

Afin de réduire le nombre de variables, tout en demeurant le plus précis possible dans notre étude, nous devons d’abord déterminer les variables ayant une corrélation positive entre elles. C’est principalement pour cette raison que nous utiliserons l’analyse en composantes principales (ACP). Dans le but d’obtenir une interprétation rigoureuse des résultats, il s’avère nécessaire d’appliquer l’ACP sur tous les individus, peu importe le sexe, puis sur les hommes seulement et finalement sur les femmes. Une fois les trois analyses effectuées, l’étude de la cohérence entre les groupes de variables permet de déterminer les variables que nous garderons. Dans la deuxième partie, nous associerons des données inconnues à l’un des deux groupes de l’étude, soit celui des hommes ou celui des femmes. C’est exactement le but de l’analyse discriminante à but prédictif, c’est donc ce que nous allons utiliser après avoir fait l’analyse en composantes principales.

3.2. Analyse en composantes principales

Le but de l’analyse en composantes principales est de simplifier l’information que l’on possède, afin d’interpréter plus aisément les données. Cette technique permet d’extraire l’essentiel d’un tableau de données. Dans le cas présent, l’ACP permet de sélectionner les mesures pertinentes prises sur les 507 individus. Cela dit, elle réduit la dimension du tableau, soit en diminuant le nombre de variables, tout en conservant la meilleure représentation possible.

Notons par X la matrice qui contient les n observations (soit 507 pour la totalité des individus, 247 pour les hommes et 260 pour les femmes) sur lesquelles on a mesuré p variables. Comme l’analyse en composantes principales s’applique seulement sur des variables quantitatives, nous devons supprimer la variable sexe. D’autant plus qu’il s’agit de la variable dont nous tenterons de déterminer la modalité avec la seconde partie. La variable âge peut également être enlevée, puisque les variables restantes sont des mesures anthropométriques prises sur des individus étant tous adultes (pour plus de détails voir l’analyse des résultats). C’est pourquoi la valeur de p est réduite à 23. Comme il n’y a aucune raison de favoriser un individu plus qu’un autre, les observations ont toutes le même poids soit 1/507 pour les deux sexes ensemble, 1/247 pour les hommes et 1/260 pour les femmes. On note les observations 1 2, ,...,

nx x x selon la valeur de n et on note les

variables 1 2 23, ,...,x x x . Pour expliquer ce modèle, nous allons supposer que les données sont centrées, c’est-à-dire que les moyennes sont nulles. Or, puisque c’est rarement le cas, nous devons centrer les données tout simplement en faisant 1 1 2 2, ,...,

n nx x x x x x− − − . Aux

fins de cette analyse, nous n’avons pas seulement centré les variables, mais nous les avons

également réduites x µ

σ

− (on divise également les observations par l’écart type). Nous

effectuons ce changement étant donné que d’une variable à l’autre l’écart type varie énormément, pouvant atteindre un facteur de 10 (voir l’annexe 3 pour les valeurs des écarts types). Pour simplifier la notation, nous utilisons également la notation 1 2, ,...,

nx x x

Page 41: 0tudes de cas en analyse des données

pour les observations ayant été centrées et réduites. Dans la situation présente, nous utilisons comme métrique A=I pour ne pas prioriser de variables. Notons également que V est la matrice d’inertie dont le terme général est j k

ij i i i

i

v p x x=∑ où pi est le poids de

l’observation i. On remarque donc que V est tout simplement la matrice de variances covariances, lorsque les poids sont tous égaux. La première étape de l’ACP est de rechercher les axes principaux d’inertie de l’ensemble des observations, aussi appelé nuage de points (noté N). Cette étape revient à rechercher une combinaison linéaire des

variables initiales ( )1 2 23, ,...,x x x que l’on note 23

1

j

j

j

u u x=

=∑ avec le critère que u est de

norme 1 ( )21t

u uAu= = . Ce problème est équivalent au problème d’optimisation

suivant : max t

uuAVAu sous la contrainte

21u = . La solution de ce problème est donnée

par u1 le vecteur propre associé à la plus grande valeur propre (λ1) de la matrice VA, u2 le vecteur propre associé à la deuxième plus grande valeur propre (λ2) et ainsi de suite jusqu’à ce qu’on soit satisfait du pourcentage d’inertie expliquée. Le pourcentage

d’inertie expliquée par l’axe lu

∆ est donné par 23

1

( )l l

i

i

tr VA

λ λ

λ=

=

∑ et le pourcentage d’inertie

expliquée de l’espace 1 2, ,...,

lu u u∆ ∆ ∆ est donné par 1

23

1

l

i

i

i

i

λ

λ

=

=

∑.

Ensuite, nous représentons les observations ainsi que les variables sur les axes principaux d’inerties à l’aide de projections orthogonales. Soit

ix une observation, sa projection

orthogonale sur l’axeku

∆ est donnée par k t t

i i k k iz x Au u Ax= = . Donc, si on note par ˆ

ix la

représentation de i

x dans le nouveau système, on obtient ( )1 2ˆ , ,..., ,...,k l

i i i i ix z z z z= où l est

le nombre d’axes qui nous a permis d’atteindre le pourcentage d’inertie désiré. Une fois le ˆ

ix trouvé, nous voulons nous assurer qu’il représente bien la vraie observation. Pour ce

faire, nous devons calculer l’angle entre i

x et ˆi

x , s’il est petit, l’observation est bien

représentée. Notons cet angle α, il sera petit si 2

22

ˆ ˆ ˆcos

ti i i

t

i ii

x x Ax

x Axxα = = est près de 1. Pour

plus de précision, voir l’image ci-dessous.

Page 42: 0tudes de cas en analyse des données

Étudions maintenant la représentation des variables. Encore une fois, la représentation des nouvelles variables est faite à l’aide de projections. Notons les nouvelles variables par ˆ

jξ où j est la je variable, on a alors ( )1 1 2 2ˆ , ,...,j j j

j l lu u uξ λ λ λ= . La proximité entre les

nouvelles variables (c’est-à-dire la projection) nous indique qu’il y a probablement corrélation entre ces variables. De plus, si une variable est près du cercle des corrélations cela implique qu’elle est bien représentée.

3.3. Analyse discriminante à but prédictif.

Commençons d’abord par l’analyse discriminante en général et concentrons-nous ensuite sur le cas particulier de l’analyse discriminante à but prédictif. Cette analyse permet d’expliquer, de décrire et de prédire un ensemble de variables, plus précisément p variables quantitatives et une qualitative, sur un ensemble d’observations. La variable qualitative permet d’associer les observations à m différents groupes, où m est le nombre de modalités de la variable qualitative. Dans notre cas, la variable qualitative est le sexe de l’individu, il y a donc seulement deux groupes possibles : soit les hommes et les femmes. Nommons le groupe des hommes G1 et le groupe des femmes G2. Pour l’analyse discriminante, nous avons besoin du nombre d’observations dans chaque groupe, le poids de chaque observation et de chaque groupe, le centre de gravité de chaque groupe, la matrice d’inertie totale, la matrice d’inertie de chaque groupe, la matrice d’inertie intra-classe, la matrice d’inertie inter-classe et d’une métrique symétrique définie positive. Encore une fois, il est important que les variables soient également centrées sur l’ensemble des observations. Le nombre d’observations pour le groupe k est noté par nk, ici on a donc n1=247 et n2=260. Le poids de chaque observation est donné par 1/507 (1/n) puisque toutes les observations occupent la même importance. Quant aux poids des groupes, ils sont donnés par nk/n, donc 247/507 pour le groupe G1 et 260/507 pour le

groupe G2. Le centre de gravité de chaque groupe est donné par : ,1

1kn

k i k

i k

g xn=

=∑ où ,i kx

est la ie observation du groupe k et 1/nk est le poids de la ie observation dans le ke groupe.

La matrice d’inertie totale est donnée par: , ,1 1

knmt

i k i k

k i

T x x= =

=∑∑ , la matrice d’inertie du

groupe k est : , ,1

( ) ( )kn

t

k i k k i k k

k

W x g x g=

= − −∑ , la matrice d’inertie intra-classe est :

Page 43: 0tudes de cas en analyse des données

1

m

k

k

W W=

=∑ et la matrice d’inertie inter-classe est : 1

mt

k k k

k

B n g g=

=∑ . Puis, pour les mêmes

raisons que l’analyse en composantes principales, la métrique A est la matrice identité.

Pour l’analyse discriminante à but prédictif, on ajoute une observation anonyme « a » que l’on affecte à l’un de nos groupes. On cherche alors à déterminer s’il s’agit d’un homme ou d’une femme. Pour cette partie, nous considérons une nouvelle métrique T-1. On affecte « a » au groupe le plus « proche », c’est-à-dire que nous devons résoudre le

problème d’optimisation : { }1

2

, ,arg min ( , )

ky y yd a y

où 1,...,k

y y sont les centres de gravité

des k groupes et 2 1 1 1 1( , ) ( ) ( ) 2t t t td a y a y T a y yT y yT a aT a− − − −= − − = − + comme 1taT a

est une constante on peut réécrire le problème de la forme suivante : { }1 , ,

arg min ( )k

yy y y

V a∈

où 1 1( ) 2t t

yV a yT y yT a− −= − . Dans le cas de deux classes, on peut effectuer quelques

calculs pour trouver comme solution que si ( )12 1( )t

my y T y a−− − est positif on affecte

l’observation anonyme au groupe 1, sinon on l’affecte au groupe 2. Notons que y2 est le centre de gravité du 2e groupe, y1 est le centre de gravité du 1er groupe et ym est la

moyenne des deux centres de gravité 1 2

2m

y yy

+ =

. Dans le cas présent, si le résultat est

positif, c’est un homme sinon il s’agit d’une femme.

3.4. Critique du modèle

Lors de l’analyse des données, nous avions qu’un nombre limité de choix. Pour la première partie, nous avions le choix entre l’analyse en composantes principales et l’analyse discriminante pas à pas. Pour la deuxième partie, on utilise l’analyse discriminante à but prédictif avec une approche géométrique plutôt qu’avec une approche probabiliste. Pourquoi avoir choisi ces deux techniques?

L’analyse en composantes principales a été favorisée à l’analyse discriminante pas à pas, car cette dernière a un temps de calcul beaucoup plus élevé. Ce qui fait croître le temps de réalisation de cette technique qui se situe principalement au niveau du calcul du pourcentage de bien classé pour les p variables à l’itération 1, pour les p-1 variables à l’itération 2 et ainsi de suite de sorte qu’à la me itération on calcule le pourcentage sur p-(m-1) variables. Le pourcentage de bien classé est calculé à l’aide d’un tableau de contingence. De plus, avec nos données, il serait intéressant d’effectuer une régression linéaire du poids en fonction des autres variables, qui nécessite que les variables ne soient pas corrélées, donc l’ACP serait utile dans ce cas. Notre méthode privilégiée pourrait alors être réutilisée au détriment de l’analyse discriminante pas à pas.

Pour la seconde partie, l’analyse discriminante à but prédictif avec une approche géométrique a été préférée à l’approche probabiliste par manque d’informations sur le sujet. Il nous aurait fallu avoir le coût qu’engendre une mauvaise classification, la fonction de densité qui nous donne la probabilité d’affecter une observation de la classe k à la classe l ainsi que la probabilité à priori de chacune des classes. Nous n’avons pas accès à ces données puisqu’on ne sait pas à quoi sert exactement la détermination du sexe d’un individu.

Page 44: 0tudes de cas en analyse des données

4. Analyse des résultats 4.1. Traitement informatique

Le traitement informatique des données a été fait à l’aide du logiciel R. Vous trouverez dans l’annexe 4, le code pour l’analyse en composantes principales sur l’ensemble des individus. Puisqu’il s’agit exactement du même code pour le groupe des hommes et le groupe des femmes, ce code n’a pas été mis. Dans la même annexe, vous trouverez également le code pour l’analyse discriminante à but prédictif.

4.2. Analyse des données et interprétation des résultats

Pour vérifier que la variable âge n’était pas nécessaire à l’analyse, nous avons fait le graphique de la projection des variables sur les axes c1 et c2, pour observer la position de la variable âge. De ce fait, puisque la variable âge était suffisamment près du centre (voir annexe 5), nous en avons déduit qu’elle ne variait pas beaucoup et l’avons effectivement enlevée de l’analyse. Pour compléter l’analyse, nous étudierons les résultats de l’analyse en composantes principales sur l’ensemble des individus, puis sur les hommes seulement et sur les femmes, pour ensuite faire l’analyse discriminante.

Mentionnons que la première étape de l’analyse en composantes principales consistait à calculer les valeurs propres de la matrice V. Une fois ce calcul effectué, nous avons calculé les inerties partielles et totales pour créer nos axes principaux. Nous avons trouvé pour tous les individus ensemble que les trois premiers axes nous donnent une inertie cumulée de 80,36 %, ce qui est excellent. Nous avons donc fait notre étude sur les trois premiers axes principaux reliés aux valeurs propres 14,93, 2,48 et 1,07 qui ont une inertie partielle respective de 64,93 %, 10,80 % et 3,96 %. Pour connaître toutes les valeurs propres ainsi que leurs inerties partielles et cumulées, consultez l’annexe 6. Une fois les valeurs propres trouvées, nous avons représenté les individus et les variables sur des graphiques comportant deux axes, soit un graphique avec la première et la deuxième composante (c1, c2) et un avec la première et la troisième composante (c1, c3). Les graphiques des individus (annexe 7) nous montrent que les observations sont assez homogènes. Par conséquent, elles ne causent pas de problèmes sauf peut-être pour l’individu 124. En regardant les valeurs de cet individu, on remarque que ce n’est pas une donnée extrême. On constate également que les observations sont bien représentées. Cependant, considérant le nombre élevé d’observations, on ne fournit pas les valeurs de

2cos α . Pour les variables, les projections nous donnent les coordonnées sur les trois axes que vous pouvez consulter à l’annexe 8. Pour mieux observer les variables qui sont projetées les unes près des autres, on étudie les graphiques des variables (annexe 9). Les variables des deux graphiques se situent assez près du cercle de corrélation, ce qui veut dire que les variables sont généralement bien représentées. Ainsi, nous pouvons faire une étude plus approfondie des relations entre les variables.

En regardant le graphique de la projection des variables avec les axes c1 et c2, nous pouvons regrouper les variables entre elles de la façon suivante : le premier groupe est constitué de BL, CDI, WD, ED, AD, WRG, SG, FG, CHG, BG et HHT, le deuxième groupe est composé de CDE, KD, AG, WAG, WHT et le troisième groupe contient CAG, KG, BC, PB, NG, HG, TG. Considérant que la proximité entre deux variables, lors d’une projection, indique qu’en réalité elles doivent se comporter semblablement, nous en déduisons que les variables de chaque groupe sont probablement corrélées. Nous pouvons vérifier cette hypothèse à l’aide de la matrice des corrélations, dont un résumé pour les

Page 45: 0tudes de cas en analyse des données

variables de chaque groupe a été fait dans l’annexe 10. Avec ces résultats, on peut garder le premier groupe tel quel, puisque les coefficients de corrélation sont tous assez élevés. Pour le deuxième groupe, on doit le modifier pour garder seulement CDE, WAG et WHT. Pour le troisième groupe, on doit former deux petits groupes de variables, soient KG avec CAG ainsi que TG, HG et NG.

Étudions maintenant le graphique avec les axes c1 et c3. Comme les variables sont toutes très proches les unes des autres, nous allons former deux groupes seulement. Le premier groupe est composé de PB, HHT, BC, KD, AD, BL, ED, WD, KG, AG, CAG et WRG. Le deuxième groupe est formé de WHT, CDI, HG, FG, SG, NG, TG, CHG, WAG, BG et CDE. Nous vérifierons les coefficients de corrélation de ces groupes avec les tableaux de l’annexe 11. Après cette analyse, nous formons quatre groupes au lieu de deux. Nous avons tout d’abord le groupe composé de ED, AD, KD, WD, WRG et BL. Le second groupe contient AG, KG et CAG. Le troisième est formé de CDE, CHG, WAG, WHT, BG, FG, CDI et SG. Puis, nous avons le trio HG, NG et TG.

Une fois l’étude de ces deux graphiques effectuée, on peut former les groupes finaux de l’analyse en composantes principales sur l’ensemble des individus. Comme il y a plusieurs possibilités pour les groupes de départs sur les graphiques, on peut apporter quelques modifications après avoir comparé les résultats pour les deux premiers axes et pour le premier et troisième axe. On a donc le groupe formé de KG, CAG, AG en changeant la variable AG de groupe dans le graphique c1, c2. On a également celui composé de NG, HG et TG. CDI, CHG, BG, SG et FG sont également corrélés entre eux. Ensuite vient le groupe de CDE, WAG et WHT. Puis, nous avons l’ensemble qui contient ED, AD, BL et WD.

Étudions maintenant l’analyse en composantes principales chez les hommes. Pour les hommes, on a calculé que les trois premiers axes ont un pourcentage satisfaisant d’inertie expliquée de 68,00 %. Donc, étudions les trois premiers axes d’inertie associés aux trois plus grandes valeurs propres, c’est-à-dire 11,96, 1,95 et 1,72 qui ont un pourcentage d’inertie partielle respectif de 52,01 %, 8,49 % et 7,50 %. Pour plus de détails sur les valeurs propres et leurs inerties partielles et cumulées, consultez l’annexe 12. Nous avons également calculé la projection des individus et des variables sur les axes principaux. Les deux graphiques des individus (annexe 13) nous indiquent qu’il y a possiblement une observation extrême, soit l’individu 124. Vérification faite, on remarque qu’il s’agit effectivement d’une donnée extrême que nous éliminerons donc pour le reste de l’analyse. Les observations ont bien un 2cos α près d’un, ce qui signifie qu’elles sont bien représentées. Les composantes de la projection des variables sur les axes principaux d’inertie (voir annexe 14) nous permettent d’étudier la corrélation des variables sur les graphiques à l’annexe 15. Encore une fois, les deux graphiques ont leurs variables assez près du cercle de corrélation. Donc, les variables sont généralement bien représentées.

Regardons le graphique avec les axes c1 et c2. Nous formerons les groupes suivants : le premier contient KD, AD, ED, WRG, WD, HHT et BL, le deuxième est constitué de AG, BC, KG, CAG, FG et PB, le troisième est formé de BG, CDI, WHT, SG, TG, HG, CHG, CDE, NG et WAG. Pour nous assurer qu’il existe bien une corrélation, nous avons regardé les coefficients de corrélations deux à deux entre les variables de chaque groupe que vous pouvez retrouver à l’annexe 16. On obtient alors de plus petits groupes, soient le duo BC et PB, le trio KG, CAG et AG, la paire CDI SG et celui composé de HG, NG, WAG, WHT, CHG et CDE.

Page 46: 0tudes de cas en analyse des données

On répète le même principe pour le graphique c1, c3. À première vue, on forme les groupes (BG, FG, SG, CHG, WRG, WD, ED), (CDI, TG, CDE, AD, WHT, CAG, AG, KD, WAG, NG, KG, HG) et (BL, HHT, BC, PB). Ensuite, nous comparons les coefficients de corrélation dans le tableau de l’annexe 17 pour former les nouveaux groupes : (BG, FG, CHG, SG), (CDE, WHT, WAG, NG, HG), (TG, CAG, KG) et (BC, PB).

Avec ces informations, on crée les groupes finaux pour l’ACP chez les hommes. Considérant que nous avons formé intuitivement les groupes initiaux, nous devons donc les modifier en changeant de groupe CHG et FG dans le graphique de c1, c3. On obtient alors la paire BC et PB, le groupe composé de CDE, WHT, NG et HG, celui formé de AG, CAG et KG et finalement celui qui contient BG, FG, CHG et SG.

Pour l’analyse en composantes principales chez les femmes le pourcentage d’inertie expliquée de 72,63 %, pour les trois premiers axes est très bien. Nous devrons donc, encore une fois, faire la projection sur les trois premiers axes d’inertie, où le premier axe possède un pourcentage d’inertie partielle de 58,51 % et une valeur propre de 13,46. Pour le deuxième axe, la valeur propre est 1,90 et le pourcentage d’inertie partielle est de 8,25 %. Quant au troisième axe, la valeur propre est de 1,35 et le pourcentage d’inertie partielle est de 5,88 %. Pour connaître toutes les valeurs propres avec leur inertie partielle, voir l’annexe 18. La projection des individus sur les axes nous donne les graphiques à l’annexe 19 qui nous permettent d’identifier deux valeurs extrêmes, soit les individus 112 et 227. Nous éliminerons ces derniers de notre échantillon. Encore une fois, les observations sont bien représentées. Cela dit, nous pouvons donc continuer notre analyse. Les coordonnées de la projection des variables sur les axes sont inscrites à l’annexe 20. Les graphiques de la représentation des variables se retrouvent à l’annexe 21. Pour les femmes également, les variables sont bien représentées, à cause de leur proximité avec le cercle des corrélations.

Suite à l’étude du graphique des axes c1 et c2, nous formons trois groupes, celui composé de WAG, CDE, BG, NG, CHG, TG, HG, WHT, SG et FG, celui qui contient KG, CAG, CDI, KD, BC, AG, PB et WRG et puis le groupe ED, WD, AD, BL et HHT. Grâce aux tableaux des coefficients de corrélations de l’annexe 22, nous conservons le premier groupe presque intact (on enlève seulement la variable CDE), le groupe formé de KD, KG, CAG, WRG et AG et finalement le duo WD, ED.

Pour le graphique des axes c1 et c3 nous avons les groupes : (BC, NG, HG, AD, CDE, WAG, TG, WHT, KD) et (KG, ED, BL, CHG, CAG, BG, AG, WD, CDI, FG, SG, WRG) ainsi que les variables PB et HHT qui ne sont dans aucun groupe. Pour une dernière fois, nous regardons les coefficients de corrélations (annexe 23) pour modifier les groupes initiaux afin d’obtenir les ensembles suivants : le groupe formé de NG, HG, WAG, TG et WHT, celui composé de CDI, CHG, SG et BG, puis le groupe qui contient KG, CAG, AG, FG et WRG.

Les groupes finaux pour les femmes sont exactement les mêmes que pour le premier et le troisième axe, en modifiant un peu les groupes initiaux du graphique des deux premiers axes d’inerties. Plus précisément, on va changer de groupe les variables FG et CDI du premier graphique pour obtenir les groupes du deuxième graphique tout en gardant PB et HHT seuls.

Page 47: 0tudes de cas en analyse des données

Dans le but de regrouper les variables le mieux possible, nous avons comparé les groupes finaux, soit celui de tous les individus, celui des hommes seuls et celui des femmes seules. Une fois cette comparaison effectuée, nous obtenons les groupes finaux : (NG, HG, TG), (AG, CAG, KG), (CHG, SG, BG, CDI, FG), (WAG, WHT, CDE), (WRG, ED, WD), (BC, PB) et les variables suivantes BL, AD, KD, HHT sont seules. Nous pouvons alors choisir une variable par groupe pour identifier les mesures que nous prendrons sur nos individus. Les groupes formés représentent assez bien ce que l’on aurait pu prédire au début de l’analyse. Tout d’abord, le premier groupe, qui contient la circonférence au niveau du nombril, de la hanche et de la cuisse s’explique par le fait que ces parties sont toutes assez près l’une de l’autre. Si un individu prend du poids à l’un de ces endroits, il va généralement prendre également du poids aux deux autres places. Il en est de même pour les muscles, une personne va muscler toutes ces parties en même temps. De ce fait, on peut dire que le premier groupe représente le milieu du corps humain. Le deuxième groupe contient la circonférence de la cheville, du genou et du mollet. On y retrouve une composition tout à fait logique, pour les mêmes raisons que pour le premier groupe. Pour sa part, le second groupe représente la partie inférieure du corps. Le troisième groupe formé du diamètre de la poitrine, de la circonférence de la poitrine, des épaules, des biceps et des avant-bras représente la partie supérieure du corps. Le quatrième groupe, quant à lui, considère le poids, la profondeur de la poitrine et la circonférence de la taille. Ce qui est tout à fait normal, puisque la prise de poids se constate généralement davantage à ces deux endroits. C’est pour cette raison que le poids est associé à ces deux variables plutôt qu’à un groupe quelconque. Le cinquième groupe constitué du diamètre, du coude et du poignet, ainsi que la circonférence du poignet est également logique, puisque ce sont tous des endroits sans muscles et dont la chair est directement sur les os. Le dernier groupe, composé du diamètre des épaules et des hanches, trouve tout son sens, puisque le corps humain est fait pour que ces os soient pratiquement de la même longueur pour bien former le bassin. Pour sa part, la taille se retrouve seule, car c’est une mesure de longueur alors que les autres sont des mesures de diamètre et de circonférence, sauf le poids. Le poids est corrélé à une variable, mais pas la taille, puisque le poids est très influencé par la graisse et, par conséquent, il est corrélé avec les circonférences. Alors que la taille affecte la longueur des os seulement, qui elle n’est pas prise en considération ici. Le diamètre des épaules se retrouve seul, probablement parce qu’il varie beaucoup d’une personne à l’autre, sans vraiment changer le reste du physique. Le diamètre de la cheville et du genou sont seuls pour une raison peu évidente. Par contre, on ne rejette pas l’idée que la prise de données puisse avoir été légèrement défectueuse, ce qui peut avoir biaisé les résultats. En effet, en effectuant le test du sexe sur une personne nous avons conclu que le diamètre de la cheville devait en fait être le diamètre des deux chevilles ensemble, tout comme le genou, ce qui rend les données moins précises.

On choisit les variables de chaque groupe de façon à faciliter la prise de données. Pour le premier groupe, on garde la circonférence au niveau du nombril puisque c’est l’endroit où il y a moins de possibilités d’erreur lors de la prise de données. Pour illustrer ce fait, prenons par exemple la circonférence de la cuisse, elle peut être prise à différents endroits, c’est donc difficile de rester constant. Pour cette même raison, nous avons choisi la circonférence de la cheville pour le deuxième groupe. Pour le troisième groupe, on élimine sans contredit le diamètre du squelette au niveau de la poitrine, car il est difficile de prendre une mesure sur le squelette. On choisit ensuite parmi celles qui restent de la même façon que les deux premiers groupes. On choisit donc la circonférence du biceps. Pour le quatrième groupe, on prend le poids, puisque c’est très simple à mesurer et il y a très peu de marge d’erreur. Pour le groupe suivant, on calcule la circonférence du poignet

Page 48: 0tudes de cas en analyse des données

étant donné qu’il s’agit de la seule mesure qui n’est pas prise sur le squelette. Pour le dernier groupe, on choisit le diamètre du squelette au niveau de la hanche, car il y a généralement moins de gras à cet endroit, donc il est plus facile de repérer l’os pour prendre le diamètre de celui-ci. Cela dit, on retient donc les dix variables suivantes : la circonférence du corps au niveau du nombril, la circonférence de la cheville, la circonférence du biceps, le poids, le diamètre du squelette au niveau de la hanche, la circonférence du poignet, le diamètre du squelette au niveau des épaules, le diamètre de la cheville, le diamètre du genou et la grandeur. Pour avoir la matrice des corrélations de toutes les variables ensemble, voir l’annexe 24.

Étudions maintenant la deuxième partie du travail portant sur l’analyse discriminante à but prédictif. Maintenant que nous avons choisi les variables, nous pouvons les étudier plus en profondeur. Nous avons trouvé toutes les informations nécessaires à l’analyse discriminante soit la moyenne et l’écart type de tous les individus ainsi que les hommes et les femmes séparément (voir l’annexe 25). La matrice d’inertie totale inverse (T-1) est donnée à l’annexe 26. Nous avons tout d’abord créé un individu imaginaire, en supposant que les mesures anthropologiques suivent une loi normale, différente pour chaque variable. Les moyennes et les écarts types sont ceux calculés avec tous les individus donnés à l’annexe 25. Les résultats de l’individu test sont donnés par a= (38.55990 27.95171 18.53019 14.89835 86.01007 31.68029 22.33173 14.67837 62.26647 180.13221) dont nous avons obtenu la valeur finale -0.00238699 qui nous a permis d’affirmer que c’est une femme. Rappelons que si la valeur finale est supérieure à 0 nous avons un homme sinon c’est une femme. Nous avons également fait le test avec une femme qui possédait les mesures a = (34.5 31.5 19.0 13.0 77.5 27.0 23.0 17.0 56.5 165.0). Nous avons obtenu la valeur finale -0.007186967 qui nous a confirmé qu’il s’agissait effectivement d’une femme. Nous avons également fait le test sur un homme ayant comme mesures a=(40.0 30.0 20.0 14.5 87.0 33.0 26.0 18.0 70.5 176.0). Nous avons obtenu la valeur finale -0.002078566 qui malheureusement nous affirme qu’il s’agissait d’une femme. Finalement, nous avons fait le test avec un homme de l’échantillon de départ, soit l’individu 40 qui a comme mesures a = (42.1 32.4 21.0 16.4 78.0 37.7 23.3 18.7 80.1 184.2) et qui est vraiment un homme puisque la valeur finale donne 0.003950016. La raison possible pour laquelle ça n’a pas fonctionné avec l’homme test, c’est qu’il a de petits os, qui est souvent une caractéristique que l’on retrouve chez les femmes, d’autant plus que nos variables étudiées mettent en valeur cette caractéristique. L’étude n’est donc pas 100 % fiable. Cette erreur est possiblement due au fait que le centre de gravité des hommes et celui des femmes sont assez près l’un de l’autre, donc nous donne de petites valeurs finales qui sont plus sensibles au signe.

5. Conclusion

Suite à cette analyse, nous pouvons affirmer qu’il n’est pas nécessaire de prendre vingt-quatre mesures anthropologiques sur une personne pour connaître son sexe, mais seulement dix. Parmi ces dernières nous retrouvons les variables suivantes : la circonférence du corps au niveau du nombril, la circonférence de la cheville, la circonférence du biceps, le poids, diamètre du squelette au niveau de la hanche, la circonférence du poignet, diamètre du squelette au niveau des épaules, diamètre de la cheville, diamètre du genou et la grandeur. La problématique de cette analyse est que dans l’analyse en composantes principales on utilise notre jugement pour créer les groupes de variables de départ pour trouver celles corrélées ensemble. Il est possible que si nous avions commencé avec d’autres groupes, nous ayons eu des variables finales qui auraient été légèrement différentes. Il aurait donc probablement été

Page 49: 0tudes de cas en analyse des données

plus précis de faire l’analyse discriminante pas à pas. La précision aurait été accrue, si on avait utilisé l’approche probabiliste plutôt que géométrique, pour associer les individus au bon sexe, puisque les centres de gravités des hommes et des femmes sont assez près l’un de l’autre. Mais pour utiliser ces deux méthodes, il faudrait faire une étude plus approfondie sur l’utilité de connaître le sexe d’une personne de cette façon. Il serait également intéressant de faire d’autres études, telles qu’une régression linéaire du poid d’un individu en fonction de ses mesures anthropologiques.

6. Bibliographie

1_ Grete H., Louis J.P, Roger W.J., Carter J.K., Exploring relationships in body dimensions, Journal of Statistics Education, vol 11, 2, 2003 http://www.amstat.org/publications/jse/v11n2/datasets.heinz.html

2_Bernard COLIN, Notes de cours d’analyse des données, Université de Sherbrooke, 2009

3_Philippe BESSE, Programmation en R, Université de Toulouse, http://www.math.univ-toulouse.fr/~besse/pub/R/, 2009

4_ Ricco RAKOTOMALALA, analyse en composantes principales avec R, Université de Lyon 2, http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/acp_avec_r.pdf, 2009

Page 50: 0tudes de cas en analyse des données

ANNEXE 1

Image 1

Image 2

Page 51: 0tudes de cas en analyse des données

ANNEXE 2

Nom de la variable Abréviation diamètre du squelette au niveau des épaules BL diamètre du squelette au niveau de la crète iliaque PB diamètre du squelette au niveau de la hanche BC épaisseur de la poitrine CDE diamètre du squelette au niveau de la poitrine CDI diamètre du squelette au niveau du coude ED diamètre du squelette au niveau du poignet WD diamètre du squelette au niveau du genou KD diamètre du squelette au niveau de la cheville AD circonférence de l’épaule SG circonférence de la poitrine CHG circonférence de la taille WAG circonférence du corps au niveau du nombril NG circonférence de la hanche HG circonférence de la cuisse TG circonférence du biceps BG circonférence de l’avant-bras FG circonférence du genou KG circonférence du mollet CAG circonférence de la cheville AG circonférence du poignet WRG âge AGE poids WHT taille HHT sexe MF

Page 52: 0tudes de cas en analyse des données

ANNEXE 3

Tableau des moyennes et écart types des variables

Variables Moyennes Écart types BL 38,80 3,06 PB 27,83 2,21 BC 31,95 2,00

CDE 19,23 2,52 CDI 27,97 2,74 ED 13,39 1,35 WD 10,54 0,94 KD 18,78 1,30 AD 13,86 1,25 SG 108,20 10,37

CHG 93,33 10,03 WAG 76,98 11,01 NG 85,51 9,24 HG 96,68 6,68 TG 56,86 4,45 BG 31,13 4,22 FG 25,94 2,83 KG 36,20 2,62

CAG 36,08 2,85 AG 22,14 1,85

WRG 16,08 1,37 AGE 30,18 9,61 WHT 68,91 13,03 HHT 171,1 9,43

Page 53: 0tudes de cas en analyse des données

ANNEXE 4

Code pour l’analyse en composantes principales : #Analyse avec les données des hommes et des femmes #Répertoire de travail setwd("C:/DocumentsandSettings/Véronique/Mesdocuments/ maitrisesession1/STT707/corps") #chargement des données corps01<- read.table("donnees01.txt") #changement de nom des variables colnames(corps01)<-c("BL","PB","BC","CDE","CDI","ED","WD","KD","AD","SG","CHG","WAG","NG","HG","TG","BG","FG","KG","CAG","AG","WRG","AGE","WHT","HHT","MF") #calcul de la moyenne, du minimum, du maximum, de l'écart type et de la variance de chaque variable summary(corps01) sd(corps01$BL); sd(corps01$PB); sd(corps01$BC); sd(corps01$CDE); sd(corps01$CDI); sd(corps01$ED); sd(corps01$WD); sd(corps01$KD); sd(corps01$AD); sd(corps01$SG); sd(corps01$CHG); sd(corps01$WAG) sd(corps01$NG); sd(corps01$HG); sd(corps01$TG); sd(corps01$BG); sd(corps01$FG); sd(corps01$KG); sd(corps01$CAG); sd(corps01$AG); sd(corps01$WRG); sd(corps01$AGE); sd(corps01$WHT); sd(corps01$HHT) var(corps01$BL); var(corps01$PB); var(corps01$BC); var(corps01$CDE); var(corps01$CDI); var(corps01$ED); var(corps01$WD); var(corps01$KD); var(corps01$AD); var(corps01$SG); var(corps01$CHG); var(corps01$WAG) var(corps01$NG); var(corps01$HG); var(corps01$TG); var(corps01$BG); var(corps01$FG); var(corps01$KG); var(corps01$CAG); var(corps01$AG); var(corps01$WRG); var(corps01$AGE); var(corps01$WHT); var(corps01$HHT) #début de l'analyse en composantes principales (on doit enlever la variable sexe et la variable âge) #chargement des données sans la variable sexe et sans la variable âge corps<- read.table("donnees.txt") #changement de nom des variables colnames(corps)<-c("BL","PB","BC","CDE","CDI","ED","WD","KD","AD","SG","CHG","WAG","NG","HG","TG","BG","FG","KG","CAG","AG","WRG","WHT","HHT") #calcul du coefficient de corrélation entre chaque variable coefficient<-cor(corps) sink("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/coeffcor.txt") coefficient sink(NULL) #centrer et réduire les variables acp.corps <- princomp(corps, cor = T, scores = T) print(acp.corps) print(summary(acp.corps)) print(attributes(acp.corps)) #calcul des valeurs propres val.propres<-acp.corps$sdev^2 print(val.propres)

Page 54: 0tudes de cas en analyse des données

#Calcul de l'inertie partielle et totale inertie<-function(lambda) { for(i in 1:23) { somme.lambda<-lambda[1] k<-2 inertie.partielle2<-lambda[i]/sum(lambda) if(i==1) { inertie.totale2<-inertie.partielle2 } else { while(k<=i) { somme.lambda<-somme.lambda+lambda[k] k<-k+1 } inertie.totale2<-somme.lambda/sum(lambda) } print(paste("L'inertie partielle de",i,"est",inertie.partielle2,"et l'inertie totale est",inertie.totale2)) } } inertie(val.propres) #corrélation variables-facteurs c1 <- acp.corps$loadings[,1]*acp.corps$sdev[1] c2 <- acp.corps$loadings[,2]*acp.corps$sdev[2] c3 <- acp.corps$loadings[,3]*acp.corps$sdev[3] correlation <- cbind(c1,c2,c3) print(correlation,digits=2) print(correlation^2,digits=2) sink(NULL) print(t(apply(correlation^2,1,cumsum)),digits=2) #*** cercle des corrélations - variables actives *** plot(c1,c2,xlim=c(-1,+1),ylim=c(-1,+1),type="n") abline(h=0,v=0) text(c1,c2,labels=colnames(corps),cex=0.5) symbols(0,0,circles=1,inches=F,add=T) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/correlationc1c2","jpeg") #*** cercle des corrélations - variables actives *** plot(c1,c3,xlim=c(-1,+1),ylim=c(-1,+1),type="n") abline(h=0,v=0) text(c1,c3,labels=colnames(corps),cex=0.5) symbols(0,0,circles=1,inches=F,add=T) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/correlationc1c3","jpeg") #graphique des individus

Page 55: 0tudes de cas en analyse des données

plot(acp.corps$scores[,1],acp.corps$scores[,2],type="n",xlab="Comp.1 - 65%",ylab="Comp.2 - 11%") abline(h=0,v=0) text(acp.corps$scores[,1],acp.corps$scores[,2],labels=rownames(corps),cex=0.75) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/repindc1c2","jpeg") plot(acp.corps$scores[,1],acp.corps$scores[,3],type="n",xlab="Comp.1 - 65%",ylab="Comp.3 - 5%") abline(h=0,v=0) text(acp.corps$scores[,1],acp.corps$scores[,3],labels=rownames(corps),cex=0.75) savePlot("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/repindc1c3","jpeg") #qualité de la représentation #calcul du carré de la distance d'un individu au centre de gravité d2 <- function(x){return(sum(((x-acp.corps$center)/acp.corps$scale)^2))} #appliquer à l'ensemble des observations all.d2 <- apply(corps,1,d2) #cosinus^2 pour une composante cos2 <- function(x){return(x^2/all.d2)} #cosinus^2 pour les composantes retenues (les 3 premières) all.cos2 <- apply(acp.corps$scores[,1:3],2,cos2) print(all.cos2) Code pour l’analyse discriminante à but prédictif : #Répertoire de travail setwd("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps") #chargement des données corpsAD<- read.table("donneesAD.txt") #changement de nom des variables colnames(corpsAD)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") #calcul de la moyenne, du minimum, du maximum, de la médiane, de l'écart type et de la variance de chaque variable summary(corpsAD) sd(corpsAD$BL); sd(corpsAD$BC); sd(corpsAD$KD); sd(corpsAD$AD) sd(corpsAD$NG); sd(corpsAD$BG); sd(corpsAD$AG); sd(corpsAD$WRG); sd(corpsAD$WHT); sd(corpsAD$HHT) var(corpsAD$BL); var(corpsAD$BC); var(corpsAD$KD); var(corpsAD$AD) var(corpsAD$NG); var(corpsAD$BG); var(corpsAD$AG); var(corpsAD$WRG); var(corpsAD$WHT); var(corpsAD$HHT) #chargement des données des hommes seulement corpsADM<- read.table("donneesADM.txt") colnames(corpsADM)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") # transformer corpsADM en matrice et vérifier que c'est bien une matrice xmen<-as.matrix(corpsADM) is.matrix(xmen) #calcul des écart types des hommes sd(corpsADM$BL); sd(corpsADM$BC); sd(corpsADM$KD); sd(corpsADM$AD)

Page 56: 0tudes de cas en analyse des données

sd(corpsADM$NG); sd(corpsADM$BG); sd(corpsADM$AG); sd(corpsADM$WRG); sd(corpsADM$WHT); sd(corpsADM$HHT) #calcul du centre de gravité des hommes graviteh<-apply(xmen,2,mean) graviteh #chargement des données des femmes seulement corpsADF<- read.table("donneesADF.txt") colnames(corpsADF)<-c("BL","BC","KD","AD","NG","BG","AG","WRG","WHT","HHT") # transformer corpsADM en matrice et vérifier que c'est bien une matrice xwomen<-as.matrix(corpsADF) is.matrix(xwomen) #calcul des écart types des femmes sd(corpsADF$BL); sd(corpsADF$BC); sd(corpsADF$KD); sd(corpsADF$AD) sd(corpsADF$NG); sd(corpsADF$BG); sd(corpsADF$AG); sd(corpsADF$WRG); sd(corpsADF$WHT); sd(corpsADF$HHT) #calcul du centre de gravité des femmes gravitef<-apply(xwomen,2,mean) gravitef #calcul de la matrice T^(-1) #calcul de t_h t_h<-t(xmen)%*%xmen t_h #calcul de t_f t_f<-t(xwomen)%*%xwomen t_f t_havect_f<-t_h+t_f t_inverse<-solve(t_havect_f) sink("C:/Documents and Settings/Véronique/Mes documents/maitrise session1/STT707/corps/tinverse.txt") t_inverse sink(NULL) #calcul pour affecter l'observation a aux hommes ou aux femmes #créer a à partir de la loi normale de chaque variable a<-c(rnorm(1,38.80,3.06),rnorm(1,31.95,2.00),rnorm(1,18.78,1.30),rnorm(1,13.86,1.25),rnorm(1,85.51,9.24),rnorm(1,31.13,4.22),rnorm(1,22.14,1.85),rnorm(1,16.08,1.37),rnorm(1,68.91,13.03),rnorm(1,171.1,9.45)) #femme test #a<-c(34.5,31.5,19.0,13.0,77.5,27.0,23.0,17.0,56.5,165.0) #homme de l’échantillon (numéro 40) #a<-c(42.1,32.4,21.0,16.4,78.0,37.7,23.3,18.7,80.1,184.2) #homme test #a<-c(40.0,30.0,20.0,14.5,87.0,33.0,26.0,18.0,70.5,176.0) #calcul final, si la réponse (sexe) est supérieur à 0 c'est un homme sinon c'est une femme g1_g2<-graviteh-gravitef moyenne<-(graviteh-gravitef)/2 sexe<-g1_g2%*%t_inverse%*%a-g1_g2%*%t_inverse%*%moyenne sexe

Page 57: 0tudes de cas en analyse des données

ANNEXE 5

Graphique des variables (dont l’âge) sur les deux premiers axes principaux pour tous les individus.

Page 58: 0tudes de cas en analyse des données

ANNEXE 6

Tableau des valeurs propres pour tous les individus

Valeur propre Inertie partielle Inertie cumulée

1 14,9335 0,6493 0,6493 2 2,4832 0,1080 0,7572 3 1,0653 0,0463 0,8036 4 0,9116 0,0396 0,8432 5 0,4808 0,0209 0,8641 6 0,4336 0,0189 0,8830 7 0,3383 0,0147 0,8977 8 0,3220 0,0140 0,9117 9 0,2780 0,0121 0,9238

10 0,2723 0,0118 0,9356 11 0,2479 0,0108 0,9464 12 0,2032 0,0088 0,9552 13 0,1764 0,0077 0,9629 14 0,1574 0,0068 0,9697 15 0,1451 0,0063 0,9760 16 0,1218 0,0053 0,9813 17 0,1024 0,0045 0,9858 18 0,0864 0,0038 0,9895 19 0,0804 0,0035 0,9930 20 0,0558 0,0024 0,9954 21 0,0464 0,0020 0,9975 22 0,0373 0,0016 0,9991 23 0,0207 0,0009 1,0000

Page 59: 0tudes de cas en analyse des données

ANNEXE 7

Graphique de tous les individus sur les deux premiers axes d’inerties.

Graphique de tous les individus sur le premier et troisième axe d’inertie.

Page 60: 0tudes de cas en analyse des données

ANNEXE 8

Tableau des composantes des variables suite à la projection pour tous les individus.

c1 c2 c3

BL -0.78 0.359 0.1811 PB -0.49 -0.482 0.4604 BC -0.69 -0.419 0.3629

CDE -0.80 0.015 -0.2504 CDI -0.86 0.175 -0.1038 ED -0.87 0.306 0.1197 WD -0.83 0.312 0.0971 KD -0.82 -0.024 0.2452 AD -0.80 0.241 0.2396 SG -0.91 0.228 -0.1900

CHG -0.91 0.151 -0.2712 WAG -0.88 -0.066 -0.2460 NG -0.68 -0.511 -0.1854 HG -0.72 -0.622 -0.0889 TG -0.50 -0.717 -0.1730 BG -0.90 0.151 -0.2452 FG -0.91 0.232 -0.1338 KG -0.80 -0.317 0.0860

CAG -0.78 -0.263 0.0282 AG -0.81 -0.037 0.0674

WRG -0.89 0.297 0.0017 WHT -0.97 -0.083 -0.0693 HHT -0.73 0.285 0.3689

Page 61: 0tudes de cas en analyse des données

ANNEXE 9

Graphique des variables sur les deux premiers axes principaux pour tous les individus.

Graphique des variables sur le premier et troisième axe d’inertie pour tous les individus.

Page 62: 0tudes de cas en analyse des données

ANNEXE 10

Tableau des corrélations pour le premier groupe de variables pour tous les individus (C1,C2)

BL ED WD AD CDI WRG BG CHG SG FG HHT

BL 1,00 0,77 0,72 0,66 0,77 0,77 0,70 0,72 0,79 0,75 0,75 ED 0,77 1,00 0,84 0,82 0,76 0,85 0,80 0,80 0,82 0,86 0,74 WD 0,72 0.84 1,00 0,77 0,73 0,86 0,76 0,77 0,78 0,81 0,68 AD 0,66 0,82 0,77 1,00 0,67 0,76 0,69 0,71 0,69 0,74 0,69 CDI 0,77 0,76 0,73 0,67 1,00 0,76 0,79 0,87 0,87 0,81 0,63

WRG 0,77 0,85 0,86 0,76 0,76 1,00 0,85 0,82 0,84 0,90 0,69 BG 0,70 0,80 0,76 0,69 0,79 0,85 1,00 0,91 0,90 0,94 0,59

CHG 0,72 0,80 0,77 0,71 0,87 0,82 0,91 1,00 0,93 0,89 0,62 SG 0,79 0,82 0,78 0,69 0,87 0,84 0,90 0,93 1,00 0,89 0,67 FG 0,75 0,86 0,81 0,74 0,81 0,90 0,94 0,89 0,89 1,00 0,66

HHT 0,75 0,74 0,68 0,69 0,63 0,69 0,59 0,62 0,67 0,66 1,00

Tableau des corrélations pour le deuxième groupe de variables pour tous les individus (C1,C2)

CDE KD AG WAG WHT CDE 1,00 0,55 0,59 0,80 0,80 KD 0,55 1,00 0,65 0,62 0,77 AG 0,59 0,65 1,00 0,66 0,76 WAG 0,80 0,62 0,66 1,00 0,90 WHT 0,80 0,77 0,76 0,90 1,00

Tableau des corrélations pour le troisième groupe de variables pour tous les individus (C1,C2)

PB BC CAG KG NG HG TG PB 1,00 0,67 0,41 0,47 0,58 0,56 0,41 BC 0,67 1,00 0,59 0,62 0,62 0,75 0,53 CAG 0,41 0,59 1,00 0,80 0,52 0,67 0,63 KG 0,47 0,62 0,80 1,00 0,61 0,73 0,64 NG 0,58 0,62 0,52 0,61 1,00 0,83 0,60 HG 0,56 0,75 0,67 0,73 0,83 1,00 0,83 TG 0,41 0,53 0,63 0,64 0,60 0,83 1,00

Page 63: 0tudes de cas en analyse des données

ANNEXE 11

Tableau des corrélations du premier groupe de variables pour tous les individus (C1,C3)

BL PB BC ED AD KD WD KG AG CAG WRG HHT

BL 1,00 0,31 0,49 0,77 0,66 0,64 0,72 0,51 0,60 0,51 0,77 0,75 PB 0,31 1,00 0,67 0,32 0,37 0,44 0,28 0,47 0,34 0,41 0,26 0,38 BC 0,49 0,67 1,00 0,53 0,50 0,61 0,47 0,62 0,54 0,59 0,48 0,49 ED 0,77 0,32 0,53 1,00 0,82 0,73 0,84 0,59 0,66 0,58 0,85 0,74 AD 0,66 0,37 0,50 0,82 1,00 0,72 0,77 0,54 0,68 0,54 0,76 0,69 KD 0,64 0,44 0,61 0,73 0,72 1,00 0,71 0,73 0,65 0,69 0,73 0,59 WD 0,72 0,28 0,47 0,84 0,77 0,71 1,00 0,58 0,65 0,58 0,86 0,68 KG 0,51 0,47 0,62 0,59 0,54 0,73 0,58 1,00 0,74 0,80 0,64 0,53 AG 0,60 0,34 0,54 0,66 0,68 0,65 0,65 0,74 1,00 0,76 0,75 0,57

CAG 0,51 0,41 0,59 0,58 0,54 0,69 0,58 0,80 0,76 1,00 0,65 0,45 WRG 0,77 0,26 0,48 0,85 0,76 0,73 0,86 0,64 0,75 0,65 1,00 0,69 HHT 0,75 0,38 0,49 0,74 0,69 0,59 0,68 0,53 0,57 0,45 0,69 1,00

Tableau des corrélations du deuxième groupe de variables pour tous les individus (C1, C3)

CDE CDI SG CHG WAG NG HG TG BG FG WHT

CDE 1,00 0,67 0,74 0,81 0,80 0,62 0,56 0,36 0,73 0,72 0,80 CDI 0,67 1,00 0,87 0,87 0,79 0,50 0,52 0,31 0,79 0,81 0,83 SG 0,74 0,87 1,00 0,93 0,82 0,52 0,53 0,32 0,90 0,89 0,88

CHG 0,81 0,87 0,93 1,00 0,88 0,62 0,58 0,36 0,91 0,89 0,90 WAG 0,80 0,79 0,82 0,88 1,00 0,75 0,69 0,42 0,80 0,78 0,90 NG 0,62 0,50 0,52 0,62 0,75 1,00 0,83 0,60 0,56 0,48 0,71 HG 0,56 0,52 0,53 0,58 0,69 0,83 1,00 0,83 0,56 0,51 0,76 TG 0,36 0,31 0,32 0,36 0,42 0,60 0,83 1,00 0,41 0,34 0,56 BG 0,73 0,79 0,90 0,91 0,80 0,56 0,56 0,41 1,00 0,94 0,87 FG 0,72 0,81 0,89 0,89 0,78 0,48 0,51 0,34 0,94 1,00 0,87

WHT 0,80 0,83 0,88 0,90 0,90 0,71 0,76 0,56 0,87 0,87 1,00

Page 64: 0tudes de cas en analyse des données

ANNEXE 12

Tableau des valeurs propres pour les hommes seulement

Valeur propre Inertie partielle Inertie cumulée 1 11,9614 0,5201 0,5201 2 1,9536 0,0849 0,6050 3 1,7249 0,0750 0,6800 4 1,1694 0,0508 0,7308 5 1,0060 0,0437 0,7746 6 0,7042 0,0306 0,8052 7 0,6434 0,0278 0,8332 8 0,5705 0,0248 0,8580 9 0,4696 0,0204 0,8784

10 0,3995 0,0174 0,8958 11 0,3575 0,0155 0,9113 12 0,3265 0,01420 0,9255 13 0,3046 0,0132 0,9387 14 0,2588 0,0113 0,9500 15 0,2351 0,0102 0,9602 16 0,1896 0,0082 0,9685 17 0,1837 0,0080 0,9764 18 0,1568 0,0068 0,9833 19 0,1183 0,0051 0,9884 20 0,0926 0,0040 0,9924 21 0,0814 0,0035 0,9960 22 0,0585 0,0025 0,9985 23 0,0341 0,0015 1,0000

Page 65: 0tudes de cas en analyse des données

ANNEXE 13

Représentation des hommes sur les deux premiers axes d’inerties.

Représentation des hommes sur le premier et troisième axe d’inertie.

Page 66: 0tudes de cas en analyse des données

ANNEXE 14

Tableau des composantes des variables suite à la projection pour les hommes

c1 c2 c3 BL -0.47 0.3078 -0.1675 PB -0.61 0.0052 -0.5363 BC -0.72 0.0491 -0.4762

CDE -0.70 -0.3144 0.0031 CDI -0.75 -0.1367 0.0406 ED -0.69 0.4161 0.1545 WD -0.62 0.3451 0.2464 KD -0.59 0.4889 -0.1008 AD -0.58 0.4596 -0.0145 SG -0.79 -0.1745 0.3340

CHG -0.81 -0.3053 0.3297 WAG -0.76 -0.4749 -0.1563 NG -0.76 -0.4214 -0.2051 HG -0.87 -0.2695 -0.2064 TG -0.77 -0.2083 -0.0033 BG -0.75 -0.0986 0.5030 FG -0.77 0.0752 0.4783 KG -0.78 0.0684 -0.2210

CAG -0.75 0.0712 -0.0903 AG -0.72 0.1844 -0.0811

WRG -0.70 0.3326 0.3215 WHT -0.96 -0.1206 -0.0677 HHT -0.50 0.4113 -0.3212

Page 67: 0tudes de cas en analyse des données

ANNEXE 15

Représentation des variables pour les deux premiers axes d’inerties pour les hommes.

Représentation des variables sur le premier et troisième axe d’inertie pour les hommes.

Page 68: 0tudes de cas en analyse des données

ANNEXE 16

Tableau des corrélations du premier groupe de variables pour les hommes (C1,C2)

BL AD KD ED WD WRG HHT

BL 1,00 0,19 0,34 0,37 0,27 0,35 0,47 AD 0,19 1,00 0,55 0,61 0,49 0,51 0,42 KD 0,34 0,55 1,00 0,52 0,49 0,48 0,35 ED 0,37 0,61 0,52 1,00 0,60 0,59 0,49 WD 0,27 0,49 0,49 0,60 1,00 0,63 0,33

WRG 0,35 0,51 0,48 0,59 0,63 1,00 0,34 HHT 0,47 0,42 0,35 0,49 0,33 0,34 1,00

Tableau des corrélations du deuxième groupe de variables pour les hommes (C1,C2)

BC PB KG CAG FG AG

BC 1,00 0,72 0,56 0,52 0,36 0,37 PB 0,72 1,00 0,49 0,46 0,29 0,33 KG 0,56 0,49 1,00 0,76 0,53 0,69

CAG 0,52 0,46 0,76 1,00 0,55 0,70 FG 0,36 0,29 0,53 0,55 1,00 0,51 AG 0,37 0,33 0,69 0,70 0,51 1,00

Tableau des corrélations du troisième groupe de variables pour les hommes (C1,C2)

CDI CDE BG SG TG HG CHG NG WAG WHT

CDI 1,00 0,46 0,54 0,71 0,55 0,63 0,73 0,55 0,61 0,73 CDE 0,46 1,00 0,49 0,57 0,50 0,62 0,70 0,67 0,70 0,72 BG 0,54 0,49 1,00 0,76 0,66 0,57 0,78 0,47 0,47 0,69 SG 0,71 0,57 0,76 1,00 0,61 0,65 0,83 0,54 0,58 0,76 TG 0,55 0,50 0,66 0,61 1,00 0,79 0,60 0,55 0,56 0,77 HG 0,63 0,62 0,57 0,65 0,79 1,00 0,68 0,81 0,80 0,88

CHG 0,73 0,70 0,78 0,83 0,60 0,68 1,00 0,68 0,71 0,76 NG 0,55 0,67 0,47 0,54 0,55 0,81 0,68 1,00 0,88 0,78

WAG 0,61 0,70 0,47 0,58 0,56 0,80 0,71 0,88 1,00 0,81 WHT 0,73 0,72 0,69 0,76 0,77 0,88 0,76 0,78 0,81 1,00

Page 69: 0tudes de cas en analyse des données

ANNEXE 17

Tableau des corrélations du premier groupe de variables pour les hommes (C1, C3)

ED WD BG FG CHG SG WRG ED 1,00 0,60 0,55 0,61 0,51 0,51 0,59 WD 0,60 1,00 0,47 0,52 0,48 0,48 0,63 BG 0,55 0,47 1,00 0,86 0,78 0,76 0,61 FG 0,61 0,52 0,86 1,00 0,70 0,70 0,71

CHG 0,51 0,48 0,78 0,70 1,00 0,83 0,55 SG 0,51 0,48 0,76 0,70 0,83 1,00 0,54

WRG 0,59 0,63 0,61 0,71 0,55 0,54 1,00

Tableau des corrélations du premier groupe de variables pour les hommes (C1,C3)

CDI CDE TG AD WHT CAG AG KD WAG NG HG KG CDI 1,00 0,46 0,55 0,32 0,73 0,52 0,43 0,41 0,61 0,55 0,63 0,53 CDE 0,46 1,00 0,50 0,30 0,72 0,42 0,44 0,23 0,70 0,66 0,62 0,48 TG 0,55 0,50 1,00 0,30 0,77 0,70 0,52 0,43 0,56 0,55 0,79 0,66 AD 0,32 0,30 0,30 1,00 0,51 0,43 0,55 0,55 0,33 0,37 0,37 0,43

WHT 0,73 0,72 0,77 0,51 1,00 0,69 0,64 0,51 0,81 0,78 0,88 0,74 CAG 0,52 0,42 0,70 0,43 0,69 1,00 0,70 0,51 0,52 0,46 0,65 0,73 AG 0,43 0,44 0,52 0,55 0,64 0,70 1,00 0,46 0,48 0,51 0,59 0,69 KD 0,41 0,23 0,43 0,55 0,51 0,51 0,46 1,00 0,24 0,23 0,44 0,57

WAG 0,61 0,70 0,56 0,33 0,81 0,52 0,48 0,24 1,00 0,88 0,80 0,57 NG 0,55 0,66 0,55 0,37 0,78 0,46 0,51 0,23 0,88 1,00 0,81 0,56 HG 0,63 0,62 0,79 0,37 0,88 0,65 0,59 0,44 0,80 0,81 1,00 0,70 KG 0,53 0,48 0,66 0,43 0,74 0,73 0,69 0,57 0,57 0,56 0,70 1,00

Tableau des corrélations du troisième groupe de variables pour les hommes (C1,C3)

BL BC PB HHT

BL 1,00 0,46 0,35 0,48 BC 0,46 1,00 0,72 0,50 PB 0,35 0,72 1,00 0,42

HHT 0,48 0,50 0,42 1,00

Page 70: 0tudes de cas en analyse des données

ANNEXE 18

Tableau des valeurs propres pour les femmes seulement

Valeur propre Inertie partielle Inertie cumulée 1 13,4566 0,5850 0,5850 2 1,8967 0,0825 0,6675 3 1,3527 0,0588 0,7263 4 1,0482 0,0456 0,7719 5 0,8585 0,0373 0,8092 6 0,6254 0,0272 0,8364 7 0,5024 0,0218 0,8583 8 0,4366 0,0190 0,8773 9 0,4357 0,0189 0,8962

10 0,3436 0,0149 0,9111 11 0,3059 0,0133 0,9244 12 0,2849 0,0124 0,9368 13 0,2503 0,0109 0,9477 14 0,2119 0,0092 0,9569 15 0,1911 0,0083 0,9652 16 0,1645 0,0072 0,9724 17 0,1515 0,0066 0,9790 18 0,1271 0,0055 0,9845 19 0,1265 0,0055 0,9900 20 0,0827 0,0035 0,9936 21 0,0733 0,0032 0,9968 22 0,0457 0,0020 0,9988 23 0,0280 0,0012 1,000

Page 71: 0tudes de cas en analyse des données

ANNEXE 19

Représentation des femmes sur les deux premiers axes d’inerties.

Représentation des femmes sur le premier et troisième axe d’inertie.

Page 72: 0tudes de cas en analyse des données

ANNEXE 20

Tableau des composantes des variables suite à la projection pour les femmes

c1 c2 c3 BL -0.57 -0.434 -0.068 PB -0.56 -0.120 0.690 BC -0.74 -0.157 0.363

CDE -0.61 0.385 0.163 CDI -0.71 -0.011 -0.243 ED -0.73 -0.347 -0.061 WD -0.68 -0.432 -0.232 KD -0.83 -0.162 0.049 AD -0.61 -0.425 0.195 SG -0.82 0.099 -0.270

CHG -0.85 0.269 -0.105 WAG -0.82 0.412 0.084 NG -0.80 0.314 0.298 HG -0.89 0.202 0.194 TG -0.83 0.258 0.080 BG -0.85 0.319 -0.159 FG -0.88 0.076 -0.248 KG -0.85 -0.048 -0.030

CAG -0.80 -0.026 -0.136 AG -0.73 -0.152 -0.201

WRG -0.80 -0.216 -0.332 WHT -0.96 0.105 0.057 HHT -0.41 -0.598 0.271

Page 73: 0tudes de cas en analyse des données

ANNEXE 21

Représentation des variables sur les deux premiers axes d’inerties pour les femmes

Représentation des variables sur le premier et troisième axe d’inertie pour les femmes

Page 74: 0tudes de cas en analyse des données

ANNEXE 22

Tableau des corrélations du premier groupe des variables pour les femmes (C1,C2)

CDE BG NG CHG TG HG WAG SG FG WHT CDE 1,00 0,57 0,63 0,62 0,54 0,57 0,63 0,48 0,48 0,61 BG 0,57 1,00 0,75 0,82 0,75 0,77 0,80 0,74 0,87 0,82 NG 0,63 0,75 1,00 0,77 0,70 0,83 0,84 0,61 0,64 0,80

CHG 0,62 0,82 0,77 1,00 0,68 0,74 0,86 0,83 0,77 0,84 TG 0,54 0,75 0,70 0,68 1,00 0,90 0,73 0,63 0,73 0,86 HG 0,57 0,77 0,83 0,74 0,90 1,00 0,81 0,68 0,75 0,90

WAG 0,63 0,80 0,84 0,86 0,73 0,81 1,00 0,73 0,71 0,86 SG 0,48 0,74 0,61 0,83 0,63 0,68 0,73 1,00 0,75 0,79 FG 0,48 0,87 0,64 0,77 0,73 0,75 0,71 0,75 1,00 0,83

WHT 0,61 0,82 0,80 0,84 0,86 0,90 0,86 0,79 0,83 1,00

Tableau des corrélations du deuxième groupe des variables pour les femmes (C1,C2)

BC PB CDI KD KG AG WRG CAG BC 1,00 0,63 0,50 0,67 0,61 0,49 0,50 0,58 PB 0,63 1,00 0,27 0,49 0,44 0,28 0,29 0,34

CDI 0,50 0,27 1,00 0,52 0,49 0,45 0,56 0,47 KD 0,67 0,49 0,52 1,00 0,77 0,59 0,68 0,71 KG 0,61 0,44 0,49 0,77 1,00 0,70 0,70 0,80 AG 0,49 0,28 0,45 0,59 0,70 1,00 0,67 0,74

WRG 0,50 0,29 0,56 0,68 0,70 0,67 1,00 0,65 CAG 0,58 0,34 0,47 0,71 0,80 0,74 0,65 1,00

Tableau des corrélations du troisième groupe des variables pour les femmes (C1,C2)

BL AD ED WD HHT

BL 1,00 0,39 0,48 0,47 0,47 AD 0,39 1,00 0,65 0,60 0,40 ED 0,48 0,65 1,00 0,68 0,41 WD 0,47 0,60 0,68 1,00 0,40 HHT 0,47 0,40 0,41 0,40 1,00

Page 75: 0tudes de cas en analyse des données

ANNEXE 23

Tableau des corrélations du premier groupe de variables pour les femmes (C1, C3)

BC CDE AD KD NG HG WAG TG WHT BC 1,00 0,35 0,53 0,67 0,59 0,75 0,55 0,64 0,69

CDE 0,35 1,00 0,31 0,43 0,63 0,57 0,63 0,54 0,61 AD 0,53 0,31 1,00 0,60 0,46 0,46 0,33 0,38 0,49 KD 0,67 0,43 0,60 1,00 0,59 0,71 0,60 0,67 0,78 NG 0,59 0,63 0,46 0,59 1,00 0,83 0,84 0,70 0,80 HG 0,75 0,57 0,46 0,71 0,83 1,00 0,81 0,90 0,90

WAG 0,55 0,63 0,33 0,60 0,84 0,81 1,00 0,73 0,86 TG 0,64 0,54 0,38 0,67 0,70 0,90 0,73 1,00 0,86

WHT 0,69 0,61 0,49 0,78 0,80 0,90 0,86 0,86 1,00

Tableau des corrélations du deuxième groupe de variables pour les femmes (C1,C3)

BL CDI ED WD KG CHG CAG BG AG FG SG WRG BL 1,00 0,54 0,48 0,47 0,43 0,41 0,43 0,31 0,41 0,43 0,56 0,53 CDI 0,54 1,00 0,53 0,47 0,49 0,73 0,47 0,61 0,45 0,61 0,75 0,56 ED 0,48 0,53 1,00 0,68 0,57 0,57 0,53 0,54 0,48 0,66 0,58 0,64 WD 0,47 0,47 0,68 1,00 0,57 0,51 0,52 0,50 0,56 0,62 0,50 0,75 KG 0,43 0,49 0,57 0,57 1,00 0,62 0,80 0,68 0,70 0,75 0,65 0,70

CHG 0,41 0,73 0,57 0,51 0,62 1,00 0,58 0,82 0,51 0,77 0,83 0,64 CAG 0,43 0,47 0,53 0,52 0,80 0,58 1,00 0,67 0,74 0,74 0,63 0,65 BG 0,31 0,61 0,54 0,50 0,68 0,82 0,67 1,00 0,57 0,87 0,74 0,68 AG 0,41 0,45 0,48 0,56 0,70 0,51 0,74 0,57 1,00 0,64 0,56 0,67 FG 0,43 0,61 0,66 0,62 0,75 0,77 0,74 0,87 0,64 1,00 0,75 0,81 SG 0,56 0,75 0,58 0,50 0,65 0,83 0,63 0,74 0,56 0,75 1,00 0,66

WRG 0,53 0,56 0,64 0,75 0,70 0,64 0,65 0,68 0,67 0,81 0,66 1,00

Page 76: 0tudes de cas en analyse des données

ANNEXE 24

Matrice des corrélations :

BL PB BC CDE CDI ED WD

BL 1.0000000 0.3090358 0.4862726 0.5832585 0.7691406 0.7658212 0.7228388

PB 0.3090358 1.0000000 0.6734567 0.3567852 0.3311695 0.3228573 0.2792363

BC 0.4862726 0.6734567 1.0000000 0.4725560 0.5241288 0.5257579 0.4681583

CDE 0.5832585 0.3567852 0.4725560 1.0000000 0.6650702 0.6652377 0.6081147

CDI 0.7691406 0.3311695 0.5241288 0.6650702 1.0000000 0.7588682 0.7308643

ED 0.7658212 0.3228573 0.5257579 0.6652377 0.7588682 1.0000000 0.8399305

WD 0.7228388 0.2792363 0.4681583 0.6081147 0.7308643 0.8399305 1.0000000

KD 0.6359621 0.4377883 0.6083021 0.5502889 0.6590648 0.7315042 0.7124844

AD 0.6614162 0.3683128 0.4954057 0.5978540 0.6685389 0.8210977 0.7724489

SG 0.7925957 0.2772388 0.4787637 0.7376115 0.8706480 0.8194698 0.7783992

CHG 0.7218401 0.3256838 0.4880845 0.8065033 0.8703062 0.8031396 0.7665426

WAG 0.6416072 0.4347003 0.5702148 0.8037549 0.7880334 0.6946192 0.6807824

NG 0.3057128 0.5805152 0.6175048 0.6212365 0.5012123 0.4387605 0.3992720

HG 0.3400615 0.5641529 0.7482328 0.5563131 0.5212073 0.4393353 0.4223687

TG 0.1219279 0.4141551 0.5317738 0.3576541 0.3147735 0.2069166 0.1940200

BG 0.6950618 0.2991071 0.4801457 0.7328977 0.7923345 0.8047840 0.7621594

FG 0.7526421 0.2896823 0.4780849 0.7175490 0.8071175 0.8582063 0.8147088

KG 0.5079070 0.4724691 0.6233547 0.5636517 0.5928721 0.5909794 0.5818739

CAG 0.5108144 0.4070641 0.5929802 0.5535016 0.5969089 0.5799083 0.5814377

AG 0.6034678 0.3358175 0.5390628 0.5873425 0.6350210 0.6641619 0.6546945

WRG 0.7715976 0.2632546 0.4795170 0.6802408 0.7608931 0.8457563 0.8625527

WHT 0.7254145 0.4957573 0.6657252 0.8007315 0.8314645 0.8011938 0.7646054

HHT 0.7489218 0.3814241 0.4852790 0.5529111 0.6268931 0.7381129 0.6779616

KD AD SG CHG WAG NG HG

BL 0.6359621 0.6614162 0.7925957 0.7218401 0.6416072 0.3057128 0.3400615

PB 0.4377883 0.3683128 0.2772388 0.3256838 0.4347003 0.5805152 0.5641529

BC 0.6083021 0.4954057 0.4787637 0.4880845 0.5702148 0.6175048 0.7482328

CDE 0.5502889 0.5978540 0.7376115 0.8065033 0.8037549 0.6212365 0.5563131

CDI 0.6590648 0.6685389 0.8706480 0.8703062 0.7880334 0.5012123 0.5212073

ED 0.7315042 0.8210977 0.8194698 0.8031396 0.6946192 0.4387605 0.4393353

WD 0.7124844 0.7724489 0.7783992 0.7665426 0.6807824 0.3992720 0.4223687

KD 1.0000000 0.7232729 0.6818019 0.6522224 0.6239675 0.4712506 0.5795936

AD 0.7232729 1.0000000 0.6921115 0.7058718 0.6369715 0.4365745 0.4077358

SG 0.6818019 0.6921115 1.0000000 0.9271923 0.8234546 0.5154661 0.5336717

CHG 0.6522224 0.7058718 0.9271923 1.0000000 0.8837994 0.6229823 0.5834991

WAG 0.6239675 0.6369715 0.8234546 0.8837994 1.0000000 0.7547704 0.6923506

NG 0.4712506 0.4365745 0.5154661 0.6229823 0.7547704 1.0000000 0.8258924

HG 0.5795936 0.4077358 0.5336717 0.5834991 0.6923506 0.8258924 1.0000000

TG 0.4315276 0.1926277 0.3234272 0.3630508 0.4210849 0.6026428 0.8289411

BG 0.6814055 0.6862886 0.8951884 0.9081845 0.8047044 0.5578071 0.5598848

FG 0.7206519 0.7352504 0.8949838 0.8875909 0.7807924 0.4862181 0.5143585

KG 0.7338176 0.5423538 0.6247826 0.6140547 0.6582072 0.6120932 0.7349017

CAG 0.6860935 0.5436159 0.6270538 0.6088643 0.6313445 0.5247789 0.6745805

AG 0.6547070 0.6772298 0.6797568 0.6691396 0.6558891 0.5194785 0.5770429

WRG 0.7311803 0.7627486 0.8407085 0.8246754 0.7289813 0.4354197 0.4588567

WHT 0.7660485 0.7264682 0.8788342 0.8989595 0.9039908 0.7118165 0.7629691

HHT 0.5880951 0.6864505 0.6657353 0.6187309 0.5529605 0.3131968 0.3385840

TG BG FG KG CAG AG WRG

BL 0.1219279 0.6950618 0.7526421 0.5079070 0.5108144 0.6034678 0.7715976

PB 0.4141551 0.2991071 0.2896823 0.4724691 0.4070641 0.3358175 0.2632546

BC 0.5317738 0.4801457 0.4780849 0.6233547 0.5929802 0.5390628 0.4795170

CDE 0.3576541 0.7328977 0.7175490 0.5636517 0.5535016 0.5873425 0.6802408

Page 77: 0tudes de cas en analyse des données

CDI 0.3147735 0.7923345 0.8071175 0.5928721 0.5969089 0.6350210 0.7608931

ED 0.2069166 0.8047840 0.8582063 0.5909794 0.5799083 0.6641619 0.8457563

WD 0.1940200 0.7621594 0.8147088 0.5818739 0.5814377 0.6546945 0.8625527

KD 0.4315276 0.6814055 0.7206519 0.7338176 0.6860935 0.6547070 0.7311803

AD 0.1926277 0.6862886 0.7352504 0.5423538 0.5436159 0.6772298 0.7627486

SG 0.3234272 0.8951884 0.8949838 0.6247826 0.6270538 0.6797568 0.8407085

CHG 0.3630508 0.9081845 0.8875909 0.6140547 0.6088643 0.6691396 0.8246754

WAG 0.4210849 0.8047044 0.7807924 0.6582072 0.6313445 0.6558891 0.7289813

NG 0.6026428 0.5578071 0.4862181 0.6120932 0.5247789 0.5194785 0.4354197

HG 0.8289411 0.5598848 0.5143585 0.7349017 0.6745805 0.5770429 0.4588567

TG 1.0000000 0.4114580 0.3452848 0.6384400 0.6288901 0.4217687 0.2416102

BG 0.4114580 1.0000000 0.9423755 0.6207299 0.6374041 0.6693240 0.8479443

FG 0.3452848 0.9423755 1.0000000 0.6575450 0.6701918 0.7125539 0.9047086

KG 0.6384400 0.6207299 0.6575450 1.0000000 0.7958277 0.7377154 0.6409596

CAG 0.6288901 0.6374041 0.6701918 0.7958277 1.0000000 0.7622219 0.6476269

AG 0.4217687 0.6693240 0.7125539 0.7377154 0.7622219 1.0000000 0.7536365

WRG 0.2416102 0.8479443 0.9047086 0.6409596 0.6476269 0.7536365 1.0000000

WHT 0.5585626 0.8666722 0.8695531 0.7955518 0.7692826 0.7619985 0.8164884

HHT 0.1163097 0.5884151 0.6550178 0.5257018 0.4526826 0.5709096 0.6908343

WHT HHT

BL 0.7254145 0.7489218

PB 0.4957573 0.3814241

BC 0.6657252 0.4852790

CDE 0.8007315 0.5529111

CDI 0.8314645 0.6268931

ED 0.8011938 0.7381129

WD 0.7646054 0.6779616

KD 0.7660485 0.5880951

AD 0.7264682 0.6864505

SG 0.8788342 0.6657353

CHG 0.8989595 0.6187309

WAG 0.9039908 0.5529605

NG 0.7118165 0.3131968

HG 0.7629691 0.3385840

TG 0.5585626 0.1163097

BG 0.8666722 0.5884151

FG 0.8695531 0.6550178

KG 0.7955518 0.5257018

CAG 0.7692826 0.4526826

AG 0.7619985 0.5709096

WRG 0.8164884 0.6908343

WHT 1.0000000 0.7173011

HHT 0.7173011 1.0000000

Page 78: 0tudes de cas en analyse des données

ANNEXE 25

Tableau des moyennes et écart types des variables pour tous les individus

Variables Moyennes Écart types BL 38,80 3,06 BC 31,95 2,00 KD 18,78 1,30 AD 13,86 1,25 NG 85,51 9,24 BG 31,13 4,22 AG 22,14 1,85

WRG 16,08 1,37 WHT 68,91 13,03 HHT 171,1 9,43

Tableau des moyennes et écart types des variables pour les hommes

Variables Moyennes Écart types

BL 41,23 2,09 BC 32,51 1,85 KD 19,55 1,05 AD 14,74 0,94 NG 87,59 8,33 BG 34,38 2,97 AG 23,14 1,72

WRG 17,18 0,90 WHT 77,99 10,25 HHT 177,75 7,20

Tableau des moyennes et écart types des variables pour les femmes

Variables Moyennes Écart types

BL 36,48 1.77 BC 31,41 2.00 KD 18,06 1.09 AD 13,02 0.87 NG 83,52 9.63 BG 28,02 2.56 AG 21,18 1.40

WRG 15,04 0.81 WHT 60,26 8.83 HHT 164,84 6.55

Page 79: 0tudes de cas en analyse des données

ANNEXE 26

Matrice T-1 : BL BC KD AD NG

BL 7.338267e-04 -1.460625e-04 -9.787882e-05 4.710674e-05 4.494620e-05

BC -1.460625e-04 1.036768e-03 -6.665572e-04 1.588028e-04 -1.192052e-04

KD -9.787882e-05 -6.665572e-04 3.375093e-03 -1.175130e-03 4.650998e-06

AD 4.710674e-05 1.588028e-04 -1.175130e-03 4.186501e-03 -1.073592e-05

NG 4.494620e-05 -1.192052e-04 4.650998e-06 -1.073592e-05 5.292432e-05

BG -7.437324e-05 7.157627e-05 -5.605230e-05 -3.694776e-05 -2.629645e-05

AG 1.218404e-05 -1.778997e-04 -1.582050e-04 -3.132210e-04 -4.564048e-05

WRG -5.296727e-04 2.370850e-04 -7.767458e-04 -8.916336e-04 5.609714e-05

WHT -2.160641e-05 2.820184e-05 1.927743e-05 -5.057060e-05 -1.486706e-05

HHT -8.419510e-05 -6.415263e-05 -3.495240e-05 -9.372779e-05 -2.591575e-06

BG AG WRG WHT HHT

BL -7.437324e-05 1.218404e-05 -5.296727e-04 -2.160641e-05 -8.419510e-05

BC 7.157627e-05 -1.778997e-04 2.370850e-04 2.820184e-05 -6.415263e-05

KD -5.605230e-05 -1.582050e-04 -7.767458e-04 1.927743e-05 -3.495240e-05

AD -3.694776e-05 -3.132210e-04 -8.916336e-04 -5.057060e-05 -9.372779e-05

NG -2.629645e-05 -4.564048e-05 5.609714e-05 -1.486706e-05 -2.591575e-06

BG 6.384200e-04 1.267096e-04 -1.023888e-03 -9.877336e-05 2.933530e-05

AG 1.267096e-04 1.605385e-03 -1.172047e-03 -3.293083e-05 -1.124551e-05

WRG -1.023888e-03 -1.172047e-03 6.685291e-03 5.574863e-05 -1.076101e-04

WHT -9.877336e-05 -3.293083e-05 5.574863e-05 5.036558e-05 5.677305e-06

HHT 2.933530e-05 -1.124551e-05 -1.076101e-04 5.677305e-06 4.777169e-05

Page 80: 0tudes de cas en analyse des données

Analyse de l’influence de caractéristiques de mise encorrespondance sur la vision stéréoscopique par ordinateur

Jean-Christophe Houde

3 mars 2010

1 IntroductionEn informatique, le domaine de la vision par ordinateur est l’ensemble des techniques développées

afin de permettre à un ordinateur de « comprendre » ce qui est représenté dans une image. En effet, pourun ordinateur, une image n’est qu’une matrice de valeurs numériques. Les chercheurs de ce domainetentent donc de trouver des techniques permettant, de manière mathématique, de découvrir le contenud’une image.

2 Position du problèmeL’une des familles d’approches permettant à un ordinateur de « voir » est la stéréovision. Dans cette

famille d’approches, qui est semblable à la vision binoculaire humaine, deux images de la scène sontcaptées de deux points de vue légèrement différents. Par la suite, les algorithmes tentent de mettre encorrespondance les pixels des deux images. Ces correspondances permettent, en connaissant la géométriedes caméras, d’estimer la profondeur des points associés aux pixels. Par la suite, grâce à ces informa-tions, il est possible de trouver des informations importantes, comme la structure de l’environnement.La plupart des techniques de mise en correspondance cherchent les correspondances entre les pixels dedeux images, généralement notées Ig et Id, pour l’image de gauche et de droite respectivement. Cetterecherche est souvent faite en cherchant les pixels minimisant la différence de valeur de différentes ca-ractéristiques. On tentera d’analyser l’importance, l’utilité et la qualité des correspondances obtenues àl’aide de certaines des caractéristiques les plus utilisées.

3 Présentation des donnéesAfin d’effectuer l’analyse, nous avons calculé la valeur de plusieurs caractéristiques sur plusieurs

paires d’images. Plus précisément, nous avons utilisé quatre paires d’images provenant de l’ensembled’images du Middlebury College ([2] et [3]). Pour l’ensemble de données de 2001, les paires d’images

1

Page 81: 0tudes de cas en analyse des données

utilisées sont les images im2.ppm et im6.ppm des séquences « Barn1 » et « Sawtooth ». De même, lesimages im2.ppm et im6.ppm sont utilisées pour les séquences « Cones » et « Teddy » de l’ensemble dedonnées de 2003. Pour chacune de ces paires d’images, des pixels ont été régulièrement échantillonnés.Pour chacun de ces échantillons, les caractéristiques suivantes ont été calculées :

– Moyenne sur un voisinage– Écart-type sur un voisinage– Valeur minimale d’un pixel du voisinage– Valeur maximale d’un pixel du voisinage– Gradients en X et en Y pour le pixel courantPour ce qui est des caractéristiques impliquant un voisinage, elles ont été calculées avec différentes

grandeurs de voisinage. Les tailles de voisinages utilisées sont : 3x3, 5x5, 7x7, 9x9, 11x11, 13x13 et15x15. Pour ces voisinages, le pixel courant se trouvait toujours au milieu du carré. De plus, pour lacaractéristique de la moyenne sur un voisinage, nous avons aussi testé avec un voisinage de 1x1, c’est-à-dire uniquement le pixel courant. Les caractéristiques étaient calculées pour chacun des échantillons del’image de référence. Par la suite, comme les paires d’images sont fournies avec des images de vérité-terrain, qui indiquent la vraie disparité pour chaque pixel d’une image, il était possible de trouver lepixel correspondant dans l’image de mise en correspondance. La valeur des caractéristiques était alorsaussi calculée pour le pixel correspondant à chaque échantillon original. Finalement, comme on désireétablir une correspondance entre les pixels d’origine et les pixels de destination, la différence entre lavaleur de la caractéristique pour l’image de référence et la valeur pour l’image de correspondance étaitcalculée. Les variables à analyser sont donc les différences entre chacune de ces caractéristiques et lesobservations sont les pixels échantillonnés.

4 Présentation du modèle

4.1 Choix du modèleComme le but de ce travail était d’analyser l’influence et les relations entre les différentes carac-

téristiques pour la mise en correspondance (et donc entre les variables), nous avons utilisé l’analyseen composantes principales. Celle-ci nous a permis de voir si certaines variables sont meilleures qued’autres pour expliquer l’inertie des observations.

4.2 Analyse en composantes principalesLe modèle utilisé pour analyser les données est l’analyse en composantes principales. Cette méthode

est utilisée pour tenter d’obtenir un résumé simplifié des données d’entrée. Elle est habituellement uti-lisée lorsque le problème est composé d’un grand nombre de variables, ce qui implique une grandedimensionalité des observations.

Le principe général de la méthode est le suivant : on a un nuage d’observations dans un espace Rp.On peut calculer une mesure d’inertie sur ces observations. L’inertie représente la « dispersion » des

2

Page 82: 0tudes de cas en analyse des données

données dans l’espace. Une grande inertie indique que les données sont très dispersées, tandis qu’unefaible inertie indique que les observations sont rapprochées les unes des autres. Le but de l’analyse encomposantes principales est de trouver de nouveaux axes, formant une nouvelle base de l’espace, etautour desquels l’inertie est minimale. Ces nouveaux axes sont en fait des combinaisons linéaires desvariables initiales.

De façon résumée, la méthode pour trouver les axes principaux consiste à maximiser le produit dematrice utAV Au sous la contrainte utAu = 1, où V est la matrice de variances-covariances des obser-vations et A est la matrice représentant la métrique associée à l’espace de nos observations. Dans notrecas, A = I . On peut prouver ([1]) que cela revient à chercher les valeurs propres de V A. Les axes prin-cipaux seront alors les vecteurs propres associés aux valeurs propres trouvées. Par la suite, connaissantces valeurs et vecteurs propres, il est possible de calculer le pourcentage d’inertie expliquée par chaqueaxe principal, et ainsi avoir une idée de la représentativité de chaque axe.

Présuppositions et hypothèses du modèle Afin de donner des résultats corrects, les données doiventêtre centrées. Pour chaque variable de chaque observation, on doit donc soustraire la moyenne de cettevariable sur toutes les observations. De plus, si les données sont réduites, on pourra utiliser le cercle descorrélations lors de la représentation des variables sur le nouveau système d’axes. Cela permet d’établirdes relations entre les projections des différentes variables, chose qui ne serait pas possible si les donnéesn’étaient pas réduites. De plus, afin que le modèle puisse être utilisé et qu’il produise des résultatscorrects, les variables doivent être indépendantes.

4.3 Critique du modèleL’analyse en composantes principales a plusieurs avantages. Elle permet entre autres de visualiser

plus facilement des données de grande dimension en les représentant à l’aide de seulement deux outrois axes. Elle permet aussi, dans les cas idéaux, de trouver des combinaisons de variables originalesexpliquant une grande partie de l’inertie du nuage de points lié aux observations originales. À l’aide deces combinaisons, si on veut voir la proximité de deux observations dans le nouveau repère, il suffit decalculer la valeur des combinaisons linéaires et de comparer les deux résultats. Cette proximité ne permetcependant pas de conclure que les observations sont près dans l’espace original.

Bien sûr, l’analyse en composantes principales possède aussi des désavantages. Parmi ceux-ci, notonsle fait que, même si les projections de 2 observations sur un plan composé de 2 axes principaux sontrapprochées sur ce plan, on ne peut pas automatiquement conclure que ces observations sont prochesdans l’espace n-dimensionnel original. Un autre inconvénient majeur est qu’il n’y a aucune garantie queles axes principaux que l’on trouvera seront très représentatifs des données. Par exemple, si l’inertie dunuage de points original est très élevée, il est possible que l’inertie totale expliquée par les 3 premiersaxes principaux ne soit que 45 %, ce qui ne permet pas de bien représenter les observations initiales, nide tirer de conclusions très fiables sur l’influence des variables par rapport à l’inertie du nuage.

3

Page 83: 0tudes de cas en analyse des données

5 Analyse des résultatsAvant de passer à l’analyse en tant que telle, il est important de bien situer la problématique et les

variables impliquées, afin que l’analyse soit bien comprise. Dans le cadre de notre problématique, nousrecherchons les caractéristiques de mise en correspondance ayant le moins d’inertie. En effet, une faibleinertie des observations initiales implique que celles-ci sont assez regroupées dans l’espace original. Deplus, nos variables représentent toutes la différence entre la valeur d’une caractéristique pour l’imagede gauche avec la valeur de cette même caractéristique pour l’image de droite. Comme nous possédonsles vérités-terrain pour nos paires d’images, nous connaissons la meilleure mise en correspondance.Lorsque nous calculons la valeur d’une caractéristique pour deux points correspondants, nous utilisonscette correspondance. Nous voulons donc que les deux valeurs de la caractéristique soient semblables,car la procédure de mise en correspondance cherche les points ayant les valeurs les plus semblablespour certaines caractéristiques. Comme nous calculons la différence entre les deux valeurs, plus unevariable est près de 0, plus les valeurs de la caractéristique la composant seront près l’une de l’autre.Cela implique que si les observations ont une faible inertie autour d’un certain axe, la variable liée à cetaxe est un bon indicateur pour la mise en correspondance.

5.1 Traitement informatiqueLes données ont été obtenues à l’aide d’un programme que nous avons développé. Pour ce qui est de

l’analyse en composantes principales, elle a été effectuée à l’aide de Matlab 2009a, et plus principale-ment, de la fonction princomp.

5.2 Résultats brutsMaintenant, comme nous avons analysé quatre paires d’images différentes, et que nous analysions 31

variables, il serait malaisé et lourd de présenter l’entièreté des résultats pour chaque paire d’images. Nousprésenterons donc les résultats importants et démonstratifs, puis nous tirerons des conclusions générales.Notons aussi que, pour chaque paire, nous avons effectué l’analyse en calculant les variables pour unemise en correspondance de gauche à droite et pour une mise en correspondance de droite à gauche.Nous nous limiterons aux résultats pour la correspondance de gauche à droite, car les résultats sont trèssemblables pour l’autre cas.

Le premier élément permettant d’analyser les résultats sont les valeurs des coefficients de corrélationentre les variables originales et les trois premiers axes principaux. Ces valeurs sont présentées aux ta-bleaux 6.1 et 6.2. Comme ces valeurs sont un peu abstraites, nous présentons des graphiques permettantde visualiser les projections des variables en 3D. Nous avons choisi de ne pas mettre les projections 2D,car il y aurait eu trois graphiques pour chaque paire d’images, et comme il y a quatre paires d’images, letexte aurait été inutilement surchargé. Ces images sont présentées à la figure 5.1.

De plus, afin d’avoir une idée de l’importance de chaque axe principal, nous présentons aussi les pour-centages d’inertie expliquée pour les six premiers axes, pour chaque paire d’images. Les pourcentagessont présentés au tableau 5.1.

4

Page 84: 0tudes de cas en analyse des données

TABLE 5.1: Pourcentages d’inertie expliquée par axe pour 4 paires d’images.Axe Barn1 Sawtooth Cones Teddy

1 36.739 (36.739) 35.884 (35.884) 45.674 (45.674) 53.908 (53.908)2 15.430 (52.169) 14.428 (50.312) 18.769 (64.443) 16.405 (70.313)3 15.132 (67.301) 12.768 (63.080) 12.603 (77.046) 12.461 (82.775)4 6.6813 (73.983) 8.7125 (71.793) 5.3224 (82.369) 3.7673 (86.542)5 5.5405 (79.523) 5.9913 (77.784) 3.7608 (86.130) 3.3872 (89.929)6 4.2182 (83.742) 3.6022 (81.386) 2.9064 (89.036) 2.9841 (92.913)

La première valeur de chaque colonne est le pourcentage d’inertie expliquée par cet axe pour cette paired’images, et la valeur entre parenthèses est la valeur totale, comprenant cet axe.

Plusieurs conclusions peuvent être atteintes avec les données que l’on possède. Avant de signalerces conclusions, il importe de signaler que les conclusions que l’on tire des données présentes ne sontapplicables que pour les paires d’images que l’on a analysées. Bien sûr, certaines généralisations sontpossibles, mais comme une image peut représenter n’importe quelle scène, aucune généralisation nesaurait être parfaite. De plus, de par la procédure d’expérimentation, nous avons dû utiliser des imagespour lesquelles nous avions des vérités-terrain. Or, pour s’assurer que leurs vérités-terrain soient degrande qualité, les auteurs de ces images ont dû créer des images sur lesquelles ils avaient un contrôleabsolu. Ce sont donc des images réelles, mais qui représentent un environnement contrôlé. Il n’y a aucunbruit dans ces images. La validité de nos conclusions ne serait certainement pas la même avec des imagesprises à l’aide d’une caméra réelle, à l’extérieur, avec des changements d’éclairage, par exemple.

5.3 Remarques sur la dépendance linéaireUne première remarque, qui peut être vue comme une conclusion, est que, au cours de la recherche,

une première itération des calculs a été faite sur un ensemble plus grand de variables. En effet, à lapremière itération de l’expérience, nous avions aussi considéré la caractéristique de différence pixel àpixel entre les deux images, pour un certain voisinage. Cette caractéristique est définie comme

PPDiff =n∑

i=1

Ig(i)− Id(i + dispi)

où PPDiff est la valeur courante de la caractéristique, i est un indicateur de l’index du pixel àconsidérer, n est la grandeur du voisinage, Ig et Id sont respectivement les images gauche et de droite,et dispi est la valeur de disparité pour le pixel i à partir de l’image de gauche vers l’image de droite.Cette caractéristique était calculée sur les mêmes grandeurs de voisinage que les autres caractéristiques.En observant les résultats obtenus en ayant ces variables supplémentaires, nous avons constaté que lesvariables de cette famille étaient toujours projetées exactement au même endroit que les variables dela famille de la différence de moyenne sur un voisinage. Cela nous a indiqué que les variables de ces

5

Page 85: 0tudes de cas en analyse des données

deux familles sont linéairement dépendantes. Les variables de la famille « différence de moyenne » sontdéfinies comme

MoyDiff =1

n

n∑i=1

Ig(i)− 1

n

n∑i=1

Id(i + dispi)

qui, en simplifiant, peut s’écrire

MoyDiff =1

n(

n∑i=1

Ig(i)− Id(i + dispi))

Il est possible de constater que la seule différence entre les deux types de variables est le facteur 1n

, quiest constant pour une grandeur de voisinage. Les deux variables sont donc linéairement dépendantes, cequi cause un problème lors de l’analyse en composantes principales. Nous avons donc décidé de refairel’analyse en éliminant les variables de la famille « différence pixel à pixel ».

5.4 Conclusions individuellesSimilarité du comportement des variables de même famille Au point de vue des conclusions, re-marquons tout d’abord que, pour toutes les paires d’images testées, les caractéristiques similaires (parexemple, la différence de moyenne calculée sur différentes grandeurs de voisinage) ont des valeurs decorrélations similaires par rapport à chaque axe. Autrement dit, elles ont une projection similaire dansles repères créés par les axes principaux. Elles ont donc une influence similaire lors de la création desaxes.

Variables basées sur l’écart-type On remarque aussi que toutes les variables liées à la différenced’écart-type sont extrêmement près l’une de l’autre, et ce, pour toutes les paires d’images testées. Deplus, en observant les coefficients de corrélation pour les variables de ce groupe, on remarque qu’ellessont toujours très fortement corrélées avec le deuxième axe principal, quelle que soit la paire d’imageschoisie. À l’inverse, toutes les autres variables sont peu corrélées avec ce même axe. On conclut doncque les variables liées à la différence d’écart-type sont utiles pour expliquer, en moyenne, 16.25 % del’inertie du nuage de points initial.

Variables basées sur le minimum et le maximum En observant les coefficients de corrélation, il estaussi possible de voir que les variables liées à la différence de minimum et celles liées à la différence demaximum sont toujours opposées par rapport au troisième axe principal. Autrement dit, si une variableliée à la différence de maximum a un coefficient de corrélation négatif par rapport au troisième axeprincipal, la variable liée à la différence de minimum sur un voisinage de même grandeur aura un coef-ficient de corrélation positif. Pour ce qui est des deux paires d’images de 2001 (Barn1 et Sawtooth), lescoefficients de corrélation pour les deux variables sur la même grandeur de voisinage n’ont pas nécessai-rement le même ordre de grandeur. Cependant, pour les deux paires d’images de 2003 (Cones et Teddy),

6

Page 86: 0tudes de cas en analyse des données

les deux variables opposées ont des coefficients de corrélation qui ont presque la même magnitude. Deplus, on remarque, surtout pour les images de 2003, que ces variables sont celles avec les coefficients decorrélation les plus élevés avec cet axe, et que les autres groupes de variables sont faiblement corrélésavec ce même axe. Pour ce qui est des images de 2001, la différence entre les valeurs de coefficients decorrélation est moins marquée. L’explication la plus plausible que nous ayons trouvé est que les imagesde 2001 possèdent plus de zones où la variation de couleur est petite. Cela implique que la différenceentre les valeurs minimales et maximales du voisinage d’un pixel sera moins grande que dans une imagetrès texturée, comme les deux paires d’images de 2003.

Variables basées sur les différences de gradient Une autre observation est que les variables XGrad-Diff et YGradDiff (différences de valeur de gradient) sont très peu corrélées avec les trois premiers axesprincipaux. En fait, il faut souvent regarder le cinquième ou sixième axe principal avant de trouver unaxe avec lequel ces deux variables ont une forte corrélation. En moyenne, le cinquième axe principal ex-plique 4.67 % de l’inertie des nuages de points initiaux, tandis que le sixième en explique 3.42 %. Ce quel’on peut conclure de cette situation est que, comme XGradDiff et YGradDiff sont faiblement corréléesavec la plupart des premiers axes principaux, et qu’elles sont très corrélées avec seulement un axe, cesvariables n’expliquent que peu d’inertie du nuage initial. Cela implique finalement que les valeurs queprennent ces variables sur les observations sont toutes rapprochées, et donc, dans notre contexte, que lescaractéristiques associées à ces variables sont semblables lorsque l’on a de bonnes correspondances, cequi correspond à l’intuition utilisée par les processus de recherche de correspondances.

5.5 Conclusions généralesIl est possible de tirer trois grands constats des conclusions individuelles énumérées ci-haut. Tout

d’abord, les deux variables basées sur le gradient sont celles qui expliquent le moins d’inertie. Commeon a expliqué plus haut, cela montre que ce sont les deux variables qui sont les plus fiables lors de lamise en correspondance. Cela correspond à la connaissance générale en vision par ordinateur, c’est-à-dire que les caractéristiques basées sur la texture (mesurée entre autres à l’aide du gradient) donnenthabituellement de très bons résultats. Une autre tendance est que les variables basées sur les valeursminimales et maximales dans un voisinage ont une influence très variable sur l’inertie du nuage depoints. On en déduit que ces deux familles de variables ne sont pas très fiables pour effectuer une miseen correspondance. La dernière tendance qui peut être identifiée est que, pour les variables basées surla moyenne et l’écart-type, les projections de ces variables sont en général assez près entre elles. Lesvariables de chaque famille ont donc toutes une influence semblable sur l’inertie du nuage de points.Il serait donc possible de ne choisir qu’une variable par famille pour représenter chaque famille. Celasimplifierait les calculs.

7

Page 87: 0tudes de cas en analyse des données

6 ConclusionEn résumé, nous avons effectué l’analyse en composantes principales de nuages de points représen-

tant des observations liées à la problématique de la mise en correspondance dans le domaine de la visionpar ordinateur. Les variables de notre problème étaient des caractéristiques calculées sur un voisinage etutilisées afin de mettre en correspondance les pixels de deux images. Nous avons constaté que, comme ilest souvent admis dans le domaine de la vision par ordinateur, les caractéristiques basées sur le gradientde l’image sont celles qui ont la meilleure fidélité lorsque la mise en correspondance est bonne. Cetteconstatation a été faite en considérant que c’était la famille de caractéristiques expliquant le moins d’iner-tie parmi toutes les familles étudiées. De plus, nous avons constaté qu’il serait possible, afin de simplifierles calculs, d’utiliser les caractéristiques basées sur la moyenne et celles basées sur l’écart-type en necalculant qu’une seule grandeur de voisinage. Finalement, nous avons vu que les caractéristiques baséessur les valeurs minimales et maximales d’un voisinage ne sont pas très fiables.

Il serait intéressant de recommencer la procédure en utilisant d’autres caractéristiques plus complexes.Le problème est qu’il faudrait s’assurer que celles-ci sont linéairement indépendantes des caractéristiquesdéjà utilisées. Il serait aussi utile, afin de pouvoir étendre les conclusions à d’autres types d’images, d’ef-fectuer les tests sur d’autres banques d’images. Le problème est qu’il est difficile de trouver des banquesd’images ayant des vérités-terrain de qualité, ce qui est essentiel dans notre procédure. Finalement, ilserait intéressant d’étudier l’influence d’une erreur de mise en correspondance sur les résultats et lesconclusions obtenues. Par exemple, est-ce que la famille de caractéristiques basées sur la moyenne estplus tolérante à une erreur d’un ou deux pixels de disparité que la famille basée sur le gradient ?

8

Page 88: 0tudes de cas en analyse des données

−5

0

5−8 −6 −4 −2 0 2 4 6 8

−8

−6

−4

−2

0

2

4

6

8

Axe 1

5PMaD

3PMaD

5PMeD 7PMeD

7PMaD

3PMeD 9PMeD

9PMaD

11PMeD

11PMaD

13PMeD1PMeD

15PMeD

3PMiD

13PMaD

15PMaD

5PMiD

YGradD

Axe 2

7PMiD

Projections des variables pour la paire Barn1

XGradD

9PMiD 11PMiD

15PMiD

13PMiD

3PECD 5PECD 7PECD 9PECD 15PECD11PECD13PECDAxe

3

(a) Projection Barn1

−8−6−4−202468

−5

0

5

−8

−6

−4

−2

0

2

4

6

8

13PMiD11PMiD9PMiD 7PMiD

15PMiD

Axe 1

5PMiD

Projections des variables pour la paire Sawtooth

XGradD

YGradD

3PMiD

1PMeD

3PECD 5PECD 7PECD 9PECD 11PECD13PECD15PECD

15PMaD

3PMeD

13PMaD

3PMaD

11PMaD

5PMeD

5PMaD 7PMaD

7PMeD

9PMaD

9PMeD

15PMeD13PMeD

11PMeD

Axe 2

Axe

3

(b) Projections Sawtooth

−8−6

−4−2

02

46

8

−5

0

5

−8

−6

−4

−2

0

2

4

6

8

Axe 1

3PECD 7PECD 5PECD 9PECD 11PECD13PECD15PECD

Projections des variables de la paire Cones

XGradDYGradD

15PMaD11PMaD13PMaD9PMaD

15PMiD

7PMaD

13PMiD11PMiD

5PMaD

9PMiD

3PMaD

1PMeD

7PMiD 5PMiD 3PMiD

Axe 2

3PMeD

15PMeD13PMeD5PMeD 11PMeD9PMeD 7PMeD

Axe

3

(c) Projections Cones

−5

0

5

−5

0

5

−8

−6

−4

−2

0

2

4

6

8

Axe 1

3PECD 5PECD 7PECD 9PECD 11PECD13PECD15PECD

YGradD

Projections des variables de la paire Teddy

XGradD

15PMaD13PMaD

Axe 2

11PMaD

15PMiD13PMiD11PMiD

9PMaD

9PMiD

7PMaD

7PMiD

5PMaD

5PMiD

3PMaD

3PMiD

1PMeD 3PMeD 15PMeD13PMeD5PMeD 11PMeD7PMeD 9PMeD

Axe

3

(d) Projections Teddy

FIGURE 5.1: Projections des variables originales sur l’espace créé par les trois permiers axes principaux,pour chaque paire d’images étudiées.

9

Page 89: 0tudes de cas en analyse des données

Annexe 1Voici les tableaux montrant les coefficients de corrélation entre les variables originales et les 3 pre-

miers axes principaux trouvés.

TABLE 6.1: Coefficients de corrélation des variables originales et des trois premiers axes principaux pourles paires Barn1 et Sawtooth (ensemble d’images de 2001).

Barn1 SawtoothVariables Facteur 1 Facteur 2 Facteur 3 Facteur 1 Facteur 2 Facteur 31PMoyDiff -0.689 0.288 0.130 0.177 -0.158 0.2283PMoyDiff -0.856 0.341 0.135 0.558 -0.185 0.4885PMoyDiff -0.885 0.353 0.106 0.709 -0.199 0.5167PMoyDiff -0.902 0.345 0.098 0.769 -0.211 0.4959PMoyDiff -0.912 0.321 0.094 0.824 -0.217 0.42411PMoyDiff -0.905 0.287 0.107 0.874 -0.249 0.26613PMoyDiff -0.885 0.242 0.131 0.867 -0.258 0.13115PMoyDiff -0.851 0.197 0.141 0.830 -0.252 0.0423PMinDiff -0.774 0.199 0.324 0.125 0.063 0.5255PMinDiff -0.625 0.039 0.452 0.009 0.192 0.5637PMinDiff -0.485 -0.125 0.556 -0.185 0.348 0.6189PMinDiff -0.421 -0.270 0.609 -0.192 0.442 0.60411PMinDiff -0.400 -0.299 0.628 -0.254 0.449 0.57113PMinDiff -0.323 -0.340 0.585 -0.269 0.423 0.52615PMinDiff -0.209 -0.250 0.446 -0.190 0.318 0.4133PMaxDiff -0.662 0.424 -0.138 0.680 -0.237 0.2545PMaxDiff -0.545 0.475 -0.326 0.723 -0.249 0.1797PMaxDiff -0.187 0.523 -0.502 0.721 -0.297 0.0659PMaxDiff -0.096 0.516 -0.618 0.726 -0.337 -0.11311PMaxDiff -0.064 0.477 -0.543 0.658 -0.323 -0.26313PMaxDiff -0.070 0.366 -0.410 0.566 -0.297 -0.30415PMaxDiff -0.116 0.261 -0.330 0.499 -0.263 -0.2953PECDiff -0.608 -0.492 -0.380 0.600 0.644 -0.1925PECDiff -0.670 -0.536 -0.410 0.663 0.658 -0.1857PECDiff -0.679 -0.565 -0.426 0.695 0.661 -0.1859PECDiff -0.661 -0.586 -0.444 0.720 0.642 -0.19811PECDiff -0.638 -0.603 -0.443 0.749 0.599 -0.22413PECDiff -0.622 -0.604 -0.426 0.752 0.558 -0.24515PECDiff -0.606 -0.593 -0.412 0.748 0.511 -0.261XGradDiff 0.087 0.014 -0.245 0.065 0.173 0.151YGradDiff -0.114 0.066 -0.113 0.033 0.042 0.238

10

Page 90: 0tudes de cas en analyse des données

TABLE 6.2: Coefficients de corrélation des variables originales et des trois premiers axes principaux pourles paires Cones et Teddy (ensemble d’images de 2003).

Cones TeddyVariables Facteur 1 Facteur 2 Facteur 3 Facteur 1 Facteur 2 Facteur 31PMoyDiff -0.782 0.213 -0.083 0.884 -0.191 0.0123PMoyDiff -0.887 0.237 -0.055 0.929 -0.210 0.0035PMoyDiff -0.925 0.234 -0.025 0.947 -0.216 -0.0077PMoyDiff -0.945 0.229 0.017 0.957 -0.213 -0.0099PMoyDiff -0.954 0.212 0.043 0.964 -0.207 -0.00511PMoyDiff -0.953 0.201 0.058 0.968 -0.201 -0.00313PMoyDiff -0.946 0.193 0.076 0.966 -0.195 -0.00115PMoyDiff -0.933 0.190 0.085 0.961 -0.189 -0.0013PMinDiff -0.768 0.279 -0.259 0.848 -0.207 0.2395PMinDiff -0.738 0.304 -0.326 0.815 -0.223 0.3377PMinDiff -0.693 0.335 -0.413 0.781 -0.172 0.4819PMinDiff -0.627 0.274 -0.507 0.703 -0.195 0.54411PMinDiff -0.583 0.253 -0.556 0.642 -0.170 0.59513PMinDiff -0.511 0.261 -0.534 0.625 -0.161 0.58515PMinDiff -0.385 0.286 -0.526 0.593 -0.181 0.5563PMaxDiff -0.818 0.150 0.192 0.850 -0.199 -0.2305PMaxDiff -0.763 0.055 0.358 0.823 -0.173 -0.3467PMaxDiff -0.675 0.001 0.538 0.763 -0.161 -0.4899PMaxDiff -0.601 -0.040 0.655 0.693 -0.162 -0.60411PMaxDiff -0.534 -0.050 0.676 0.600 -0.161 -0.64713PMaxDiff -0.538 -0.019 0.674 0.554 -0.162 -0.67615PMaxDiff -0.521 -0.034 0.635 0.486 -0.114 -0.6583PECDiff -0.471 -0.808 -0.195 0.572 0.773 0.0085PECDiff -0.488 -0.829 -0.188 0.590 0.790 0.0087PECDiff -0.496 -0.842 -0.169 0.598 0.796 0.0079PECDiff -0.503 -0.845 -0.154 0.602 0.794 0.00611PECDiff -0.508 -0.840 -0.139 0.603 0.789 0.00413PECDiff -0.507 -0.832 -0.128 0.604 0.780 0.00415PECDiff -0.503 -0.823 -0.119 0.604 0.770 0.003XGradDiff -0.058 -0.021 0.131 0.116 0.010 0.256YGradDiff -0.101 0.025 0.083 -0.031 -0.014 0.022

11

Page 91: 0tudes de cas en analyse des données

Références[1] F. CAILLIEZ et J.-P. PAGES : Introduction à l’analyse des données, chapitre 8, pages 239–244.

SMASH, 1976.

[2] D. SCHARSTEIN et R. SZELISKI : High-accuracy stereo depth maps using structured light. In Com-puter Vision and Pattern Recognition, 2003. Proceedings. 2003 IEEE Computer Society Conferenceon, volume 1, pages I–195–I–202 vol.1, June 2003.

[3] Daniel SCHARSTEIN et Richard SZELISKI : A taxonomy and evaluation of dense two-frame ste-reo correspondence algorithms. International Journal of Computer Vision, 47(1-3):7–42, April2002. ISSN 0920-5691 (Print) 1573-1405 (Online). URL http://vision.middlebury.edu/stereo/taxonomy-IJCV.pdf.

12

Page 92: 0tudes de cas en analyse des données

Classification et caracterisation des rivieres auQuebec

Youness MIR

Departement de mathematiquesUniversite de Sherbrooke

2500 Boulevard de l’UniversiteSherbrooke (Qc), Canada, J1K 2R1

[email protected]

Resume : Le reseau hydrologique du Quebec se caracterise par son etendue al’echelle de toute la province et compte une centaine de rivieres dont le debit varieconsiderablement sur toute l’annee. Dans ce travail, nous proposons de caracteriseret classifier les rivieres selon leurs debits saisonniers. A fin de resoudre ce problemenous exploiterons la methode d’analyse en composantes principales.

Mots cles : Debits mensuels et saisonniers, analyse en composantes principales.

1. Introduction

Le reseau hydrologique du Quebec est unique au monde et compte une centainede rivieres reparti sur toute la province et trois grands bassins versants : le bassinde Saint-Laurent (673000 km2), le bassin de Baies d’Ungava (518000 km2) et lebassin d’Hudson (492000 km2). La forte consommation de l’eau, l’electricite ainsique plusieurs autres facteurs anthropiques modifie les conditions d’ecoulement d’eaudans les rivieres et par consequent la vie de plusieurs especes aquatiques et semi-aquatiques. Dans ce travail, nous proposerons de classifier et caracteriser les rivieresdu Quebec en tenant compte de plusieurs particularites des debits au moyen de lamethode d’analyse en composantes principales. Nous nous limiterons a analyser lesrivieres du fleuve Saint-Laurent, un des fleuves les plus grands d’Amerique. Notonsque la resolution numerique de ces problemes est faite sur le logiciel de program-mation R, qui est un logiciel libre. Finalement, nous esperons que le travail quenous amorcerons plaira aux specialistes en hydrologie et en ecologie en particulier.

2. Les donnees

Dans ce travail nous avons analyse 76 rivieres du fleuve Saint-Laurent. Lesrivieres etudient au cours de ce travail sont caracterisees par leur ecoulement naturelet dont les debits sont continument mesures sur une periode d’au moins 10 ans. Lesnoms des rivieres et les abreviations sont groupes dans le Tableau 5 et 6. Nousclassifierons ces rivieres au moyen de 10 variables hydrologiques basees sur les debitsmensuels et saisonniers (voir Tableau 4).

1

Page 93: 0tudes de cas en analyse des données

2

Ces variables hydrologiques peuvent etre groupees en trois categories dont lescaracteristiques sont donnees par A.A. Assani (pour plus de detail voir [1] et [2] ) :

• Les variables relatives aux volumes d’ecoulement mensuels et saisonniers.

Symbole Signification Methode de calcul

HiversCoefficient saisonnier des debitshivernaux

Le rapport entre la moyenne de la somme des debits moyensmensuels de janvier a mars et le debit annuel total

PrintempsCoefficient saisonnier des debitsprintaniers

Le rapport entre la moyenne de la somme des debits moyensmensuels d’avril a juin et le debit annuel total

EteCoefficient saisonnier des debitsestivaux

Le rapport entre la moyenne de la somme des debits moyensmensuels de juillet a septembre et le debit annuel total

AutomneCoefficient saisonnier des debitsautomnaux

Le rapport entre la moyenne de la somme des debits moyensmensuels d’octobre a decembre et le debit annuel total

MaxCoefficient mensuel du debitmoyen mensuel maximum

Le rapport entre le debit mensuel maximumet le debit annuel total

MimCoefficient mensuel du debitmoyen mensuel minimum

Le rapport entre le debit mensuel minimumet le debit annuel total

• Les variables qui caracterisent l’amplitude de la variabilite des debits (letaux de changement).

Symbole Signification Methode de calcul

MaxMinCoefficient d’immodera--tion mensuel

Le rapport entre les debits mensuels maximumet minimum

CVCoefficient de variation Le rapport entre l’ecart type et le debit mensuel

moyen

• Les variables qui caracterisent la periode d’occurrence du debit mensuelmaximum ou minimum.

Symbole Signification Methode de calcul

MminJour julien moyen dudebit mensuel minimum

La moyenne des jours juliens correspondant a la datemediane du debit moyen mensuel minimum

MmaxJour julien moyen dudebit mensuel maximum

La moyenne des jours juliens correspondant a la datemediane du debit moyen mensuel maximum

3. Resultats et discussions

3.1. La matrice de correlation. Avant de proceder a une ACP de notre jeude donnees et comme la matrice de correlation represente les donnees de base surlesquelles on effectue l’ACP, il est important d’examiner ses caracteristiques. Letableau 1 presente les coefficients de correlation entre les variables analysees.

Hiver Printemps Ete Automne CV Mmin Mmax Mim Max MaxMinHiver 1.00 -0.24 0.55 -0.23 -0.49 -0.19 -0.56 0.67 -0.48 -0.65Printemps -0.24 1.00 -0.33 0.92 -0.20 0.06 0.25 -0.23 -0.25 0.05Ete 0.55 -0.33 1.00 -0.20 -0.05 -0.05 -0.37 0.21 -0.03 -0.17Automne -0.23 0.92 -0.20 1.00 -0.11 0.07 0.19 -0.25 -0.17 0.09CV -0.49 -0.20 -0.05 -0.11 1.00 -0.005 0.18 -0.56 0.91 0.80Mmin -0.19 0.06 -0.05 0.07 -0.005 1.00 -0.15 0.09 0.06 0.01Mmax -0.56 0.25 -0.37 0.19 0.18 -0.15 1.00 -0.55 0.11 0.40Mim 0.67 -0.23 0.21 -0.25 -0.56 0.09 -0.55 1.00 -0.47 -0.84Max -0.48 -0.25 -0.03 -0.17 0.91 0.06 0.12 -0.47 1.00 0.79MaxMin -0.65 0.05 -0.17 0.09 0.80 0.01 0.40 -0.84 0.79 1.00

Table 1

Page 94: 0tudes de cas en analyse des données

3

En regardant le tableau 1 ligne par ligne et colonne par colonne, on remar-que que, certains coefficients sont de tailles interessantes et meme particulierementelevees, d’autres coefficients sont petits et ne depasse pas le seuil de 0.1, en plus,le determinant de la matrice de correlation est egale a 0, 001, on peut constaterdonc que les variables analysees ne sont pas fortement correlees entre elles. Parconsequent, les variables ne sont pas redondantes.

3.2. Interpretation des axes factoriels. Dans le tableau 2 sont groupes lesvaleurs propres, le pourcentage de la variance expliquee associee a chacune desvaleurs propres ainsi que le pourcentage de la variance expliquee accumulee.

V. propres% de la variance

expliquee% de la variance

expliquee accumulee1 4.052 40.52 40.522 2.435 24.35 64.873 1.156 11.56 76.444 1.031 10.31 86.76

5 0.601 6.01 92.776 0.323 3.23 96.007 0.202 2.02 98.038 0.097 0.97 99.009 0.060 0.60 99.60

10 0.039 0.39 100

Table 2. Valeurs propres et variances expliquees

Pour selectionner le nombre d’axes factoriels a retenir je me suis base sur le criterede Kaiser (c.-a-d. retenir que les axes associes a des valeurs propres superieures a 1)qui m’a conduit a retenir 4 composantes principales qui representent presque 87%de l’inertie totale (donc, on est pour expliquer 87% de l’information du tableau).

40.52 24.35 11.56 10.32 6.01 3.23 2.02 0.98 0.6 0.39

% d

'iner

tie

010

2030

40

Eboulis des valeurs propres en %

Figure 1. Eboulis des valeurs propres.

Page 95: 0tudes de cas en analyse des données

4

● ● ●

2 4 6 8 10

01

23

4

Les composantes en fonction des valeurs propres.

Composante

Val

eurs

pro

pres

Figure 2. Les composantes principales versus les valeurs propres.

L’analyse de la figure 2 assure notre choix, on remarque une chute importante apartir du quatrieme axe factoriel.

Chaque nuage de points (variables et individus) est construit en projetant lenuage de points initial sur le plan factoriel defini par deux des 4 axes factorielsretenus. L’examen de ces plans permettra de visualiser les correlations entre lesvariables et determiner les groupes d’individus ayant pris des valeurs proches surcertaines variables.

3.3. Contribution des variables. Dans le Tableau 3 sont groupees les saturationsdes variables sur les quatre premieres composantes principales.

Les coordonnees Les contributionsAxe.1 Axe.2 Axe.3 Axe.4 Axe.1 Axe.2 Axe.3 Axe.4

Hiver -0.84 -0.20 -0.12 0.32 17.426 1.64 1.132 9.8Printemps 0.19 0.90 0.11 0.30 0.90 33.39 1.11 8.6Ete -0.39 -0.45 0.01 0.61 3.84 8.26 0.02 37.45Automne 0.21 0.83 0.17 0.43 1.13 28.37 2.56 19.2CV 0.78 -0.49 0.09 0.17 15.19 9.79 0.79 2.7Mmin 0.03 0.06 0.91 -0.24 0.02 0.15 71.46 6.5Mmax 0.58 0.33 -0.44 -0.27 8.36 4.52 17.23 7.1Mim -0.86 -0.09 0.17 -0.17 18.37 0.33 2.66 2.8Max 0.74 -0.54 0.18 0.13 13.61 11.95 2.98 1.6MaxMin 0.92 -0.20 0.02 0.18 21.13 1.61 0.05 3.1

Table 3. Saturations des variables sur les quatre premiers axes principaux.

On remarque que ce sont les variables MaxMin (saturation positive), Mim etHiver (saturation negative) qui contribuent le plus a la construction de la premierecomposante principale. Ces variables representent le volume d’ecoulement hivernalet mensuel minimum, ainsi que le coefficient d’immoderation. Quant a la deuxieme

Page 96: 0tudes de cas en analyse des données

5

composante principale, c’est plutot le volume d’ecoulement printanier et automnalqui presente les saturations les plus elevees pour cette composante. La dernierecomposante principale est fortement associee au mois d’occurrence des debits men-suels minimum. Notant aussi qu’on a pas pris en compte la quatrieme composanteprincipale puisque les saturations des variables hydrologiques sur cette dernieredepassent pas le seuil de 0.6 en valeur absolue.

En conclusion, les trois caracteristiques des debits sont bien representees partrois des quatre composantes principales :

• Le volume d’ecoulement par les deux premieres composantes

• La variabilite des debits par la premiere.

• La periode d’occurrence par la troisieme composante principale.

3.4. Contribution des individus. Une analyse du tableau des contributions desindividus a la construction des axes factoriels (voir Tableaux 7 et 8 en Appendice Cet D respectivement) ainsi que les graphes des projections des individus sur les plansfactoriels (voir 7) nous ont conduits aux remarques suivantes. Le premier axe op-pose les rivieres caracterisees par des valeurs elevees du coefficient d’immoderation(MaxMin) et celles caracterisees par des grandes valeurs des coefficients saisonniersdes debits hivernaux (Hivers) et les debits moyens mensuels minimum (Mim). Ladeuxieme composante regroupe les rivieres dont le volume d’ecoulement printanieret automnal est considerablement grand. Quant a la troisieme composante, elleregroupe les rivieres en fonction de la periode d’occurrence des debits mensuelsminimum. L’analyse du tableau de contribution des individus ainsi que leurs co-ordonnees sur chacun des axes principaux nous a permis de construire le tableausuivant :

Les axes principaux Les variables hydrologiques Les rivieres (abreviations)

Premier axe principale MaxminDARPD, YSB, GRO, MRLM, MPMCC, NPON, PACP, MOI, SPARBMAMI, NEIG,MARB, GOD,MIST,BAP

Mim, Hivers

NWS, RRF, CW, ROUGE , PPPAJOL, PNPN, EPSF, PPW, HARSLHREH, NRY, NICO, BPSS, PNPRBARP, MSMS, NSOA

Deuxieme axe principale Printemps, AutomneMOI, CCM, ROM, MIST, CARCIRRF, MAMI, GARC, AGUA, SPARBDARPD, DSD, HARSL, YSB, HREHGRO, NEIG, DON

Troisieme axe principale MmimAJOL, NSJ, MPSU, NWS, BARPBPSS, HREM,NICO, DSD, MOI, CCM

PNPR, LARC, HARSL, NRY, NEIGPNPN, PPW, CW, RRF, CAR205MSM, EPSF, AGUA, MSMS

L’analyse de ce tableau nous ramene a la conclusion suivante, 12 rivieres sont car-acterisees par des valeurs elevees du coefficient d’immoderation, 5 par des grandesvaleurs des coefficients saisonniers hivernaux et mensuels minimums, 6 rivieres,secaracterisent par un volume d’ecoulement printanier et automnal relativement grand,et enfin 4 rivieres par la periode d’occurrence des debits mensuels minimum.

Page 97: 0tudes de cas en analyse des données

6

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (40.52%)

Dim

2 (

24.3

5%)

Hiver

Printemps

Ete

Automne

CV

Mmin

Mmax

Mim

Max

MaxMin

(a) Projection des variables sur le premier plan principal (1, 2)

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 1 (40.52%)

Dim

3 (

11.5

6%)

Hiver

PrintempsEte

AutomneCV

Mmin

Mmax

Mim Max

MaxMin

(b) Projection des variables sur le deuxieme plan principal (1, 3)

On peut aussi remarquer que 3 rivieres sont caracterisees par des valeurs eleveesdu coefficient d’immoderation et du volume d’ecoulement printanier et automnal,

Page 98: 0tudes de cas en analyse des données

7

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 2 (24.35%)

Dim

3 (

11.5

6%)

Hiver

PrintempsEte

AutomneCV

Mmin

Mmax

MimMax

MaxMin

(c) Projection des variables sur le troisieme plan principal (2, 3)

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

Variables factor map (PCA)

Dim 2 (24.35%)

Dim

4 (

10.3

2%)

HiverPrintemps

Ete

Automne

CV

Mmin MmaxMim

MaxMaxMin

(d) Projection des variables sur le quatrieme plan principal (2, 4)

6 rivieres par des valeurs elevees du volume d’ecoulement printanier, automnal etmensuel minimum.

Page 99: 0tudes de cas en analyse des données

8

−5 0 5

−2

02

46

8

Individuals factor map (PCA)

Dim 1 (40.52%)

Dim

2 (

24.3

5%)

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

AGUA

BSTBLBARP

BPSSBAP

CC

CAP

CCM

CARC1

CAR205CW

CPFC

CARC

DARPDDSD

DONEPSF

ECO

ESCOU

EPEMB

ESHDLFSG

GARC

GODGBSP

GRO

HA

HREHHARSL

JCPSGKINO

AJOL

ASCLR2LARC

LPSP

MRLM

MPSUMPM

MSMSMSM

MISTMAMI

MOI

MARBMABMN

NAB

NEIG

NICO

NSOA

NWS

NRYNSJNPON

OUR2PERIPNPNPNPR

PPWPARA

PACPPPP

RRF

RIMO1

ROM

ROUGEROUMA

SAA

SPARB

SUAR TONNTP1

VALVPSM

YSB

(e) Projection des individus sur le premier plan principale (1,2)

−6 −4 −2 0 2 4 6

−2

02

4

Individuals factor map (PCA)

Dim 1 (40.52%)

Dim

3 (

11.5

6%)

●●

● ●●

●●

●●

● ●

●●

● ●

●●

●●

● ●●

●●●

AGUA

BSTBL

BARPBPSS

BAP CCCAP

CCM

CARC1

CAR205CW

CPFCCARC

DARPD

DSD

DON

EPSF

ECOESCOUEPEMB

ESHDLFSGGARC

GODGBSP GRO

HA

HREH

HARSL

JCPSGKINO

AJOL

ASCLR2

LARC

LPSP

MRLM

MPSU

MPMMSMS

MSM

MISTMAMI

MOI

MARBMABMNNAB

NEIG

NICO

NSOA

NWS

NRY

NSJ

NPON

OUR2PERI

PNPN

PNPR

PPW

PARA PACPPPP

RRF

RIMO1ROM

ROUGE

ROUMASAA

SPARBSUAR TONNTP1VAL

VPSM

YSB

(f) Projection des individus sur le deuxieme plan principale (1,3)

Page 100: 0tudes de cas en analyse des données

9

−2 0 2 4 6 8

−2

02

4

Individuals factor map (PCA)

Dim 2 (24.35%)

Dim

3 (

11.5

6%)

● ●

●● ●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●●

AGUA

BSTBL

BARPBPSS

BAPCC CAP

CCM

CARC1

CAR205CW

CPFCCARC

DARPD

DSD

DON

EPSF

ECOESCOU EPEMB

ESHDLFSG

GARC

GODGBSPGRO

HA

HREH

HARSL

JCPSGKINO

AJOL

ASCLR2

LARC

LPSP

MRLM

MPSU

MPMMSMS

MSM

MISTMAMI

MOI

MARBMABMNNAB

NEIG

NICO

NSOA

NWS

NRY

NSJ

NPON

OUR2PERI

PNPN

PNPR

PPW

PARAPACPPPP

RRF

RIMO1ROM

ROUGE

ROUMASAA

SPARBSUARTONNTP1 VAL

VPSM

YSB

(g) Projection des individus sur le troisieme plan principale (2,3)

−2 0 2 4 6 8

−2

02

4

Individuals factor map (PCA)

Dim 2 (24.35%)

Dim

4 (

10.3

2%)

●●

●●

● ●

●●

●●

● ●

●●●

●●

AGUA

BSTBL

BARPBPSS

BAPCC

CAP

CCM

CARC1

CAR205CW

CPFCCARC

DARPD

DSD

DONEPSF

ECO

ESCOU

EPEMB

ESHDLFSG

GARCGODGBSP

GRO

HA

HREH

HARSL

JCPSGKINO

AJOL

ASCLR2

LARC

LPSP

MRLM

MPSU

MPM

MSMS

MSM

MISTMAMI

MOI

MARBMABMNNAB

NEIG

NICO

NSOA

NWS

NRY

NSJ

NPONOUR2

PERI

PNPNPNPR

PPW

PARAPACP

PPP RRF

RIMO1

ROM

ROUGEROUMA

SAA

SPARBSUARTONNTP1

VALVPSM

YSB

(h) Projection des individus sur le quatrieme plan principale (2,4)

Page 101: 0tudes de cas en analyse des données

10

4. Conclusion

Dans ce travail nous avons exploite la methode d’ACP afin de classifier 76 rivieresdont l’ecoulement est naturel en fonction de quelques variables hydrologiques baseesessentiellement sur les debits mensuels et saisonniers.Parmi les variables analysees 6 d’entre elles caracterisent les rivieres du Quebec etrepresentent :

• Le volume d’ecoulement.

• La variabilite des debits.

• La periode d’occurence.Ces caracteristiques jouent un role important dans la survie des especes aqua-

tiques et semi-aquatiques ainsi que dans l’organisation et le fonctionnement dessystemes ecologiques.

References

[1] M. Matteau, A.A Assani, M. Mesfioui, Application of multivariate statistical analysis methodsto the dam hydrologic impact studies, Journal of Hydrology, 371 (2009) 120–128.

[2] A.A Assani, S. Tardif. Classification, caracterisation et facteurs de variabilites spatiales desregimes hydrologiques naturels au Quebec (Canada). Approche eco-geographique, Rev. sci.

Eau, 18(2) (2005) 247–266.

Appendice A : Les donnees

Source des donnees :Ali A. AssaniLaboratoire d’hydro-climatologie et de geomorphologie fluviale,Departement des sciences humaines, Universite du Quebec a Trois-Rivieres,3351 boul. des Forges, C.P. 500, Trois-Rivieres, Quebec G9A 5H7, [email protected]

Page 102: 0tudes de cas en analyse des données

11

Abre

Hiv

er(

%)

Pri

nte

mps

(%)

Ete

(%)

Auto

mne(%

)H

/P

P/E

E/A

A/H

CV

Mm

inM

max

Mim

(%)

Max(%

)M

ax/M

in

AG

UA

11.1

2792943

50233.9

6341

0.0

22152203

2.2

677.1

008

0.1

11279294

2.5

99592944

1.7

42316785

1.9

84052533

86.3

9105122

710

2.0

56474764

23.3

8326635

11.3

7055838

BST

11.1

823694

6340.3

37852

0.1

76368668

3.5

949.1

006

0.1

11823694

7.3

77204301

0.6

86043081

1.7

66944734

101.4

041257

68

2.6

00279851

33.1

1567164

12.7

3542601

BL

14.3

6781609

9813.6

0.1

46407191

6.7

029.1

006

0.1

43678161

7.3

22645291

0.6

68900804

1.4

20952381

87.7

2519757

68

2.9

55665025

29.2

8297756

9.9

07407407

BA

RP

15.2

5550168

6024.0

56235

0.2

53243016

2.3

788.1

006

0.1

52555017

7.0

92592593

0.7

06542056

1.3

0806846

81.1

8902594

11

83.9

53748601

28.1

6113391

7.1

22641509

BP

SS

16.2

290803

14356.9

4418

0.1

13039935

1.2

701.1

07

0.1

62290803

7.1

49286498

0.7

19589258

1.1

97729423

78.7

4151465

11

84.0

84139413

27.4

8349455

6.7

29323308

BA

P10.2

3544801

21005.4

3131

0.0

48727626

4.3

108.1

07

0.1

0235448

4.0

9919571

1.3

19186561

1.8

06709265

104.9

19107

59

2.4

852845

34.0

0915631

13.6

8421053

CC

8.8

19260651

8175.2

8848

0.1

07877057

7.5

783.1

06

0.0

88192607

4.6

46172154

1.1

20444444

2.1

78121975

112.2

700846

59

2.0

95961752

35.9

0028174

17.1

2830957

CA

P9.9

01234568

14038.6

5337

0.0

70528378

1.9

905.1

07

0.0

99012346

3.5

15625

1.3

30254042

2.1

59600998

95.1

13125

69

2.2

22222222

30.6

1728395

13.7

7777778

CC

M9.4

14289251

162518.9

071

0.0

05792735

2.8

056.1

09

0.0

94142893

3.3

78159851

1.1

68295331

2.6

91408533

76.1

8970015

79

2.2

20143608

25.5

0276486

11.4

8698885

CA

RC

10.1

1500165

109737.9

949

0.0

09217411

1.1

906.1

09

0.1

01150017

3.3

76799007

1.1

30434783

2.5

89901925

74.2

5424003

79

2.2

19201235

24.9

1090127

11.2

2516556

CA

R205

16.8

5407781

14595.8

7423

0.1

1547152

1.2

640.1

07

0.1

68540778

10.0

1683066

0.7

82890736

0.7

56595092

102.2

461702

18

2.2

82538452

31.0

1977511

13.5

9003398

CW

18.2

9236287

2848.1

83166

0.6

42246717

4.4

347.1

05

0.1

82923629

6.9

65874467

0.7

74421897

1.0

13390722

70.1

3586192

18

3.5

34248972

24.4

0731345

6.9

05940594

CP

FC

12.3

7751999

41607.6

8881

0.0

29748156

1.3

987.1

08

0.1

237752

4.1

4519141

1.2

88033674

1.5

13193813

73.8

9516126

69

3.0

9719563

21.6

2405676

6.9

81818182

CA

RC

10.7

9614162

14542.2

3235

0.0

7423992

1.9

588.1

07

0.1

07961416

4.5

12563452

1.0

59139785

1.9

38004689

80.6

0662215

69

2.7

53170787

25.4

7878174

9.2

54341164

DA

RP

D7.2

07207207

8949.3

75

0.0

80533079

1.1

113.1

07

0.0

72072072

4.4

07842158

1.7

99550562

1.7

49213836

141.2

826522

69

1.7

73471585

43.9

1183636

24.7

6038339

DSD

19.6

4596175

1740.8

15768

1.1

28549161

1.5

425.1

05

0.1

96459618

13.1

2655602

0.4

74876847

0.8

16572808

99.4

0317467

11

82.0

07270428

29.5

5587166

14.7

2440945

DO

N12.7

3987207

1773.9

58159

0.7

18160798

2.4

701.1

05

0.1

27398721

6.2

74247492

0.8

98797595

1.3

91910739

90.4

3076033

68

3.3

93745558

27.5

4086709

8.1

15183246

EP

SF

16.1

9571401

3964.0

1171

0.4

08568773

9.7

022.1

05

0.1

6195714

6.9

7794442

0.7

17405063

1.2

33411397

76.4

8662725

18

3.9

82552627

26.5

5035084

6.6

66666667

EC

O9.1

039953

12192.4

4918

0.0

74669127

1.6

329.1

07

0.0

91039953

3.3

08066084

1.2

79850746

2.5

94385286

75.7

6596774

79

2.1

76850764

25.4

4065805

11.6

8690958

ESC

OU

9.8

95023328

8014.1

29666

0.1

23469718

6.4

908.1

06

0.0

98950233

3.8

74952919

1.5

17142857

1.7

19056974

101.7

174199

59

2.2

25894246

32.4

6500778

14.5

8515284

EP

EM

B14.3

6264199

20539.3

966

0.0

69927283

2.9

373.1

07

0.1

4362642

3.3

78339966

1.2

43988685

1.6

56707674

69.7

6965145

79

3.0

87925957

22.8

8599074

7.4

11444142

ESH

DL

10.1

8164146

11098.4

0692

0.0

91739666

1.2

098.1

07

0.1

01816415

6.1

88345865

0.8

1097561

1.9

57040573

90.0

0234718

68

2.3

75311342

27.8

2334002

11.7

1355499

FSG

11.2

2305276

6156.9

70077

0.1

82282074

3.3

777.1

06

0.1

12230528

6.6

89130435

0.7

07692308

1.8

82239382

89.7

6786888

58

2.8

38262377

29.6

2842596

10.4

389313

GA

RC

11.0

065602

62144.7

5617

0.0

17711165

3.5

088.1

08

0.1

10065602

4.8

07582032

0.8

39753879

2.2

50451535

73.1

5284205

69

2.6

83718773

22.8

6130806

8.5

18518519

GO

D9.0

78458227

17293.6

8534

0.0

52495799

3.2

943.1

07

0.0

90784582

4.0

30757098

1.1

93973635

2.2

88793103

105.8

11186

79

2.3

87008413

34.6

3118763

14.5

0819672

GB

SP

10.0

9178653

8571.3

2677

0.1

17738908

7.2

799.1

06

0.1

00917865

4.0

88201161

1.4

96382055

1.6

19784341

97.6

4450422

69

2.7

2993944

31.3

2096896

11.4

7313692

GR

O9.0

09282291

5927.2

20202

0.1

51998441

3.8

995.1

06

0.0

90092823

5.1

509375

1.0

60304838

2.0

32323232

113.3

920943

69

1.4

49978766

35.3

0910635

24.3

5146444

HA

11.9

5286195

4785.4

64789

0.2

49774316

1.9

159.1

06

0.1

1952862

4.0

37383178

1.5

1285347

1.3

6971831

81.0

1974188

59

3.4

3013468

25.9

8905724

7.5

76687117

HR

EH

16.0

7173651

1368.8

62661

1.1

74094156

1.1

659.1

05

0.1

60717365

7.3

77862595

0.6

64412511

1.2

69313305

83.0

5839512

11

83.5

69580962

28.4

5318158

7.9

71014493

HA

RSL

20.2

9660286

1522.4

2226

1.3

33178278

1.1

419.1

05

0.2

02966029

11.0

2471483

0.4

71326165

0.9

48173322

85.3

4306839

18

2.3

62476289

23.9

6964994

10.1

459854

JC

PSG

9.8

08676906

20492.0

6044

0.0

47865743

4.2

812.1

07

0.0

98086769

3.5

1254141

1.2

03302961

2.4

12087912

74.9

5380079

69

2.6

94691458

25.5

9956885

9.5

KIN

O10.1

3933548

25544.0

8034

0.0

39693484

6.4

353.1

07

0.1

01393355

4.3

8028169

1.0

37000974

2.1

71247357

77.0

7144584

69

2.6

36655949

22.2

9367631

8.4

55284553

AJO

L13.4

2975207

9977.8

46154

0.1

34595702

7.4

132.1

06

0.1

34297521

6.3

54485777

0.8

7047619

1.3

46153846

87.6

2562975

12

53.5

81267218

26.1

3636364

7.2

98076923

ASC

10.4

3456911

5261.3

57647

0.1

9832465

2.6

529.1

06

0.1

04345691

5.1

68781726

1.1

47572816

1.6

15686275

96.9

5089485

69

2.7

57999836

28.5

6207546

10.3

5608309

LR

210.9

4284319

9595.3

125

0.1

14043635

8.4

137.1

06

0.1

09428432

5.8

18346253

1.0

45098569

1.5

02840909

97.4

3389358

59

3.0

02176134

26.5

5771195

8.8

46153846

LA

RC

12.7

5537278

6068.0

31201

0.2

10206117

2.8

867.1

06

0.1

27553728

5.1

05316627

1.2

12233169

1.2

66770671

89.1

9484861

19

3.3

36428761

25.7

3626957

7.7

13717694

LP

SP

11.9

9005309

11509.5

4036

0.1

04174908

1.1

048.1

07

0.1

19900531

4.7

3100159

1.3

55603448

1.3

0044843

88.0

7482216

69

2.7

48840648

24.6

9924054

8.9

85330073

MR

LM

8.4

37518172

14222.1

9159

0.0

59326427

2.3

973.1

07

0.0

84375182

3.3

52241715

1.8

72262774

1.8

8835286

116.7

179864

79

1.8

37529802

36.0

5279991

19.6

2025316

Page 103: 0tudes de cas en analyse des données

12

Abre

Hiv

er(

%)

Pri

nte

mps

(%)

Ete

(%)

Auto

mne(%

)H

/P

P/E

E/A

A/H

CV

Mm

inM

max

Mim

(%)

Max(%

)M

ax/M

in

MP

SU

12.5

5652976

8202.9

03344

0.1

53074213

5.3

588.1

06

0.1

25565298

6.7

1521537

0.8

12437059

1.4

59757442

94.4

0507428

12

82.9

85694509

25.4

7300415

8.5

31684699

MP

M8.5

9274559

19202.2

443

0.0

44748653

4.2

911.1

07

0.0

85927456

4.7

3996004

1.1

06077348

2.2

19769438

108.9

664842

59

1.7

64073598

34.5

6488292

19.5

9378734

MSM

S13.9

3499308

9974.8

88337

0.1

39700743

7.1

402.1

06

0.1

39349931

4.7

40983607

1.0

77738516

1.4

04466501

73.7

7134662

59

3.6

99861687

23.4

7856155

6.3

45794393

MSM

15.3

2290775

6506.5

97941

0.2

35497996

2.7

629.1

06

0.1

53229077

3.7

41821248

1.4

08551069

1.2

38235294

64.0

1923355

59

2.2

44355311

20.4

155212

9.0

96385542

MIS

T7.8

21765639

119154.6

823

0.0

0656438

1.8

152.1

09

0.0

78217656

3.0

89806452

1.2

43.3

36892686

81.3

6666464

79

1.7

2471394

26.0

5863192

15.1

0895884

MA

MI

8.4

90125292

116252.7

014

0.0

07303164

1.5

918.1

09

0.0

84901253

3.5

03720238

1.1

56626506

2.9

06453227

86.3

2970793

79

1.7

66829475

28.5

4109153

16.1

5384615

MO

I8.4

61764995

224539.4

432

0.0

03768498

5.9

583.1

09

0.0

8461765

2.6

36387164

1.5

23659306

2.9

4199536

83.1

5179425

79

1.7

57141455

23.3

6310985

13.2

9608939

MA

RB

7.5

65149747

3555.7

7892

0.2

12756471

1.6

713.1

06

0.0

75651497

3.2

53400823

1.3

22594142

3.0

71979434

89.2

111219

79

1.5

65538701

28.6

8533644

18.3

2298137

MA

BM

N7.8

73457228

13970.9

9099

0.0

56355753

2.4

791.1

07

0.0

78734572

3.6

61818182

1.1

77370031

2.9

45945946

87.4

7364394

69

1.9

90826122

28.8

4569915

14.4

8931116

NA

B11.6

662341

17657.7

9755

0.0

66068455

2.6

727.1

07

0.1

16662341

3.2

39176124

1.3

08580858

2.0

22246941

77.7

7650091

79

2.2

96911498

24.5

2634311

10.6

779661

NE

IG11.1

0814419

4429.1

82692

0.2

50794446

1.7

661.1

06

0.1

11081442

7.4

91.0

90909091

1.1

01762821

119.9

948208

19

2.0

2047174

32.1

317312

15.9

030837

NIC

O17.0

0764111

9054.7

53623

0.1

87831075

4.8

207.1

06

0.1

70076411

7.5

97378277

0.6

21653085

1.2

44927536

74.0

1909605

11

83.7

21962041

25.6

3470545

6.8

87417219

NSO

A15.4

4205706

3555.2

25821

0.4

34348135

8.1

852.1

05

0.1

54420571

7.3

58735096

0.6

75893483

1.3

02007299

85.0

2344261

68

3.6

91440648

29.2

3564635

7.9

19847328

NW

S18.3

3810888

14396.2

50.1

27381151

1.1

302.1

07

0.1

83381089

4.9

20824295

1.0

77102804

1.0

28846154

54.2

0278002

12

85.4

88208067

18.9

9933877

3.4

6184739

NR

Y20.5

8054146

7239.8

48392

0.2

84267575

2.5

468.1

06

0.2

05805415

8.9

12640449

0.5

74286175

0.9

49310873

76.0

2651616

18

2.8

96403921

24.0

4740143

8.3

0250272

NSJ

14.9

4661922

7827.8

57143

0.1

9094139

4.0

996.1

06

0.1

49466192

6.6

11764706

0.8

382643

1.2

07142857

84.9

247012

12

83.7

01067616

27.5

4448399

7.4

42307692

NP

ON

9.0

64420092

12576.6

457

0.0

72073431

1.7

450.1

07

0.0

90644201

4.4

47042254

1.1

23417722

2.2

08245982

109.2

011555

69

2.0

90327485

35.1

555077

16.8

1818182

OU

R2

10.3

1628888

7774.1

13439

0.1

32700519

5.8

584.1

06

0.1

03162889

5.7

58955677

0.8

77697842

1.9

17731221

92.1

6474872

69

1.6

28887717

24.6

7053242

15.1

4563107

PE

RI

9.2

80112168

11745.5

4769

0.0

79009616

1.4

866.1

07

0.0

92801122

4.5

82931727

0.9

2051756

2.5

54296506

80.8

7333088

69

2.2

12680191

24.9

3099067

11.2

6732673

PN

PN

17.0

1130411

11698.1

0373

0.1

4541933

8.0

444.1

06

0.1

70113041

4.7

28813559

1.5

40160643

0.8

0713128

73.9

7363109

18

3.3

91232423

20.9

2638544

6.1

70731707

PN

PR

18.9

2419278

7028.0

40856

0.2

69266972

2.6

101.1

06

0.1

89241928

5.3

15264188

1.4

23001949

0.6

98638132

76.1

6769598

19

2.9

23309157

22.4

2185487

7.6

70025189

PP

W18.6

0631541

6933.1

29808

0.2

68368196

2.5

834.1

06

0.1

86063154

5.4

22750424

1.2

94505495

0.7

65625

73.3

8596163

18

3.2

82941229

24.2

418821

7.3

84196185

PA

RA

8.7

40571718

5663.2

45105

0.1

54338574

3.6

694.1

06

0.0

87405717

3.5

45393258

1.1

86666667

2.7

19361856

81.8

8116829

79

2.2

05742537

27.4

450149

12.4

4252874

PA

CP

8.2

9787234

24223.0

7692

0.0

34256062

7.0

712.1

07

0.0

82978723

3.3

25961964

1.7

03843255

2.1

26602564

101.6

351534

69

2.0

61170213

32.4

4680851

15.7

4193548

PP

P14.4

8643411

2450.5

68562

0.5

9114584

4.1

455.1

05

0.1

44864341

5.9

89553105

0.7

66459075

1.5

0367893

72.8

8806651

58

4.1

76356589

25.8

7209302

6.1

94895592

RR

F19.5

2449568

112678.9

668

0.0

17327542

6.5

029.1

08

0.1

95244957

4.4

34504792

1.5

26829268

0.7

56457565

54.5

7369691

18

3.9

14505283

17.1

2295869

4.3

74233129

RIM

O1

10.1

7570748

15821.9

957

0.0

64313679

2.4

601.1

07

0.1

01757075

5.8

93225806

1.0

43771044

1.5

97633136

111.7

566316

69

2.6

76665389

33.9

3727079

12.6

7893661

RO

M9.1

44943534

142155.0

604

0.0

06433076

2.2

098.1

09

0.0

91449435

2.4

2159013

1.7

45215311

2.5

87434231

82.4

7955911

710

2.0

66174181

23.1

2416858

11.1

9178082

RO

UG

E15.4

4199333

35358.1

295

0.0

43673106

8.0

961.1

07

0.1

54419933

5.3

17299578

0.9

44976077

1.2

88797533

67.4

9808992

68

4.1

50134899

21.1

8711316

5.1

05162524

RO

UM

A13.1

7434211

19507.6

1548

0.0

67534354

2.8

885.1

07

0.1

31743421

4.5

20446097

1.0

92607636

1.5

36828964

69.4

0888398

69

3.2

07236842

20.3

9473684

6.3

58974359

SA

A10.0

7134778

6374.5

19222

0.1

57993841

4.0

347.1

06

0.1

00713478

4.2

48798521

12.3

36933045

77.3

4562346

69

2.6

66840686

25.7

9831202

9.6

73735726

SP

AR

B7.8

78472824

84153.3

651

0.0

09362041

8.9

888.1

08

0.0

78784728

2.8

24306688

1.6

34666667

2.7

49266862

98.3

5569705

79

1.9

4651418

29.2

2659273

15.0

148368

SU

AR

10.6

3192815

7722.0

23592

0.1

37683187

5.6

085.1

06

0.1

06319281

6.0

28780488

0.8

77944325

1.7

77016743

89.2

2853405

58

2.9

97815357

27.0

6529655

9.0

28340081

TO

NN

9.5

87319604

7134.4

23679

0.1

34381136

5.3

091.1

06

0.0

95873196

3.7

26283988

1.1

20135364

2.4

98942918

88.3

3829795

79

1.7

95848873

28.7

8222799

16.0

2708804

TP

19.5

40536743

9768.8

42415

0.0

9766292

1.0

003.1

07

0.0

95405367

7.2

92008197

0.7

91565288

1.8

15905744

112.2

560566

69

2.4

44850358

28.8

0427146

11.7

816092

VA

L7.8

05937211

9556.8

28089

0.0

81679163

1.1

700.1

07

0.0

78059372

3.8

22312925

1.0

2367688

3.2

74053808

83.7

5537075

79

2.0

68057236

27.8

3512494

13.4

595525

VP

SM

11.8

5035389

22530.9

727

0.0

52595838

4.2

838.1

07

0.1

18503539

3.7

23644578

1.3

96424816

1.6

22866894

73.6

6193226

69

3.0

1314459

24.4

6916077

8.1

20805369

YSB

10.0

5933014

10040.4

2998

0.1

00188241

1.0

022.1

07

0.1

00593301

3.9

94648318

1.8

38628057

1.3

53500761

126.9

615747

69

1.8

8708134

39.8

0861244

21.0

9533469

Table

4.

Lis

tede

sdo

nnee

s.

Page 104: 0tudes de cas en analyse des données

13

Appendice B : Listes des rivieres

RIVIERES NATURELLES Abrevation

AGUANUS (RIVIERE) EN AMONT DE LA RIVIERE DANY AGUABEAURIVAGE (RIVIERE) A SAINTE-ETIENNE BSTBECANCOUR (RIVIERE) A LYSTER BLBECANCOUR (RIVIERE) EN AMONT DE LA RIVIERE PALMER BARPBECANCOUR (RIVIERE) PRES DE SAINT-SYLVERE BPSSBONAVENTURE (RIVIERE) EN AMONT DU PONT BAPCAP CHAT (RIVIERE) A CAP-CHAT CCCASCAPEDIA (PETITE RIVIERE) EN AMONT DU PONT CAPCHAMOUCHOUANE (RIVIERE) A LA CHUTE A MICHEL CCMCHAMOUCHOUANE (RIVIERE) EN AVAL DE LA RIVIERE DU CHEF CARCCHATEAUGUAY (RIVIERE) EN AVAL DE LA ROUTE NO. 205 CAR205COATICOOK (RIVIERE) A WATERVILLE CWCOULONGE (RIVIERE) PRES DE FORT-COULONGE CPFCCROCHE (RIVIERE) EN AVAL DU RUISSEAU CHANGY CARCDARTMOUTH (RIVIERE) EN ANONT DU RUISSEAU DU PAS DE DAME DARPDDAVID (RIVIERE) A SAINT-DAVID DSDDONCASTER (RIVIERE) DONEATON (RIVIERE) PRES DE LA RIVIERE SAINT-FRANCOIS-3 EPSFECORES (RIVIERE AUX) ECOESCOUMAINS (RIVIERE DES) A ESCOUMAINS ESCOUETAMAMIOU (RIVIERE) PRES DE L’EMBOUCHURE EPEMBETCHEMIN (RIVIERE) A SAINT-HENRI-DE-LEVIS ESHDLFAMINE (RIVIERE) A SAINT-GEORGES FSGGATINEAU (RIVIERE) AUX RAPIDES CEIZUR GARCGODBOUT (RIVIERE) GODGOUFFRE (RIVIERE DU) A BAIE-SAINT-PAUL GBSPGRANDE-RIVIERE OUEST (LA) GROHA HA (RIVIERE) HAHALL (RIVIERE) PRES D’EAST HEREFORD HREHHURONS (RIVIERE DES) EN AVAL DU RUISSEAU SAINT-LOUIS-2 HARSLJACQUES-CARTIER (RIVIERE) PRES DE SAINT-GABRIEL JCPSGKINOJEVIS (RIVIERE) A CLERICY KINOL’ASSOMPTION (RIVIERE) A JOLIETTE AJOLL’ASSOMPTION (RIVIERE) A SAINT-COME ASCLOUP (RIVIERE DU) A LA ROUTE NO. 232 LR2LOUP (RIVIERE DU) EN AVAL DU RUISSEAU CARUFEL LARCLOUP (RIVIERE DU) PRES DE SAINT-PAULIN LPSPMADELEINE (RIVIERE) A RIVIERE-LA-MADELEINE MRLMMASKINONGE (RIVIERE) PRES DE SAINTE-URSULE MPSUMATANE (RIVIERE) PRES DE MATANE MPMMATAWIN (RIVIERE) A SAINT-MICHEL-DES-SAINTS MSMSMEKINAK (RIVIERE) PRES DE LA RIVIERE SAINT-MAURICE MSMMISTASSIBI (RIVIERE) MISTMISTASSINI (RIVIERE) EN AMONT DE LA RIVIERE MISTASSIBI MAMIMOISIE (RIVIERE) MOIMONTMORENCY (RIVIERE) EN AMONT DE LA RIVIERE BLANCHE MARBMONTMORENCY (RIVIERE) EN AVAL DU BARRAGE DES MARCHES NATURELLES MABMNNABISIPI (RIVIERE) NABNEIGETTE (RIVIERE) NEIGNICOLET (RIVIERE) EN AVAL DE LA RIVIERE BULSTRODE NICONICOLET SUD-OUEST (RIVIERE) PRES D’ASBESTOS NSOANOIRE (RIVIERE) A WALTHAM-STATION NWSNOIRE (RIVIERE) PRES DE LA RIVIERE YAMASKA NRYNORD (RIVIERE DU) A SAINT-JEROME NSJNOUVELLE (RIVIERE) AU PONT NPONOUELLE (RIVIERE) A LA ROUTE NO. 230 OUR2PERIBONCA (PETITE RIVIERE) PERIPETITE NATION (RIVIERE DE LA) A PORTAGE-DE-LA-NATION PNPNPETITE NATION (RIVIERE DE LA) PRES DE RIPON PNPRPICANOC (RIVIERE) PRES DE WRIGHT PPWPIKAUBA (RIVIERE) EN AMONT DE LA RIVIERE APICA PARAPORTNEUF (RIVIERE) EN AMONT DES CHUTES PHILIAS PACPPORTNEUF (RIVIERE) PRES DE PORTNEUF PPPRICHELIEU (RIVIERE) AUX RAPIDES FRYERS RRFRIMOUSKI (RIVIERE)-1 RIMO1ROMAINE (RIVIERE) ROMROUGE (RIVIERE) ROUGEROUGE (RIVIERE) PRES DE LA MACAZA ROUMA

Table 5. Liste des rivieres.

Page 105: 0tudes de cas en analyse des données

14

RIVIERES NATURELLES Abrevation

SAINTE-ANNE (RIVIERE) (BRAS DU NORD DE LA) EN AMONT SAASAINT-PAUL (RIVIERE) EN AVAL DE LA RIVIERE BUJEAULT SPARBSUD (RIVIERE DU) A ARTHURVILLE SUARTONNERRE (RIVIERE AU) TONNTROIS PISTOLES (RIVIERE DES)-1 TP1VALIN (RIVIERE) VALVERMILLON (RIVIERE) PRES DE LA RIVIERE SAINT-MAURICE VPSMYORK (RIVIERE) A SUNNY BANK YSB

Table 6. Liste des rivieres.

Appendice C : Coordonnees des individus par rapport aux 5 premiersaxes principaux.

Axe.1 Axe.2 Axe.3 Axe.4 Axe.5AGUA 0.923 1.373 -0.7489 -0.927 1.273BST 0.749 -1.305 0.6027 0.276 -0.860BL -0.716 -0.733 0.3598 0.077 -0.745BARP -1.974 -0.659 1.9869 -0.450 0.034BPSS -2.183 -0.310 1.9605 -0.745 -0.309BAP 1.748 -0.737 -0.2319 -0.202 -0.577CC 2.733 -1.310 -0.1804 0.061 -0.414CAP 1.409 -0.394 -0.1671 -0.452 0.057CCM 1.129 4.410 0.7696 1.330 -0.304CARC1 0.594 2.685 0.2673 0.148 0.147CAR205 0.245 -1.253 -1.2220 1.167 -1.658CW -3.050 -0.876 -1.4594 1.512 -0.127CPFC -1.176 1.229 -0.4450 -0.992 0.227CARC -0.214 0.324 -0.3715 -0.939 0.304DARPD 5.254 -2.539 0.6010 0.652 -0.961DSD -0.771 -2.421 1.6754 3.093 2.364DON -1.489 -1.359 0.4530 1.152 0.500EPSF -2.568 -0.821 -1.2006 0.753 -0.983ECO 0.434 0.434 -0.1559 -1.020 0.775ESCOU 1.734 -0.850 -0.3816 -0.134 -0.133EPEMB -1.453 0.734 -0.2471 -0.997 0.522ESHDL 0.275 -0.445 0.3344 -0.238 -0.552FSG -0.191 -0.801 0.1401 0.025 -0.751GARC -0.464 1.630 -0.3489 -0.713 0.222GOD 2.092 -0.810 0.4189 -0.417 -0.241GBSP 0.932 -0.613 -0.0527 -0.517 -0.079GRO 3.766 -1.527 0.0048 0.510 0.125HA -1.017 -0.130 -0.5793 -0.576 0.295HREH -2.436 -1.870 1.9458 2.088 2.230HARSL -2.510 -2.036 -1.6447 3.975 1.653JCPSG -0.131 0.589 -0.3617 -1.071 0.331KINO -0.430 0.904 -0.4802 -1.110 0.441AJOL -2.734 -1.303 4.1183 0.334 -2.366ASC 0.458 -0.525 -0.1715 -0.437 0.245LR2 0.035 -0.234 -0.5137 -0.649 -0.118LARC -0.852 -0.290 -1.8171 -0.153 -0.480LPSP -0.290 0.116 -0.4041 -0.736 0.300MRLM 3.366 -1.267 0.4525 -0.011 -0.207MPSU -0.770 -0.434 2.1576 -0.683 0.288MPM 3.095 -0.935 -0.2654 0.077 -0.352

Page 106: 0tudes de cas en analyse des données

15

Axe.1 Axe.2 Axe.3 Axe.4 Axe.5MSMS -1.800 0.341 -0.7116 -0.891 0.123MSM -1.434 0.571 -1.2140 -0.306 1.145MIST 1.908 3.007 0.4785 0.691 0.099MAMI 2.192 2.487 0.5396 0.765 -0.075MOI 2.240 7.348 1.4399 3.492 -0.747MARB 2.093 -0.446 -0.0285 -0.252 1.045MABMN 1.537 -0.028 -0.2578 -0.711 0.340NAB -0.040 0.482 -0.2191 -0.840 0.665NEIG 2.133 -1.508 -1.6000 0.887 -0.608NICO -2.389 -0.255 1.7577 -0.539 0.155NSOA -1.766 -1.137 0.4533 0.593 -0.311NWS -4.808 0.698 2.0395 -1.515 0.114NRY -2.415 -0.565 -1.6429 1.075 -0.829NSJ -1.663 -0.555 2.2531 -0.619 0.109NPON 2.588 -1.072 0.0848 -0.120 -0.285OUR2 1.233 -0.085 -0.5439 -0.312 0.776PERI 0.425 0.347 -0.4551 -0.897 0.574PNPN -2.660 0.081 -1.5624 0.145 -1.098PNPR -1.975 -0.040 -2.2762 0.416 0.046PPW -2.529 -0.445 -1.5166 0.716 -0.944PARA 0.765 -0.035 -0.0432 -0.762 0.793PACP 2.251 -0.423 -0.0059 -0.359 -0.158PPP -2.788 -0.817 0.0830 0.601 0.080RRF -3.783 2.649 -1.4059 0.609 -1.589RIMO1 1.685 -0.939 0.1324 -0.313 -0.535ROM 1.497 4.137 -0.1006 0.479 0.750ROUGE -2.972 0.789 0.2219 -0.739 -0.837ROUMA -1.695 0.960 -0.5950 -1.167 0.475SAA -0.179 0.163 -0.3918 -0.844 0.598SPARB 2.229 1.341 0.4653 0.188 -0.129SUAR -0.528 -0.479 0.0902 -0.292 -0.774TONN 1.545 -0.317 -0.0486 -0.394 0.734TP1 1.368 -0.644 -0.1013 -0.450 -0.095VAL 1.200 0.059 -0.0066 -0.899 0.636VPSM -0.809 0.662 -0.4060 -1.031 0.260YSB 3.793 -1.975 0.2955 0.536 -0.617

Table 7. Coordonnees des individus.

Appendice D : Contribution des individus pour la construction des 5 premiers axes principaux.

Axe.1 Axe.2 Axe.3 Axe.4 Axe.5AGUA 0.27639 1.0e+00 6.4e-01 1.1e+00 3.5488BST 0.18216 9.2e-01 4.1e-01 9.7e-02 1.6187BL 0.16640 2.9e-01 1.5e-01 7.5e-03 1.2135BARP 1.26504 2.3e-01 4.5e+00 2.6e-01 0.0026BPSS 1.54732 5.2e-02 4.4e+00 7.1e-01 0.2090BAP 0.99228 2.9e-01 6.1e-02 5.2e-02 0.7294CC 2.42609 9.3e-01 3.7e-02 4.7e-03 0.3758CAP 0.64473 8.4e-02 3.2e-02 2.6e-01 0.0072CCM 0.41388 1.1e+01 6.7e-01 2.3e+00 0.2024CARC1 0.11462 3.9e+00 8.1e-02 2.8e-02 0.0475CAR205 0.01944 8.5e-01 1.7e+00 1.7e+00 6.0182CW 3.02071 4.1e-01 2.4e+00 2.9e+00 0.0352CPFC 0.44878 8.2e-01 2.3e-01 1.3e+00 0.1127

Page 107: 0tudes de cas en analyse des données

16

Axe.1 Axe.2 Axe.3 Axe.4 Axe.5CARC 0.01487 5.7e-02 1.6e-01 1.1e+00 0.2026DARPD 8.96412 3.5e+00 4.1e-01 5.4e-01 2.0199DSD 0.19292 3.2e+00 3.2e+00 1.2e+01 12.2280DON 0.71968 1.0e+00 2.3e-01 1.7e+00 0.5482EPSF 2.14105 3.6e-01 1.6e+00 7.2e-01 2.1163ECO 0.06115 1.0e-01 2.8e-02 1.3e+00 1.3149ESCOU 0.97595 3.9e-01 1.7e-01 2.3e-02 0.0385EPEMB 0.68513 2.9e-01 6.9e-02 1.3e+00 0.5970ESHDL 0.02457 1.1e-01 1.3e-01 7.2e-02 0.6662FSG 0.01183 3.5e-01 2.2e-02 8.0e-04 1.2358GARC 0.07004 1.4e+00 1.4e-01 6.5e-01 0.1080GOD 1.42122 3.5e-01 2.0e-01 2.2e-01 0.1274GBSP 0.28196 2.0e-01 3.2e-03 3.4e-01 0.0138GRO 4.60470 1.3e+00 2.6e-05 3.3e-01 0.0343HA 0.33565 9.2e-03 3.8e-01 4.2e-01 0.1905HREH 1.92622 1.9e+00 4.3e+00 5.6e+00 10.8801HARSL 2.04617 2.2e+00 3.1e+00 2.0e+01 5.9765JCPSG 0.00560 1.9e-01 1.5e-01 1.5e+00 0.2403KINO 0.06002 4.4e-01 2.6e-01 1.6e+00 0.4249AJOL 2.42751 9.2e-01 1.9e+01 1.4e-01 12.2475ASC 0.06807 1.5e-01 3.3e-02 2.4e-01 0.1315LR2 0.00039 3.0e-02 3.0e-01 5.4e-01 0.0306LARC 0.23568 4.5e-02 3.8e+00 3.0e-02 0.5050LPSP 0.02722 7.2e-03 1.9e-01 6.9e-01 0.1972MRLM 3.67878 8.7e-01 2.3e-01 1.7e-04 0.0936MPSU 0.19270 1.0e-01 5.3e+00 5.9e-01 0.1815MPM 3.11120 4.7e-01 8.0e-02 7.6e-03 0.2711MSMS 1.05153 6.3e-02 5.8e-01 1.0e+00 0.0333MSM 0.66754 1.8e-01 1.7e+00 1.2e-01 2.8671MIST 1.18223 4.9e+00 2.6e-01 6.1e-01 0.0215MAMI 1.56066 3.3e+00 3.3e-01 7.5e-01 0.0122MOI 1.62877 2.9e+01 2.4e+00 1.6e+01 1.2227MARB 1.42206 1.1e-01 9.2e-04 8.1e-02 2.3893MABMN 0.76743 4.1e-04 7.6e-02 6.5e-01 0.2528NAB 0.00052 1.3e-01 5.5e-02 9.0e-01 0.9677NEIG 1.47664 1.2e+00 2.9e+00 1.0e+00 0.8101NICO 1.85355 3.5e-02 3.5e+00 3.7e-01 0.0524NSOA 1.01272 7.0e-01 2.3e-01 4.5e-01 0.2113NWS 7.50702 2.6e-01 4.7e+00 2.9e+00 0.0283NRY 1.89387 1.7e-01 3.1e+00 1.5e+00 1.5026NSJ 0.89743 1.7e-01 5.8e+00 4.9e-01 0.0262NPON 2.17418 6.2e-01 8.2e-03 1.8e-02 0.1780OUR2 0.49327 3.9e-03 3.4e-01 1.2e-01 1.3169PERI 0.05878 6.5e-02 2.4e-01 1.0e+00 0.7201PNPN 2.29820 3.6e-03 2.8e+00 2.7e-02 2.6400PNPR 1.26688 8.5e-04 5.9e+00 2.2e-01 0.0046PPW 2.07646 1.1e-01 2.6e+00 6.5e-01 1.9504PARA 0.18999 6.5e-04 2.1e-03 7.4e-01 1.3753PACP 1.64525 9.7e-02 3.9e-05 1.6e-01 0.0546PPP 2.52454 3.6e-01 7.8e-03 4.6e-01 0.0139RRF 4.64790 3.8e+00 2.2e+00 4.7e-01 5.5247RIMO1 0.92242 4.8e-01 2.0e-02 1.2e-01 0.6266ROM 0.72757 9.2e+00 1.2e-02 2.9e-01 1.2313ROUGE 2.86848 3.4e-01 5.6e-02 7.0e-01 1.5340ROUMA 0.93305 5.0e-01 4.0e-01 1.7e+00 0.4936SAA 0.01042 1.4e-02 1.7e-01 9.1e-01 0.7838SPARB 1.61340 9.7e-01 2.5e-01 4.5e-02 0.0365SUAR 0.09064 1.2e-01 9.3e-03 1.1e-01 1.3108TONN 0.77494 5.4e-02 2.7e-03 2.0e-01 1.1790TP1 0.60763 2.2e-01 1.2e-02 2.6e-01 0.0199VAL 0.46752 1.9e-03 4.9e-05 1.0e+00 0.8850VPSM 0.21257 2.4e-01 1.9e-01 1.4e+00 0.1475YSB 4.67171 2.1e+00 9.9e-02 3.7e-01 0.8341

Table 8. Contribution des individus.

Page 108: 0tudes de cas en analyse des données

Segmentation par nuees dynamiques de nuages de points en

plans

Julien PREMONT

Le 3 mars 2010

Departement d’informatique

Universite de Sherbrooke

Sherbrooke (Qc), Canada, J1K 2R1

[email protected]

- Rapport de recherche -

Page 109: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

Table des matieres

Liste des tableaux 3

Table des figures 3

1 Introduction 4

2 Methode 5

2.1 Voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Choix vorace des voisinages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Nuees dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.3 Estimation des plans locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 Estimation des plans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Experimentation 7

3.1 Parametres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.2 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3 Tests effectues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.3.1 Bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4 Resultats et analyse 9

4.1 Resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4.3 Ameliorations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5 Conclusion 12

References 13

2

Page 110: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

Liste des tableaux

4.1 Resultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Table des figures

3.1 Exemples de nuages de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3

Page 111: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

1 Introduction

A la fin des annees 1990, l’infographie en 3D est apparue dans le monde du divertissement, princi-

palement dans les jeux videos, mais egalement au cinema, dans la publicite et pratiquement partout ou

un ecran est disponible. Toutefois, l’utilisation de la 3D ne se limite pas au monde du divertissement,

bien au contraire. Dans plusieurs secteurs d’activite, il est tres utile d’avoir un modele 3D d’une scene

reelle. En genie civil, par exemple, une maquette 3D virtuelle peut permettre de reperer d’eventuelles er-

reurs de conception avant meme d’entamer la construction, evitant ainsi d’enormes couts de reparations.

De meme, un modele 3D d’une ville ou d’un quartier peut etre d’une grande utilite tant aux archi-

tectes urbanistes qu’aux compagnies de telecommunications qui voudraient positionner leurs antennes

adequatement.

La construction de tels modeles virtuels se fait generalement en deux etapes. D’abord, des donnees

brutes, sous forme d’images ou plus souvent de nuages de points denses, sont acquises a l’aide de

capteurs photographiques aeriens ou terrestres ou de capteurs de distance au laser (Laser Range Sen-

sor). Ensuite, un algorithme est utilise pour analyser ces donnees, c’est-a-dire reconstruire les primitives

geometriques qui composent les objets de la scene et les assembler en un modele 3D.

Les primitives geometriques les plus frequemment rencontrees dans le monde industrialise et urbain

sont les plans, qui peuvent notamment etre des murs, des toits, des tables, des rues. Ainsi, de nombreuses

approches ont ete proposees pour reconstituer des objets faits de surfaces planaires dans des scenes

urbaines ou industrielles (par exemple [1], [2], [6], [7], [8]).

La plupart des methodes de detection de plans proposees recemment se basent sur des variantes en 3D

de la transformee de Hough ([4]) ou sur RANSAC ([3]). Ce n’est pas le cas de la methode ici etudiee,

qui utilise plutot l’algorithme des nuees dynamiques (aussi souvent nomme k-means).

Les details de cette methode sont expliques dans la section 2. La section 3 decrit les tests qui ont

ete effectues, puis la section 4 presente une analyse des resultats. Enfin, une synthese est faite dans la

section 5.

4

Page 112: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

2 Methode

2.1 Voisinages

La premiere etape est de decomposer le nuage de points en z voisinages locaux composes de h points

chacun. Ces voisinages doivent etre choisis de facon a ce que leur inertie par rapport a leur centre de

gravite soit la plus faible possible. La difficulte ici reside dans le fait que, apres avoir constitue plusieurs

voisinages, il devient possible de voir de petits groupes de points isoles etre jumeles a d’autres points qui

en sont relativement eloignes (et qui appartiennent potentiellement a une autre primitive) pour constituer

un voisinage de taille suffisante, mais qui n’est plus vraiment local.

Malheureusement, selon [5], il n’existe pas de facon generale pour trouver la configuration optimale

de voisinages, mais l’algorithme des nuees dynamiques s’en approche generalement bien. Les deux

possibilites explorees sont une methode vorace et l’algorithme des nuees dynamiques.

2.1.1 Choix vorace des voisinages

Pour constituer le premier voisinage, un point du nuage est choisi aleatoirement et les h− 1 points qui

en sont les plus pres sont trouves. Les points de ce nouveau voisinage sont retires du nuage de points.

Cette procedure est repetee jusqu’a ce que le nuage contienne moins de h points.

2.1.2 Nuees dynamiques

Les voisinages peuvent alternativement etre constitues en utilisant l’algorithme des nuees dynamiques

([5]). Cet algorithme vise a separer les donnees en k groupes dont l’inertie par rapport au centre de

gravite est faible. Il n’est toutefois pas garanti que la configuration optimale soit trouvee. Le nombre de

groupes k (comme la dimensionnalite du probleme) doit etre determine au prealable, faute de quoi le

probleme est NP-complet. L’algorithme des nuees dynamiques fonctionne de la facon suivante :

1. Initialiser les centres de gravite des groupes (aleatoirement ou autrement)

5

Page 113: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

2. Associer chaque point au groupe dont le centre de gravite en est le plus pres

3. Recalculer le centre de gravite de chaque groupe

4. Repeter les etapes 2 et 3 tant que la composition des groupes change.

Remarque L’algorithme des nuees dynamiques peut sembler approprie pour constituer les voisinages

de points, car l’objectif est de creer des groupes de faible inertie. Toutefois, son utilisation presente

un inconvenient majeur. En effet, le temps de calcul de l’algorithme des nuees dynamiques augmente

exponentiellement avec le nombre de groupes z a former. Puisque dans ce cas-ci, z est plutot grand (h

etant generalement petit), le temps de calcul devient prohibitivement grand.

2.1.3 Estimation des plans locaux

Une fois tous les voisinages constitues, un plan doit etre estime pour chacun. Deux methodes ont

encore une fois ete etudiees ici.

– le plan qui minimise la distance (euclidienne) aux points de chaque voisinage est trouve en utilisant

une regression lineaire

– le plan local est trouve avec l’algorithme RANSAC [3]

Dans les deux cas, z plans sont obtenus, chacun etant defini par son vecteur normal et sa distance de

l’origine (perpendiculairement).

2.2 Estimation des plans

L’algorithme des nuees dynamiques est enfin utilise pour trouver l’equation des n plans qui constituent

le nuage de point a partir des z plans trouves a l’etape precedente.

6

Page 114: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

3 Experimentation

3.1 Parametres

Il y a quelques parametres desquels depend l’execution de l’algorithme. Les valeurs choisies sont

presentees ici.

– n : Le nombre de plans dans la scene

– 1, 3, 5

– h : Le nombre de points dans le voisinage d’un autre point

– 3, 5, 8, 12, 20, 100

– α : Le niveau de bruit (variance ou ecart-type)

– 0, 1, 5, 10

– V : L’algorithme utilise pour la creation des voisinages

– Vorace

– L : L’algorithme utilise pour l’estimation des plans locaux

– Minimisation des erreurs quadratiques (MEQ)

– RANSAC (RSC)

Puisqu’il est dans cas particulier NP-complet (voir 2.1.2), l’algorithme des nuees dynamiques n’a pas

ete retenu pour creer les voisinages locaux. Seul l’algorithme vorace a donc ete utilise.

3.2 Mesures

La premiere mesure d’erreur utilisee (ξ) est la difference angulaire entre le vecteur normal du plan

estime et celui de la verite-terrain. La seconde est la distance euclidienne (d) moyenne entre les points

du plan estime et la verite-terrain. Cette seconde mesure necessite la generation aleatoire de points ap-

partenant au plan estime.

Bien que les deux precedentes mesures dependent directement de la juste estimation des equations

7

Page 115: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

des plans, le nombre de plans bien trouves (k) est note comme troisieme mesure, car l’ampleur ou la

petitesse des erreurs importe peu si ne serait-ce qu’un seul des plans n’est pas bien retrouve.

3.3 Tests effectues

Les tests ont ete effectues sur des plans dont les equations ont ete generees aleatoirement. Pour chaque

plan, 10000 points ont ete generes aleatoirement dans une meme region bornee de l’espace.

Les memes tests ont aussi ete effectues en utilisant l’algorithme RANSAC pour estimer les equations

des plans plutot que la methode ici ete etudiee. RANSAC est une methode eprouvee dans le domaine de

l’estimation de primitives et fournit donc une bonne base de comparaison. (Voir [3] pour plus de details

sur RANSAC.)

FIGURE 3.1 – Exemples de nuages de points utilises

3.3.1 Bruit

Le bruit utilise est gaussien. Chaque point du plan non bruite est deplace dans la direction de l’axe des

z d’une valeur obtenue d’une distribution aleatoire gaussienne de moyenne 0 et de variance σ2. Le bruit

est ainsi applique uniquement a l’axe des z, plutot que perpendiculairement au plan, car dans la plupart

8

Page 116: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

des applications de cette methode, on prend generalement des mesures de profondeur (z) pour differents

points repartis sur une grille reguliere (x et y). Par exemple, si une mesure de profondeur est prise pour

chaque pixel d’une paire d’images stereoscopiques, la position des pixels sera toujours exacte, seule la

profondeur pourra etre bruitee.

4 Resultats et analyse

4.1 Resultats

Le grand nombre de parametres donne lieu a une (petite) explosion combinatoire du nombre de confi-

gurations possibles. Il serait fastidieux de presenter ici exhaustivement les resultats obtenus, alors uni-

quement les configurations les plus interessantes ou significatives sont presentees dans la Table 4.1. Les

tests comparatifs effectues avec RANSAC sont indiques par une valeur de h de RSC.

4.2 Analyse

Le premier constat a faire est que RANSAC donne toujours de meilleurs resultats que la methode

etudiee. En fait, dans tous les tests effectues, RANSAC retrouve avec precision tous les plans, meme en

presence de bruit. Il n’en va pas de meme pour l’algorithme etudie.

Ces resultats montrent que l’algorithme fonctionne en general bien dans les cas simples et ideaux,

mais qu’il n’est guere robuste au bruit. Dans les cas bruites, les plans ne sont jamais tous bien retrouves.

Il arrive par contre souvent que seulement une minorite de plans (1 ou 2) ne soient pas bien estimes.

Dans ces cas, il se produit la situation citee en 2.1 ou les derniers voisinages sont constitues de points

eloignes, appartenant potentiellement a differents plans.

Les resultats montrent egalement que la methode est (non significativement) plus robuste lorsque les

voisinages sont de plus grande taille. En effet, en presence de bruit, un voisinage local de petite taille

pourrait ne pas suivre l’allure generale du plan, mais plutot avoir une forme quelconque dont les axes

9

Page 117: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

n h α L ξ d k

1 RSC 0 — 0.00903991 1e-005 1

1 5 0 RSC 8.53774e-007 1.0009e-005 1

1 5 0 MEQ 0 1.00016e-005 1

1 RSC 1 — 0.00466886 0.279771 1

1 5 1 MEQ 0.497639 13.1526 1

1 20 1 MEQ 0.0372379 0.976707 1

1 RSC 10 — 0.113135 5.0017 1

1 12 10 MEQ 1.2254 233.928 1

1 100 10 MEQ 0.108338 23.3573 1

3 RSC 0 — 0.00455799 9.9999e-006 3

3 5 0 MEQ 5.69182e-007 1.47151e-005 3

3 8 0 MEQ 9.67683 494.902 2

3 RSC 5 — 0.2306 2.30141 3

3 12 5 MEQ 15.5662 2734.5 1

5 RSC 0 — 0 1e-005 5

5 5 0 RSC 1.02237 15.464 5

5 RSC 10 — 0.276926 3.14161 5

5 100 10 MEQ 14.2977 12974.3 3

5 100 10 RSC 17.2636 7987.65 1

TABLE 4.1 – Resultats obtenus a differents tests

10

Page 118: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

principaux d’inertie sont completement differents. En d’autres mots, le voisinage pourrait etre constitue

majoritairement de points bruites. L’utilisation d’un plus grand nombre de points reduit donc l’effet du

bruit. Etonnamment, l’utilisation de RANSAC pour estimer les plans locaux, particulierement avec de

grands voisinages, n’a pas donne de meilleurs resultats que la regression lineaire.

Par ailleurs, il est a noter qu’en prenant la plus grande valeur de h possible, il n’y aurait qu’un seul

voisinage qui contiendrait tous les points. L’algorithme serait alors equivalent a RANSAC ou a une

regression lineaire, selon la methode d’estimation des plans locaux choisie.

Enfin, RANSAC bat de vitesse l’algorithme etudie.

4.3 Ameliorations

Les resultats pourraient probablement etre ameliores en utilisant dans les nuees dynamiques la distance

de Mahalanobis, ou du moins une distance plus adaptee que la distance euclidienne habituelle. En effet,

la distance du plan a l’origine a generalement une valeur nettement plus grande que les composantes

du vecteur normal, qu’elles soient dans l’espace XY Z ou θφ, et a donc injustement une trop grande

influence dans l’estimation et la segmentation des plans.

Il serait egalement interessant d’etudier le comportement de l’algorithme en assouplissant la contrainte

de localite des voisinages. Les plans locaux seraient ainsi moins influences par le bruit. Plus precisement,

un voisinage serait alors compose d’un point et de h − 1 autres points parmi ses f plus proches voisins

(f > h), plutot que de directement choisir les h− 1 plus proches voisins. Le risque avec cette approche

est d’avoir des voisinages constitues de points appartenant a differents plans.

Enfin, il pourrait aussi etre interessant d’utiliser le vecteur normal de chaque point, c’est-a-dire de ne

pas retirer du nuage les points deja associes a un voisinage. Autant de plans locaux qu’il y a de points

seraient alors consideres (un echantillonnage pourrait eventuellement etre fait), mais le probleme des

voisinages non locaux (voir 2.1) serait evite.

11

Page 119: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

5 Conclusion

Une methode d’estimation et de segmentation de plans a partir d’un nuage de points a ete presentee.

La methode decompose le nuage en plusieurs sous-nuages, estime un plan correspondant a chacun, puis

utilise l’algorithme des nuees dynamiques pour estimer les plans qui constituent le nuage global.

Si cette methode fonctionne assez bien dans un cas ideal, la presence de bruit reduit considerablement

son efficacite. L’utilisation de moyennes par l’algorithme des nuees dynamiques pour calculer la position

des centres de gravite dans l’espace explique bien pourquoi le bruit fausse les resultats.

La methode a de plus ete comparee a RANSAC et il a ete montre qu’elle ne presente aucun veritable

avantage (au contraire). Neanmoins, des pistes d’amelioration sont proposees.

12

Page 120: 0tudes de cas en analyse des données

DI, Universite de Sherbrooke Rapport de recherche

References

[1] Lars Bodum, Jens Overby, Erik Kjems, and Peer Møller Ilsøe. Automatic 3d building reconstruction

from airborne laser scanning and cadastral data using hough transform. Proceedings of the XXth

International Congress for Photogrammetry and Remote Sensing, pages 1–6, 2004.

[2] J. Engels, H. Arefi, and M. Hahn. Generation of roof topologies using plane fitting with ransac. In

ISPRS Congress, page B3a : 119 ff, 2008.

[3] Martin A. Fischler and Robert C. Bolles. Random sample consensus : a paradigm for model fitting

with applications to image analysis and automated cartography. Commun. ACM, 24(6) :381–395,

1981. ISSN 0001-0782. doi : http ://doi.acm.org/10.1145/358669.358692.

[4] P.V.C. Hough. Method and means for recognizing complex patterns. In US Patent, 1962.

[5] J. B. MacQueen. Some methods for classification and analysis of multivariate observations. In

L. M. Le Cam and J. Neyman, editors, Proc. of the fifth Berkeley Symposium on Mathematical

Statistics and Probability, volume 1, pages 281–297. University of California Press, 1967.

[6] Kei Okada, Satoshi Kagami, Masayuki Inaba, and Hirochika Inoue. Plane segment finder : Algo-

rithm, implementation and applications. In ICRA, pages 2120–2125, 2001.

[7] F. Tarsha Kurdi, T. Landes, and P. Grussenmeyer. Hough-transform and extended ransac algorithms

for automatic detection of 3d building roof planes from lidar data. In Workshop on Laser Scanning,

page 407, 2007.

[8] G. Vosselman and S. Dijkman. 3d building model reconstruction from point clouds and ground plans.

International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,

34(3/W4) :37–44, 2001.

13