datamining etude et analyse des usagers impliqués dans un

47
CAUSSANEL Olivier DESS 220 Ŕ Informatique de Gestion Université PARIS DAUPHINE Professeur : Edwin DIDAY DATAMINING Etude et analyse des usagers impliqués dans un accident de la circulation routière.

Upload: others

Post on 29-Jan-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DATAMINING Etude et analyse des usagers impliqués dans un

CAUSSANEL Olivier DESS 220 Ŕ Informatique de Gestion

Université PARIS DAUPHINE

Professeur : Edwin DIDAY

DATAMINING

Etude et analyse des usagers

impliqués dans un accident de la

circulation routière.

Page 2: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 2/47 DESS 220 - Informatique de Gestion

SOMMAIRE

1 INTRODUCTION .............................................................................................................................. 4

2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS ...................................................................... 5

2.1 Objectifs généraux du DATAMINING ................................................................................................... 5

2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ........................................ 6 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS .................................................... 8 2.2.2 Description sommaire du mode opératoire.......................................................................................... 9

2.2.2.1 Présentation de la page d’accueil .................................................................................................... 9 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ........................................................................ 9 2.2.2.3 Sélection d’une base d’étude ......................................................................................................... 10 2.2.2.4 Choix des méthodes à appliquer .................................................................................................... 11

3 PRESENTATION DE L’ETUDE ..................................................................................................... 14

3.1 Contexte de l’étude et présentation des données .................................................................................. 14 3.1.1 Présentation de la BDSR (Base Départementale des statistiques de la Route).................................. 14 3.1.2 Présentation de la base de données MSACCESS DEP780 support de l’étude .................................. 14

3.2 Les objectifs ............................................................................................................................................. 16

4 MISE EN ŒUVRE DE SODAS ...................................................................................................... 17

4.1 Mise en œuvre de DB2SO ....................................................................................................................... 17 4.1.1 Généralités sur DB2SO ..................................................................................................................... 17 4.1.2 Extraction des données de la baseDEP780 via DB2SO .................................................................... 17 4.1.3 Modifications des variables extraites ................................................................................................ 20

4.1.3.1 Adjonction de « single-valued variables » .................................................................................... 20 4.1.3.2 Adjonction de « taxonomies » ....................................................................................................... 21 4.1.3.3 Adjonction de « set-valued multiple variable » ............................................................................. 22

4.2 La méthode SOE (Symbolic Object Editor) .......................................................................................... 25 4.2.1 Présentation de la méthode SOE ....................................................................................................... 25 4.2.2 Mise en œuvre de la méthode SOE ................................................................................................... 26

4.2.2.1 L’étoile zoom à deux dimensions .................................................................................................. 26 4.2.2.2 L’étoile zoom à trois dimensions .................................................................................................. 27 4.2.2.3 Les histogramme horizontaux ou verticaux .................................................................................. 28

4.3 La méthode STAT ................................................................................................................................... 29 4.3.1 Présentation de la méthode STAT ..................................................................................................... 29 4.3.2 Mise en œuvre de la méthode STAT ................................................................................................. 30

4.3.2.1 Fréquences relatives pour des variables multimodales .................................................................. 30 4.3.2.2 Fréquences relatives pour des variables intervalles ....................................................................... 31 4.3.2.3 Capacités et min/max/mean pour des variables multimodales probabilistes ................................. 32 4.3.2.4 Biplot avec des variables intervalle ............................................................................................... 33

4.4 La méthode DIV : Divisive Clustering on Symbolic Objects ............................................................... 34 4.4.1 Présentation de la méthode DIV ........................................................................................................ 34 4.4.2 Mise en œuvre de la méthode DIV .................................................................................................... 35

4.4.2.1 La méthode DIV appliquée aux variables qualitatives .................................................................. 35 4.4.2.2 La méthode DIV appliquée aux variables quantitatives ................................................................ 36

4.5 La méthode DSD (Discriminant Symbolic Description) ...................................................................... 38

Page 3: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 3/47 DESS 220 - Informatique de Gestion

4.5.1 Présentation de la méthode DSD ....................................................................................................... 38 4.5.2 Mise en œuvre de la méthode DSD ................................................................................................... 38

4.6 La méthode TREE (Decision Tree) ........................................................................................................ 39 4.6.1 Présentation de la méthode TREE ..................................................................................................... 39 4.6.2 Mise en œuvre de la méthode TREE ................................................................................................. 39

4.7 La méthode PYR : Pyramidale Clustering on Symbolic Objects ........................................................ 41 4.7.1 Présentation de la méthode PYR ....................................................................................................... 41 4.7.2 Mise en œuvre de la méthode PYR ................................................................................................... 41

4.8 La méthode PCM : Principal Component Analysis ............................................................................. 44 4.8.1 Présentation de la méthode PCM ...................................................................................................... 44 4.8.2 Mise en œuvre de la méthode PCM .................................................................................................. 44

4.9 La méthode FDA : Factorial Discriminant Analysis ............................................................................ 46 4.9.1 Présentation de la méthode FDA ....................................................................................................... 46 4.9.2 Mise en œuvre de la méthode FDA ................................................................................................... 46

5 CONCLUSION ............................................................................................................................... 47

Page 4: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 4/47 DESS 220 - Informatique de Gestion

1 INTRODUCTION

Le datamining est un processus qui permet de découvrir, dans de grosses bases

de données consolidées, des informations jusque là inconnues.

L’exploitation de ces nouvelles informations peut présenter un intérêt pour

analyser et interpréter les comportements d’individus par exemple. Les résultats

obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser

dans des plans stratégiques ou politiques les axes d’effort à respecter.

Les techniques statistiques du datamining sont bien connues. Il s’agit

notamment de la régression linéaire et logistique, de l’analyse multi variée, de

l’analyse des composantes principales, des arbres décisionnels et des réseaux de

neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent

avec les grosses bases de données, car en présence de milliers ou de million de cas et

de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de

redondance parmi les variables, certaines relations seront fausses, et même les

relations les plus faibles paraîtront statistiquement importantes dans tout test

statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est

satisfaisant.

L’analyse de données symboliques prend actuellement de plus en plus

d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce

logiciel qui va être utilisé dans le cadre de ce projet afin d’extraire les données

concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer

les méthodes d’analyse contenues dans SODAS.

La base d’étude du projet concerne les usagers de la route impliqués dans un

accident de la circulation routière dans le département des Yvelines entre 1995 et

2003.

Le présent rapport est constitué de deux parties principales.

La première est une présentation générale du datamining et du logiciel

SODAS.

La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en

particulier les modalités d’extraction des variables analysées et la mise en œuvre des

diverses méthodes d’analyse associées.

Page 5: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 5/47 DESS 220 - Informatique de Gestion

2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS

2.1 OBJECTIFS GENERAUX DU DATAMINING

Les progrès de la technologie informatique dans le recueil et le transport de données

font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes

(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent

très importante.

Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via

des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut

niveau, deviennent de plus en plus simples d’accès et d’utilisation.

Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,

un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en

extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits

par des données plus complexes que celles habituellement rencontrées en statistique. Ces

données sont dites « symboliques », car elles expriment la variation interne inéluctable des

concepts et sont structurées.

Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et

plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire

des connaissances d’interprétation aisée, devient d’une importance grandissante.

L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou

concepts munis de leur description) considérés au départ comme des entités séparées les unes

des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.

Par rapport aux approches classiques, l’analyse des données symboliques présente les

caractéristiques et ouvertures suivantes :

Elle s’applique à des données plus complexes. En entrée elle part de données

symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de

probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en

sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages

qui sont développés supra :

- Elle utilise des outils adaptés à la manipulation d’objets symboliques de

généralisation et de spécialisation, d’ordre et de treillis, de calcul

d’extension, d’intention et de mesures de ressemblances ou d’adéquation

tenant compte des connaissances sous-jacentes basées sur les règles de

taxonomies ;

- Elle fournit des représentations graphiques exprimant, entre autres, la

variation interne des descriptions symboliques. Par exemple, en analyse

factorielle, un objet symbolique sera représenté par une zone (elle-même

exprimable sous forme d’objet symbolique) et pas seulement par un point ;

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

Page 6: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 6/47 DESS 220 - Informatique de Gestion

- Ils fournissent un résumé de la base, plus riche que les données agrégées

habituelles car ils tiennent compte de la variation interne et des règles sous-

jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous

sommes donc loin des simples centres de gravité ;

- Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des

variables initiales ou de variables significatives obtenues (axes factoriels),

donc en termes proches de l’utilisation ;

- En utilisant leur partie descriptive, ils permettent de construire un nouveau

tableau de données de plus haut niveau sur lequel une analyse de données

symboliques de second niveau peut s’appliquer ;

- Afin de modéliser des concepts, ils peuvent aisément exprimer des

propriétés joignant des variables provenant de plusieurs tableaux associés à

différentes populations. Par exemple, pour construire un objet symbolique

associé à une ville, on peut utiliser des propriétés issues d’une relation

décrivant les habitants de chaque ville et une autre relation décrivant les

foyers de chaque ville.

- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base

synthétique obtenue, il peut être plus avantageux d’extraire d’abord des

objets symboliques de chaque base puis d’étudier l’ensemble des objets

symboliques ainsi obtenus ;

- Ils peuvent facilement être transformés sous forme de requête sur une Base

de Données.

Ceci a au moins les deux conséquences suivantes :

Ils peuvent donc propager les concepts qu’ils représentent d’une base à une

autre (par exemple, d’un pays à l’autre de la communauté européenne,

EUROSTAT ayant fait un grand effort de normalisation des différents types

d’enquête sociodémographiques).

Alors qu’habituellement on pose des questions sous forme de requête à la

base de données pour fournir des informations intéressant l’utilisateur, les

objets symboliques formés à partir de la base par les outils de l’analyse des

données symboliques permettent à l’inverse de définir des requêtes et donc

de fournir des questions qui peuvent être pertinentes à l’utilisateurs.

2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA

ANALYSIS SYSTEM)

Il s’agit d’un logiciel prototype public apte à analyser des données symboliques.

Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce

logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans

le domaine de l’analyse des données symboliques.

L’idée générale de ce projet est de construire, à partir d’une base de données

relationnelle, un tableau de données symboliques muni éventuellement de règles de

taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et

d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse

de données symboliques.

Page 7: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 7/47 DESS 220 - Informatique de Gestion

Une analyse des données dans SODAS suit les étapes suivantes :

Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;

Définir ensuite un contexte par :

Des unités statistiques de premier niveau (habitants, familles, entreprises,

accidents...) ;

Les variables qui les décrivent ;

Des concepts (villes, groupes socio-économiques, scénario d’accident…).

Chaque unité statistique de premier niveau est associée à un concept (par exemple,

chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de

données relationnelle.

Le tableau de données symboliques peut être construit, les nouvelles unités statistiques

sont les concepts décrits par généralisation des propriétés des unités statistiques de premier

niveau qui leur sont associées.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des

histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de

taxonomies) selon le type de variables et le choix de l’utilisateur.

Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine

de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des

variables symboliques, classification automatique, analyse factorielle, analyse discriminante,

visualisations graphiques…).

Nota : le logiciel SODAS est téléchargeable à l’adresse suivante

http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm

Page 8: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 8/47 DESS 220 - Informatique de Gestion

2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS

Page 9: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 9/47 DESS 220 - Informatique de Gestion

2.2.2 Description sommaire du mode opératoire

2.2.2.1 Présentation de la page d’accueil

La fenêtre principale de SODAS se compose de 3 éléments principaux :

1 – La barre d’outils qui comporte 5 menus.

2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes

méthodes disponibles.

3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes

appliquées à la base choisie.

2.2.2.2 Généralités sur la méthode d’utilisation du logiciel

Il est tout d’abord important de définir ce qu’est une filière dans le logiciel

SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est

possible de visionner dans la fenêtre Chaining.

En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds)

sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se

placer les icônes des méthodes représentant les calculs souhaités.

Page 10: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 10/47 DESS 220 - Informatique de Gestion

Après le paramétrage des méthodes et l’enregistrement de la filière, les

résultats figureront sous forme d’icônes, à droite de chacune des méthodes.

2.2.2.3 Sélection d’une base d’étude

Nota : pour qu’un fichier SODAS possède l’extension .sds qui permette de

l’identifier comme une base support à l’application des méthodes, il faut se positionner

sur une fichier que l’on a sauvegardé en .gaj et «l’exporter » :

SODAS File

Import…– Importation (DB2SO)

File

Open

(Rechercher le .gaj)

File

Export

Page 11: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 11/47 DESS 220 - Informatique de Gestion

Une fois cette opération effectuée, pour sélectionner la « base » support de

l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes :

- double-cliquer sur l’icône BASE ;

- .sélectionner le .sds qui nous intéresse ;

- cliquer sur OK.

La filière a été modifiée, et maintenant il est possible de lire le nom de la base

associée à la filière ainsi que son chemin d’accès sur le disque dur.

2.2.2.4 Choix des méthodes à appliquer

Il faut maintenant enrichir la filière définie précédemment grâce à des

méthodes (Methods) afin d’analyser les données de la base.

Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined

chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues

de la fenêtre Methods.

Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de

cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut

alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser

jusqu’à l’emplacement vide.

Page 12: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 12/47 DESS 220 - Informatique de Gestion

Les méthodes constituant maintenant la filière sont affichées à la suite de

l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner.

Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom

ainsi qu’une description sommaire.

La couleur de l’icône de la méthode renseigne sur son état :

Gris : la méthode n’est pas encore paramétrée ;

Rouge : la méthode est paramétrée.

Par défaut, les méthodes qui viennent d’être insérées sont grisées.

Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une

petite boîte située à gauche de la méthode.

La couleur de cette boîte indique le statut de la méthode :

Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée

Vert : la méthode est exécutable car elle est paramétrée

Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur

en interdit l’exécution (menu Methods puis Desactive method).

Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de

la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe

l’ensemble des différents paramètres de la méthode.

Après le paramétrage des diverses méthodes, l’affichage de la filière a changé.

Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont

rouges).

Le paramétrage des toutes les méthodes de la filière étant terminé, il est

possible de l’exécuter.

Par contre, toute exécution d’une filière doit être obligatoirement précédée de

sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont

l’extension est .fil).

Une fois cette opération effectuée, la filière est exécutée en cliquant sur le

sous-menu Run chaining du menu Chaining.

Page 13: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 13/47 DESS 220 - Informatique de Gestion

Filière avant exécution des méthodes :

Filière après exécution des méthodes :

Page 14: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 14/47 DESS 220 - Informatique de Gestion

3 PRESENTATION DE L’ETUDE

3.1 CONTEXTE DE L’ETUDE ET PRESENTATION DES DONNEES

La base de données relationnelle sur laquelle s’appuie l’étude représente une

fraction des données collationnées via l’application « Base Départementale des

Statistiques de la Route » de la gendarmerie nationale qui permet le suivi des accidents

corporels de la circulation routière d’un département.

3.1.1 Présentation de la BDSR (Base Départementale des statistiques de la Route)

L’application BDSR (Base Départementale des Statistiques de la Route)

intègre dans des tables d’une base de données de type MSACCESS, les données

contenues dans les fichiers BAAC (Bulletin d’Analyse des Accidents Corporels de la

circulation routière) qui concernent les accidents corporels de la circulation routière

s’étant produits dans un département. Les bulletins sont saisis dans des applications

dédiées au suivi du service par les unités élémentaires, brigades territoriales (niveau

canton administratif) ou motorisées.

La BDSR offre au commandant de groupement de gendarmerie départementale

(niveau département administratif) un outil de contrôle des informations et surtout de

suivi de statistiques routières en temps réel pour son département.

Elle génère, par extraction des données qu’elle contient, un fichier au format

texte qui regroupe les renseignements que tous les accidents corporels de la circulation

routière constatés sur l’ensemble du département concerné pour le mois écoulé. Ce

fichier permet d’alimenter la base centrale d’où sont tirés les renseignements fournis

aux divers grands organismes et institutions.

3.1.2 Présentation de la base de données MSACCESS DEP780 support de l’étude

Renseignées par les unités élémentaires du 78 la base de données DEP780

contient les données relatives aux accidents corporels survenus dans le département

des Yvelines depuis 1995.

Elle est constituée de cinq tables principales :

o SRP_ACCIDENT qui permet d’enregistrer entre autres la localisation

de l’accident, le type de collision, les conditions atmosphériques…

o SRP_USAGER qui permet d’enregistrer entre autres le type de trajet

emprunté par l’usager, son âge, sa catégorie socioprofessionnelle, son

dépistage d’alcoolémie…

o SRP_LIEUX qui permet d’enregistrer les renseignements relatifs à la

physionomie et à l’état des lieux

o SRP_VEHICULES qui permet d’enregistrer les renseignements relatifs

aux véhicules.

o Unités, cette table permet quant à elle d’enregistrer tous les

renseignements concernant la ou les unités qui sont intervenues sur

l’accident.

Page 15: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 15/47 DESS 220 - Informatique de Gestion

Une autre table « Codification » est utilisée par l’application BDSR pour

assurer l’intelligibilité des codes utilisés dans les tables mentionnées infra.

Dans le cadre d’étude, il a été nécessaire de procéder à une première intervention

pour modifier le format des données contenues dans les tables afin de remplacer les

codes par leurs libellés.

Une deuxième intervention a été nécessaire, en effet, tous les champs n’étant

pas toujours renseignés ou renseignés de manières différentes, en fonction des unités,

des erreurs se sont produites lors de l’extraction via DB2SO. Les données impliquées

ont été corrigées (il s’agit en particulier des données du champ COD_DEP lorsque le

pays est étranger).

Enfin, en vue d’assurer la présence de données répondant aux critères de

taxonomies un nouveau champ a été ajouté « CAT_VEHICULE » lié au champ

« COD_ADMINISTRATIVE ».

Le schéma relationnel de la base « DEP780 » est présenté ci-dessous afin

de mieux la définir :

Page 16: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 16/47 DESS 220 - Informatique de Gestion

3.2 LES OBJECTIFS

L’objectif de l’étude est de présenter les modalités de mise en œuvre de l’outil

SODAS aussi bien au niveau de l’extraction et de la mise en forme des données que de

l’application des méthodes d’analyse de données symboliques.

Avertissement :

Il n’est pas question ici de se livrer à une interprétation des résultats obtenus

étant donnée la sensibilité du sujet retenu, mais plutôt d’apporter un éclaircissement

sur les capacités de l’outil SODAS et son intérêt éventuel pour l’analyse des données

collationnées par les unités de gendarmerie en matière d’accident de la circulation

routière.

La démarche suivie ne s’intègre pas dans une réflexion globale de l’institution

qu’elle ne saurait engager quant aux conclusions auxquelles elle aboutit.

Les individus retenus dans le cadre de cette étude, c'est-à-dire les unités

statistiques de premier niveau sont les identifiants d’usagers de type « conducteur ». Il

s’agit donc des conducteurs impliqués dans un accident corporel de la circulation

routière.

Ces individus sont plus particulièrement décrits dans la table SRP_USAGER.

Les concepts n’apparaissent pas de façon naturelle, parmi les différentes

possibilités, ce sont les types de trajets empruntés par ces conducteurs au cours duquel

a eu lieu l’accident qui ont été retenus.

Plusieurs requêtes ont été nécessaires sur cette base afin de créer le contexte de

l’étude.

Page 17: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 17/47 DESS 220 - Informatique de Gestion

4 MISE EN ŒUVRE DE SODAS

Une fois le cadre d’étude défini, il est alors possible de débuter l’analyse des

données à l’aide du logiciel SODAS.

4.1 MISE EN ŒUVRE DE DB2SO

4.1.1 Généralités sur DB2SO

DB2SO est le module du logiciel SODAS qui permet de créer un ensemble de

concepts à partir des données stockées dans la base de données relationnelle.

Une série d’individus répartis entre plusieurs groupes est stockée dans la base. Alors

DB2SO peut construire un concept pour chaque groupe d’individus. Des variables mère/filles

et des taxonomies peuvent également être associées aux concepts ainsi obtenus.

4.1.2 Extraction des données de la baseDEP780 via DB2SO

Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases

de données et en particulier aux bases Microsoft Access.

Pour importer les données de la base Dep780, il faut sélectionner la commande

Importation (DB2SO) dans le sous menu Import du menu SODAS File.

SODAS File

Import…– Importation (DB2SO)

File

New

L’écran suivant nous invite à sélectionner une source de données machine. Dans le cas

de l’étude il s’agit d’une base Microsoft Access 97.

Ce SGBDR inclut le driver ODBC permettant l’accès de DB2SO à la base de données

relationnelles.

SODAS ne propose aucun menu de connexion à la base de données car l’utilisateur est

automatiquement invité à s’y connecter quand cela est nécessaire, c'est-à-dire lorsqu’il

souhaite exécuter une requête.

A tout moment, l’utilisateur peut décider de changer de base de données en choisissant

le menu File\Disconnect. Il sera alors invité à spécifier une nouvelle base de données.

Page 18: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 18/47 DESS 220 - Informatique de Gestion

L’étape suivante consiste à rechercher la base de travail à sélectionner.

Lorsque ces étapes préliminaires sont exécutées, il est nécessaire de procéder à

l’extraction des individus. Pour ce faire, il faut taper une requête SQL dans l’écran qui se

présente alors.

Page 19: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 19/47 DESS 220 - Informatique de Gestion

Cette requête est de la forme : select * from requête1 avec requête1 une requête qui

renvoie une table du type : individus / concepts / description des individus.

Soit résultat de la requête 1 :

1ère

colonne = individus ;

2ième

colonne = concepts ;

3ième

colonne et suivantes = descriptions des individus.

Dans la présente étude, la requête 1 correspond à la requête INDIV_CONCEPT_VARIABLE 1 présentée ci-dessous :

SELECT INDIV_CONCEPT_VARIABLE.ID_CONDUC,

INDIV_CONCEPT_VARIABLE.COD_TRAJET, INDIV_CONCEPT_VARIABLE.COD_NAT,

INDIV_CONCEPT_VARIABLE.COD_DEP, INDIV_CONCEPT_VARIABLE.COD_PAYS,

INDIV_CONCEPT_VARIABLE.DAT_NAIS,

INDIV_CONCEPT_VARIABLE.COD_SOCIO_PROF,

INDIV_CONCEPT_VARIABLE.COD_SEXE, INDIV_CONCEPT_VARIABLE.DAT_PERMIS,

INDIV_CONCEPT_VARIABLE.COD_ALCOOLEMIE,

INDIV_CONCEPT_VARIABLE.COD_UTILISATION,

INDIV_CONCEPT_VARIABLE.COD_EXISTANCE,

INDIV_CONCEPT_VARIABLE.COD_GRAVITE, INDIV_CONCEPT_VARIABLE.COD_PERMIS

FROM INDIV_CONCEPT_VARIABLE;

La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une

structure précisée infra : identifiant de l’individu, groupe auquel appartient l’individu et

ensuite les différents attributs décrivant les individus.

Le nombre de ces attributs est variable mais un minimum d’un attribut est requis.

Une fois la requête SQL tapée et validée, elle s’exécute dans la base de données, les

individus sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau

de concepts est généré.

A l’issue de l’extraction des individus, il est possible de visualiser les résultats, à

savoir les tableaux des individus et des concepts en sélectionnant le menu View et en

choisissant Individuals ou bien Assertions.

Page 20: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 20/47 DESS 220 - Informatique de Gestion

A ce stade, le résultat obtenu peut être sauvegarder en choisissant File\Save as, le

fichier est alors enregistré avec l’extension .gaj.

4.1.3 Modifications des variables extraites

Le menu Modify permet à l’utilisateur de modifier les concepts à l’aide de plusieurs

opérations d’adjonction de différents types de variables.

4.1.3.1 Adjonction de « single-valued variables »

Le mode opératoire consiste à partir de l’écran ci-dessus à ouvrir le menu

Modify\Add single valued variable, et à écrire une requête SQL destinée à extraire de la

base relationnelle les variables décrivant le concept retenu.

La requête qui sera appliquée ici ramène uniquement des attributs numériques ce qui

posera des problèmes pour l’application des méthodes décrites supra.

Nota : Il n’existe pas dans la base support de l’étude, pour le concept sélectionné, de

données permettant d’obtenir des variables nominales qualitatives simples. Aussi pour ne pas

être dans l’incapacité totale de mettre en œuvre les méthodes ayant recours à ce type de

variable il a été créé artificiellement via une requête SQL des données répondant aux critères

attendus, il s’agira de COD_TRAJET_1. Cette démarche analytiquement fort peu

Page 21: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 21/47 DESS 220 - Informatique de Gestion

satisfaisante a pour objet essentiel de permettre d’illustrer les méthodes mises en œuvre supra

au travers les sorties qui leur sont associées.

Le résultat obtenu à l’écran est le suivant :

4.1.3.2 Adjonction de « taxonomies »

Le mode opératoire consiste à ouvrir le menu Modify\Create taxonomy, et d’écrire

une requête SQL destinée à extraire de la base relationnelle les variables attendues. La requête

renvoie en première colonne les variables enfants et en deuxième colonne la variable parent.

Dans le cadre de la présente étude deux taxonomies sont identifiées :

La première, entre les départements et les pays.

Page 22: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 22/47 DESS 220 - Informatique de Gestion

La deuxième, entre les catégories administratives des véhicules et les types

véhicules

4.1.3.3 Adjonction de « set-valued multiple variable »

Pour l’adjonction de ce type de variables, la requête à utiliser doit renvoyer

exactement un attribut multi-valué en relation avec une variable multi-valuée et décrivant le

concept.

La première colonne de la requête décrit le concept, la seconde contient les modalités

de l’attribut multi-valué et la troisième est la cardinalité de la modalité considérée, au sein du

concept.

Les résultats obtenus à l’écran sont les suivants :

Page 23: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 23/47 DESS 220 - Informatique de Gestion

Les catégories socioprofessionnelles

Les gravités (blessés graves, blessés légers, tués, indemnes)

Page 24: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 24/47 DESS 220 - Informatique de Gestion

L’existence ou non de dispositifs de sécurités (ceinture,…)

Le sexe des conducteurs impliqués dans l’accident

Page 25: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 25/47 DESS 220 - Informatique de Gestion

4.2 LA METHODE SOE (SYMBOLIC OBJECT EDITOR)

4.2.1 Présentation de la méthode SOE

La méthode SOE permet à un utilisateur de visionner facilement dans un

tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d’opérer

quelques changements sur ces données.

Ces changements sont par exemple la modification des libellés des objets, des

modalités, des variables …

L’éditeur fournit également la possibilité de visionner les objets symboliques

sous une représentation graphique : l’étoile zoom.

L’étoile zoom représente un objet symbolique. Cette représentation graphique

en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable.

Le but de cette représentation est de fournir une image synthétique de l’objet,

un profil, et de comparer des profils entre eux.

L’étoile zoom a la particularité de proposer différents types de détails de

manière interactive, et ce, notamment grâce à une représentation en deux dimensions

ou en trois dimensions.

Nota : toutes les étoiles zoom de tous les objets symboliques générés ne seront

pas présentées. L’objectif est ici de montrer l’intérêt, la puissance et l’apport de SOE

et des objets symboliques et non pas d’être exhaustif dans les connaissances qui

pourraient être tirées de la base DEP780.mdb.

Page 26: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 26/47 DESS 220 - Informatique de Gestion

4.2.2 Mise en œuvre de la méthode SOE

4.2.2.1 L’étoile zoom à deux dimensions

Une première représentation de la méthode, en étoile zoom à deux dimensions,

appliquée aux individus impliqués dans un accident survenu au cours d’une

« utilisation professionnelle » du véhicule ou à l’occasion d’une « promenade ou d’un

loisir » permet de faire ressortir les différentes données associées à ces deux concepts.

Seules les indications les plus importantes et surtout les plus exploitables sont

retenues (les dates de naissance, par exemple, trop nombreuses, sont écartées).

Les variables (qualitatives) sont représentées par des points de taille

proportionnelle au nombre d’occurrences rencontrées dans l’étude pour une valeur

donnée.

Le graphique relie entre eux les points de plus grosses tailles (présentant donc

le plus grand nombre d’occurrences).

Pour chaque variable, certaines valeurs peuvent ne pas être prises en compte

dans la représentation, en l’occurrence, la valeur « non renseignée » ne figure pas sur

les deux représentations proposées ci-dessous.

Page 27: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 27/47 DESS 220 - Informatique de Gestion

4.2.2.2 L’étoile zoom à trois dimensions

Une deuxième représentation consiste en l’étoile zoom en 3 dimensions, où les

variables qualitatives figurent sous forme d’histogramme et les variables quantitatives

sous forme d’intervalle, matérialisé par un trait épais sur un axe (avec mention

également des valeurs extrêmes rencontrées pour l’ensemble des concepts).

Pour chaque variable, certaines valeurs peuvent ne pas être prises en compte

dans la représentation, en l’occurrence, la valeur « non renseignée » ne figure pas sur

les deux représentations proposées ci-dessous.

Page 28: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 28/47 DESS 220 - Informatique de Gestion

4.2.2.3 Les histogramme horizontaux ou verticaux

Les représentations en étoiles zoom sont parfois un peu trop condensées, il est

toujours possible de visualiser un troisième type de représentation, pour un axe donné,

sous forme d’histogrammes verticaux ou horizontaux (application au dépistage

alcoolémie et au sexe des conducteurs).

Utilisation professionnelle

Promenade - Loisir

Utilisation professionnelle Promenade - Loisir

Page 29: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 29/47 DESS 220 - Informatique de Gestion

4.3 LA METHODE STAT

4.3.1 Présentation de la méthode STAT

STAT permet d’appliquer des méthodes, habituellement utilisées pour des

données conventionnelles, à des données symboliques représentées par leurs

descriptions.

Ces méthodes dépendent du type des variables présentes dans la base SODAS.

1 – les fréquences relatives pour les variables multimodales ;

2 – les fréquences relatives pour les variables intervalles ;

3 – les capacités et min/max/mean pour les variables multimodales

probabilistes ;

4 – biplot pour les variables intervalles.

Le format de sortie est, selon le choix de l’utilisateur, un listing ou bien un

graphique.

Exemple de listing :

SODAS - STAT RELATIVE FREQUENCIES (MODAL) Jun 01 2003

15:59

File: DEP780.SDS

Title: DEP780

---------------------------------------------------------------------------

-----

COD_SOCIO_PROF

AF01 Cadre Moyen, Employe 0.1187

AF02 Ouvrier 0.1187

AF03 Autre 0.1187

AF04 Conducteur Professionnel 0.1187

AF05 Cadre Superieur, Profession Liberale, Chef d'Entreprise 0.1187

AF06 Artisan, Commercant, Profession Independante 0.1187

AF07 Retraite 0.0949

AF08 Chomeur 0.1187

AF09 Agriculteur 0.0741

COD_EXISTANCE_1

BF01 Autre 0.1528

BF02 Casque 0.2083

BF03 Ceinture 0.2083

BF04 Dispositif enfant 0.1111

BF05 Equipement Reflechissant 0.1111

BF06 Non renseigné 0.2083

COD_SEXE_1

BG01 Féminin 0.5000

BG02 Masculin 0.5000

Page 30: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 30/47 DESS 220 - Informatique de Gestion

4.3.2 Mise en œuvre de la méthode STAT

Les graphiques peuvent être modifiés et personnalisés (figures, formes,

couleurs, texte, commentaires …) par l’utilisateur, ils peuvent également être copiés et

sauvegardés.

4.3.2.1 Fréquences relatives pour des variables multimodales

Avec cette méthode, il est possible de calculer la fréquence relative de chaque

modalité de la variable multimodale en tenant compte des règles contenues dans le

fichier SODAS.

Le graphique obtenu peut être présenté soit sous forme d’histogramme soit

sous forme de camembert.

Page 31: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 31/47 DESS 220 - Informatique de Gestion

4.3.2.2 Fréquences relatives pour des variables intervalles

Soit X une variable intervalle donnée en paramètre ;

Soit k un nombre des classes donné en paramètre ;

La méthode construit alors un histogramme pour la variable X sur un intervalle

[a,b] (où a correspond à la borne inférieure de X et b à la borne supérieure de X) de la

manière suivante :

- l’intervalle [a,b] est découpé en k classes de longueurs identiques ;

- le calcul de la fréquence relative associée à la classe Ck tient compte du

« recouvrement » de la classe Ck par les valeurs intervalle de X sur chaque

objet symbolique.

Page 32: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 32/47 DESS 220 - Informatique de Gestion

4.3.2.3 Capacités et min/max/mean pour des variables multimodales

probabilistes

Cette méthode construit d’une part un histogramme des capacités des

différentes modalités prises par une variable donnée et d’autre part un histogramme

présentant la probabilité minimum, la probabilité maximale et la probabilité moyenne

prise par chaque modalité.

Page 33: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 33/47 DESS 220 - Informatique de Gestion

4.3.2.4 Biplot avec des variables intervalle

Le graphique résultat de cette méthode représente un objet symbolique par un

rectangle dans un plan où les deux axes sont deux variables sélectionnées par

l’utilisateur.

Chaque côté du rectangle correspond à la plage intervalle prise par l’objet

symbolique pour la variable axe correspondante.

Page 34: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 34/47 DESS 220 - Informatique de Gestion

4.4 LA METHODE DIV : DIVISIVE CLUSTERING ON SYMBOLIC OBJECTS

4.4.1 Présentation de la méthode DIV

DIV est une méthode de classification hiérarchique qui part de tous les objets

symboliques réunis dans une seule classe et procède ensuite par divisions successives

de chaque classe.

A chaque étape, une classe est divisée en deux classes suivant une question

binaire, ceci permet d’obtenir le meilleur partitionnement en deux classes,

conformément à l’extension du critère d’inertie.

L’algorithme s’arrête après avoir effectuer k-1 divisions, k étant le nombre de

classes donné en entrée à la méthode par l’utilisateur.

Il ne s’agit pas du seul paramètre à saisir en entrée de la méthode. L’utilisateur

doit également choisir les variables qui seront utilisées pour calculer la matrice de

dissimilarité, l’extension du critère d’inertie et pour définir l’ensemble, des questions

binaires utiles pour effectuer le découpage.

Au moment de choisir les variables, il faut être attentif à deux choses

principales :

- le domaine de définition des variables doit être ordonné, en effet dans le cas

contraire, les résultats obtenus seront totalement faux ;

- il n’est pas possible de mélanger des variables dont le domaine de définition

est continu avec des variables dont le domaine de définition est discret. Dans la

fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS,

l’utilisateur doit choisir entre des variables qualitatives et des variables

continues.

Trois paramètres doivent également être définis :

- la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être

normalisée en choisissant l’inverse de la dispersion ou bien l’inverse du

maximum de la déviation. La dispersion des variables est ici une extension aux

objets symboliques de la notion de variance ;

- le nombre k de classes de la dernière partition. La division s’arrêtera après k-1

itérations et la méthode DIV calculera des partitions de la classe 2 à la classe

k ;

- la méthode DIV offre également la possibilité de créer un fichier partition, il

s’agit d’un fichier teste contenant une matrice (aij) dans laquelle, chaque ligne i

appartenant à l’intervalle [1,n] correspond à un objet et chaque rangée j

appartenant à l’intervalle [2,k-1] correspond à une partition en j classes. Ainsi,

(aij) signifie que l’objet j appartient à la classe k, dans la partition en j classes.

Une fois ces différents paramètres définis, il est possible d’exécuter la méthode

DIV. Le listing disponible en sortie contient les informations suivantes :

- une liste de la « variance » des variables sélectionnées, à condition que ces

variables soient continues ;

- pour chaque partition de 2 à k classes, une liste des objets contenus dans

chaque classe ainsi que l’inertie expliquée relative à la partition ;

- l’arbre de classification.

Page 35: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 35/47 DESS 220 - Informatique de Gestion

4.4.2 Mise en œuvre de la méthode DIV

4.4.2.1 La méthode DIV appliquée aux variables qualitatives

-------------------------------------------------------

BASE=C:\SODAS\Tmp\BJVFB001.CMD nind=6 nvar=33 nvarsel=2

METHOD=DIVISIVE CLUSTERING

-------------------------------------------------------

THE SELECTED VARIABLES ARE : (Verify the order of the modality)

--------------------------

( 5) :COD_SOCIO_PROF (Initial order)

1- Cadre Moyen, Employe

2- Ouvrier

3- Autre

4- Conducteur Professionnel

5- Cadre Superieur, Profession Liberale, ChCOD_SOCIO_PROF

6- Artisan, Commercant, Profession IndependCOD_SOCIO_PROF

7- Retraite

8- Chomeur

9- Agriculteur

( 6) :COD_SEXE (Initial order)

1- Masculin

2- Féminin

PARTITION IN 2 CLUSTERS :

-------------------------:

Cluster 1 (n=5) :

"Autre" "Promenade - Loisirs" "Domicile - Travail" "Domicile - Ecole"

"Courses - Achats"

Cluster 2 (n=1) :

"Utilisation Professionnelle"

Explicated inertia : 52.978795

PARTITION IN 3 CLUSTERS :

-------------------------:

Cluster 1 (n=1) :

"Domicile - Travail"

Cluster 2 (n=1) :

"Utilisation Professionnelle"

Cluster 3 (n=4) :

"Autre" "Promenade - Loisirs" "Domicile - Ecole" "Courses - Achats"

Explicated inertia : 71.790741

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=1)

!

!----2- [COD_SOCIO_PROF <= Ouvrier]

! !

! +---- Classe 3 (Nd=4)

!

!----1- [COD_SOCIO_PROF <= Autre]

!

+---- Classe 2 (Nd=1)

Page 36: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 36/47 DESS 220 - Informatique de Gestion

4.4.2.2 La méthode DIV appliquée aux variables quantitatives

-------------------------------------------------------

BASE=C:\SODAS\Tmp\BJXS6901.CMD nind=6 nvar=33 nvarsel=2

METHOD=DIVISIVE CLUSTERING

-------------------------------------------------------

VARIANCE OF THE SELECTED VARIABLES :

------------------------------------

NBR_TUES : 1.472222

NBR_VL : 69.888889

-------------------------------------------------------

PARTITION IN 2 CLUSTERS :

-------------------------:

Cluster 1 (n=2) :

"Autre" "Domicile - Ecole"

Cluster 2 (n=4) :

"Promenade - Loisirs" "Utilisation Professionnelle" "Domicile - Travail"

"Courses - Achats"

Explicated inertia : 49.160092

PARTITION IN 3 CLUSTERS :

-------------------------:

Cluster 1 (n=2) :

"Autre" "Domicile - Ecole"

Cluster 2 (n=2) :

"Domicile - Travail" "Courses - Achats"

Cluster 3 (n=2) :

"Promenade - Loisirs" "Utilisation Professionnelle"

Explicated inertia : 84.537451

PARTITION IN 4 CLUSTERS :

-------------------------:

Cluster 1 (n=1) :

"Domicile - Ecole"

Cluster 2 (n=2) :

"Domicile - Travail" "Courses - Achats"

Cluster 3 (n=2) :

Page 37: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 37/47 DESS 220 - Informatique de Gestion

"Promenade - Loisirs" "Utilisation Professionnelle"

Cluster 4 (n=1) :

"Autre"

Explicated inertia : 96.096679

PARTITION IN 5 CLUSTERS :

-------------------------:

Cluster 1 (n=1) :

"Domicile - Ecole"

Cluster 2 (n=2) :

"Domicile - Travail" "Courses - Achats"

Cluster 3 (n=1) :

"Utilisation Professionnelle"

Cluster 4 (n=1) :

"Autre"

Cluster 5 (n=1) :

"Promenade - Loisirs"

Explicated inertia : 99.463434

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=1)

!

!----3- [NBR_TUES <= 1.500000]

! !

! +---- Classe 4 (Nd=1)

!

!----1- [NBR_VL <= 7.750000]

!

! +---- Classe 2 (Ng=2)

! !

!----2- [NBR_TUES <= 1.500000]

!

! +---- Classe 3 (Ng=1)

! !

!----4- [NBR_TUES <= 2.250000]

!

+---- Classe 5 (Nd=1)

Page 38: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 38/47 DESS 220 - Informatique de Gestion

4.5 LA METHODE DSD (DISCRIMINANT SYMBOLIC DESCRIPTION)

4.5.1 Présentation de la méthode DSD

La méthode DSD consiste à trouver des descriptions qui généralisent et

discriminent un ensemble de classes donné sur la base d’un ensemble d’observations.

Ces descriptions sont formalisées sous la forme d’objets symboliques

probabilistes.

A partir d’un seuil calculé en comparant l’extension des objets symboliques

avec les classes, la méthode DSD construit un ou plusieurs objets symboliques pour

chaque classe. Ces nouveaux objets créés peuvent éventuellement se superposer. Dans

le modèle symbolique, la description générale d’une classe correspond à une

disjonction d’objets symboliques.

« L’input » de la méthode DSD est une matrice de données classiques où toutes

les variables doivent être nominales.

Avant d’exécuter la méthode, l’utilisateur doit définir les variables qui seront

utilisées par DSD.

- une « variable partition » qui est appelée « Variable Class Identifier » : les

valeurs que prend cette variable correspondent aux classes à généraliser et à

discriminer ;

- des « variables de description » qui seront utilisées pour décrire chaque classe.

Trois paramètres doivent également être définis :

- Disc : il s’agit d’un pourcentage représenté par un entier (de 0 à 100). C’est un

ratio d’erreur des objets symboliques, dans la couverture des individus en

dehors de la classe.

Disc = 16 signifie que, pour chaque classe, l’union de l’extension des objets

symboliques couvre 16 % des individus non présents dans la classe.

- Ext : il s’agit également d’un pourcentage représenté par un entier (de 0 à 100).

C’est le seuil correspondant à la couverture de chaque classe par les objets

symboliques.

Par exemple, Ext = 80 signifie que, pour chaque classe, l’union de l’extension des

objets symboliques recouvre 80 % des individus de la classe.

- Idind : ce paramètre a la valeur « yes » si les individus, dans la matrice, sont

nommés, et non, dans le cas contraire.

4.5.2 Mise en œuvre de la méthode DSD

Sans objet.

Page 39: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 39/47 DESS 220 - Informatique de Gestion

4.6 LA MÉTHODE TREE (DECISION TREE)

4.6.1 Présentation de la méthode TREE

La méthode TREE propose un algorithme par agrandissement d’arbre. Il s’agit

d’une procédure récursive de partitionnement qui peut être vue comme une recherche

itérative d’un ensemble organisé d’objets symboliques qui correspond le mieux aux

données initiales.

A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure

donnée en paramètre.

4.6.2 Mise en œuvre de la méthode TREE

Les paramètres d’entrée de la méthode sont les suivants :

- Variable class identifier = COD_TRAJET_1

Rappel : ne disposant pas dans la base DEP780.mdb de données pouvant se

traduire en variable qualitative nominale simple, la variable COD_TRAJET_1 a été

créée « artificiellement » pour pouvoir exécuter cette méthode, elle ne s’appuie

toutefois sur aucun fondement empirique. Il s’agit uniquement d’une manipulation

technique.

- Predictor variable = CAT_VEH

- Number of terminal node = 2

La sortie obtenue avec au final l’arbre de décision est la suivante :

-------------------------------------------------------

BASE= C:\SODAS\BASES\DB2SO\DEP780.SDS

Number of OS = 6

Number of variables = 33

METHOD=SODAS_TREE Version 1.3 01:03:01 INRIA 1998

--------------------------------------------------------

Learning Set : 6

Number of variables : 1

Max. number of nodes: 3

Soft Assign : ( 1 ) FUZZY

Criterion coding : ( 3 ) LOG-LIKELIHOOD

Min. number of object by node : 5

Min. size of no-majority classes : 2

Min. size of descendant nodes : 1.00

Frequency of test set : 0.00

GROUP OF PREDICATE VARIABLES :

( 21 ) CAT_VEH 6 MODALITIES

Page 40: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 40/47 DESS 220 - Informatique de Gestion

CLASSIFICATION VARIABLE :

( 33 ) COD_TRAJET_1

NUMBER OF A PRIORI CLASSES : 6

ID_CLASS NAME_CLASS

1 Autre

2 Courses - Achats

3 Domicile - Ecole

4 Domicile - Travail

5 Promenade - Loisirs

6 Utilisation Professionnelle

LIST OF SYMBOLIC OBJECTS IN THE LEARNING SET :

"Autre"

"Promenade - Loisirs"

"Utilisation Professionnelle"

"Domicile - Travail"

"Domicile - Ecole"

"Courses - Achats"

… ==================================

| EDITION OF DECISION TREE |

==================================

PARAMETERS :

Learning Set : 6

Number of variables : 1

Max. number of nodes: 3

Soft Assign : ( 1 ) FUZZY

Criterion coding : ( 3 ) LOG-LIKELIHOOD

Min. number of object by node : 5

Min. size of no-majority classes : 2

Min. size of descendant nodes : 1.00

Frequency of test set : 0.00

+ --- IF ASSERTION IS TRUE (up)

!

--- x [ ASSERTION ]

!

+ --- IF ASSERTION IS FALSE (down)

+---- < 2 >Autre ( 0.84 0.81 0.73 0.80 0.81

0.62 )

!

!----1[ CAT_VEH = 100000 ]

!

+---- < 3 >Utilisation Professionnelle ( 0.16 0.19

0.27 0.20 0.19 0.38 )

Page 41: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 41/47 DESS 220 - Informatique de Gestion

4.7 LA METHODE PYR : PYRAMIDALE CLUSTERING ON SYMBOLIC

OBJECTS

4.7.1 Présentation de la méthode PYR

La méthode PYR est une classification pyramidale qui généralise la

hiérarchisation en autorisant les classes non disjointes à un niveau donné.

La pyramide constitue un modèle intermédiaire entre les arbres et les structures

en treillis. Cette méthode permet de classer des données plus complexes que ce

qu’autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises

par les variables. La pyramide est construite par un algorithme d’agglomération

opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont

agglomérées).

Dans une classification pyramidale, chaque classe formée est définie non

seulement par une extension (l’ensemble de ses éléments) mais aussi par un objet

symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée

d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage.

La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-

dire de concepts qui comblent un vide entre des classes bien identifiées.

En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront

utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs

réelles), des intervalles de valeurs réelles ou bien des histogrammes. L’utilisateur est

invité à choisir entre des variables qualitatives et continues mais il lui est également

possible de les mélanger.

4.7.2 Mise en œuvre de la méthode PYR

Les paramètres d’entrée saisis et les résultats obtenus sont les suivants :

Page 42: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 42/47 DESS 220 - Informatique de Gestion

DESCRIPTION-OF-THE-NODES

Where_the_labels_are_of_the_individuals_are:

1.="Autre"

2.="Promenade_-_Loisirs"

3.="Utilisation_Professionnelle"

4.="Domicile_-_Travail"

5.="Domicile_-_Ecole"

6.="Courses_-_Achats"

Where_the_labels_are_of_the_variables_are:

y5.=COD_SOCIO_PROF

y19.=NBR_BLLEG

Page 43: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 43/47 DESS 220 - Informatique de Gestion

DESCRIPTION-OF-THE-NODES

Where_the_labels_are_of_the_individuals_are:

1.="Autre"

2.="Promenade_-_Loisirs"

3.="Utilisation_Professionnelle"

4.="Domicile_-_Travail"

5.="Domicile_-_Ecole"

6.="Courses_-_Achats"

Where_the_labels_are_of_the_variables_are:

y11.=COD_GRAVITE

y15.=NBR_TC

y16.=NBR_PL

y17.=NBR_2roues

y18.=NBR_VL

Page 44: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 44/47 DESS 220 - Informatique de Gestion

4.8 LA METHODE PCM : PRINCIPAL COMPONENT ANALYSIS

4.8.1 Présentation de la méthode PCM

La méthode PCM correspond à l’analyse en composantes principales

classiques. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, la

méthode PCM propose une visualisation de chaque concept par des rectangles.

L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les

concepts présentant des caractéristiques voisines.

La méthode PCM est donc une méthode factorielle de réduction du nombre de

caractères permettant des représentations géométriques des individus et des variables.

La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en

combinant les variables initiales au moyen des « facteurs ».

Les éléments de la matrice de données sont des intervalles et chacun décrit la

variation de la variable observée (minimum et maximum). La méthode n’accepte que

les variables continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son

minimum.

L’exécution de la méthode donne deux résultats :

1 - Le listing qui contient :

- la description de la matrice de données par une table : chaque ligne correspond

à une classe ;

- les valeurs propres, le pourcentage d’inertie et les premières composantes

principales. Chaque classe est caractérisée d’abord par deux composantes

principales et visualisée dans un plan factoriel par un rectangle ;

- les corrélations entre chaque variable descriptive et les composantes

principales.

2 - Une représentation graphique.

4.8.2 Mise en œuvre de la méthode PCM

La méthode accepte seulement les variables continues en entrée :

L’analyse portera pour chacun des types de trajets :

- le nombre de tués ;

- le nombre des VL impliqués.

Le résultat obtenu est le suivant :

Matrix of input data:

NBR_TUES NBR_VL

"Autre" [0.00 , 4.00] [0.00 , 8.00]

"Promenade - Loisirs" [0.00 , 5.00] [0.00 , 26.00]

"Utilisation Professionnelle" [0.00 , 4.00] [0.00 , 23.00]

"Domicile - Travail" [0.00 , 2.00] [0.00 , 23.00]

"Domicile - Ecole" [0.00 , 2.00] [0.00 , 6.00]

Page 45: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 45/47 DESS 220 - Informatique de Gestion

"Courses - Achats" [0.00 , 2.00] [0.00 , 26.00]

Matrix Variance/Covariance :

NBR_TUES 3.2431 0.3889

NBR_VL 0.3889 122.0556

Correlations Matrix :

NBR_TUES 1.0000 0.0195

NBR_VL 0.0195 1.0000

Propers Values and inerty percentage:

NBR_TUES= 1.020 (50.98%) NBR_VL= 0.980 (49.02%)

Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 :

"Autre" [-1.22, 0.86] [-1.55, 0.54] [-1.55, 0.54] [-1.55, 0.54]

"Promenade - Loisirs" [-1.22, 2.41] [-1.94, 1.69] [-1.94, 1.69] [-1.94,

1.69]

"Utilisation Professionnelle" [-1.22, 1.82] [-1.55, 1.50] [-1.55, 1.50]

[-1.55, 1.50]

"Domicile - Travail" [-1.22, 1.04] [-0.76, 1.50] [-0.76, 1.50] [-0.76,

1.50]

"Domicile - Ecole" [-1.22, -0.05] [-0.76, 0.41] [-0.76, 0.41] [-0.76,

0.41]

"Courses - Achats" [-1.22, 1.23] [-0.76, 1.69] [-0.76, 1.69] [-0.76,

1.69]

Correlations Matrix, initiales Variables/principals components PC1...PC4

NBR_TUES 0.714 -0.700 -0.700 -0.700

NBR_VL 0.714 0.700 0.700 0.700

Page 46: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 46/47 DESS 220 - Informatique de Gestion

4.9 LA METHODE FDA : FACTORIAL DISCRIMINANT ANALYSIS

4.9.1 Présentation de la méthode FDA

La méthode FDA permet de mettre en évidence les liaisons qui existent entre

une variable à expliquer qualitative et un ensemble de variables explicatives

quantitatives, à l’aide d’un plan factoriel approprié.

L’objectif est de déterminer q classes se différenciant au mieux.

Comme pour la méthode PCM, un nouveau caractère, combinaison linéaire des

anciens caractères est déterminé. Cependant, il ne s’agit plus d’obtenir un caractère de

variance maximale mais un caractère séparant au mieux les groupes entre eux.

Il faut spécifier :

- une variable variable_class_identifier qui permettra d’identifier les différentes

classes. Celle-ci doit être nominale et non probabiliste ;

- une variable variable_set_identifier qui obligatoire pour pouvoir déterminer au

moins un axe d’analyse et qui doit être nominale et non probabiliste ;

- des variables variable_to_be_selected qui peuvent être nominales,

multinominales, probabilistes, modales ou bien d’intervalles ;

- le nombre d’axes factoriels d’analyse. Il en faut au moins deux.

4.9.2 Mise en œuvre de la méthode FDA

Ne disposant pas dans la base DEP780.mdb de variables nominales différentes,

cette méthode ne peut être exécutée ici, comme le mentionne le listing de sortie

suivant :

-- SODAS WP2.5 Version 2.0 --

FDA : Factorial Discriminant Analysis

D.M.S. University of Naples

SODAS file : c:\sodas\bases\db2so\dep780.sds

Command File : C:\SODAS\Tmp\BJ8ZBM01.CMD

Number of Symbolic Objects : 6

Number of Variables : 33

Starting Time : Sat Jun 07 17:13:08 2003

Parsing the PAD file : c:\sodas\tmp\bj8zbm01.pad

---------------------------------------------

Class ID variable used is n° 6

Set ID variable used is n° 33

Parameters :

NUMB = 1

AXES = 1

CLSM = 1

CLASSRULE = 0

NVARS = 4

SELECT = 15, 16, 17, 18

---------------------------------------------

ERROR . You must select a nominal variable as set identificator with only

two categories

Nota : la seule variable nominale simple (artificiellement constituée à partir

des données de DEP780.mdb est prise pour identifier la classe. Elle ne peut donc pas

être utilisée à nouveau comme set_identificator.

Page 47: DATAMINING Etude et analyse des usagers impliqués dans un

__________________________________________________________________________________________

CAUSSANEL Olivier 47/47 DESS 220 - Informatique de Gestion

5 CONCLUSION

Le choix d’appuyer cette étude du logiciel SODAS et des méthodes d’analyse

associées sur une base de données « réelles » a permis de tirer quelques enseignements

quant aux difficultés de mise en œuvre que cela engendre.

En effet dès lors que vous travaillez sur des données renseignées par des

utilisateurs physiques dans des applications dédiées, vous êtes confronté à des

« données incohérentes » imputables à des erreurs de manipulations ou à l’absence de

donnée (saisie partielle …).

Certes, ce point doit lorsque cela est possible, être traité en amont de l’analyse

c'est-à-dire au niveau des applications de saisie initiale qui nécessitent d’être le plus

sécurisées possible pour assurer la cohérence des données recueillies, mais force est de

constater qu’en l’absence d’un tel dispositif il est difficile voire impossible d’extraire

les données via DB2SO.

Si ces verrous garantissent sans aucun doute le format des données remontées

ils obligent à altérer l’intégrité des données recueillies (ou non, il s’agira alors

d’ajouter les données manquantes) pour en permettre l’exploitation ce qui en soit n’est

pas totalement satisfaisant.

Par ailleurs, en fonction du concept retenu, il arrive qu’aucune variable

nominale qualitative simple ne puisse être dégagée. Il n’est alors pas possible

d’exécuter certaines méthodes d’analyse (TREE, DSD, FDA …). Il faut donc se poser

la question d’intégrer ou non dans les bases de recueil des données des champs qui

favorisent le collationnement d’éléments assurant la construction de variables qui

permettent d’appliquer d’une manière exhaustive les méthodes d’analyses des objets

symboliques envisagés.

Au-delà de ces quelques difficultés techniques c’est au niveau même de la

définition des individus et des concepts que le risque d’écueil est important. En effet,

face la multitude et l’hétérogénéité des données recueillies, il est fort délicat d’arrêter

le périmètre de l’étude. Le risque est réel, soit de se disperser, soit au contraire de se

cantonner à un champ d’analyse trop restrictif. Le choix d’un seul concept est en ce

sens relativement frustrant car il ne permet pas forcément d’étendre l’analyse à tous

les axes envisageables.

Ces quelques nuances ne doivent toutefois pas faire oublié que ce logiciel

présente d’intéressantes capacités d’analyse et permet en particulier de produire des

résultats exploitables sous des formes variées (listing, graphes, …). Il nécessite une

phase d’appropriation, et ce n’est vraisemblablement qu’après une solide

expérimentation qu’il livre toute sa puissance d’analyse des données symboliques.