data mining - ceremadetouati/sodas/exemples/... · 2013. 4. 16. · les techniques statistiques du...

Master 2 Informatique Décisionnelle

Année universitaire 2006-2007

Data Mining

«Etude et analyse des caractéristiques

des bébés nés à terme »

Réalisé par : Hikmat AHMED

Eshana ISSIMDAR

Professeur : E.Diday Juin 2007

Université Paris IX DAUPHINE Projet : Data Mining - Sodas Juin 2007 Master M2 ID

2/38

Sommaire

Introduction ............................................................................................................... 4 1. Bibliographie...................................................................................................................... 5

1.1. Etat de l’art sur le Data Mining.................................................................................. 5 1.2. Les principaux logiciels du marché............................................................................ 7 1.3. Le logiciel Sodas ........................................................................................................ 7

1.3.1 Position du logiciel Sodas .................................................................................. 7 1.3.2 Description du logiciel Sodas............................................................................. 8

1.4. Vue d’ensemble du logiciel Sodas ............................................................................. 9 1.5. Description sommaire du mode opératoire .............................................................. 10

1.5.1 Présentation de l’interface du logiciel .............................................................. 10 1.5.2 Généralités sur la méthode d’utilisation du logiciel......................................... 10 1.5.3 Sélection d’une base d’étude............................................................................ 11 1.5.4 Choix des méthodes à appliquer....................................................................... 12

2. Problématique du projet ................................................................................................... 12 2.2. Présentation de l’étude ............................................................................................. 12

2.1.1. Contexte de l’étude et présentation des données.............................................. 12 2.3. Objectif poursuivi..................................................................................................... 13

3. Mise en œuvre de Sodas................................................................................................... 14 3.1. Mise en œuvre de DB2SO........................................................................................ 14

3.1.1. Généralités sur DB2SO .................................................................................... 14 3.1.2. Extraction des données de la base accouchement via DB2SO......................... 14

3.2. Méthode VIEW ........................................................................................................ 17 3.3.1. Présentation de la méthode VIEW ................................................................... 17 3.3.2. Mise en œuvre de la méthode VIEW ...............................................................18

3.3. Méthode STAT......................................................................................................... 19 3.4.1. Présentation de la méthode STAT.................................................................... 19 3.4.2. Mise en œuvre de la méthode STAT................................................................ 19

3.4. Méthode SCLUST.................................................................................................... 20 3.5.1. Présentation de la méthode SCLUST............................................................... 20 3.5.2. Mise en œuvre de la méthode SCLUST........................................................... 21

3.5. Méthode PCA........................................................................................................... 23 3.6.1. Présentation de la méthode PCA...................................................................... 23 3.6.2. Mise en œuvre de la méthode PCA.................................................................. 24

3.6. Méthode TREE......................................................................................................... 24 3.7.1. Présentation de la méthode TREE.................................................................... 24 3.7.2. Mise en œuvre de la méthode TREE................................................................ 25

3.7. Méthode DIV............................................................................................................ 25 3.8.1. Présentation de la méthode DIV....................................................................... 25 3.8.2. Mise en œuvre de la méthode DIV................................................................... 26

3.8. Méthode DISS.......................................................................................................... 26 3.9.1. Mise en œuvre de la méthode DISS................................................................. 26

3.9. Méthode MATCH .................................................................................................... 28


3/38

3.10.1. Mise en œuvre de la méthode MATCH ........................................................... 28 3.10. Méthode HIPYR................................................................................................... 29

3.11.1. Présentation de la méthode HIPYR.................................................................. 29 3.11.2. Mise en œuvre de la méthode HIPYR.............................................................. 29

3.11. Méthode DCLUST ............................................................................................... 31 3.12.1. Mise en œuvre de la méthode DCLUST .......................................................... 31

Conclusion ................................................................................................................ 37

Bibliographie ......................................................................................................... 38


4/38

Introduction

L’exploration de données, aussi connue sous les noms fouille de données, data mining

(forage de données) ou encore Extraction de Connaissances, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir.

Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à de la maintenance préventive, en passant par de la détection de fraudes ou encore de l'optimisation de sites web.

L’exploitation de nouvelles informations peut présenter un intérêt pour analyser et interpréter les comportements d’individus par exemple. Les résultats obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser dans des plans stratégiques ou politiques les axes d’effort à respecter.

Les techniques statistiques du data mining sont bien connues. Il s’agit notamment de la régression linéaire et logistique, de l’analyse multi variée, de l’analyse des composantes principales, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant.

L’analyse de données symboliques prend actuellement de plus en plus d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce logiciel qui va être utilisé dans le cadre de ce projet afin d’extraire les données concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer les méthodes d’analyse contenues dans SODAS. Ceci ayant pour objectif de fournir des résultats intéressants qui pourront être par la suite analysés.

Le logiciel Sodas, permettant de mettre en œuvre une belle palette de méthodes analytiques, n’est pas forcément dirigé vers un publique d’expert statisticien.

Dans un premier temps, nous ferons une présentation générale du Data Mining et du logiciel Sodas, puis nous ferons une description du contexte de l’étude, une présentation des données et définirons l’objectif que l’on souhaite atteindre. Nous mettrons en œuvre certaines méthodes proposées par le logiciel Sodas pour finir sur l’interprétation des résultats obtenus en appliquant ces méthodes sur la base de données choisie.


5/38

1. Bibliographie

1.1. Etat de l’art sur le Data Mining

Les progrès de la technologie informatique dans le recueil et le transport de données font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes (numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent très importante. Partout dans le monde, il se constitue ainsi de considérables gisements de connaissances. En particulier sur le réseau mondial Internet, des ensembles de données (sociales, économiques, commerciales, médicales, biologiques, industrielles…) qui étaient difficiles d'accès voire inaccessibles auparavant apparaissent désormais à la portée de tous.

Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables qu’à travers des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d’accès et d’utilisation.

Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Ces données sont dites « symboliques », car elles expriment la variation interne inéluctable des concepts et sont structurées.

Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire des connaissances d’interprétation aisée, devient d’une importance grandissante.

L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.

Par rapport aux approches classiques, l’analyse des données symboliques présente les caractéristiques et ouvertures suivantes :

Elle s’applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages qui sont développés ci-dessous :

� elle utilise des outils adaptés à la manipulation d’objets symboliques de généralisation et de spécialisation, d’ordre et de treillis, de calcul d’extension, d’intention et de mesures de ressemblances ou d’adéquation tenant compte des connaissances sous-jacentes basées sur les règles de taxonomies ;


6/38

� elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle-même exprimable sous forme d’objet symbolique) et pas seulement par un point ;

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

� ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravité ; � ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l’utilisation ; � en utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symboliques de second niveau peut s’appliquer ; � afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d’une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville ; � plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d’extraire d’abord des objets symboliques de chaque base puis d’étudier l’ensemble des objets symboliques ainsi obtenus ; � ils peuvent être facilement transformés sous forme de requête d’une Base de Données.

Ceci a au moins les deux conséquences suivantes :

• Ils peuvent donc propager les concepts qu’ils représentent d’une base à une autre (par exemple, d’un pays à l’autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d’enquête socio-démographiques).

• Alors qu’habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l’utilisateur, les objets symboliques formés à partir de la base par les outils de l’analyse des données symboliques permettent à l’inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l’utilisateur.


7/38

1.2. Les principaux logiciels du marché

Liste de logiciels d'exploration de données : � Alice (logiciel) � BayesiaLab � Clementine (logiciel) � EasyOlap � Kxen � Orange (logiciel) � R (logiciel) � SAS (logiciel) � SPAD (logiciel) � SPSS � Statistica � Tanagra (logiciel), un logiciel de Data Mining destiné à l'enseignement et à la recherche. � Weka (logiciel), un logiciel libre dédié au Data Mining. � Yale (logiciel) une centrale de data/text/music mining sous licence GPL conçue sur le modèle d'Eclipse

1.3. Le logiciel Sodas

1.3.1 Position du logiciel Sodas

Même s’il offre des richesses analytique d’un niveau équivalent, SODAS n’est pas un logiciel de statistiques classique dans la mesure où il manipule des données de type complexe et permet de les représenter graphiquement. De plus, il est destiné à des utilisateurs « métier », sans compétences statistiques ou informatiques, ce qui permet de se concentrer sur ce qui est recherché et non sur la manière d’y parvenir. Cependant, il ne se contente pas de données des méthodes trop simples et pré formatées : il laisse à l’utilisateur la possibilité de paramétrer chacune d’elles afin d’obtenir des résultats plus précis. En plus d’être libre, SODAS a le mérite d’être un logiciel polyvalent, permettant de faire aussi bien de l’analyse symbolique et statistique que de classer les données par hiérarchie ou encore par arbre de décision.


8/38

1.3.2 Description du logiciel Sodas

Le logiciel SODAS (Symbolic Official Data Analysis System) est un logiciel prototype public capable d’analyser des données symboliques. Il s’agit de l’outil de Data Mining que nous utiliserons dans notre étude. Il est téléchargeable à l’adresse suivante :

http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm. Il est issu d’un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l’analyse des données symboliques. L’idée générale de ce projet est de construire, à partir d'une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d’une analyse des données dans SODAS sont les suivantes :

� Partir d'une base de données relationnelle (ORACLE, ACCESS, ...) � Définir ensuite un contexte par :

• des unités statistiques de premier niveau (habitants, familles, entreprises, accidents, ...) • les variables qui les décrivent • des concepts (villes, groupes socio-économiques, scénario d'accident,...)

Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de données relationnelle. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l'utilisateur. On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer au sein du logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). Nous utiliserons dans ce projet la plupart des méthodes disponibles dans SODAS. Dans le cadre de notre étude, SODAS nous permettra d’extraire les données d’une base ACCESS.


9/38

1.4. Vue d’ensemble du logiciel Sodas


10/38

1.5. Description sommaire du mode opératoire

1.5.1 Présentation de l’interface du logiciel

La fenêtre principale de SODAS se compose de 3 éléments principaux :

1. La barre d’outils qui comporte 5 menus. 2. La fenêtre Methods de la fenêtre principale propose, par groupe de méthode, les

différentes méthodes disponibles. 3. La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes

appliquées à la base choisie.

1.5.2 Généralités sur la méthode d’utilisation du logiciel

Il est tout d’abord important de définir ce qu’est une filière dans le logiciel SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est possible de visionner dans la fenêtre Chaining. En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds) sur lequel les calculs vont être effectués. A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront sous forme d’icônes, à droite de chacune des méthodes.


11/38

1.5.3 Sélection d’une base d’étude

Pour qu’un fichier SODAS possède l’extension .sds qui permette de l’identifier comme une base support à l’application des méthodes, il faut se positionner sur un fichier que l’on a sauvegardé en .gaj et «l’exporter » : Sodas file/Import/Import with DB2SO File/Open (Rechercher le .gaj) File/Export Une fois cette opération effectuée, pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes :

� double-cliquer sur l’icône BASE ; � sélectionner le .sds qui nous intéresse ; � cliquer sur OK.

La filière a été modifiée, et maintenant il est possible de lire le nom de la base associée à la filière ainsi que son chemin d’accès sur le disque dur.


12/38

1.5.4 Choix des méthodes à appliquer

Il faut maintenant enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d’analyser les données de la base. Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues de la fenêtre Methods. Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser jusqu’à l’emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description sommaire. La couleur de l’icône de la méthode renseigne sur son état :

� Gris : la méthode n’est pas encore paramétrée ; � Rouge : la méthode est paramétrée.

Par défaut, les méthodes qui viennent d’être insérées sont grisées. Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthode. La couleur de cette boîte indique le statut de la méthode :

� Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée � Vert : la méthode est exécutable car elle est paramétrée � Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit l’exécution (menu Methods puis Desactive method).

Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe l’ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage des toutes les méthodes de la filière étant terminé, il est possible de l’exécuter. Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .fil). Une fois cette opération effectuée, la filière est exécutée en cliquant sur le sous-menu Run chaining du menu Chaining.

2. Problématique du projet

2.2. Présentation de l’étude

2.1.1. Contexte de l’étude et présentation des données

La base de données que nous avons choisi pour effectuer notre étude, est la base « accouchement.mdb ». Il s’agit d’une base de données relationnelle sous format Access qui est issue du site Internet suivant : http://www.uquebec.ca/reglog/don.htm.


13/38

Cette base de données décrit 1567 bébés nés à terme, en 1995, dans un hôpital. En plus du poids à la naissance et du sexe du bébé, elle contient des données relatives à certaines caractéristiques de la mère : son âge, sa parité, sa scolarité, sa taille, son poids pré-gravidique et le fait d’avoir fumé ou non pendant la grossesse. La base de données est constituée de 11 variables qui sont les suivantes :

� PDSE : poids du bébé à la naissance en grammes � AG : âge de la mère à l'accouchement � PARA : parité de la mère (0, 1, 2,...) � SCO : scolarité de la mère en années complétées � TAILLE : taille de la mère en centimètres � PDSM : poids pré-gravidique de la mère en kilogrammes � CIG : nombre de cigarettes fumées par jour pendant la grossesse � ALCOOL : consommation d'alcool : O (oui), N (non) � DROGUE : consommation de drogue: O (oui), N (non) � SEX : sexe du bébé � HR_TRAV : nombre d'heures travaillées hebdomadairement.

2.3. Objectif poursuivi

Nous voulons par cette étude analyser les caractéristiques des bébés nés à terme. Plus précisément, nous allons analyser les éléments qui contribuent au caractéristique du bébé.

Les individus retenus dans le cadre de cette étude sont les bébés nés à terme. Le nombre d’individus est de 1567. Les concepts sont les scolarités de la mère en années complétées. Nous avons 7 concepts. La requête suivante va nous permettre d’extraire les données nécessaires pour créer le contexte de notre étude :

Select * from accouchement Cette requête permet de renvoyer les individus de premier ordre pour une analyse général, c’est-à-dire les bébés nés à terme et la majorité des variables de description.


14/38

3. Mise en œuvre de Sodas

Après avoir définie le cadre d’étude, nous allons débuter l’analyse des données à l’aide du logiciel Sodas. Au préalable, nous effectuerons une description des différentes méthodes de SODAS qui vont être utilisés, ainsi que les étapes nécessaires à effectuer pour pouvoir les appliquer et obtenir ainsi des résultats que nous interpréterons par la suite.

3.1. Mise en œuvre de DB2SO

3.1.1. Généralités sur DB2SO

DB2SO est le module du logiciel SODAS qui permet de créer un ensemble de concepts à partir des données stockées dans la base de données relationnelle. Une série d’individus répartis entre plusieurs groupes est stockée dans la base. Alors DB2SO peut construire un concept pour chaque groupe d’individus. Des variables mère/filles et des taxonomies peuvent également être associées aux concepts ainsi obtenus.

3.1.2. Extraction des données de la base accouchement via DB2SO

Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer les données de la base accouchement, il faut sélectionner la commande Import with DB2SO dans le sous menu Import du menu Sodas file.

Un écran d’importation apparaît dans lequel il faut sélectionner le menu File puis New.


15/38

Un autre écran nous invite à sélectionner une source de données machine. Dans notre projet, il s’agit de l’étude d’une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l’accès de DB2SO à la base de données relationnelles. SODAS ne propose aucun menu de connexion à la base de données car l’utilisateur est automatiquement invité à s’y connecter quand cela est nécessaire, c’est-à-dire lorsqu’il souhaite exécuter une requête. A tout moment, l’utilisateur peut décider de changer de base de données en choisissant le menu File\Disconnect de l’écran ci-dessus. Il sera alors invité à spécifier une nouvelle base de données. On clique sur Source de données machine, on sélectionne MS ACCESS Database et on clique sur OK.

Après avoir choisi le bon driver, il faut indiquer le fichier .mdb que l’on va sélectionner. La fenêtre « Sélectionner la base de données » s’affiche. On va sélectionner la base de données Access accouchement.mdb et on clique sur OK une fois qu’on la trouver. Lorsque ces étapes préliminaires sont exécutées, il est nécessaire de procéder à l’extraction des individus. Pour ce faire, il faut taper une requête SQL dans la fenêtre « Extraction of individuals » qui se présente alors. On clique sur « Write Query », puis on tape la requête SQL qui va nous permettre d’extraire les données nécessaires et enfin on clique sur OK.


16/38

Cette requête est de la forme : Elle renvoie une table du type : individus / concepts / description des individus. Soit le résultat suivant : 1ère colonne = individus ; 2ième colonne = concepts ; 3ième colonne et suivantes = descriptions des individus. La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une structure précisée infra : identifiant de l’individu, groupe auquel appartient l’individu et ensuite les différents attributs décrivant les individus. Le nombre de ces attributs est variable mais un minimum d’un attribut est requis. Une fois la requête SQL tapée et validée, elle s’exécute dans la base de données, les individus sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau de concepts est généré. A l’issue de l’extraction des individus, il est possible de visualiser les résultats, à savoir les tableaux des individus et des concepts en sélectionnant le menu View et en choisissant Individuals ou bien Assertions selon ce que l’on souhaite visualiser. Impression écran à mettre. A ce stade, le résultat obtenu peut être sauvegarder en choisissant File\Save as, on donne un nom .gaj, puis on fait Enregistrer. Le fichier est alors enregistré avec l’extension .gaj. Cette opération permet à l’utilisateur de retrouver son travail dans l’état actuel s’il souhaite s’arrêter et continuer plus tard. Il lui suffira alors de cliquer sur File\Open et de sélectionner le fichier voulu. Les fichiers SODAS, utilisés en entrée des méthodes de SODAS, sont des fichiers avec l’extension .sds. Pour créer de tels fichiers, il faut utiliser le menu File\Export. Il est alors demandé de saisir un titre et un sous-titre afin de commenter le contenu de notre fichier. Puis on clique sur OK. Le menu suivant File\Export and view crée également le fichier .sds, comme précédemment, mais il permet aussi de visualiser le fichier généré dans un éditeur de texte. Une fois que nous avons effectué toutes ces manipulations dans le module DB2SO, un résumer de toutes les opérations apparaît dans l’écran principal : Ensuite, on fait File\Exit et on clique sur Oui pour sauvegarder. Applications des méthodes :


17/38

On sélectionne le menu Chaining\Select base, pour recherche le fichier .sds que l’on vient de créer. Une fois qu’on la trouver, on clique sur OK. On double clique sur l’icône Base pour vérifier si c’est la bonne base de données et on clique sur OK. Ensuite, dans le menu Method\Insert method, on sélectionne une méthode parmi celles à gauche et on la fait glisser sur la case vide. On double clique sur la méthode, on sélectionne les variables et les objets symboliques, puis on clique sur OK. On sélectionne Save chaining as dans le menu Chaining pour enregistrer le fichier dont l’extension sera .FIL. Puis, on sélectionne Run Method dans le menu Chaining afin d’exécuter la méthode. On choisit un titre et on clique sur OK. On peut maintenant accéder au résultat numérique et visualiser la représentation graphique de la méthode.

3.2. Méthode VIEW

3.3.1. Présentation de la méthode VIEW

La méthode View permet à un utilisateur de visionner facilement dans un tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d’opérer quelques changements sur ces données (par exemple la modification des libellés des objets, des modalités, des variables …) Cette méthode fournit également la possibilité de visualiser des représentations graphiques en deux dimensions ou en trois dimensions, ainsi qu’une représentation SOL (Symbolic Object Language) de chaque objet symbolique. Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins 3) que nous souhaitons voir représentés à l’écran. L’éditeur fournit également la possibilité de visionner les objets symboliques sous une représentation graphique : l’étoile zoom. L’étoile zoom représente un objet symbolique. Cette représentation graphique en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable. Le but de cette représentation est de fournir une image synthétique de l’objet, un profil, et de comparer des profils entre eux. L’étoile zoom a la particularité de proposer différents types de détails de manière interactive, et ce, notamment grâce à une représentation en deux dimensions ou en trois dimensions.

Suivant notre choix (bouton ou ), nous voyons apparaître à l’écran une étoile zoom, en 2 ou 3 dimensions. Nous pouvons noter que les variables quantitatives sont représentées par des intervalles et que les variables qualitatives sont représentées par des histogrammes.

Le bouton SOL ( ), lui, renvoie une description SOL des objets symboliques sélectionnés dans le tableau.


18/38

Notons que, toutes les étoiles zoom de tous les objets symboliques générés ne seront pas présentées. L’objectif est ici de montrer l’intérêt, la puissance et l’apport de SOE et des objets symboliques et non pas d’être exhaustif dans les connaissances qui pourraient être tirées de la base accouchement.mdb.

3.3.2. Mise en œuvre de la méthode VIEW

La méthode VIEW permet donc d’obtenir des éléments de statistiques descriptives concernant la base.

Ventilation des concepts par variable (qualitative et quantitative) méthode VIEW Interprétation : Ici on peut voir par exemple que les individus appartenant au concept 1 (niveau d’étude 1) fument de 0 à 15 cigarettes par jour tandis que les individus du niveau d’étude 3 fument jusqu’à 50 cigarettes par jour.

Superposition des concepts


19/38

Interprétation : Cette représentation permet de comparer les concepts suivant toute les variables. On peut voir par exemple ici que les femmes du niveau scolaire 5 fument beaucoup moins, ont un poids inférieur et qu’elles présentent un nombre de grossesse à terme moins élevé que celles ayant un niveau scolaire de 3. On peut par ailleurs noter que les femmes présentant le nombre de grossesses à terme le plus élevé sont aussi celles ayant le niveau scolaire le plus bas. La représentation ci-dessus décrit les femmes ayant un niveau d’étude égal à deux.

3.3. Méthode STAT

3.4.1. Présentation de la méthode STAT

STAT permet d’appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des données symboliques représentées par leurs descriptions. Ces méthodes dépendent du type des variables présentes dans la base SODAS.

1. Les fréquences relatives pour les variables multimodales ; 2. Les fréquences relatives pour les variables intervalles ; 3. Les capacités et min/max/mean pour les variables multimodales probabilistes ; 4. Biplot pour les variables intervalles.

Le format de sortie est, selon le choix de l’utilisateur, un listing ou bien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires…) par l’utilisateur, ils peuvent également être copiés et sauvegardés.

3.4.2. Mise en œuvre de la méthode STAT

La méthode stat permet d’obtenir des éléments de statistiques descriptives sur les données.


20/38

Application de la méthode STAT aux variables quantitatives Ici nous avons choisi de diviser les individus en quatre classes. La méthode STAT calcul la fréquences des individus pour chaque classe de variable. On peut voir que un peut moins de la moitié des femmes enceintes fument plus de dix cigarettes par jour. Par ailleurs la majorité des bébés (43%) ont un poids compris entre 2,80kg et 3,6kg à la naissance et 16% d’entre eux ont un poids inférieur à 2,80kg.

Exemple d’application de la méthode STAT sur des variables qualitatives Ici la méthode STAT appliquée à la variable modale CONSOMMATION_ALCOOL (deux modalités ‘OUI’, ‘NON’).

3.4. Méthode SCLUST

3.5.1. Présentation de la méthode SCLUST

La méthode SCLUST permet de former des classes d’individus dont les caractéristiques sont proches. Le nombre de classes doit être fixé par l’utilisateur au préalable.


21/38

3.5.2. Mise en œuvre de la méthode SCLUST

Ici nous avons fixé un nombre de classes égal à 4. Ce chiffre a été obtenu après plusieurs essais avec différents nombre de classes, nous avons arrêté notre choix sur le nombre permettant d’obtenir des classes les plus différentiables possible. Ci dessous une description de deux d’entre elles.


22/38

Ici ce qui différencie le plus les deux classes ci-dessus c’est le nombre de grossesses à terme

qui peut s’expliquer par la différence d’age entre les deux.

La représentation ci dessus permet d’avoir une représentation superposée des différentes classes obtenues et ainsi de mieux les comparer.


23/38

3.5. Méthode PCA

3.6.1. Présentation de la méthode PCA

La méthode PCA correspond à l’analyse en composantes principales classiques. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, la méthode PCA propose une visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La méthode PCA est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n’accepte que les variables continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son minimum. L’exécution de la méthode donne deux résultats : 1. Le listing qui contient :

� la description de la matrice de données par une table : chaque ligne correspond à une classe ;

� les valeurs propres, le pourcentage d’inertie et les premières composantes principales. Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle ;

� les corrélations entre chaque variable descriptive et les composantes principales.

2. Une représentation graphique des objets symboliques.


24/38

3.6.2. Mise en œuvre de la méthode PCA

3.6. Méthode TREE

3.7.1. Présentation de la méthode TREE

La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à des données imprécises décrites par des concepts probabilistes. La procédure récursive de partitionnement peut être vue comme une recherche itérative d’un ensemble organisé d’objets symboliques, répondant au mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner de nouveaux objets à une classe. Avant d’exécuter la méthode, l’utilisateur doit choisir l’ensemble des variables prédictives parmi :

� un ensemble de variables quantitatives ou de variables intervalles � un ensemble de variables qualitatives, multi valuées ou modales

Ensuite, nous obtenons en sortie un listing contenant les informations suivantes :

� la liste des variables utilisées � la liste des objets symboliques appartenant à un « training set » � la liste des objets symboliques appartenant à un « test set» � la liste des nœuds ; chaque nœud étant décrit par une règle � la liste des nœuds terminaux


25/38

3.7.2. Mise en œuvre de la méthode TREE

L’exécution de la méthode TREE a échoué du fait de notre base de données. En effet pour l’exécuter il faut au préalable avoir ajouter une variable à expliquer avec un addsingle or notre base de données limitée ne nous permet pas.

3.7. Méthode DIV

3.8.1. Présentation de la méthode DIV

DIV (Divisive Clustering on Symbolic Objects) est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire, ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à l’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 divisions, k étant le nombre de classes donné en entrée à la méthode par l’utilisateur. Il ne s’agit pas du seul paramètre à saisir en entrée de la méthode. L’utilisateur doit également choisir les variables qui seront utilisées pour calculer la matrice de dissimilarité, l’extension du critère d’inertie et pour définir l’ensemble, des questions binaires utiles pour effectuer le découpage. Au moment de choisir les variables, il faut être attentif à deux choses principales :

� le domaine de définition des variables doit être ordonné, en effet dans le cas contraire, les résultats obtenus seront totalement faux ;

� il n’est pas possible de mélanger des variables dont le domaine de définition est

continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l’utilisateur doit choisir entre des variables qualitatives et des variables continues.

Trois paramètres doivent également être définis :

� la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. La dispersion des variables est ici une extension aux objets symboliques de la notion de variance ;

� le nombre k de classes de la dernière partition. La division s’arrêtera après k-1

itérations et la méthode DIV calculera des partitions de la classe 2 à la classe k ; � la méthode DIV offre également la possibilité de créer un fichier partition, il s’agit

d’un fichier teste contenant une matrice (aij) dans laquelle, chaque ligne i appartenant à l’intervalle [1,n] correspond à un objet et chaque rangée j appartenant à l’intervalle [2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie que l’objet j appartient à la classe k, dans la partition en j classes.

Une fois ces différents paramètres définis, il est possible d’exécuter la méthode DIV. Le listing disponible en sortie contient les informations suivantes :


26/38

� une liste de la « variance » des variables sélectionnées, à condition que ces variables soient continues ;

� pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l’inertie expliquée relative à la partition ;

� l’arbre de classification.

3.8.2. Mise en œuvre de la méthode DIV

L’application de la méthode DIV permet d’obtenir un arbre à deux branches. A la racine tous les concepts sont présents. Un premier découpage permet de séparer les femmes fumant plus de 8.75 cigarettes par jours de celles en fumant moins. La deuxième séparation repose sur le nombre de grossesses à terme. Ici ce nombre s’élève à 2. L’exécution de la méthode DIV permet donc ici de distinguer trois groupes principaux d’individus :

• Les femmes du niveau d’étude 1 et 6 fumant moins de 8.75 cigarettes par jour pendant leur grossesse.

• Les femmes du niveau d’étude 5 ou ‘inconnu’ ayant fumé plus de 8.75 cigarettes par jour durant leur grossesse et ayant un nombre de grossesses à terme inférieur à 2.

• Les femmes de niveau d’étude 2, 3 ou 4 ayant fumé plus de 8.75 cigarettes par jour durant leur grossesse et présentant un nombre de grossesses à terme supérieur à 2.

3.8. Méthode DISS

3.9.1. Mise en œuvre de la méthode DISS


27/38

La méthode DISS permet d’obtenir la matrice de dissimilarité ente les concept. Dans la représentation graphique ci dessus, on voit que les concepts 1 et 6 sont très différents et qu’à l’inverse les concepts 2 et 3 (niveau d’étude 2 et3) sont assez similaires.


28/38

3.9. Méthode MATCH

3.10.1. Mise en œuvre de la méthode MATCH

Page 1 ASSO 06 /13/07 Asso The Statistical Package for Symbolic Data A nalysis Version 2.2.3 - 2 January 2004 *********** C A N O N I C A L A N D P R O B A B I L I S T I C F L E X I B L E M A T C H I N G ********** Data Information: Input Sodas File: E:\Eshana\Mes Documents\M2_ID\D atamining\Projet\Fichier Sodas\Fichiers sds\accouchement.sds 7 Mixed Boolean and Probabilistic SOs read. 10 Mixed Variables selected for each SO: 1 -- 1 0 Selected Comparison Function for PSOs: Matching Matrix Mixed SO AA00 AA01 AA02 AA03 AA00 1.0000 0.3589 0.4010 0.0000 AA01 0.0000 1.0000 0.0000 0.0000 AA02 0.0000 0.0000 1.0000 0.0000 AA03 0.0000 0.0000 0.3214 1.0000 AA04 0.0000 0.3050 0.3408 0.0000 ------------------------------------------------- ------------------------ Page 2 ASSO 06/1 3/07 Mixed SO AA00 AA01 AA02 AA03 AA05 0.0000 0.2644 0.2684 0.2953 AA06 0.0000 0.3113 0.3478 0.0000 Mixed SO AA04 AA05 AA06 AA04 1.0000 0.0000 0.0000 AA05 0.0000 1.0000 0.0000 AA06 0.0000 0.0000 1.0000 This procedure was completed at 00:17:02


29/38

3.10. Méthode HIPYR

3.11.1. Présentation de la méthode HIPYR

La méthode HIPYR est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d’agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage. La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L’utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger.

3.11.2. Mise en œuvre de la méthode HIPYR


30/38

L’application de la méthode HIPYR en utilisant les résultats de l’application de la méthode DISS donne une pyramide construite en utilisant la matrice de dis similarité résultat de DISS. La fonction d’agrégation est le maximum. Les résultats ci dessus permettent de mettre en évidence la composition des classes :

• La classe 14 regroupent les femmes de niveau scolaire 5,1 et 6. • La classe 8 celles de niveau scolaire 0 et 2(inconnu) et 4.


31/38

3.11. Méthode DCLUST

3.12.1. Mise en œuvre de la méthode DCLUST

--------------------------------------------------- ---- BASE= C:\Documents and Settings\hiki\Mes documents\Datamining\projetaccouchement\diss.sds Number of OS = 7 Number of variables = 10 METHOD DCLUST Version 1.3 UFPE 2003 --------------------------------------------------- ----- ------------------------------ ------------------------------------------------- ------- Base File : C:\Documents and Setti ngs\hiki\Mes documents\Datamining\projetaccouchement\diss.sds Log File : C:\Documents and Setti ngs\hiki\Mes documents\Datamining\projetaccouchement\FKRV7706.LO G Baseout Cluster : Baseout Prototype : ------------------------------------------------- ------- ------------------------------------------------- ------- ------------------------------------------------- ------- Number of SO : 7 Learning Set : 7 Number of variables : 10 Number of iterations : 20 Number of classes : 4 Initialisation : 0 random prototype Number of runs : 10 Initial Criterion : 46.851749 LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 1 2 3 4 5 6 0 RUN NUMBER : 1 ================== Iteration Permutation Criterion 1 7 69.682409 2 0 69.682409


32/38

RUN NUMBER : 2 ================== Iteration Permutation Criterion 1 7 40.279360 2 1 36.489880 3 0 36.489880 RUN NUMBER : 3 ================== Iteration Permutation Criterion 1 7 89.050478 2 0 89.050478 RUN NUMBER : 4 ================== Iteration Permutation Criterion 1 7 75.844390 2 1 55.484780 3 0 55.484780 RUN NUMBER : 5 ================== Iteration Permutation Criterion 1 7 40.478320 2 0 40.478320 RUN NUMBER : 6 ================== Iteration Permutation Criterion 1 7 70.788101 2 2 36.489880 3 0 36.489880 RUN NUMBER : 7 ================== Iteration Permutation Criterion 1 7 69.682409 2 0 69.682409 RUN NUMBER : 8 ================== Iteration Permutation Criterion 1 7 89.050478 2 0 89.050478 RUN NUMBER : 9


33/38

================== Iteration Permutation Criterion 1 7 45.365690 2 2 36.489880 3 0 36.489880 RUN NUMBER : 10 ================== Iteration Permutation Criterion 1 7 40.323000 2 0 40.323000 OPTIMAL SOLUTION ================ RUN NUMBER : 2 CRITERION : 13.115910 EDITION PARTITION SELECTED ========================== Classe : 1 Size : 1 Weight : 1.00 Criterion : 0 .000000 (0.00%) ( 6) 6 [1.0] Classe : 2 Size : 2 Weight : 2.00 Criterion : 2 .857850 (21.79%) ( 2) 2 [0.0] ( 3) 3 [2.0] Classe : 3 Size : 1 Weight : 1.00 Criterion : 0 .000000 (0.00%) ( 1) 1 [1.0] Classe : 4 Size : 3 Weight : 3.00 Criterion : 1 0.258060 (78.21%) ( 4) 4 [0.0] ( 5) 5 [1.5] ( 7) 0 [1.5] PARTITION DESCRIPTION ===================== INITIAL CRITERION : 46.851749 FINAL CRITERION : 13.115910 Percentage of the explained criterion : 72.01 CLUSTER DESCRIPTION =================== Cluster Size(Nk) 1 1 2 2 3 1 4 3


34/38

EDITION PROTOTYPES BY VARIABLES =============================== Variable ( 1 ) nb_cig Cluster Minimum Maximum 1 0.000000 0.000000 2 0.000000 25.000000 3 0.000000 15.000000 4 0.000000 40.000000 Variable ( 2 ) nb_heure_travail Cluster Minimum Maximum 1 55.000000 98.000000 2 2.000000 98.000000 3 2.000000 98.000000 4 2.000000 98.000000 Variable ( 3 ) poids_mere Cluster Minimum Maximum 1 51.000000 87.000000 2 39.900002 125.000000 3 41.500000 98.900002 4 38.599998 106.099998 Variable ( 4 ) poids_bebe Cluster Minimum Maximum 1 2702.000000 3580.000000 2 2150.000000 5000.000000 3 3210.000000 3780.000000 4 2310.000000 4852.000000 Variable ( 5 ) taille_mere_cm Cluster Minimum Maximum 1 158.000000 172.699997 2 137.899994 180.300003 3 149.899994 168.000000 4 152.000000 180.300003 Variable ( 6 ) nb_gsssse_a_terme Cluster Minimum Maximum 1 0.000000 2.000000 2 0.000000 12.000000 3 0.000000 2.000000 4 0.000000 5.000000 Variable ( 7 ) age_mere Cluster Minimum Maximum


35/38

1 30.000000 39.000000 2 16.000000 45.000000 3 18.000000 29.000000 4 21.000000 40.000000 Variable ( 8 ) consommation_alcool Cluster Values 1 N [0.600] O [0.400] 2 N [0.851] O [0.149] 3 N [1.000] O [0.000] 4 N [0.898] O [0.102] Variable ( 9 ) consommation_drogue Cluster Values 1 N [1.000] O [0.000] 2 N [0.968] O [0.032] 3 N [1.000] O [0.000] 4 N [0.994] O [0.006] Variable ( 10 ) sexe_bebe Cluster Values 1 Fille [0.400] Garçon [0.600] 2 Fille [0.498] Garçon [0.502] 3 Fille [0.750] Garçon [0.250] 4 Fille [0.483] Garçon [0.517] CRITERION ========= Run Iteration Class Criterion 1 2 4 24.085520 2 3 4 13.115910 3 2 4 20.120280 4 3 4 22.613360 5 2 4 20.239160 6 3 4 13.115910 7 2 4 24.085520 8 2 4 20.120280 9 3 4 13.115910 10 2 4 20.161500


36/38

Statistics on criterion distribution : Minimum 13.115910 Means 19.077335 Maximum 24.085520 Standard deviation 4.396764


37/38

Conclusion

La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des connaissances d’une base de données relationnelles et de faire une étude sur les caractéristiques des bébés nés à terme.

Grâce à la grande flexibilité de ce logiciel associée à la puissance de ses diverses

représentations graphiques, nous avons pu mettre en évidence des résultats pertinents à partir desquels nous avons pu faire des interprétations. Cependant nous n’avons pu exploiter de façon optimale les capacités et les possibilités offertes par le logiciel SODAS du fait de la mauvaise qualité de notre base de données.


38/38

Bibliographie Les références utilisées sont les suivantes :

� Le site du logiciel Sodas : http://www.ceremade.dauphine.fr/%7Etouati/sodas-pagegarde.htm

� Le site fournisseur des données utilisées : http://www.uquebec.ca/reglog/don.htm