projet de datamining

30
Antonio Rodrigues (DESS SITN) Projet de Datamining : Etude d’une base de données sur les plantes d’eau douce Février 2004 A l’attention de Mr Diday

Upload: others

Post on 18-Jun-2022

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Projet de Datamining

Antonio Rodrigues (DESS SITN)

Projet de Datamining : Etude d’une base de données sur les plantes d’eau douce

Février 2004 A l’attention de Mr Diday

Page 2: Projet de Datamining

2

Antonio Rodrigues (DESS SITN)

Projet de Datamining

SOMMAIRE

I. INTRODUCTION 3

II. PRESENTATION GENERALE 4

II.1. LE DATAMINING 4 II.1.1. PRESENTATION 4 II.1.2. PRINCIPALES APPLICATIONS 4 II.1.3. ETAT DE L’ART DU MARCHE 5 II.2. LE LOGICIEL SODAS 7 II.2.1. PRESENTATION GENERALE 7 II.2.2. INTERFACE DU LOGICIEL 8

III. APPLICATION 10

III.1. CHOIX DE LA BASE DE DONNEE 10 III.2. DETAILS SUR LA BASE 10 III.2.1. LES INDIVIDUS, CONCEPTS ET VARIABLES 10 III.2.2. LES REQUETES 12 III.3. DB2SO 12 III.3.1. PRESENTATION 12 III.3.2. APPLICATION 13 III.4. APPLICATION DES METHODES 15 III.4.1. SOE 15 III.4.1.a. Présentation 15 III.4.1.b. Application 15 III.4.2. STAT 19 III.4.2.a. Présentation 19 III.4.2.b. Application 19 III.4.3. DIV 23 III.4.3.a. Présentation 23 III.4.3.b. Application 23 III.4.4. TREE 26 III.4.4.a. Présentation 26 III.4.4.b. Application 26 III.4.5. PCM 27 III.4.5.a. Présentation 27 III.4.5.b. Application 27

IV. CONCLUSION 29

V. BIBLIOGRAPHIE 30

Page 3: Projet de Datamining

3

Antonio Rodrigues (DESS SITN)

Projet de Datamining

I. Introduction Si la rapidité de traitement de l’information, assuré par les technologies nouvelles, est un critère essentiel pour une entreprise, la prise de décisions efficaces n’en est pas moins. En effet, les entreprises étant en perpétuel concurrence, il devient nécessaire d’extraire et d’analyser les bons indicateurs afin d’adopter les bonnes décisions. Les entreprises s’intéressent de plus en plus au datamining, probablement à cause des promesses de rentabilité immédiate que vantent les fournisseurs de technologies et dont les médias se font l’écho. Une étude récente du cabinet IDC, spécialisé dans les études quantitatives des marchés de technologies, souligne que plus de la moitié des entreprises américaines ont ou vont acheter un outil de datamining. Les différentes études de marché estiment que la taille du marché du datamining était d’environ 300 millions de francs (source : Meta Group) et tablent sur 5 milliards en l’an 2000, soit un taux de croissance annuelle de plus de 40 %. S’appuyant souvent sur un entrepôt de données ou une simple base de données, le datamining va permettre de guider le décideur grâce à des méthodes le plus souvent éprouvées. Il est alors intéressant pour un étudiant achevant son cycle dans d’études dans le domaine des nouvelles technologies, d’étudier cette science qu’il sera certainement amener à côtoyer dans la vie active. Bien que connaître les différentes méthodes d’analyse soit important, il est très intéressant en terme de datamining de s’appuyer sur un logiciel apte à analyser les données symboliques afin de gagner en terme de volumétrie et de vitesse de traitement. Ainsi ce projet s’appuiera sur l’outil SODAS que nous détaillerons au préalable. Ce rapport se divisera en deux grandes parties : Une présentation générale du datamining ainsi que du logiciel SODAS et une application à un cas concret (une base de données réaliste).

Page 4: Projet de Datamining

4

Antonio Rodrigues (DESS SITN)

Projet de Datamining

II. Présentation générale

II.1. Le datamining

II.1.1. Présentation

Ou exploration de données. C’est un ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données. Son utilisation permet par exemple d'établir des corrélations entre ces données et de définir des comportements-type de clients. Ainsi Le datamining, ou prospection de données, est un ensemble de méthodes et de techniques d'analyse dont les applications peuvent servir à mieux connaître les clients de l'entreprise. Ce prolongement des statistiques, qui figure selon le Massachussets Institute of Technology parmi les dix technologies qui vont changer le monde, sert à extraire des informations d'une masse de données brutes atteignant souvent plusieurs térabits ! On peut ainsi repérer des relations systématiques entre différentes variables, comme le fait d'acheter des chips et de la bière le samedi matin et de regarder le match de football le samedi après-midi. Les techniques associées au datamining s'appuient sur la théorie de l'information, sur des méthodes statistiques et également sur celles de l'intelligence artificielle. Les données à explorer sont stockées dans de gigantesques entrepôts nommés datawarehouse mais peuvent aussi se trouver dans des infocentres plus traditionnels. Extraire des informations pertinentes à partir du nombre colossal de combinaisons possibles de ces données requiert une puissance d'analyse énorme que seuls de grands systèmes peuvent supporter.

II.1.2. Principales applications

Grande distribution et VPC : Analyse des comportements des consommateurs,

recherche des similarités des consommateurs en fonction de critères géographiques ou sociodémographiques, prédiction des taux de réponse en marketing direct, vente croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des réapprovisionnements.

Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de

médications ou de visites, optimisation des plans d’action des visiteurs médicaux pour le lancement de nouvelles molécules, identification des meilleures thérapies pour différentes maladies.

Banques : Recherche de formes d’utilisation de cartes caractéristiques d’une fraude,

modélisation prédictive des clients partants, détermination de pré autorisations de crédit revolving, modèles d‘arbitrage automatique basés sur l’analyse de formes historiques des cours.

Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche

des critères explicatifs du risque ou de la fraude, prévision d’appels sur les plates-formes d’assurance directe.

Page 5: Projet de Datamining

5

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Aéronautique, automobile et industries : Contrôle qualité et anticipation des

défauts, prévisions des ventes, dépouillement d’enquêtes de satisfaction. Transport et voyagistes : Optimisation des tournées, prédiction de carnets de

commande, marketing relationnel dans le cadre de programmes de fidélité. Télécommunications, eau et énergie : Simulation de tarifs, détection de formes de

consommation.

II.1.3. Etat de l’art du marché

Intelligent Miner d’IBM Volumes : Pas de limites Liens aux données : DB2, fichiers Méthodes de modélisation : Multiples Intégration des résultats : API Catégorie : Poids lourd Utilisateurs : Experts

Clementine de SPSS Volumes : Peu de limites Liens aux données : SGBD et fichiers Méthodes de modélisation : Multiples Intégration : des résultats API Catégorie : Intermédiaire intégré Utilisateurs : Avertis

SAS Enterprise Miner SAS Volumes : Peu de limites Liens aux données : SAS, SGBD et fichiers Méthodes de modélisation : Multiples Intégration des résultats : - Catégorie : Poids lourd Utilisateurs : Avertis

4Thought de Cognos Volumes : Peu de limites Liens aux données : SGBD Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Programme Excel ou langage C Catégorie : Intermédiaire spécialisé Utilisateurs : Avertis

Predict de NeuralWare Volumes : Quelques milliers d'enregistrements Liens aux données : SGBD Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Sans objet Catégorie : PC de bureau Utilisateurs : Néophytes

Previa de Elseware Volumes : Quelques milliers de records Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes

Page 6: Projet de Datamining

6

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Saxon de Pmsi Volumes : Peu de limites Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Programme C Catégorie : Intermédiaire spécialisé Utilisateurs : Experts

Strada Complex System Volumes : Quelques milliers de records Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones, algorithmes génétiques Intégration des résultats : - Catégorie : Intermédiaire spécialisé Utilisateurs : Avertis

Knowledge Seeker Angoss Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : SQL Catégorie : Intermédiaire spécialisé Utilisateurs : Néophytes

Datamind D’Epiphany Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : - Intégration des résultats : - Catégorie : PC de bureau/Intermédiaire Utilisateurs : Néophytes

Scenario de Cognos Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes

Alice de Isoft Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes

Wizwhy de Wizsoft Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Associations Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes

SPAD de CISIA Volumes : Quelques milliers d’enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Multiples Intégration des résultats : Fichiers Catégorie : PC de bureau/Intermédiaire Utilisateurs : Avertis

Page 7: Projet de Datamining

7

Antonio Rodrigues (DESS SITN)

Projet de Datamining

II.2. Le logiciel SODAS

II.2.1. Présentation générale

Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte à analyser

des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : Partir d'une base de données relationnelle (ORACLE, ACCESS, ...) Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,

familles, entreprises, accidents, ...), les variables qui les décrivent des concepts (villes, groupes socio-économiques, scénario d'accident,...)

Chaque unité statistique de premier niveau est associée à un concept (par exemple,

chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. On construit alors un tableau de données symboliques dont les nouvelles unités

statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des

histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) etc., selon le type de variables et le choix de l'utilisateur.

On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). [Ref : http://www.ceremade.dauphine.fr/~touati/sodas-presentation.htm]

Voici un schéma présentant les différentes possibilités offertes par SODAS :

Page 8: Projet de Datamining

8

Antonio Rodrigues (DESS SITN)

Projet de Datamining

II.2.2. Interface du logiciel

Pour ce projet nous avons travaillé avec la version 1.2.0 du logiciel SODAS. En voici son interface principale : Barre de menu :

C’est dans le menu SODAS file que l’on fait appel à DB2SO. Fenêtre « Chaining » :

Elle permet de gérer la chaîne de traitement (application de méthodes) sur les données extraites de la base.

Page 9: Projet de Datamining

9

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Les méthodes sont insérées à

partir de la fenêtre

« Methods »

Page 10: Projet de Datamining

10

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III. Application

III.1. Choix de la base de donnée

La base de données choisie pour ce projet a fait l’objet de plusieurs recherches sur internet. En effet, afin d’obtenir des données originales et réelles, il a fallut parcourir un certains nombre de sites web.

Mon choix s’est porté sur une base de données au sujet des plantes d’eau douce

trouvée sur le site http://r.mourreal.free.fr/basedonnee.html. Le site fournit une base de donnée sur les plantes sous la forme d’un fichier excel. Ce fichier représente en réalité une seule et unique table regroupant plus de 100 individus. Après l’avoir migré sous Access et avoir rajouté deux tables pour faciliter les requêtes (notamment la création d’une taxonomie), il a alors été possible de débuter le traitement des données ainsi recueillies avec SODAS.

III.2. Détails sur la base

III.2.1. Les individus, concepts et variables

Page 11: Projet de Datamining

11

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Les individus sont les plantes (le nom commun). Le concept choisi est le continent d’origine de la plante.

L’intérêt d’un tel concept est de constater (éventuellement) une quelconque corrélation entre l’origine de la plante et la différentes variables telles que la catégorie ou la température. Le nombre de concepts à prendre en compte avec la définition précédente est de 10 : Afrique Amérique Amérique/Asie Amérique/Europe/Afrique Amérique/Europe/Asie Asie Asie/Afrique Cosmopolite Europe Océanie

Les variables sont au nombre de 17, avec :

o 9 variables quantitatives :

- phMin - phMax - dGhmin - dGhmax - TempMin - TempMax - Continents2 - MoyTempMin (température min moyenne pour un concept) - MoyTempMax (température max moyenne pour un concept)

o 8 variables quantitatives :

- Famille - Origine - Catégorie - Luminosité - Type de feuilles - Hauteur du bac - Forme feuilles - Multiplication

Page 12: Projet de Datamining

12

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III.2.2. Les requêtes

Info_plantes : Sélection des individus

SELECT plantes.[Nom commun], Continents.Continent, plantes.Famille,

Origines.Origine, plantes.Categorie, plantes.[ph min], plantes.[ph max],

plantes.[dGh min], plantes.[dGh max], plantes.[Temp min], plantes.[Temp

max], plantes.Luminosité, plantes.[Type de feuilles], plantes.[Hauteur du

bac], plantes.[Type feuilles] AS [Forme feuilles], plantes.Multiplication

FROM (Origines INNER JOIN Continents ON

Origines.Continent_id=Continents.Continent_id) INNER JOIN plantes ON

Origines.orig_id=plantes.origine_id;

Info_Continents : Apporte deux informations supplémentaires au concept choisi : la

température moyenne min et la température moyenne max pour un concept donné. SELECT DISTINCTROW Continents.Continent, Continents.Continent AS

Continent2, Avg(plantes.[Temp min]) AS Moy_tmp_min, Max(plantes.[Temp max])

AS Moy_tmp_max

FROM (Origines INNER JOIN Continents ON Origines.Continent_id =

Continents.Continent_id) INNER JOIN plantes ON Origines.orig_id =

plantes.origine_id

GROUP BY Continents.Continent, Continents.Continent;

Taxo_Origine : Taxonomie associant les origines des différentes plantes à un

continent SELECT Origines.Origine, Continents.Continent

FROM Continents INNER JOIN Origines ON Continents.Continent_id =

Origines.Continent_id;

III.3. DB2SO

III.3.1. Présentation

Abréviation pour « Data Base To Symbolic Object », DB2SO est un outil fournit avec

SODAS permettant de transformer les données d’une base de données en un ensemble de concepts. Dans la pratique il va permettre de générer un fichier .gaj puis un fichier .sds (celui-ci sera nécessaire à SODAS pour l’analyse) à partir de la source de données.

DB2SO est appelé à partir du menu SODAS file > Import… > Importation (DB2SO).

Page 13: Projet de Datamining

13

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III.3.2. Application

Une fois DB2SO ouvert, cliquer sur File > New et choisir le data source et le fichier de données. Ici, il faudra choisir un data source MS Access et comme fichier plantes.mdb.

Ensuite, la requête d’extraction des individus est demandée. Dans notre cas, elle est

prédéfinie dans le fichier Access et porte le nom de Info_plantes :

Après insertion de toutes les variables, on obtient 17 variables dont 8 qualitatives et 8 quantitatives ainsi que 10 concepts :

Page 14: Projet de Datamining

14

Antonio Rodrigues (DESS SITN)

Projet de Datamining

File > Save As… permet de sauvegarder le fichier en .gaj anfin de pouvoir ensuite l’exporter en .sds en faisant File > Export… Une fois ceci effectué, le module DB2SO peut être fermé, la prochaine étape est le « chaining ».

Page 15: Projet de Datamining

15

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III.4. Application des méthodes

III.4.1. SOE1

III.4.1.a. Présentation

SOE (Symbolic Object Editor) est une méthode permettant de présenter l’ensemble

des concepts et des variables associées (ou une partie seulement) d’un fichier SODAS sous forme d’une table. En sélectionnant un concept et au minimum trois variables, il est possible de visualiser un schéma en étoile 2D ou 3D les représentant. Ces schémas représentent ce qu’on appelle des objets symboliques, ceux-ci pouvant se définir comme un concept associé à un certains nombres de ses variables. Par extension, on peux appeler objet symbolique une ligne de la table que fournit la méthode SOE.

Ce type de représentation synthétique permet d’analyser rapidement et efficacement

les objets symboliques (la visualisation permet de distinguer les valeurs importantes) et de comparer ces même objets entre eux (En effet, SOE permet l’affichage de plusieurs schémas en simultané).

III.4.1.b. Application Etudions les concepts Amérique, Asie et Afrique. Amérique

1 Les présentations des méthodes ont été inspirées par le site officiel de SODAS. Elles permettent au lecteur de

disposer immédiatement d’une présentation concise de la méthode.

Page 16: Projet de Datamining

16

Antonio Rodrigues (DESS SITN)

Projet de Datamining

A l’aide de ce graphique nous remarquons que les plantes d’Amérique nécessitent une forte luminosité et possèdent des feuilles dressées et tendres. De plus il n’est nul besoin d’être expert pour entretenir la plupart des plantes répertoriées puisque la catégorie débutant est prépondérante. Cependant, pour plus de 20% des individus il est conseillé de posséder des connaissances qui dépassent le stade de simple amateur. Luminosité & Catégorie :

Asie

Page 17: Projet de Datamining

17

Antonio Rodrigues (DESS SITN)

Projet de Datamining

L’Asie possède en majorité des plantes ayant des feuilles en forme de rosette, cependant les formes « feuilles en rosette » et « feuilles dressés » se retrouvent en quantités pratiquement égales. A l’instar du précédent continent les plantes d’eau douce asiatique ont majoritairement besoin d’une luminosité forte. La catégorie « débutant » est plus importante ici puisque 57% des plantes répertoriés ne nécessitent qu’un niveau débutant pour l’entretien. Forme & Catégorie :

Afrique

Page 18: Projet de Datamining

18

Antonio Rodrigues (DESS SITN)

Projet de Datamining

La particularité des plantes africaines est qu’elles nécessitent en majorité un niveau d’amateur pour pouvoir les entretenir correctement. Le niveau débutant se retrouvant délégué lion derrière, à 25% :

Synthèse :

Plusieurs points rapprochent les trois continents étudiés :

- La luminosité (forte) - La température (intervalles sensiblement identiaques) - Le type de feuilles (tendres)

Cependant des continents se détachent sur certains points :

- L’Afrique semble réserver en majorité des plantes nécessitant au minimum un niveau d’amateur contrairement à l’Amérique et à l’Asie.

- L’Amérique dispose d’une majorité de plantes avec des feuilles dressées, l’Afrique une majorité de plantes avec des feuilles en rosette et l’Asie dispose d’une quantité équivalente des deux formes évoquées précédemment.

Page 19: Projet de Datamining

19

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III.4.2. STAT

III.4.2.a. Présentation

STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques,

représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données :

i) Fréquences relatives pour variables multimodales ii) Fréquences relatives pour variables intervalles iii) Capacités et min/max/mean pour variables multimodales probabilistes iv) Biplot pour variables intervalles v) Objet central.

III.4.2.b. Application L’étude de STAT portera sur les deux méthodes suivantes :

- Fréquences relatives pour variables intervalles - Capacités et min/max/mean pour variables multimodales probabilistes - Biplot pour variables intervalles

i) Fréquences relatives pour variables intervalles On étudie la variable température minimum sur 11 classes :

Page 20: Projet de Datamining

20

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Chaque classe a une valeur de 1°. Les classes prédominantes sont [18°, 19°] et [19°, 20°]. On constate une concentration des températures minimum sur l’intervalle [18°, 22°] qui regroupe la majorité des températures minimums des plantes. A contrario, à partir de 24° il y a très peu de plantes. De même on peut analyser la variable phMin sur 10 classes :

On constate très bien une concentration du ph min entre 5 et 7. En dessous de cet intervalle, on trouve très peu de plante qui ont un ph correspondant. ii) Capacités et min/max/mean pour variables multimodales probabilistes Nous choisissons d’étudier la variable Catégorie.

Page 21: Projet de Datamining

21

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Les modalités Amateur, Amateur averti et Débutant se démarquent par le fait qu’elles atteignent la probabilité 1 : On peut être sûr de retrouver toujours, pour certains concepts (Contient d’origine) une des modalités citées précédemment. En revanche la probabilité maximum (et en moyenne) de trouver la catégorie spécialiste est très faible. En moyenne, la catégorie Amateur est en tête suivie par la Débutant. Il apparaît en outre qu’aucune catégorie n’est présente à la fois dans tous les concepts puisque toute ont un seuil de probabilité minimum de 0. iii) Biplot pour les variables intervalles Afin de rendre les résultats plus lisibles, seuls trois concepts seront étudiés (Comopolite, Afrique et Amérique). Il est de plus apparu que de nombreux concepts se confondaient, il était donc inutile de tous les représenter.

Page 22: Projet de Datamining

22

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Ce graphique nous permet de constater que l’Amérique couvre une zone de ph minimu et de température important. Concrètement, on peut alors imaginer trouver en Amérique, avec plus de probabilité, une plante pouvant s’adapter à un certain milieu prédéfini. A contrario, les plantes d’Afrique ou provenant d’autres régions du monde (tels les régions tropicales) sont toutes dans une zone de ph restreinte. Ce qui signifie qu’avant de se procurer une plante d’eau douce provenant d’Afrique, il faut au moins s’assurer que le ph minimum de son aquarium se trouve entre 6 et 7. Ainsi cette étude qui pouvait paraître sans intérêt (effectivement, comparer ph et température ne parait pas très révélateur de prime abord) nous a permis de constater que dans des conditions de vie difficilement définissable ou particulière (i.e. ph faible), il convient de se diriger vers les plantes d’Amérique qui offre une amplitude importante tant au niveau du ph minimum que de la température de l’environnement aquatique.

Page 23: Projet de Datamining

23

Antonio Rodrigues (DESS SITN)

Projet de Datamining

III.4.3. DIV

III.4.3.a. Présentation DIV est une méthode de classification hiérarchique qui débute avec tous les objets d’une classe et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l’inertie. L’algorithme s’arrête après K-1 divisions, où K représente le nombre de classes renseignées par l’utilisateur.

III.4.3.b. Application Les variables étudiés sont le dGhMin et la température. Le nombre de classes est fixé à 5. Le dGh correspond à la teneur de l'eau en carbonates de sodium ou de magnésium ainsi qu'en sulfates de sodium ou de magnésium (en degrés allemands). Plus l'eau comprend une concentration élevée en ces composés, plus l'eau est dite dure (pour comparaison, le KH lui ne prend en compte que la teneur de l'eau en carbonates). Voici le résultat obtenu : VARIANCE OF THE SELECTED VARIABLES :

------------------------------------

dGh_min : 2.640000

Temp_min : 11.330000

-------------------------------------------------------

PARTITION IN 2 CLUSTERS :

-------------------------:

Cluster 1 (n=3) :

"Amérique/Asie" "Amérique/Europe/Asie" "Europe"

Cluster 2 (n=7) :

"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"

"Amérique/Europe/Afrique" "Asie/Afrique"

Explicated inertia : 48.733681

PARTITION IN 3 CLUSTERS :

-------------------------:

Cluster 1 (n=3) :

"Amérique/Asie" "Amérique/Europe/Asie" "Europe"

Page 24: Projet de Datamining

24

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Cluster 2 (n=2) :

"Amérique/Europe/Afrique" "Asie/Afrique"

Cluster 3 (n=5) :

"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"

Explicated inertia : 66.117872

PARTITION IN 4 CLUSTERS :

-------------------------:

Cluster 1 (n=1) :

"Amérique/Europe/Asie"

Cluster 2 (n=2) :

"Amérique/Europe/Afrique" "Asie/Afrique"

Cluster 3 (n=5) :

"Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie"

Cluster 4 (n=2) :

"Amérique/Asie" "Europe"

Explicated inertia : 74.230494

PARTITION IN 5 CLUSTERS :

-------------------------:

Cluster 1 (n=1) :

"Amérique/Europe/Asie"

Cluster 2 (n=2) :

"Amérique/Europe/Afrique" "Asie/Afrique"

Cluster 3 (n=4) :

"Cosmopolite" "Afrique" "Asie" "Océanie"

Cluster 4 (n=2) :

"Amérique/Asie" "Europe"

Cluster 5 (n=1) :

"Amérique"

Explicated inertia : 80.672870

PARTITION IN 6 CLUSTERS :

Page 25: Projet de Datamining

25

Antonio Rodrigues (DESS SITN)

Projet de Datamining

-------------------------:

Cluster 1 (n=1) :

"Amérique/Europe/Asie"

Cluster 2 (n=2) :

"Amérique/Europe/Afrique" "Asie/Afrique"

Cluster 3 (n=4) :

"Cosmopolite" "Afrique" "Asie" "Océanie"

Cluster 4 (n=1) :

"Europe"

Cluster 5 (n=1) :

"Amérique"

Cluster 6 (n=1) :

"Amérique/Asie"

Explicated inertia : 87.115247

THE CLUSTERING TREE :

---------------------

- the number noted at each node indicates

the order of the divisions

- Ng <-> yes and Nd <-> no

+---- Classe 1 (Ng=1)

!

!----3- [Temp_min <= 16.250000]

! !

! ! +---- Classe 4 (Ng=1)

! ! !

! !----5- [dGh_min <= 2.750000]

! !

! +---- Classe 6 (Nd=1)

!

!----1- [Temp_min <= 18.750000]

!

! +---- Classe 2 (Ng=2)

! !

!----2- [dGh_min <= 3.250000]

!

! +---- Classe 3 (Ng=4)

! !

!----4- [dGh_min <= 4.250000]

!

+---- Classe 5 (Nd=1)

Page 26: Projet de Datamining

26

Antonio Rodrigues (DESS SITN)

Projet de Datamining

On remarque immédiatement que la majorité des concepts (7 sur les 10) disposent de plantes dont la température minimum est supérieure à 18.750°. Parmi les 7 concepts qui ont une température minimum supérieure à 18.75°, 5 ont un dGh minimum supérieur à 3.25. Cependant après 4.25 pour le dGh min, seul 1 concept demeure. D’après la définition du DGh, on constate donc qu’il y a une grande partie des concepts (continents) qui nécessitent une eau plus dure après une certaine température. C’est le cas pour les concepts "Cosmopolite", "Afrique", "Asie" et "Océanie" et encore plus pour le concept "Amérique".

III.4.4. TREE

III.4.4.a. Présentation

L’arbre de décision propose un algorithme d’arbre évolutif appliqué aux données explicitement imprécises. Celles-ci sont formellement décrites par des assertions probabilistes dans l’analyse des données symboliques. Dans ce contexte, la procédure de partage récursif peut être interprétée comme une recherche itérative d’un ensemble d’objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en paramètre. On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de nouveaux objets à une classe.

III.4.4.b. Application Les paramètres choisis sont les suivants :

- Variable class Identifier : Continents (sous le nom de Continents2 dans la base) - Predictor variables : phMin - Number of terminal nodes : 6

Résultat : ==================================

| EDITION OF DECISION TREE |

==================================

PARAMETERS :

Learning Set : 10

Number of variables : 1

Max. number of nodes: 7

Soft Assign : ( 1 ) FUZZY

Criterion coding : ( 3 ) LOG-LIKELIHOOD

Min. number of object by node : 5

Min. size of no-majority classes : 2

Min. size of descendant nodes : 1.00

Frequency of test set : 0.00

Page 27: Projet de Datamining

27

Antonio Rodrigues (DESS SITN)

Projet de Datamining

+ --- IF ASSERTION IS TRUE (up)

!

--- x [ ASSERTION ]

!

+ --- IF ASSERTION IS FALSE (down)

+---- [ 2 ]Amérique/Europe/Asie ( 0.00 0.00 0.60 0.00

! 1.00 0.27 0.00 0.33 1.00 0.00 )

!

!----1[ Temp_min <= 18.000000]

!

! +---- [ 12 ]Amérique/Europe/Afrique ( 0.16 0.22

! ! 0.40 1.00 0.00 0.21 0.50 0.29

! ! 0.00 0.50 )

! !

! !----6[ Temp_min <= 20.000000]

! ! !

! ! +---- [ 13 ]Asie/Afrique ( 0.41 0.44 0.00

! ! 0.00 0.00 0.25 0.50 0.23 0.00

! ! 0.50 )

! !

!----3[ Temp_min <= 22.000000]

!

+---- [ 7 ]Afrique ( 0.43 0.33 0.00 0.00

0.00 0.26 0.00 0.15 0.00 0.00 )

Comment utiliser l’arbre ? Si la réponse à la question binaire [Temp_min <= 18.000000] est vraie, alors l’objet sera considéré, a piori, comme faisant parti de la classe [2]. Sinon il faudra statuer sur la question binaire [Temp_min <= 22.000000] et ainsi de suite

III.4.5. PCM

III.4.5.a. Présentation

PCM (Principal Component Analysis) est une extension de la méthode d’analyse en composante principale qui prend comme en paramètre une matrice de termes ganéraux aij. Chaque valeur aij est un intervalle contenant toutes les valeurs possibles de j pour un objet i. Au lieu de représenter chaque point sur un plan factoriel par un point comme dans la méthode ACP, dans la méthode PCM, chaque objet est visualisé par un rectangle.

III.4.5.b. Application Voici les résultats obtenus en prenant la température min comme paramètre :

Page 28: Projet de Datamining

28

Antonio Rodrigues (DESS SITN)

Projet de Datamining

Page 29: Projet de Datamining

29

Antonio Rodrigues (DESS SITN)

Projet de Datamining

IV. Conclusion L’enseignement de datamining permet de comprendre à la fois les enjeux de l’analyse de données et concrètement certaines grandes méthodes d’analyse. En utilisant le logiciel SODAS, on se rend compte de l’importance de l’appui logiciel en datamining, notamment lors du traitement de milliers (voire millions) de données. On comprend alors, en réalisant des projets de la sorte ou en étudiant des exemples concrets, pourquoi les entreprises investissent parfois énormément dans l’étude de leurs données commerciales et techniques : On peut extraire des indicateurs importants, découvrir des corrélations inattendues, ne pas constater des corrélations attendues, classifier, etc.… Et ceci dans le but d’accroître la productivité ou les ventes. Dans le cas de ce projet, bien que la base sur les plantes soit relativement petite, il a déjà été possible de constater certaines corrélations et autres phénomènes intéressants, alors qu’initialement, rien ne les laissait apparaître ! On peut alors imaginer la quantité d’information que l’on peut extraire de bases très denses ! Le problème peut alors être de trier les bonnes informations…

Page 30: Projet de Datamining

30

Antonio Rodrigues (DESS SITN)

Projet de Datamining

V. BIBLIOGRAPHIE http://r.mourreal.free.fr/basedonnee.html http://www.rd.francetelecom.com/fr/technologies/ddm200312/techfiche3.php

http://solutions.journaldunet.com/0208/020827_bi_panorama3.shtml

http://www.softcomputing.com/documents/pdf_generaux/datamining.pdf

http://perso.wanadoo.fr/aqua-david/articles/Leau.htm

http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm

Cours de datamining 2003-2004 (Pole info 3 – Paris IX) de E. Diday