projet de data mining - ceremade.dauphine.frtouati/sodas/exemples/fidelit… · processus de data...

48
Monsieur Diday Paris le 02 Juin 2003 Pallu Romain DESS ID Verdo Joris Projet de Data Mining

Upload: vuongphuc

Post on 15-Sep-2018

228 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Monsieur Diday Paris le 02 Juin 2003

Pallu Romain DESS ID Verdo Joris

Projet de Data Mining

Page 2: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 1/47

SOMMAIRE : Etat de l’art du datamining.________________________________________________2

Data Mining et Statistiques _______________________________________________ 2

Pourquoi le Data Mining est une bonne idée __________________________________ 2

Plusieurs sortes de modèles statistiques ______________________________________ 3

Comment les modèles sont construits________________________________________ 4

Conclusion____________________________________________________________ 5

Qu'est-ce que le data mining ? _____________________________________________6

Les statistiques et le data mining dans l'économie ______________________________ 6

Pourquoi les statistiques «à la papa» ne font plus l'affaire ________________________ 6

Comment le data mining résout ces problèmes ________________________________ 7

Clichés sur le data mining ________________________________________________ 8

Les statis tiques sortent des mains des spécialistes ______________________________ 8

Différents logiciels de datamining : _________________________________________9

Intégration du Data Mining dans le management _____________________________10

Processus de Data Mining associé au traitement de données de fidélité des clients_____ 10

Description du processus de supervision de la fidélisation des clients_______________ 12

Présentation de Sodas : __________________________________________________15

L’analyse de données symboliques _________________________________________16

Choix de la base ________________________________________________________18

Schéma Relationnel____________________________________________________ 18

Objectif de nos analyses :________________________________________________ 20

SOE (Editeur d’objets symboliques) : _______________________________________21

DIV (Divisive Classification) :_____________________________________________24

Les objectifs de cette méthode : ___________________________________________ 24

STAT (Elementary Statistics on Symbolic Objects) : ___________________________31

TREE (Decision Tree) ___________________________________________________38

Présentation de la méthode ______________________________________________ 38 Première analyse :___________________________________________________39 Deuxième analyse :__________________________________________________40

PYR (Pyramidal Clustering) ______________________________________________41

Présentation de la méthode ______________________________________________ 41

PCM (Principal Component Analysis) ______________________________________43

Présentation de la méthode ______________________________________________ 43 Première analyse :___________________________________________________44 Deuxième analyse :__________________________________________________46

Conclusion ____________________________________________________________47

Page 3: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 2/47

Etat de l’art du datamining. Saviez vous que les femmes qui achètent des tabliers à carreaux n’achètent jamais de

mobilier de décoration par correspondance ? C’est ce type de découvertes que permet de faire un outil de data mining. Pour reprendre

une expression maintenant tombée dans le domaine public, l’outil de data mining est celui qui aide à : « trouver le diamant caché au fond de la mine de charbon, sans vous salir les mains ». Cette allégorie montre bien la fonction principale de ces outils dérivés du monde de la statistique :découvrir la donnée importante, celle qui va véritablement vous faire gagner de l’argent, alors qu’elle est dissimulée quelque part au fond d’un entrepôt de données, sans pour autant avoir à la chercher nous-mêmes.

Data Mining et Statistiques Le data mining est le descendant et, selon certains, le successeur des statistiques telles

qu'elles sont pratiquées actuellement. Statistiques et data mining ont le même but, qui est de réaliser des «modèles» compacts

et compréhensibles rendant compte des relations liant la description d'une situation à un résultat (ou un jugement) concernant cette description. L'hypothèse implicite est bien sûr que le résultat, la mesure où le jugement que nous essayons de modéliser dépend effectivement des éléments de description que nous avons.

La différence essentielle est que les techniques de data mining construisent ledit modèle

de manière automatique alors que les techniques statistiques «classiques» requièrent d'être maniées - et guidées - par un statisticien professionnel, celui-ci ayant déjà une idée - peut-être préconçue - des «hypothèses de dépendance» à formuler.

Les techniques de data mining apportent un gain énorme tant en performance qu'en

maniabilité ou en temps de travail. La possibilité de réaliser ses propres modèles statistiques par soi-même sans besoin de sous-traiter ou de se concerter avec un statisticien apporte une grande liberté aux utilisateurs opérationnels.

Le data mining est la continuation des statistiques par d'autres moyens, plus simples

et plus puissants. On rencontre des «success stories» dans des domaines aussi divers que la gestion de

production, les ressources humaines ou la restauration collective.

Pourquoi le Data Mining est une bonne idée En construisant spontanément un modèle des dépendances au lieu de vérifier les

hypothèses d'un statisticien, les techniques de data mining ramènent parfois des trésors à la

Page 4: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 3/47

surface, comme par exemple l'association entre le syndrome de Reyes et la prise d'aspirine chez les enfants, ou, moins sérieusement, la corrélation entre les achats de couches et de bière le samedi après-midi et pas aux autres moments de la semaine dans les supermarchés américains.

Ce dernier exemple illustre bien la nécessité de connaître son métier - mais rien que son

métier - pour faire du data mining : seul un spécialiste connaissant sa clientèle peut interpréter une corrélation brute pour en faire le portrait d'un jeune couple faisant ses courses, la femme achetant des couches pendant que le père fait un stock de bière en prévision du match de foot du dimanche après-midi. Notez bien que cela n'aurait pas facilement été visible par d'autres techniques, la particularité du samedi étant noyée dans la masse des achats du restant de la semaine où cette corrélation n'a pas lieu.

Les techniques de data mining nous dispensent d'un statisticien, mais il reste

indispensable de maîtriser son métier. Des corrélations-surprise telles que celles décrites plus haut n'arrivent quand même pas très souvent; les principaux avantages du data mining restent la vitesse et la simplicité. Si les conclusions sont relativement de simple bon sens, autant les obtenir en quelques heures plutôt qu'en quelques semaines.

Ces techniques permettent de plus de traiter de grandes quantités d'exemples (plusieurs

millions) sans inconvénient. Elles sont également capables de faire face à un grand nombre de variables prédictives (jusqu'à plusieurs milliers). Ceci est extrêmement utile pour faire de la «sélection de variables» (déterminer les variables les plus utiles pour un problème donné parmi une grande masse)

Plusieurs sortes de modèles statistiques

Les deux principales techniques sont les réseaux de neurones et l'algorithme génétique. Comme pour tout ce qui est produit par des machines, les modèles statistiques (aussi

appelés prédicteurs, puisqu'ils sont utilisés pour faire des prédictions) fabriqués par data mining doivent pouvoir être inspectés par les personnes familières avec le problème, pour comprendre et vérifier ce qui a été produit. Il est donc important que ces prédicteurs aient une forme aisément lisible et si possible déjà connue en dehors du domaine.

Il existe un compromis entre la clarté du modèle et son pouvoir prédictif.

Page 5: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 4/47

Plus un modèle prend une forme simple, plus il sera facile à comprendre, mais moins il

sera capable de prendre en compte des dépendances subtiles ou trop variées («nonlinéaires»). Une représentation de ce compromis est dessinée dans la figure ci-contre. Les arbres de décision et les bases de règles sont très faciles à interpréter mais ne

connaissent que les limites «dures» de comparaison à des seuils avec décision Oui-Non. Ils manquent de finesse prédictive.

Les grilles de score, linéaires ou à fonctions logistiques, sont un peu plus «fines» mais,

de par leur caractère seulement additif, ne peuvent rendre compte d'aucune relation multivariable (exemple : le risque augmente en fonction de l'âge pour les propriétaires, il diminue en fonction de l'âge pour les locataires; la grille de score n'envisage l'âge et le type de logement que séparément).

Les réseaux de neurones sont les rois de la prédiction statistique (ayant également la

capacité de s'accommoder de valeurs très bruitées ou même manquantes), mais ils sont complètement impossibles à inspecter - c'est comme si on voulait examiner le cerveau de quelqu'un pour savoir ce qu'il pense ! On ne peut qu'inspecter et visualiser les prédictions faites. Cependant, un bon outil de visualisation permet à l'utilisateur de reconstruire le «raisonnement» du réseau de neurones. Selon le gain représenté par la précision accrue, et une fois la confiance en l'outil établie, l'utilisateur jugera souvent que la perte partielle de compréhension est plus que compensée par la qualité des prédictions .

Comment les modèles sont construits Aucun des modèles statistiques présentés précédemment n'est nouveau. Les arbres de

décision et de régression (classification and regression trees, méthodes ID3, C4.5) furent utilisés en sciences sociales dans les années 60 ; les bases de règles ont été popularisées lors de la vogue des «systèmes experts» dans les années 80 ; et les grilles de score sont familières aux banquiers depuis des décennies. Même les réseaux de neurones sont avec nous depuis les années 40, mais il a fallu les gains énormes en puissance de calcul de ces dernières années pour qu'ils deviennent enfin utilisables simplement.

Les prédicteurs sont fabriqués, non pas par calcul direct à partir des données comme dans

le passé, mais par des méthodes empruntées au domaine de l'«intelligence artificielle». Les deux techniques principales sont :

l'apprentissage : partir d'un modèle «quelconque» et l'ajuster progressivement à la réalité

et l'évolution ou «vie artificielle», partir d'une population de plusieurs milliers de modèles

«quelconques» et les faire «évoluer» de manière compétitive, «Darwinienne». Notez bien que le calcul direct à partir des données est obsolète et n'est pas

mentionné.

Page 6: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 5/47

Traditionnellement, mais pas obligatoirement, l'apprentissage est appliqué seulement aux réseaux de neurones (quoique la technique de «rétropropagation de l'erreur» soit applicable à une grande variété d'objets), et les techniques d'évolution («algorithme génétique») sont appliquées à la production de bases de règles, d'arbres de décision, et de grilles de score.

Ces deux techniques jouissent également d'une forte validation théorique. En termes

techniques : la rétropropagation tout comme l'algorithme génétique «convergent» de manière mathématiquement prouvée. En français ordinaire : nous avons la garantie que ces méthodes nous fourniront le meilleur prédicteur statistique qui soit, compte tenu de la quantité et de la qualité des données qui leur sont fournies. Ce que les matheux ne précisent pas est le temps nécessaire pour arriver à ce prédicteur «optimal». C'est à ce niveau que des différences entre les réalisations des divers fournisseurs apparaissent.

De plus, tous les outils permettent de déterminer l'importance de chaque variable pour

la décision («pertinences»). Ceci est extraordinairement utile pour faire la sélection des variables. Une fois les variables les plus pertinentes déterminées avec précision, il est éventuellement possible de reprendre le problème avec des techniques plus conventionnelles si des contraintes d'exploitation l'imposent.

Conclusion L'arrivée du data mining est seulement la dernière étape de l'introduction de méthodes

quantitatives, scientifiques dans le monde du commerce, de l'industrie et des affaires. Maintenant tous les non-statisticiens - c'est-à-dire 99,5 % d'entre nous - peuvent construire des modèles exacts de certaines de leurs activités, pour mieux les étudier, les comprendre et les améliorer.

Pour la première fois de leur histoire, les statistiques sortent des mains des spécialistes.

L'art du spécialiste est remplacé par des méthodes nouvelles qui donnent des résultats aussi bons ou meilleurs sans demander de connaissances spécialisées.

Depuis un an ou deux, l'extraction automatique de connaissances est apparue dans les

médias sous le nom de data mining. Descendant d'une discipline aujourd'hui discréditée, l'«intelligence artificielle», le data

mining semble promis au même destin que les systèmes experts, qui connurent une grande vogue dans les années 80 : après un tintamarre initial et quelques grand-messes de chercheurs-fonctionnaires lors de congrès et de salons, de lourdes dépenses sont engagées, des résultats mitigés sont obtenus, et toute la discipline sombre dans l'oubli avec une réputation de promesses non tenues.

Qu'en est-il réellement ?

Page 7: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 6/47

Qu'est-ce que le data mining ? Le data mining est le descendant et, selon certains, le successeur des statistiques telles

qu'elles sont pratiquées actuellement. Statistiques et data mining ont le même but, qui est de réaliser des «modèles» rendant

compte des relations liant la description d'une situation (sous forme d'un certain nombre de variables descriptives) à un résultat (ou un jugement) concernant cette description (la variable prédite). L'avantage de posséder un tel modèle est double :

le modèle est descriptif et explicatif : il éclaire la situation en «vous disant où regarder»,

quelles sont les variables descriptives qui sont importantes pour déterminer le résultat. Le modèle est prédictif : si vous êtes en face d'une situation nouvelle, décrites par les

variables sur lesquelles vous avez basé votre modèle, vous pouvez «faire tourner» le modèle sur ces variables pour obtenir une estimation du résultat à attendre.

Un exemple concret est exposé par la suite. On n'imagine pas forcément le rôle

important que jouent les statistiques dans l'activité du pays.

Les statistiques et le data mining dans l'économie Pour prendre un exemple concret, les sociétés de crédit sont très intéressées de savoir

quels sont les critères qui permettent de «deviner» si un emprunteur potentiel va rembourser ou pas son prêt. Cette activité porte le nom de credit scoring.

Egalement, les vendeurs par correspondance cherchent la relation entre votre description

et votre comportement d'achat ou de non-achat ; les industriels cherchent les causes de leurs anomalies de production.

L'outil traditionnel pour évaluer votre risque bancaire est une «grille de score», une sorte

de questionnaire où chacune de vos réponses «vaut» un certain nombre de points. La somme de vos points, si elle est supérieure à un certain seuil, indique que vous êtes un «bon risque». Malgré sa simplicité apparente, la grille de score est bien un modèle statistique : les nombres de points attribués à chaque réponse sont déterminés par des calculs sophistiqués.

Pourquoi les statistiques «à la papa» ne font plus l'affaire Cependant, même si une telle approche fonctionne bien pour un certain nombre de

problèmes, elle n'est pas universelle : par exemple, il n'est pas possible de rendre du compte de la dépendance «le risque augmente en fonction de l'âge pour les propriétaires, il diminue en fonction de l'âge pour les locataires» par simple addition indépendante de points dans une

Page 8: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 7/47

grille de score. Pour éviter ce premier problème, il est nécessaire d'utiliser d'autres formes de prédicteur statistique, plus complexes qu'une grille de score.

D'autres problèmes se posent. Par exemple : L'abondance de données est telle que personne n'aura jamais le temps de les examiner «à

la main». A la NASA ou bien dans les caisses enregistreuses d'un grand distributeur, il s'agit de giga- ou de téraoctets supplémentaires chaque jour.

Il y a trop de problèmes à modéliser. Par exemple, un statisticien qui pouvait étudier

avec soin, à la main, guidé par son intuition affûtée par son expérience, la nature de la clientèle de la mutuelle d'assurances qui l'emploie, ne le peut probablement plus maintenant, car la diversification des affaires fait qu'il y a maintenant vingt clientèles différentes pour autant de produits vendus. De plus, dans le cas d'un produit nouveau, aucune l'expérience nécessaire n'existe pas pour formuler des hypothèses de dépendances a priori comme le requiert un travail statistique classique.

Les problèmes sont trop complexes. Beaucoup de grandeurs reliées aux données (place

de stockage, temps d'accès) augmentent plus vite que la quantité de données elles-mêmes. De plus, comme seules quelques variables sont pertinentes pour un problème donné, la plupart sont «inutiles» (mais peuvent être cruciales pour un autre problème). Il est donc de plus en plus nécessaire d'accélérer l'accès à ces données (donnant naissance à toute une soupe à l'alphabet online : OLAP, ROLAP, MOLAP, HOLAP, CrapOLAP, etc.) et aussi d'accélérer l'analyse et la sélection des variables.

Les problèmes ne sont pas toujours précisément définis. Beaucoup de problèmes sont

vagues («Que faire de 2 450 000 tickets de caisse ?» «Qui sont mes clients ?». L'analyse statistique classique est mal équipée pour résoudre ce genre de problème.

Comment le data mining résout ces problèmes Les techniques rassemblées sous le nom de data mining : permettent de construire des modèles rendant compte de la totalité des relations entre les

données, sans simplification abusive. construisent ces modèles de manière automatique alors que les techniques statistiques

«classiques» requièrent d'être maniées - et guidées - par un statisticien professionnel. grâce à une approche différente vis-à-vis des données, peuvent bâtir des modèles à partir

de plusieurs millions d'exemples, ou au contraire de seulement quelques centaines. donnent un sens à tout un tas de données automatiquement générées (tickets de caisse,

parcours de site Web; opérations bancaires, etc.) qui ne coûtent que la peine de les conserver. Ces données sont en trop gros volume pour pouvoir être examinées à la main, coûtent de l'argent à stocker et ne peuvent donc justifier leur utilité que si on peut en tirer quelque chose rapidement et sans trop d'effort.

Page 9: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 8/47

Clichés sur le data mining (Le sang que vous observez sur le sol résulte du massacre de quelques vaches sacrées.) Tous les logiciels statistiques ne sont pas des logiciels de data mining. Si ce n'est pas

entièrement automatique, ce n'est pas du data mining. La confusion est savamment entretenue entre l'extraction automatique de connaissances (le seul vrai data mining), les logiciels de statistiques classiques à l'ancienne, et même des outils de requêtage, comptage et visualisation qui n'ont aucun rapport avec l'analyse statistique.

Le data mining ne dépend pas de l'organisation de vos données ; fichiers classiques, base

de données ou data warehouse font l'affaire. Mentionnons au passage que les techniques nouvelles sont plus tolérantes que les anciennes des valeurs manquantes ou erronées.

Le «conseil en data mining» est une contradiction dans les termes. S'il est besoin

d'autres connaissances que celles relatives à votre métier, ce n'est pas du data mining.

Les statistiques sortent des mains des spécialistes Toutes les techniques ont été réservées dans leurs débuts, à cause de leur complexité, à

l'usage de quelques «grands prêtres» ou techniciens spécialement formés. Les communications ont pendant longtemps demandé des auxiliaires humains

(télégraphiste, demoiselle du téléphone) avant que les progrès des sciences et des techniques ne permettent à tout citoyen de composer un numéro directement.

Les automobiles elles-mêmes ont exigé, pendant des décennies, la présence d'un coûteux

opérateur spécialisé (chauffeur-mécanicien) avant que les progrès des sciences et des techniques ne mettent la conduite à la portée de tout un chacun.

Le cas des statistiques est exactement semblable. Pour la première fois de leur histoire,

les statistiques sortent des mains des spécialistes. L'avancement des sciences permet maintenant à tous les non-statisticiens - c'est-à-dire 99,9% d'entre nous - de construire d'excellents modèles, ou plutôt de regarder un logiciel les construire, sans connaissances particulières.

L'art du spécialiste est ainsi remplacé par des méthodes nouvelles qui donnent des

résultats aussi bons ou meilleurs sans demander de connaissances spécialisées, et permettent à l'«homme-métier» d'étudier, comprendre et améliorer ses activités, en utilisant des outils qui démentent enfin Paul Valéry quand il disait «Ce qui est simple est toujours faux. Ce qui ne l'est pas est inutilisable».

Page 10: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 9/47

Différents logiciels de datamining :

Business Objects Application Foundation

Dans sa version 3.0, Application Foundation intègre le moteur d'analyse prédictive de l'éditeur KXEN. Son objectif: modéliser des données existantes en vue de faire des projections.

CRM: Siebel, Prime Response (Chordiant), Nortel (Clarify), Peoplesoft/Vantive, Peregrine (Remedy). ETL: intégration étroite avec Informatica, et ensuite Acta et Ascential Software. Entrepôts & bases de données: Hyperion, Oracle, IBM/Informix, Sybase. Data mining: intègre KXen en OEM.

Data Distilleries DD Series

L'offre intègre DD/Marketer pour générer les modèles prédictifs (segmentation), DD/Sire pour déployer les recommandations, et DD/Expert pour construire les scenarii.

CRM Front-office: Siebel, AIMS, Broadvision (eCRM). L'intégration est déjà programmée avec Siebel 7.0.

IBM DB2 Intelligent Miner

DB2 Intelligent Miner est l'outil de datamining utilisé dans DecisionEdge for Relationship Marketing (voir tableau 1), mais IBM en propose de plus ciblés. Un cas intéressant est celui de Internet Sales Predictor, une applet Java téléchargeable gratuitement sur le site IBM consacré aux développeurs.

Comme son nom l'indique, ne fonctionne que sur une base de données IBM DB2, mais dans de nombreux environnements (AIX, OS/390-400, Solaris, Windows 2000 et NT...). Cet outil et ses déclinaisons sont en fait des extensions à la base de données qui en est le point central.

KXen Composants KXEN intégrables

La position de KXen est particulière. Son objectif est de fournir des algorithmes avancés qui se basent sur les théories récentes du chercheur russe Vapnik, par opposition à la méthode Fischer du début du siècle, répandue dans la plupart des autres solutions. Bénéfice: résultat rapide et pertinent.

Intégration de composants en OEM dans Business Objects, Profile4You (eCRM), Norkom et Coheris/ISO (CRM). Travaux avec Kana/Broadbase. Selon KXen, une intégration totale des composants dans un environnement donné prend 2 ou 3 semaines maximum. Composants programmés en C++, DCom, Corba, Java. Echanges: ODBC ou texte pur.

Oracle 9i Data Mining

Pour les commentaires, se reporter à IBM deux cases au dessus. Oracle 9i Data Mining est intégré à Oracle Customer Intelligence.

Tout comme IBM, il s'agit d'une extension à la base de données Oracle 9i, et non d'un produit surajouté réclamant une intégration à travers une API Java ou C++.

SAS e-Discovery

SAS est l'éditeur de référence dans le domaine du data mining. e-Discovery est la solution de modélisation prédictive phare de SAS dans le domaine du CRM multi-canaux. Utilisateurs avertis pour besoins pointus en règle générale.

SAS livre sa propre plate-forme Integration Technology pour l'interconnexion au back-office et aux solutions tierces. Comme toujours, il faut être capable de programmer en SAS. La dernière version fournit un pont vers les serveurs WebDAV et le middleware Tibco/RendezVous.

SPSS Clementine

SPSS est considéré comme le leader sur le segment des outils statistiques (pour des experts). Clementine est sa plate-forme de data mining. 14 méthodes différentes de modélisation prédictive sont compilées (d'autres éditeurs fournissent aussi plusieurs algorithmes). Rachat récent de NetGenesis (eCRM/Web mining) et de Lexiquest (analyse de données non-structurées).

Principal partenaire: Siebel, qui dispose d'une participation dans le capital de SPSS. Autre CRM: Chordiant à travers Prime Response. Entrepôts de données: Oracle, Hyperion, Informix Red Brick Warehouse (datamart). ETL: Ascential.

Page 11: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 10/47

Intégration du Data Mining dans le management Pour être efficace, le processus de Data Mining, correspondant à une activité bien fixée,

doit être intégré dans le management de cette activité. Ce qui implique que l'ensemble des opérations informatico-mathématiques associé à cette activité soit disponible et accessible aux managers de cette activité, depuis la disponibilité des données sources à partir desquelles les opérations de Data Mining vont être effectuées jusqu'à la mise en place d'actions de management correspondant à cette activité. Le Data Mining, conçu comme un processus de traitement de l'information, intervient à tout moment dans le processus de management de l'activité, ce qui indique très clairement que le Data Mining appliqué est constitué d'une application informatique spécifique au problème posé (ou à l'activité à prendre en compte) dans laquelle les techniques de Data Mining vont être intégrées. On illustrera ci-après par deux exemples de processus de Data Mining la situation d'application des techniques de Data Mining dans un cadre de management d'activités dans une entreprise.

Processus de Data Mining associé au traitement de données de fidélité des clients

Problématique de la fidélisation des clients La problématique des clients se place dans le contexte du marketing des services et non

du marketing des produits. Ce marketing des services est un marketing des clients qu'on connaît actuellement sous le nom de marketing relationnel ou de marketing one to one. Il s'appuie sur une connaissance fine et détaillée des clients et c'est pour répondre à cette connaissance que les technologies de Data Mining sont actuellement exploitées. Mais avant d'employer ces techniques, il faut avoir une base de l'ensemble des données nécessaires des clients à traiter. La figure 3 décrit un cadre simplifié des principaux domaines de connaissance des clients et leur environnement et de leurs relations entre eux. Ce qui implique qu'un système d'information client, composé autant d'informations internes à l'entreprise, qu'externes à l'entreprise peut être très "large" et complexe. Mais c'est le prix à payer de la connaissance. Il est plus facile de faire un système d'information produit qu'un système d'information client : mais un client ne se divise pas en produits et services. Le client est unique. La connaissance du client ne peut être que globale, totale et détaillée. Muni de l'outil système d'information client, l'entreprise peut opérer ses différentes activités, marketing, support commercial, commercial, qualité de service, prévention des impayés, etc. Toutes ces activités vont pouvoir être managées en s'appuyant sur des systèmes d'information clients particuliers, appelés Data Marts qui sont des restrictions au domaine d'activité managé. Avoir un système d'information client en l'an 2000 est aussi important que d'avoir un système d'information du réseau téléphonique en 1970.

Page 12: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 11/47

Figure 3 - Cadre général simplifié de la connaissance des clients.

La figure 4 décrit le principe de l'exploitation des données d'un système d'information

client intégré au management d'activités. Le traitement de la fidélisation des clients s'inscrit dans ce schéma comme l'un des

processus de management de la direction commerciale. Figure 4 - Positionnement du système d'information Client et du Data Mining Client dans

le processus de management des clients par le Service du Marketing et le Support Client.

Page 13: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 12/47

Description du processus de supervision de la fidélisation des clients La figure 5 décrit l'intégralité d'un processus de traitement supervisé de la fidélisation des

clients, depuis l'acquisition des données des clients, jusqu'à leur exploitation par le management commercial. Le processus illustre de façon concentrée ce qu'est un processus de Data Mining, interactif, intégrant des étapes différentes (description, modélisation, exploitation intelligente...) et même ici, différentes techniques de Data Mining opérant sur les mêmes sous-ensembles de données pour ensuite choisir, soit le meilleur résultat, soit un résultat synthétique consensuel. Car il faut encore le rappeler ici de façon nette : un bon résultat de technique de Data Mining ne dépend que des données, modélisables ou pas.

Figure 5 - Architecture fonctionnelle du traitement supervision de la fidélisation des

clients.

L'ensemble des techniques de modélisation intégrées ici dans ce processus est considéré

comme bon, adapté au problème (... il n'y a pas de meilleure méthode...), mais il y a réellement une manière d'utiliser les techniques de Data Mining qui peut être différente pour chaque exploitant de données. Ainsi, au Cnet, j'ai expérimenté une des techniques de Data Mining, qui après plusieurs cycles d'analyse, m'a permis d'obtenir le résultat optimal, et ceci grâce à une analyse et une modélisation interactive (c'est-à-dire en utilisant interactivement les techniques de Data Mining avec les données). Quelle que soit la technique de Data Mining utilisée, elle doit être évaluée. On l'évalue à l'aide d'une procédure appelée "valeurs de lift" décrite à la figure 6.

Page 14: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 13/47

Figure 6 - Evaluation de l'efficacité des techniques de Data Mining de la fidélisation –

Méthode du lift.

Paramètres de l'évaluation

Calcul des valeurs de lift

Exemple de tableau de valeurs de lift

Exemple de courbe de valeurs de lift

Page 15: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 14/47

On doit, cependant, employer cette procédure avec doigté. En effet, les techniques de

Data Mining opèrent la plupart du temps sur des échantillons. On se gardera donc de déclarer que telle technique est meilleure qu'une autre parce qu'elle a une valeur plus forte. C'est le même principe statistique que celui de l'intervalle de confiance d'une valeur. Cette valeur doit être encadrée et le point médian de l'intervalle n'est pas une valeur représentative particulière. De même,ce processus s'inscrit dans la durée. C'est un processus temporel. Les données à l'instant (t) ne sont pas les données à l'instant (t 11). La technique qui a fourni de bons résultats à l'instant (t) ne sera pas forcément celle qui sera la meilleure à l'instant (t 11). Si on ajoute à cela les problèmes de calcul de l'intervalle de confiance des valeurs de lift, on se doit d'être prudent dans "le choix de la meilleure technique de modélisation" ; d'autant plus que ce choix est conditionné par la sélection des données significatives à l'entrée du modèle.

Quoi qu'il en soit, à une certaine étape du processus, l'exploitant manager du marketing

récupère des indicateurs de fidélité, de valeur économique, de durée de vie des clients et les données significatives de la fidélité sélectionnées statistiquement. On réunit ici ces données dans un ensemble graphique appelé fidélogramme, interactivable, qui permet au manager d'exploiter ces indicateurs pour son action marketing.

Dans le processus, on peut coder pour chaque client le plan d'action à effectuer et ainsi

évaluer statistiquement les résultats de ce plan d'action. On notera que, puisque les adresses des clients font partie du système d'information client, on peut par simple clic sur un poste de travail envoyer aux call centers les plans d'action associés aux adresses du numéro de téléphone des clients. Ainsi la chaîne de traitement de l'information associée à la fidélisation est complète : elle illustre assez bien ce qu'on entend par Data Mining de nos jours.

Page 16: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 15/47

Présentation de Sodas :

Page 17: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 16/47

L’analyse de données symboliques Résumer ces données, à l'aide de concepts sous-jacents (une ville, un type de chômeur, un

produit industriel, une catégorie de panne,...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Elles sont dites " symboliques ", car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l'extension des méthodes de " l'Analyse des Données Exploratoires " et plus généralement, de la " Statistique Multidimensionnelle " à de telles données, pour en extraire des connaissances d'interprétation aisée, devient une tâche d'importance grandissante.

On s'intéresse ici à la représentation des connaissances considérée comme des " atomes "

ou "unités" de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu'il s'agit pour nous d'analyser et d'organiser de façon automatique. Par rapport aux approches classiques, l'Analyse des données symboliques présente les caractéristiques et ouvertures suivantes :

- Elle s'applique à des données plus complexes. En entrée elle part de données

symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possiblité, capacité etc., voir Diday (1995) et Diday (2000)) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui vont être développés ci-dessous.

- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et

spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies.

- Elle fournit des représentations graphiques exprimant entre autres la variation interne

des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas seulement par un point.

Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base plus riche que les données agrégées habituelles (car

tenant compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies, on est loin des simples centres de gravités)

- Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales

ou de variables significatives obtenues (axes factoriels), donc en termes proches de l'utilisateur.

- En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de

données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer.

Page 18: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 17/47

. Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville.

- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue,

il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus.

- Ils peuvent être facilement transformés sous forme de requête d'une Base de Données.

Ceci a au moins les deux conséquences suivantes : - Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par

exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d'enquête socio-démographiques).

- Alors qu'habituellement on pose des questions sous forme de requête à la base de

données pour fournir des informations intéressant l'utilisateur, les objets symboliques formés à partir de la base par les outils de l'Analyse des Données Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l'utilisateur.

Page 19: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 18/47

Choix de la base Nous avons décidé d’étudier la base de données de Publibook : une jeune maison

d’édition dans laquelle travaille l’un de nous.

Schéma Relationnel

La base de données de Publibook est constituée de 5 tables (données datant de

2000/2001). 3 tables gérant la production de l’ouvrage

- La table « Fiche Prospects/Auteurs » regroupe les informations sur l’auteur (Coordonnées, date de naissance, sexe…),

- La table « Fiche Ouvrage » liste les informations techniques concernant le livre (titre, genre, nb de pages, prix, nbre d’images…)

- La table « Prestations » regroupe toutes les prestations payées par l’auteur (Couverture, Scan, Cartes de visite ; Correction). 2 tables gérant les commandes de livres

- La table « Fiche Client » regroupe les coordonnées du client - La table « Liste des commandes » rassemble les données liées aux commandes (date de

commande, nb d’ex, numéro de facture…). Nous avons été amenés à introduire une nouvelle table qui nous sert, comme nous le

verrons plus tard pour la taxonomie :

Page 20: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 19/47

- La table « Région », qui permet de faire la correspondance entre le code postal, le

département et la région. Pour pouvoir sortir les données que nous voulions importer dans Sodas, nous avons été

obligés aussi de retravailler un peu les données : Pour chaque ouvrage, nous avons calculé le nombre d’images total (noir et blanc, et

couleur), nous lui avons aussi associé le nombre de cartes de visite acheté par l’auteur, le montant des corrections payé par l’auteur sur cet ouvrage, nous avons aussi lorsque nous avons calculé l’âge de l’auteur défini un intervalle des âges.

Nous avons donc créer une table SDSLivre avec les données des tables Fiche Ouvrage,

Fiche Auteur, Liste des Prestations. Puis nous avons crée la requête que nous allions importé dans DB2SO : Requête SDSLivre1 SELECT SDSLivre.Titre, SDSLivre.Genre, SDSLivre.[Prix définitif] AS Prix, SDSLivre.[Nb pages] AS Nbpages, SDSLivre.[Sexe Auteur] AS Sexe, SDSLivre.[MaxDeType de couverture] AS Couverture, SDSLivre.[Nb Cartes] AS Cartes, SDSLivre.Correction, Left([CP Auteur],2) AS CP, SDSLivre.Departement, IIf([Age auteur]<21,"Moins de 20 ans",IIf([Age auteur]>19 And [Age auteur]<30,"Vingtaine",IIf([Age auteur]>29 And [Age auteur]<40,"Trentaine",IIf([Age auteur]>39 And [Age auteur]<50,"Quarantaine",IIf([Age auteur]>49 And [Age auteur]<60,"Cinquantaine",IIf([Age auteur]>59 And [Age auteur]<70,"Soixantaine",IIf([Age auteur]>69,"Plus de 70 ans","Inconnu"))))))) AS Age_Catégorie, IIf([Nbre Images NB]+[Nbre Images Couleurs]<>0,[Nbre Images NB]+[Nbre Images Couleurs],0) AS NBImages, IIf([Presence Image NB]="Oui" Or [Presence Image Couleur]="Oui","Oui","Non") AS Images, IIf([Nbre Images NB]<>0,[Nbre Images NB],0) AS NBImageNB, IIf([Nbre Images Couleurs]<>0,[Nbre Images Couleurs],0) AS NBImageCouleur FROM SDSLivre; Pour la variable add single, nous avons d’abord calculé la moyenne des exemplaires

vendus par genre puis nous avons créer des regroupements : « Entre tel et tel valeur » pour avoir moins de valeurs différentes. Nous avons aussi compté le nombre de titres différents dans chaque genre.

Requête ADSLivre1 SELECT PourADS.Genre, IIf([Moyenne_Vente]<=20,"Moins de 20",IIf([Moyenne_Vente]>20 And [Moyenne_Vente]<=30,"Entre 20 et 30",IIf([Moyenne_Vente]>30 And [Moyenne_Vente]<=40,"Entre 30 et 40",IIf([Moyenne_Vente]>40 And [Moyenne_Vente]<=50,"Entre 40 et 50",IIf([Moyenne_Vente]>50 And [Moyenne_Vente]<=60,"Entre 50 et 60",IIf([Moyenne_Vente]>60 And [Moyenne_Vente]<=150,"Entre 60 et 150",IIf([Moyenne_Vente]>150,"Supérieur à 150"))))))) AS Ventes, PourADS.Compte FROM PourADS GROUP BY PourADS.Genre, IIf([Moyenne_Vente]<=20,"Moins de 20",IIf([Moyenne_Vente]>20 And [Moyenne_Vente]<=30,"Entre 20 et 30",IIf([Moyenne_Vente]>30 And [Moyenne_Vente]<=40,"Entre 30 et 40",IIf([Moyenne_Vente]>40 And [Moyenne_Vente]<=50,"Entre 40 et 50",IIf([Moyenne_Vente]>50 And [Moyenne_Vente]<=60,"Entre 50 et 60",IIf([Moyenne_Vente]>60 And

Page 21: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 20/47

[Moyenne_Vente]<=150,"Entre 60 et 150",IIf([Moyenne_Vente]>150,"Supérieur à 150"))))))), PourADS.Compte; FROM PourADS; Pour la taxonomie nous avons utilisé la table Région. La taxonomie est la suivante : Code Postal donne Région qui donne Pays.

Requête TaxoLivre1 SELECT [Pour Taxo].CP, Région.Region, [Pour Taxo].Pays FROM Région INNER JOIN [Pour Taxo] ON Région.CP = [Pour Taxo].CP GROUP BY [Pour Taxo].CP, Région.Region, [Pour Taxo].Pays; Individus : Nos individus sont les titres des livres. Nous avons 488 individus différents. Concepts : Nos concepts sont les genres de ces livres, nous en avons 24.

Objectif de nos analyses : Il est important de se poser la question « Quels résultats veut on trouver ? », quels sont les

« pépites » qui peuvent nous intéresser ? Les données que nous avons proviennent d’une maison d’édition, il peut donc être intéressant de connaître les genres qui se vendent le mieux et de mieux connaître les écrivains (pouvoir mieux cibler la publicité, offrir des services qui les intéressent …)

Page 22: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 21/47

SOE (Editeur d’objets symboliques) : SOE permet de visualiser dans une table tous les objets symboliques présents dans un

fichier SODAS et de réaliser des modifications basiques sur les données à travers cette table. L’éditeur permet aussi de visualiser les représentations graphiques 2D et 3D ainsi que la représentation SOL de chaque objet symbolique présent dans la table.

La représentation en étoile permet de représenter des variables modales, qualitatives,

quantitatives, des taxonomies et des hiérarchies. Principe de l’étoile : Un graphique pour chaque objet symbolique Graphe radial (diagramme de Kiviat) Information globale d’abord Plus d’informations données interactivement Tout type de variables 2D ou 3D

A l’aide de ces deux graphiques on peut déjà se rendre compte que les livres

autobiographiques sont écrits majoritairement par des hommes tandis que les ouvrages de psychologie sont plus écrits par des femmes. Pour savoir quelles sont les proportions il suffit de cliquer sur l’axe « sexe » pour faire apparaître deux nouveaux graphiques :

Page 23: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 22/47

Autobiographie Psychologie

On peut ainsi constater que 83% des auteurs de livres de psychologie sont des femmes, contre 38% pour les autobiographies.

Recherchons maintenant des informations concernant le genre « Erotisme » et le genre

« Essai ». Grâce aux graphes ci-dessous nous pouvons tout de suite voir que deux classes d’âge qui écrivent majoritairement des livres « érotiques » sont les trentenaires et les sexagénaires alors que ce sont les quarantenaires qui écrivent majoritairement les essais. On peut aussi voir que ces deux genres vendent le même nombre de livres.

Page 24: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 23/47

Page 25: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 24/47

DIV (Divisive Classification) :

Les objectifs de cette méthode : Construction d’une hiérarchie du haut vers le bas, par division récursive des classes. Les

entrées peuvent être des tableaux de données classiques (variables continues, ordinales ou nominales) ou des tableaux de données classiques (intervalle, multi-ordinale, booléenne). En sortie on a une hiérarchie de partitions (2 à K classes) et des classes.

DIV vs TREE : DIV est une classification hiérarchique descendante (pas de variable à

discriminer) tandis que TREE est un arbre de décision (avec une variable à discriminer) Algorithme de DIV : 1ère étape : tous les objets sont dans la classe C 2ème étape :Diviser successivement chaque classe C en deux classes (C1,C2) en fonction

du critère de l’inertie intra-classes pour chaque variable y, trouver la coupure S qui minimise w(c) = q(c1) + q(c2) choisir la variable y et la coupure S qui minimise w(c) 3ème étape : diviser la classe c en (c1,c2) qui maximise ?(c) = | q(c) – q(c1) – q(c2)| Fin : chaque découpage est obtenu en utilisant une seule variable. Critère d’évaluation (inertie intra-classe) :

Page 26: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 25/47

Critère d’évaluation additif w(P) = )(∑∈PC

kk

CQ , P = ( C1, …., CK)

Choix de la valeur de coupure S : Numérique ou ordinal : Ordonner les valeurs des variables Choisir S au milieu de deux variables consécutives Intervalle : Réduire l’intervalle à un point, le centre Choisir S de la même façon que pour les Numériques Fréquence : S est la médiane ------------------------------------------------------- BASE=C:\SODAS\Tmp\BIY6A103.CMD nind=24 nvar=15 nvarsel=6 METHOD=DIVISIVE CLUSTERING ------------------------------------------------------- THE SELECTED VARIABLES ARE : (Verify the order of the modality) -------------------------- ( 3) :Sexe (Initial order) 1- F 2- H ( 4) :Couverture (Initial order) 1- Couverture standard 2- Couverture personnalisée ( 7) :CP (Initial order) ( 8) :Departement (Initial order) ( 9) :Age_Catégorie (Initial order) 1- Trentaine 2- Vingtaine 3- Inconnu 4- Plus de 70 ans 5- Cinquantaine 6- Soixantaine 7- Quarantaine 8- Moins de 20 ans ( 11) :Images (Initial order) 1- Non 2- Oui PARTITION IN 2 CLUSTERS : -------------------------:

Page 27: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 26/47

Cluster 1 (n=5) : "Psychologie" "Biographie" "Jeunesse" "Droit" "Enfants" Cluster 2 (n=19) : "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier" "Essai"

"Fiction" "Nouvelles" "Histoire" "Loisirs" "Sciences" "Conte" "Récit" "Esotérisme" "Economie" "Erotisme"

"Aventure" "Théâtre" Explicated inertia : 8.021330 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=4) : "Biographie" "Jeunesse" "Droit" "Enfants" Cluster 2 (n=19) : "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier" "Essai"

"Fiction" "Nouvelles" "Histoire" "Loisirs" "Sciences" "Conte" "Récit" "Esotérisme" "Economie" "Erotisme"

"Aventure" "Théâtre" Cluster 3 (n=1) : "Psychologie" Explicated inertia : 15.375609 PARTITION IN 4 CLUSTERS : -------------------------: Cluster 1 (n=4) : "Biographie" "Jeunesse" "Droit" "Enfants" Cluster 2 (n=16) : "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier" "Essai"

"Fiction" "Nouvelles" "Histoire" "Loisirs" "Sciences" "Conte" "Esotérisme" "Economie" "Erotisme" Cluster 3 (n=1) : "Psychologie" Cluster 4 (n=3) : "Récit" "Aventure" "Théâtre" Explicated inertia : 21.716532 PARTITION IN 5 CLUSTERS : -------------------------:

Page 28: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 27/47

Cluster 1 (n=4) : "Biographie" "Jeunesse" "Droit" "Enfants" Cluster 2 (n=16) : "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier" "Essai"

"Fiction" "Nouvelles" "Histoire" "Loisirs" "Sciences" "Conte" "Esotérisme" "Economie" "Erotisme" Cluster 3 (n=1) : "Psychologie" Cluster 4 (n=1) : "Théâtre" Cluster 5 (n=2) : "Récit" "Aventure" Explicated inertia : 28.994697 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=4) ! !----2- [Age_Catégorie <= Plus de 70 ans] ! ! ! +---- Classe 3 (Nd=1) ! !----1- [Sexe = F] ! ! +---- Classe 2 (Ng=16) ! ! !----3- [Age_Catégorie <= Cinquantaine] ! ! +---- Classe 4 (Ng=1) ! ! !----4- [CP <= 64] ! +---- Classe 5 (Nd=2) A la fin de l’algorithme, nos genres sont divisés en cinq classes. Ces variables sont des variables qualitatives. La première coupe est sur le sexe. Ensuite il y a une coupe sur l’âge, une seconde coupe

sur l’âge et finalement une dernière coupe sur le code postal. Si l’auteur du livre est une femme alors le genre du livre peut être : biographie, jeunesse, droit, enfants, ou psychologie Si elle a plus de 70 ans alors son livre est un livre de psychologie.

Page 29: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 28/47

Ce graphe nous permet de mieux connaître les auteurs, de pouvoir dresser un « portrait robot » des écrivains de chaque genre.

------------------------------------------------------- BASE=C:\SODAS\Tmp\BIY6A103.CMD nind=24 nvar=15 nvarsel=6 METHOD=DIVISIVE CLUSTERING ------------------------------------------------------- VARIANCE OF THE SELECTED VARIABLES : ------------------------------------ Prix : 3874.092475 Nbpages : 17837.178819 Cartes : 1528177.083333 NBImages : 14464.159722 NBImageNB : 11112.687500 NBImageCouleur : 1165.609375 ------------------------------------------------------- PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=20) : "Psychologie" "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier"

"Essai" "Fiction" "Nouvelles" "Histoire" "Sciences" "Jeunesse" "Récit" "Economie" "Erotisme" "Aventure"

"Théâtre" "Droit" "Enfants" Cluster 2 (n=4) : "Loisirs" "Biographie" "Conte" "Esotérisme" Explicated inertia : 36.046206 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=20) : "Psychologie" "Fantastique" "Roman" "Autobiographie" "Poésie" "Art" "Policier"

"Essai" "Fiction" "Nouvelles" "Histoire" "Sciences" "Jeunesse" "Récit" "Economie" "Erotisme" "Aventure"

"Théâtre" "Droit" "Enfants" Cluster 2 (n=3) : "Loisirs" "Conte" "Esotérisme" Cluster 3 (n=1) : "Biographie" Explicated inertia : 55.670713 PARTITION IN 4 CLUSTERS : -------------------------:

Page 30: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 29/47

Cluster 1 (n=17) : "Psychologie" "Fantastique" "Autobiographie" "Poésie" "Policier" "Essai"

"Fiction" "Nouvelles" "Sciences" "Jeunesse" "Récit" "Economie" "Erotisme" "Aventure" "Théâtre" "Droit" "Enfants" Cluster 2 (n=3) : "Loisirs" "Conte" "Esotérisme" Cluster 3 (n=1) : "Biographie" Cluster 4 (n=3) : "Roman" "Art" "Histoire" Explicated inertia : 68.172098 PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=10) : "Psychologie" "Fiction" "Sciences" "Jeunesse" "Economie" "Erotisme" "Aventure"

"Théâtre" "Droit" "Enfants" Cluster 2 (n=3) : "Loisirs" "Conte" "Esotérisme" Cluster 3 (n=1) : "Biographie" Cluster 4 (n=3) : "Roman" "Art" "Histoire" Cluster 5 (n=7) : "Fantastique" "Autobiographie" "Poésie" "Policier" "Essai" "Nouvelles" "Récit" Explicated inertia : 75.393432 PARTITION IN 6 CLUSTERS : -------------------------: Cluster 1 (n=10) : "Psychologie" "Fiction" "Sciences" "Jeunesse" "Economie" "Erotisme" "Aventure"

"Théâtre" "Droit" "Enfants" Cluster 2 (n=3) : "Loisirs" "Conte" "Esotérisme" Cluster 3 (n=1) :

Page 31: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 30/47

"Biographie" Cluster 4 (n=1) : "Art" Cluster 5 (n=7) : "Fantastique" "Autobiographie" "Poésie" "Policier" "Essai" "Nouvelles" "Récit" Cluster 6 (n=2) : "Roman" "Histoire" Explicated inertia : 81.270642 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=10) ! !----4- [Cartes <= 100.000000] ! ! ! +---- Classe 5 (Nd=7) ! !----3- [Prix <= 134.281250] ! ! ! ! +---- Classe 4 (Ng=1) ! ! ! ! !----5- [Nbpages <= 197.750000] ! ! ! +---- Classe 6 (Nd=2) ! !----1- [NBImageNB <= 63.750000] ! ! +---- Classe 2 (Ng=3) ! ! !----2- [NBImageCouleur <= 43.500000] ! +---- Classe 3 (Nd=1) Ces variables sont quantitatives. Ce graphe nous permet de mieux connaître les livres eux-mêmes. D’après leurs

caractéristiques « DIV » a été capables de les différencier et de les classer en plusieurs catégories ayant les mêmes caractéristiques. Cette analyse nous permet de mieux connaître les livres et d’offrir des services à leurs écrivains. Par exemple les livres dont le genre est "Loisirs", "Conte" ou "Esotérisme" ont plus de 43 images en couleur et moins de 64 images en noir et blanc. On pourrait donc envisager d’offrir un « package » contenant des prix préférentiels pour l’insertion d’images couleur à leurs auteurs.

La première coupe intervient sur le nombre d’images en noir et blanc (césure à 64

images), la seconde sur le nombre d’images couleur (43 images), la troisième sur le prix, la quatrième sur le nombre de cartes de visite commandées et la cinquième sur le nombre de pages.

Page 32: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 31/47

Le fait de connaître le nombre de cartes de visite commandées en fonction du genre peut nous permettre d’offrir à ces écrivains des tarifs préférentiels sur les cartes.

STAT (Elementary Statistics on Symbolic Objects) : STAT est un ensemble de méthodes. STAT propose de permettre aux objets symboliques

d’avoir accès aux statistiques élémentaires habituellement réservées aux données classiques. Chaque méthode de STAT dépend d‘un type de variable. On filtre les méthodes applicables suivant le type trouvé dans le fichier SODAS.

Cas des variables nominales : En cliquant sur l’icône représentant un fichier on peut avoir les informations suivantes : capa mini maxi mean Sexe AD01 F 0.9999 0.0000 0.8333 0.2865 AD02 H 1.0000 0.1667 1.0000 0.7135 Couverture

Fichier texte

Graphique

Page 33: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 32/47

AE01 Couverture standard 1.0000 0.6000 1.0000 0.9238 AE02 Couverture personnalisée 0.8759 0.0000 0.4000 0.0762 Age_Catégorie AJ01 Trentaine 0.9475 0.0000 0.3333 0.1095 AJ02 Vingtaine 0.6725 0.0000 0.1944 0.0433 AJ03 Inconnu 1.0000 0.0000 1.0000 0.3291 AJ04 Plus de 70 ans 0.9760 0.0000 0.6667 0.1243 AJ05 Cinquantaine 0.9828 0.0000 0.5000 0.1407 AJ06 Soixantaine 0.9755 0.0000 0.6250 0.1281 AJ07 Quarantaine 0.9636 0.0000 0.5000 0.1157 AJ08 Moins de 20 ans 0.2186 0.0000 0.2000 0.0093 Images AL01 Non 1.0000 0.4615 1.0000 0.7639 AL02 Oui 0.9992 0.0000 0.5385 0.2361 La valeur mini correspond au minimum de la probabilité. La valeur mean correspond à la moyenne des probabilités. La valeur maxi correspond au maximum de la probabilité. Par exemple, pour la présence ou non d’images, il existe un genre dont aucun livre n’a

d’images (plus faible probabilité) et un genre où 53.85 % des livres a au moins une image (plus forte probabilité) et en moyenne 23.61 % des livres ont au moins un image (valeur mean)

On peut tout de suite voir que majoritairement les livres ont une couverture « standard »

(dans 92.38% des cas), qu’ils sont à 72% écrits par des hommes et que 76% d’entre eux n’ont pas d’images.

Lorsque l’on clique sur l’icône d’a côté, on obtient une fenêtre qui nous permet de choisir

la variable à représenter :

Page 34: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 33/47

Cas des variables continues : En cliquant sur l’icône fichier on obtient (nous avons choisi 10 classes) : Prix limits: 4.0 - 360.0 class width: 35.6 class 1 0.0336 class 2 0.2065 class 3 0.3233 class 4 0.2550 class 5 0.1149 class 6 0.0281 class 7 0.0176 class 8 0.0116 class 9 0.0047 class 10 0.0047 Central tendancy: 110.2559 Dispersion: 50.8788 Nbpages limits: 26.0 - 607.0 class width: 58.1 class 1 0.1123 class 2 0.2154 class 3 0.2075 class 4 0.1595 class 5 0.1542 class 6 0.0680 class 7 0.0417 class 8 0.0189 class 9 0.0133 class 10 0.0091

Max

Mean

Mini

Page 35: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 34/47

Central tendancy: 208.2558 Dispersion: 111.9601 Cartes limits: 0.0 - 5400.0 class width: 540.0 class 1 0.6448 class 2 0.1661 class 3 0.0779 class 4 0.0398 class 5 0.0302 class 6 0.0104 class 7 0.0077 class 8 0.0077 class 9 0.0077 class 10 0.0077 Central tendancy: 726.3856 Dispersion: 876.6435 Correction limits: 0.0 - 32882.0 class width: 3288.2 class 1 0.8568 class 2 0.0898 class 3 0.0067 class 4 0.0067 class 5 0.0067 class 6 0.0067 class 7 0.0067 class 8 0.0067 class 9 0.0067 class 10 0.0067 Central tendancy: 2904.0179 Dispersion: 4455.9044 NBImages limits: 0.0 - 432.0 class width: 43.2 class 1 0.7952 class 2 0.0542 class 3 0.0299 class 4 0.0299 class 5 0.0299 class 6 0.0222 class 7 0.0157 class 8 0.0118 class 9 0.0059 class 10 0.0053 Central tendancy: 52.0885 Dispersion: 73.8878 NBImageNB limits: 0.0 - 350.0 class width: 35.0 class 1 0.6827 class 2 0.0463 class 3 0.0463 class 4 0.0463 class 5 0.0463 class 6 0.0463

Page 36: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 35/47

class 7 0.0387 class 8 0.0289 class 9 0.0091 class 10 0.0091 Central tendancy: 62.4214 Dispersion: 78.4610 NBImageCouleur limits: 0.0 - 162.0 class width: 16.2 class 1 0.8461 class 2 0.0718 class 3 0.0178 class 4 0.0178 class 5 0.0171 class 6 0.0059 class 7 0.0059 class 8 0.0059 class 9 0.0059 class 10 0.0059 Central tendancy: 15.1458 Dispersion: 22.2533 En cliquant sur l’icône « graphique » on obtient :

Ce graphique permet de voir la répartition des livres suivant le nombre de pages. La plus

grande fréquence de pages est entre 100 et 150, ensuite plus le nombre de pages augmente, plus la fréquence diminue. Le maximum de pages est de 607 pages.

Page 37: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 36/47

Grâce à ce graphe nous pouvons connaître la distribution de l’âge, le plus jeune écrivain a

9 ans et le plus âgé a 92 ans. Nous pouvons voir que la majorité des écrivains ont entre 43 et 58 ans.

En choisissant la représentation « biplot » on obtient :

D’après ce graphe on peut voir que la plupart des genres ont les mêmes caractéristiques

en terme de nombre de pages et de prix. Néanmoins on peut remarquer que l’amplitude du

Page 38: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 37/47

genre « Roman » est très importante, bien plus que celle du genre « Erotisme ». Les romans sont plus chers et ont plus de pages que les autres livres.

Dans le menu « Process », en cliquant sur « Select objects » on obtient une fenêtre qui

nous permet de sélectionner les concepts que l’on souhaite représenter :

Ne prenons que les genres les plus représentés, on obtient alors :

Page 39: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 38/47

On peut se rendre compte que le genre « Nouvelle » et le genre « Policier » sont similaires en terme de nombre de pages et de prix.

TREE (Decision Tree)

Présentation de la méthode Il s’agit en fait d’établir un arbre de décision avec une variable à discriminer, pour cela, il

fait choisir la meilleure segmentation (ie conserver la meilleure information) à chaque itération.

Page 40: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 39/47

Pk( r ) = Probabilité pour que l’objet k appartienne à la classe Nr

Pk( l ) = Probabilité pour que l’objet k appartienne à la classe Nl

Un nœud est considéré comme terminal (ie c’est une feuille) lorsque : Soit sa taille est trop petite (par défaut la taille vaut 5) Soit la taille minimum (par défaut 2) d’une classe non majoritaire est atteinte Soit il génère deux nœuds fils de taille trop petite (par défaut la taille vaut 1) NB : Ces trois paramètres sont modifiables sur SODAS. NB : Sodas n’accepte pas de mélanger variables nominales et variables continues. Application de la méthode Tree De part les limites de Sodas, nous avons donc fait deux analyses, la première est constitué

de variables continues, la deuxième, de variables nominales.

Première analyse : Les paramètres choisis sont les suivants : Learning Set : 24 Number of variables : 6 Max. number of nodes: 13 Soft Assign : ( 0 ) PURE Criterion coding : ( 1 ) GINI Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00 GROUP OF PREDICATE VARIABLES : ( 1 ) Prix ( 2 ) Nbpages ( 5 ) Cartes ( 6 ) Correction ( 10 ) NBImages ( 15 ) Compte CLASSIFICATION VARIABLE : ( 14 ) Ventes

Page 41: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 40/47

§ Nous voyons que si le livre fait plus de 200 pages et si nous avons plus de 17 titres

dans la même catégorie. Alors, l’espérance moyenne de vente d’un livre appartenant aux genres suivants : Fantastique, Roman, Poésie, Essai ; est entre 40 et 50 exemplaires.

§ Les ouvrages ésotériques de moins de 200 pages, avec plus de 24 images et ayant

eu 500 Euros de corrections seront vendus en moyenne en 40 et 60 exemplaires. Le genre ésotérisme compte moins de 17 titres.

§ Nous constatons enfin avec un peu de surprise, le peu d’importance de la vente des cartes de promotions pour les genres suivant : "Psychologie" "Art" "Loisirs" "Jeunesse" "Enfants". En effet, les livres de moins de 200 pages et ayant eu pour moins de 138 Euros de corrections seront vendu en moyenne à plus de 150 exemplaires lorsqu’il n’y a pas eu de cartes de promotions.

Deuxième analyse : Les paramètres choisis sont les suivants : Learning Set : 24 Number of variables : 1 Max. number of nodes: 13 Soft Assign : ( 0 ) PURE Criterion coding : ( 1 ) GINI Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00 GROUP OF PREDICATE VARIABLES : ( 9 ) Age_Catégorie 8 MODALITIES CLASSIFICATION VARIABLE :

Page 42: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 41/47

( 14 ) Ventes

Nous pouvons donc en conclure au vue de cet arbre que :

• les personnes ayant la soixantaine et ayant écrit un ouvrage dans un des genres suivants : « Biographie », « Aventure » « Théâtre » ont vendu en moyenne plus de 150 exemplaires (nœud 18).

• les personnes ayant la trentaine et qui ont écrit un livre dans l’ésotérisme ont vendu

entre 50 et 60 exemplaires.

PYR (Pyramidal Clustering)

Présentation de la méthode Soit Ω un ensemble fini. P un ensemble de partie non vides sur Ω, P est une pyramide si : Ω ∈ P ∀ w ∈ Ω, w∈ P ∀ (H, H’) ∈ P² ⇒ H ∩ H’ = 0 ou H ∩ H’∈ P ∃ un ordre θ compatible avec P.

Page 43: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 42/47

Une pyramide indexée est un couple (P, F) où P est une pyramide et F, une application de P dans R+ tel que :

§ F(H)=0 si et seulement si H ne contient qu’un seul élément. § ∀H ayant plus d’un élément :

Algorithme de classification ascendante :

A. Chaque élément de Ω est appelé « groupe » B. On agrège les 2 groupes les plus proches parmi les groupes qui n’ont

pas été agrégés deux fois C. On recommence B jusqu’à ce qu’un groupe qui contient Ω soit formé.

Il s’agit donc de réaliser une classification pyramidale. Pour cela, on regroupe les

concepts en groupe qui peuvent être considéré comme des concepts intermédiaire.

Page 44: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 43/47

Les individus de notre pyramides sont nos concepts (ie : les 24 genres). Les variables choisies sont : la tranche d’âge de l’auteur, le nombre d’images contenues

dans l’ouvrage et le nombre de titres par genre. Résultats :

P25=[Age_Catégorie=[75.000,150.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.5000),2(0.5000))] Ext(P25)="Droit","Enfants" P26=[Age_Catégorie=[89.000,150.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.5000),2(1.0000))] Ext(P26)="Aventure","Droit" P27=[Age_Catégorie=[55.000,150.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.0000),2(1.0000))] Ext(P27)="Economie","Aventure" P28=[Age_Catégorie=[75.000,150.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.5000),2(1.0000))] Ext(P28)="Aventure","Droit","Enfants" P29=[Age_Catégorie=[55.000,180.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.0000),2(1.0000))] Ext(P29)="Sciences","Economie","Aventure" P30=[Age_Catégorie=[55.000,150.000]]^[NBImages=[0.000,0.000]]^[Compte=(1(0.5000),2(1.0000))] Ext(P30)="Economie","Aventure","Droit","Enfants" …

Nous ne présentons pas tous les résultats… De nos 24 concepts, nous constatons que les genres « Enfants » et « Droit » sont les plus

proches, ils n’ont pas d’images, les auteurs sont de la même tranche d’âge. Puis c’est les genres « Aventure » et « Droit » d’être le plus proches par rapport au trois variables définies ci-dessus. On remarque que l’ « Aventure » et le thème « Enfant » se distingue par la tranche d’âge de l’auteur et le nombre de titres par genre… Ces deux thème ont les mêmes caractéristiques sur le nombre d’images.

PCM (Principal Component Analysis)

Présentation de la méthode La méthode PCM correspond à l’analyse en composante principale classique. Mais au

lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une visualisation de chaque concept par des rectangles.

La représentation en rectangle permet plus facilement de repérer l’intensité des liaison

entre les concepts et les variables. De même elle permet aussi de distinguer les concepts ayant des caractéristiques voisines.

Page 45: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 44/47

Nous avons en résultat :

§ Les valeurs propres, le pourcentage d’inertie et les premières composantes principale

§ Les corrélations entre chaque variable descriptive et les composantes principales

§ Une représentation graphique en rectangle Nous avons fait deux analyses : § Une première analyse avec des critères liés au marketing (prix de l’ouvrage, cartes

de promotion) § La deuxième analyse a été faites avec des critères liés aux caractéristiques

intrinsèque du livre (nombre de pages, nombre d’images…) Lecture des résultats

Première analyse : Matrix Variance/Covariance : Prix 5592.4761 928.8574 -85.0856 Cartes 928.8574 900065.1875 17283.5957 NBImages -85.0856 17283.5957 8291.0400 Correlations Matrix : Prix 1.0000 0.0131 -0.0125 Cartes 0.0131 1.0000 0.2001 NBImages -0.0125 0.2001 1.0000 Propers Values and inerty percentage: Prix= 1.002 (33.39%) Cartes= 1.200 (40.00%) NBImages= 0.798 (26.61%) Axe PC1 = Cartes de promotions (33,39%) Axe PC2 = Prix (40,0%) Ces deux axes expliquent à 73,39% les concepts.

Page 46: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 45/47

Nous allons commencé par expliquer seulement les 4 concepts les plus caractéristiques

sur ces 2 axes que sont : le théâtre, la biographie, l’ésotérisme et l’art. Visiblement, ni le prix ni les cartes de promotion ne sont corrélés au « théâtre »… Le genre « biographie » est très fortement corrélé par les cartes de promotions. Le principale critère qui explique le thème de l’art est le prix. Nous avons ensuite voulu voir les genres qui se ressemblent sur ces 2 axes :

Page 47: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 46/47

Les genres Fiction, Economie, Erotisme, Psychologie et Théâtre forment un premier groupe qui n’est pas du tout expliqué par l’axe 1 (les cartes) et un peu par l’axe 2 (le prix).

Nous constatons aussi que les genres : Autobiographie, Sciences, Récit, Droit, Aventure,

Nouvelles, Poésie, Policier, Jeunesse et Conte forment un deuxième groupe qui est assez bien expliqué par les deux axes.

Un troisième groupe composé des genres suivants : Loisirs, Essai et Esotérisme est mieux

expliqué par les deux axes. Toutefois l’axe 1 Enfin un quatrième groupe composé des Roman et de l’Histoire est mieux expliqué par

l’axe 2 que par l’axe 1. Enfin, nous retrouvons naturellement nos deux concepts extrêmes : l’Art (expliqué par

l’axe 2) et la biographie (expliqué par l’axe 1)

Deuxième analyse : Nous avons ensuite choisi d’étudier le nombre de pages, les corrections editooriales et les

images. C’est à dire les éléments intrinsèques à l’ouvrage. Matrix Variance/Covariance : Nbpages 27603.3496 46951.3125 527.3516 Correction 46951.3125 23341288.0000 -20606.2988 NBImages 527.3516 -20606.2988 8291.0400 Correlations Matrix : Nbpages 1.0000 0.0585 0.0349 Correction 0.0585 1.0000 -0.0468 NBImages 0.0349 -0.0468 1.0000 Propers Values and inerty percentage: Nbpages= 1.061 (35.36%) Correction= 0.906 (30.20%) NBImages= 1.033 (34.45%) Axe PC1 = Nb pages (35,36%) Axe PC2 = Nb Images (34,45%) Ces deux axes expliquent 69,81% des concepts.

Page 48: Projet de Data Mining - ceremade.dauphine.frtouati/SODAS/EXEMPLES/FIDELIT… · Processus de Data Mining associé au traitement de données de ... hypothèses d'un statisticien, les

Pallu de La Barrière Romain DESS ID Verdo Joris 47/47

Les genres Biographie et Esotérisme sont sensiblement identiques. Ils sont tous les deux

très fortement corrélés aux nombre d’images Les Essais sont le genre le plus corrélés au nombre de pages. L’Art et le Théâtre sont des genres qui sont très peu corrélés avec ces deux axes.

Conclusion Ce projet nous a permis de nous familiariser avec les techniques d’analyse de données

symboliques. Le logiciel Sodas est un outil qui nous semble très performant pour le data mining, de

manipulation assez intuitive.