1 introduction au datamining système dinformation décisionnel dess acsi et sid anne boyer année...

190
1 Introduction au Introduction au datamining datamining Système d’information décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

Upload: leonard-lacour

Post on 04-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

1

Introduction au dataminingIntroduction au datamining

Système d’information décisionnelDESS ACSI et SID

Anne BoyerAnnée universitaire 2004-2005

Page 2: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

2

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 3: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

3

Environnement de l'entrepriseEnvironnement de l'entreprise

Accroissement de la concurrence Individualisation des consommateurs Brièveté du cycle de vie des produits

Anticiper le marché et pas seulement réagir

Cibler au mieux la clientèle pour répondre à ses attentes

Connaissance du métier, des schémas de comportement des clients et des fournisseurs

Page 4: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

4

Un constatUn constat

La grande distribution a besoin d'apprendre à connaître se clients Créer des relations privilégiées sur le modèle du commerce de

quartier Idéal du "1 à 1"

Apprendre à évaluer un client dans la durée Déterminer lequel fidéliser par des attentions particulières et lequel laisser

partir à la concurrence Déplacement des centres d'intérêt des segments de marché vers les individus

Petit commerce : Observe un client, se souvient de ses préférences Apprend des contacts passés comment améliorer le service futur

Introduction

Page 5: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

5

ObjectifObjectif

Faire la même chose avec une entreprise de grande taille le client peut ne jamais entrer en contact avec un employé le client voit chaque fois un employé différent Exploiter les nombreuses traces enregistrées lors de

l'observation du client (enregistrements transactionnels)

Introduction

Page 6: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

6

Un potentielUn potentiel

A disposition une masse importante de données Explorer ses réservoirs de connaissances Extraction de connaissances

Données provenant de nombreuses sources À rassembler et à organiser selon un plan cohérent et

exploitable À analyser, comprendre et transformer en informations

exploitables

Une solution : le datamining

Page 7: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

7

Intérêt du DMIntérêt du DM

"Trop de données tue l’information" seuls 15% des données stockées sont analysées

+ 150% d’info disponibles chaque année Objectif : favoriser la prise de décision en exploitant les

tonnes d’information disponibles modéliser pour prédire

faciliter la décision mais ne prend pas de décision

améliorer la réactivité d’une entreprise / marché

Défi : améliorer la productivité / volume exponentiel de

données

Extrapoler le passé pour prédire l’avenirIntroduction

Page 8: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

8

Découverte de connaissances dans les Découverte de connaissances dans les bases de donnéesbases de données

Intérêt scientifique Processus d’aide à la décision où les utilisateurs cherchent des

modèles d’interprétation dans les données Extraction d’informations auparavant inconnues et

potentiellement utiles à partir des données disponibles

Intérêt économique Amélioration de la qualité des produits et des services Passage d’un marketing de masse à un marketing individualisé Fidélisation des clients Favoriser la différentiation stratégique de l’entreprise

Introduction

Page 9: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

9

DataminingDatamining Ensemble des outils permettant d'accéder et

d'analyser les données de l'entreprise moyens destinés à détecter les associations entre des

données contenues dans d’importantes bases de données Outil qui facilite la mise en évidence de modèles ou de

règles à partir de l’observation des données Démarche ayant pour objet de découvrir des

relations et des faits à la fois nouveaux et significatifs sur de grands ensembles de données

Un élément de la transformation de données en connaissances

Introduction

Page 10: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

10

DataminingDatamining

Restriction aux outils permettant de générer des infos riches, de découvrir des modèles implicites à partir de données historiques

Pertinence et intérêt conditionnées par les enjeux de l'entreprise

Idées et techniques provenant des statistiques, de la RO, de l'IA, de l'administration de bases de données, du marketing

Page 11: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

11

Connaissance versus donnéeConnaissance versus donnée Données Connaissances

Donnée : description d’un exemple ou d’un événement

spécifique dont l’exactitude peut être vérifiée par rapport

au monde réel ex : les achats d’un client sur son ticket de caisse

Connaissance : ensemble de relations entre les données Règles, Tendances, Associations, Exceptions, … Décrit une catégorie abstraite pouvant couvrir plusieurs

exemples Ex : les bons et les mauvais clients

Connaissances synthèse des informations (DM)Introduction

Page 12: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

12

DM versus autres solutionsDM versus autres solutions

Outils relationnels et OLAP Initiative à l'utilisateur

DM Initiative au système

Pas nécessaire de poser d'hypothèses

Interprétation par un expert Nécessité d'un outil ergonomique rendant transparentes les

techniques utilisées

Page 13: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

13

Datamining et Décisionnel : une solutionDatamining et Décisionnel : une solution Archivage de données crée la mémoire

d'entreprise Datamining crée l'intelligence de l'entreprise

Analyse prédictive de comportement Généralisation prédictive : communauté

Automatisation de certaines phases de l’analyse Rendre les utilisateurs moins dépendants des

spécialistes de l’analyse de données

Intégrer les résultats du DM dans l’informatique

ou les procédures de l’entreprise

Introduction

Page 14: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

14

Etat des lieuxEtat des lieux Les algorithmes existent (depuis des années voire

des décennies) Les données sont produites

Nécessité de grands volumes pour l'apprentissage Les données sont archivées La puissance de calcul nécessaire est disponible et

financièrement abordable Le contexte est ultra concurrentiels

Motivation commerciale Des produits commerciaux pour le DM existent

Introduction

Page 15: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

15

Contexte ultra concurrentielContexte ultra concurrentiel

Renforcement du rôle des informations dans la concurrence Économie de plus en plus tournée vers les services

Vente de voitures ou de solutions de transports ? Compagnies aériennes en concurrence par les services offerts

Apparition de la personnalisation massive Levi-Strauss et ses jeans personnalisés Peugeot et la voiture à la demande Individual et la revue de presse qui s'améliore avec le temps

Importance croissante de l'information comme produit Courtiers en information

IMS Journal de l'IOWA

Introduction

Page 16: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

16

Domaines d'applicationDomaines d'application

Grande distribution, vente par correspondance ou commerce électronique

Banques, assurance Transports et voyagistes Télécommunications, eau et énergie Aéronautiques, automobiles, industrie Laboratoires pharmaceutiques

Retours sur investissement

Introduction

Page 17: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

17

ExemplesExemples La police américaine

Poseur de bombe d'Oklahoma City (par ex) DM pour filtrer les milliers de rapports soumis par les agents du FBI

Le département du Trésor américain pour traquer les formes suspectes dans les transferts de fonds internationaux

Les impôts américains (acheteurs d'outils de DM) Les supermarchés

Collecte d'infos par le biais de la carte de fidélité Utilisation de la carte pour payer ou obtenir des "points" déterminer l'agencement des rayons, … Vente aux marques pour les bons de réduction à adresser à 1 client

Introduction

Page 18: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

18

ExemplesExemples La banque (les premiers)

les cartes de crédit Aux USA, prédire les changements de cille (et de banque ?)

La vente croisée Assurance USAA Compagnie d'investissement Fidelity

Marketing direct guidé par l'analyse de comportement Portrait robot du client fidèle

Routage des réclamations en période de garantie Fabricant de moteurs diesel

Fidélisation des bons clients Compagnie du gaz de Californie du sud à la fin du monopole

Eliminer les mauvais clients

Introduction

Page 19: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

19

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 20: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

20

Exemple d'une grande banqueExemple d'une grande banque

Constat : Perte de clients supérieure aux nouveaux clients Nouveaux clients rapportent moins que les clients partis les meilleurs clients s'en vont

Objectif : augmenter la rentabilité globale Garder les parts de marché Trouver de nouveaux clients (à faible coût)

Page 21: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

21

SolutionsSolutions

Relever les taux d'épargne, diminuer les taux d'emprunt, … Inutile pour les clients fidèles Attraction des clients volages solution chère

Suppression de services non rentables Mais si ce sont ceux qui fidélisent la clientèle ?

Comprendre les clients et appliquer le modèle trouvé Utiliser les données disponibles Les transformer en informations exploitables

Page 22: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

22

Le problèmeLe problème

Départ de clients rentables affecte le résultat financier

Comment identifier les clients pouvant partir ? Enquête auprès d'anciens clients

Échantillon représentatif ? Coopératif ? Réponses honnêtes ? Une ou plusieurs raisons ?

Analyse des infos sur les anciens clients et comparaison avec les clients restants

Détermination de clusters Transformation des résultats de l'analyse en action Mesure des résultats

Page 23: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

23

Les grandes étapesLes grandes étapes

Identifier l'opportunité commerciale Ex : planification d'actions marketing, établissement de prix de

produits ou de services, définition des cibles marketing, explication de pertes de clientèles,…

La longueur d'attente aux caisses est elle une raison probable de la perte de clients ?

Transformer les données concrètes en informations permettant des actions collectes Utilisation des techniques du DM

Agir Mesurer les résultats

Page 24: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

24

Les tâches du DMLes tâches du DM

Classification (affectation à une classe prédéfinie) Estimation Prédiction Groupement par similitudes Analyse des clusters (détermination de classes) Description

Page 25: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

25

ClassificationClassification

“La classification consiste à examiner des caractéristiques d’un élément nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. ” [BERRY97]

Objectif : affecter des individus à des classes classes discrètes : homme / femme, oui / non, ...

 exemple de techniques appropriées :   les arbres de décision

Page 26: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

26

Estimation Estimation permet

obtenir une variable continue en combinant les données en entrée procéder aux classifications grâce à un "barème" Exemple : estimer le revenu d’un ménage selon divers critères

ensuite possible de définir des tranches de revenus pour classifier les individus

intérêt pouvoir ordonner les résultats pour ne retenir si on le désire que les

n meilleures valeurs facile de mesurer la position d’un élément estimé dans sa classe

particulièrement important pour les cas limitrophes

exemple de techniques appropriées : les réseaux de neurones

Page 27: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

27

Prédiction Prédiction

ressemble à la classification et à l’estimation mais dans une échelle temporelle différente

s’appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé

meilleure méthode pour mesurer la qualité de la prédiction : attendre !

exemple de techniques appropriées : L’analyse du panier de la ménagère Les arbres de décision les réseaux de neurones

Page 28: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

28

Regroupement par similitudesRegroupement par similitudes

consiste à grouper les éléments qui vont naturellement ensembles

exemple de techniques appropriées : L’analyse du panier de la ménagère

Page 29: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

29

ClusterisationClusterisation

segmenter une population hétérogène en sous-populations homogènes

Contrairement à la classification, les sous populations ne sont pas préétablies

exemple de techniques appropriées : Les K means

Page 30: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

30

DescriptionDescription

décrire les données d’une base complexe engendre souvent une exploitation supplémentaire

en vue de fournir des explications exemple de techniques appropriées :

L’analyse du panier de la ménagère

Page 31: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

31

La classification Déterminer le grade en fonction du sexe, de l'âge, l'ancienneté, le

salaire et les affectations Déterminer le sexe en fonction de l'âge, l'ancienneté, le salaire et les

affectationsL’estimation se fait sur des variables continues

Estimer l'âge en fonction du grade, sexe, ancienneté et affectations

le salaire en fonction de l'âge, sexe, ancienneté et affectations

La prédiction quelle sera la prochaine affectation d'un militaire

Page 32: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

32

Le regroupement par similitudes déterminer des règles de type : le militaire qui est sergent entre 25

et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilité de n %)

La segmentation segmenter les militaires en fonction de leurs suivi de la carrière et

affectations

La description indicateurs statistiques traditionnels : âge moyen, %femmes,

salaire moyen

Page 33: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

33

Deux démarchesDeux démarches

Test d'hypothèses Générer une idée Déterminer les données permettant de la tester Localiser les données Préparer les données pour l'analyse Construire les modèles informatiques sur la base de

données Évaluer les modèles informatiques

La découverte de connaissances Dirigée (expliquer une relation) ou non (reconnaître une

relation)

Page 34: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

34

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 35: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

35

Gestion des connaissancesGestion des connaissances

?

Sélection des données

Qualification des données

Enrichissement des variables

Compréhension du domaine

Statistiques et datamining

Identification de relations

Utilisation de la connaissance

Données sources

Données cibles

Données validées

Données transformées

Information découverte

Information exploitée

Introduction

Page 36: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

36

Les étapes du processusLes étapes du processusKnowledge DiscoveryKnowledge Discovery

Phase 1 : Poser le problème Phase 2 : La recherche des données Phase 3 : La sélection des données pertinentes Phase 4 : Le nettoyage des données Phase 5 : Les actions sur les variables Phase 6 : La recherche du modèle Phase 7 : L’évaluation du résultat Phase 8 : L’intégration de la connaissance extraite

Le processus de datamining

Page 37: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

37

(1) Poser le problème(1) Poser le problème

Quel est le problème ? Formulation du problème Recherche des objectifs et recueil de la connaissance existante

Typologie du problème : recherche des objectifs Explication d’un phénomène précis ? ou approche exploratoire ? Influence sur les modèles ou techniques à utiliser

Résultat attendu et moyens mis en œuvre pour le mesurer Exploitation des résultats (impacts sur l’organisation) Individus concernés

Le processus de datamining

Page 38: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

38

(2) Recherche des données(2) Recherche des données Quelles données extraire ? Identifier les variables Rendre le processus de découverte performant et efficace Réduction des dimensions

Trop de variables nuit à la capacité de généralisation Ratio : Nombres d’exemplaires / Nombre de variables

trop peu d’exemples

- N

bre

d’ex

empl

es +

- Nbre de variables +

multiplication des apprentissages

zone optimale temps de calcullong

Le processus de datamining

Page 39: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

39

(2) Recherche des données(2) Recherche des données Sélection des variables

Fournies par les experts (explication d’un phénomène précis) Recherche des facteurs déterminants par des techniques d’analyse

(méthode de régression, réseaux neuronaux...)

DM à l’intérieur du DM

Mise en évidence : des associations triviales entre les données de la sémantique, des regroupements de valeurs des valeurs de seuil des valeurs aberrantes

Eliminer les résultats triviaux et améliorer la prédiction

Le processus de datamining

Page 40: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

40

(3) Sélection des données pertinentes(3) Sélection des données pertinentes Comment extraire ces données ?

Réaliser un plan d’extraction des données Constituer un fichier à plat Identifier les applications ou systèmes concernés

Phase importante + ou - facilitée par l’existence d’entrepôts de données Certaines études nécessitent un plan de collecte (étude

qualitative, interception de données transitoires) Avenir : flux continu de données depuis les systèmes

transactionnels et traitement immédiat du processus de DM

Le processus de datamining

Page 41: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

41

(3) Sélection des données pertinentes(3) Sélection des données pertinentes

Exhaustivité ou non des données ?Echantillon ?Dépend des modèles utilisés

Fonction des objectifs de l’étude (Phase 1)Equilibre entre les différentes classes d’individus

à appréhenderStratification si une faible population a des enjeux

fortsPondérations des individus

Le processus de datamining

Page 42: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

42

La qualité des données extraites ? Identifier

les valeurs aberrantes (histogramme, ctrl de cohérence à la saisie des données, outils de visualisation graphique)

Quantifier les valeurs manquantes (exclusion des enregistrements

incomplets, remplacement par une valeur) les valeurs nulles

(4) Nettoyage des données(4) Nettoyage des données

Le processus de datamining

Page 43: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

43

Prévenir de la non-qualité des données

Intégration de bruit : équilibrer la proportion des données erronées par rapport à l’ensemble extrait

Utiliser les modèles adaptés en fonction du diagnostic : processus d’apprentissage «flous», introduction de probabilité

Revoir le processus d'extraction ou la saisie des données dans les systèmes initiaux

(4) Nettoyage des données(4) Nettoyage des données

Le processus de datamining

Page 44: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

44

Quelles transformations opérées sur les données ?

Transformer les données en fonction de la nature des données extraites et des modèles qui seront utilisés

Exemple de transformation mono-variable : Modification de l’unité de mesure (normalisation, log())

cas de données numériques Transformation des dates en durée Modification des données géographiques (géocodage) Création de taxonomie de concepts

(5) Actions sur les variables(5) Actions sur les variables

Le processus de datamining

Page 45: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

45

Exemple de transformation multi-variablesConstruction d’agrégats de variablesRatios (degré d’implication)Fréquences (mesurer la répétitivité)Tendances (évolution des échanges dans le temps

- équations linéaires ou non)Combinaisons linéaires (construction

d’indicateurs)Combinaisons non linéaires

(5) Actions sur les variables(5) Actions sur les variables

Le processus de datamining

Page 46: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

46

Quel modèle découvrir ?

Quel type de techniques ? Supervisé (interactivité, connaissance des algorithmes) Non supervisé (automatisé) Fonction des phases précédentes (qualité des données,

objectif,…) Algorithme de calcul pouvoir prédictif du modèle Utilisation des méthodes statistiques + nouveaux outils

de type inductif, Bayésiens, neuronaux

(6) Recherche du modèle(6) Recherche du modèle

Le processus de datamining

Page 47: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

47

Pour la recherche du modèle : 2 bases de travail base d’apprentissage (80% de la population)

pour la découverte d’un modèle base de test (20% de la population)

pour évaluer le modèle découvert

(6) Recherche du modèle(6) Recherche du modèle

Le processus de datamining

Page 48: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

48

Évaluation qualitative Restitution de la connaissance sous forme graphique

ou sous une forme interprétable

Évaluation quantitative Notion d’intervalle de confiance (indicateurs pour la pertinence

des règles, seuil de confiance et intervalle de confiance fonction de la taille de l’échantillon)

Validation par le test (base de test)

matrice de confusion / éclairage métier

(7) Évaluation du résultat(7) Évaluation du résultat

Le processus de datamining

Page 49: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

49

Évaluation quantitative - Matrice de confusion

(7) Évaluation du résultat(7) Évaluation du résultat

Achats constatés

AchatsPrédits

Oui Non Total

Oui

Non

Total

270 160 430

30 540 570

300 700 1000

Qualité globale du modèle : 270+ 540 / 1000 (81%)Forte capacité des non-acheteurs : 540 / 570 (94%)Acheteurs : 270/430 (63%) 160 prospects à contacter

Le processus de datamining

Page 50: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

50

Conversion de la connaissance découverte en décision & action Implanter le modèle ou ses résultats dans les systèmes

informatiques ou dans le processus de l’entreprise Bilan des étapes précédentes :

faible qualité des données collectées

revoir le processus d’alimentation du data warehouse détection d’une donnée de fort pouvoir prédictif

modification de la BD agrégats construits constituant des dimension intéressantes

extension des tableaux de bord connaissance extraite en contradiction avec la connaissance existante

mesure de communication

(8) Intégration de la connaissance(8) Intégration de la connaissance

Le processus de datamining

Page 51: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

51

Rôle primordial des utilisateurs et des experts Sémantique donnée aux données (méta-données) Orientation du processus d’extraction Valider ou infirmer les conclusions

Logiciels de DM orientés recherche de modèle Une partie du processus Tendance : intégration de fonctions d’aide à tous les stades du

processus

Après le processus : la diffusion et l’intégration de la

connaissance

Processus d’extraction - ConclusionProcessus d’extraction - Conclusion

Le processus de datamining

Page 52: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

52

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 53: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

53

Data Mining : Cocktail de techniquesData Mining : Cocktail de techniques

Évolution des techniques de statistique + apports des SGBD, de l’IA et de l’apprentissage automatique

Mélange de plusieurs disciplines

degré de transformation des données

implication de l’utilisateur dans le processus

performance et lisibilité du modèle

SGBD

ML

Représentation de la Connaissance

Les modèles du datamining

Page 54: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

54

Logiciel Presse-Bouton

(apprentissage automatique non supervisé)

Interaction avec l’utilisateur au niveau de l’apprentissage (paramètre) ou pendant la recherche du modèle

Logiciel basé sur des techniques statistiques : experts requis

les outils de DM intègrent des tests statistiques et des algorithmes de choix des meilleures techniques de modélisation en fonction des caractéristiques du cas

Data Mining : Utilisateur ou StatisticienData Mining : Utilisateur ou Statisticien

Les modèles du datamining

Page 55: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

55

Compromis entre clarté du modèle et pouvoir prédictif

Data Mining : Lisibilité ou PuissanceData Mining : Lisibilité ou Puissance

- Lisibilités des résultats +

+ P

ouvoir d

e préd

iction -

réseaux neuronauxalgorithmes génétiques

réseaux bayésiens

scoresrégressioncluster

arbres de décision

analyse d’association

RBC

- Compétences +

Les modèles du datamining

Page 56: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

56

Associations Raisonnement à partir de cas K means

Arbres de décision

Réseaux neuronaux

Algorithmes génétiques

Réseaux Bayésiens

Quelques techniquesQuelques techniques

Les modèles du datamining

Page 57: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

57

Recherche d'associations ou Recherche d'associations ou analyse du panier de la ménagèreanalyse du panier de la ménagère

processus de découverte de connaissances non dirigée étudier quels articles ont tendance à être achetés ensemble issue du secteur de la distribution

applicable dès que plusieurs actions faites par un même individu

utilisée pour découvrir des règles d'association but principal descriptif prédictive car résultats éventuellement situés dans le temps souvent départ d'une analyse

règles claires et explicites pour l'utilisateur métier ensuite mise en œuvre d'un processus de test d'hypothèses ou de découverte

dirigée

Page 58: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

58

Construire un modèle basé sur des règles conditionnelles à partir d’un fichier de données

Le modèle : Règles de la forme :

Si prédicat(x) et prédicat(y)… alors prédicat(z) Pondération par une probabilité ou par une métrique de confiance

Éventuellement situées dans le temps : "Si action1 ou condition à l'instant t1 alors action2 à l'instant t2"

Exemples de règles : Si achat de riz et de vin blanc, alors achat de poisson (84%) Si achat de téléviseur alors achat de magnétoscope dans les 5 ans (45%) Si présence et travail alors réussite à l'examen (99,9%)

Les AssociationsLes Associations

Les modèles du datamining

Page 59: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

59

Les domaines : Analyse des tickets de caisse

(mise en relation entre n produits, relation de comportement de produits)

Analyse des séquences d’achatsdétection d’association de ventes pour un même client

dimension temporelle et notion d’antériorité

Les enjeux : optimisation des stocks, merchandising, ventes croisées

(bon de réduction, promotion)

Les AssociationsLes Associations

Les modèles du datamining

Page 60: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

60

Principes de construction d’une association transaction ticket de caisse

une transaction T contient le détail des articles ou de leur famille chaque article est une variable binaire

une association est une implication de la forme X Y

avec : X et YT et X Y = deux indicateurs pour apprécier une association :

niveau de confiance : Card(X Y) / Card(X) niveau de support : Card(X Y) / Card(X ou Y)

extraire les associations pertinentes

Les AssociationsLes Associations

Les modèles du datamining

Page 61: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

61

Les AssociationsLes Associations

Association niveau 3 Fréquence Confiance Support

Œuf, Chocolat Sucre 2 2/3=66% 50%

Sucre, Oeuf Chocolat 2 2/2=100% 50%

Chocolat, Sucre Oeuf 2 2/2=100% 50%

Article Fréquence SupportFarine 2 50%Sucre 3 75%Lait 1 25%Œuf 3 75%

Chocolat 3 75%

Thé 1 25%Association niveau 2 Fréquence Confiance Support

Farine Sucre 2 100% 66% Sucre Farine 2 66% 66% Sucre Œuf 2 66% 50%

Œuf Sucre 2 66% 50%

Sucre Chocolat 2 66% 50%

Chocolat Sucre 2 66% 50%

Œuf Chocolat 3 100% 100%

Chocolat Oeuf 3 100% 100%

Ticket 1 Ticket 2 Ticket 3 Ticket 4Farine Œuf Farine ŒufSucre Sucre Œuf ChocolatLait Chocolat Sucre Thé

Chocolat

Les modèles du datamining

Page 62: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

62

Les AssociationsLes Associations

Association niveau 3 Fréquence Confiance Support

Œuf, Chocolat Sucre 2 2/3=66% 50%

Sucre, Oeuf Chocolat 2 2/2=100% 50%

Chocolat, Sucre Oeuf 2 2/2=100% 50%

Article Fréquence SupportFarine 2 50%Sucre 3 75%Lait 1 25%Œuf 3 75%

Chocolat 3 75%

Thé 1 25%Association niveau 2 Fréquence Confiance Support

Farine Sucre 2 100% 66% Sucre Farine 2 66% 66% Sucre Œuf 2 66% 50%

Œuf Sucre 2 66% 50%

Sucre Chocolat 2 66% 50%

Chocolat Sucre 2 66% 50%

Œuf Chocolat 3 100% 100%

Chocolat Oeuf 3 100% 100%

Ticket 1 Ticket 2 Ticket 3 Ticket 4Farine Œuf Farine ŒufSucre Sucre Œuf ChocolatLait Chocolat Sucre Thé

Chocolat

Les modèles du datamining

Page 63: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

63

Domaines d’application Analyse d’achats dans la grande distribution Analyse des mouvements bancaires, des incidents dans les

assurances

Limites de l’approche article = code à barres & une famille = 100 références volume de données (100 000 réf. élémentaires)

hiérarchie de concepts

niveau élémentaire pour confirmer l’impact de marque X sur les ventes de Y

vérifier les associations sur des concepts de haut niveau

Les AssociationsLes Associations

Les modèles du datamining

Page 64: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

64

Mise en oeuvreMise en oeuvre

LA TAXINOMIE Un supermarché gère environ 100 000 références différentes analyse sur tous les articles : tableau de 10 milliards de

cellules pour des associations de deux articles ! des espaces disques importants (en téra‑octets) des temps de traitements en conséquence aujourd'hui pas très raisonnable

Solution : la taxinomie regrouper les articles, les généraliser sous un même terme générique,

une même rubrique Exemple : le terme chocolat regroupe les chocolats noirs, au lait, de

différentes marques, aux noisettes, allégés, …

Page 65: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

65

Mise en oeuvreMise en oeuvreLES ARTICLES VIRTUELS fréquent de rajouter des articles virtuels

pour améliorer la performance du système pour représenter des informations transversales pour regrouper les articles d'une autre manière que la taxinomie

Exemple : produits allégés, marque que l'on trouve dans plusieurs rubriques

pour donner des indications supplémentaires sur la transaction donnée temporelle (jour de la semaine, heure, mois, saison, …), mode de

paiement, météo, … si possible des données sur le client (satisfaction, type d'habitat, catégorie

socioprofessionnelle, âge, statut matrimonial, …)

pour fournir des règles du type :

"si printemps et jardin alors achat de gants de jardinage"

Page 66: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

66

Mise en oeuvreMise en oeuvre

LES REGLES DE DISSOCIATION analogue à une règle d'association mais fait apparaître la

notion de "non" dans une entreprise, 5 produits (A,B,C,D,E) Si un client prend les produits A,B et D, alors il générera la

transaction {A,B,non C,D et non E} Ce procédé génère des règles comme :

"si achat du produit A et du produit C alors non achat du produit E".

inconvénient majeur : fournit des règles où tout est nié "si non A et non B alors non C" connaissances générées peu exploitables

Page 67: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

67

Mise en oeuvreMise en oeuvre

Le LES SERIES TEMPORELLES L'analyse du panier de la ménagère

Objectif : faire de la description et non de la prévision outil non optimal pour étudier les séries temporelles

contrainte : avoir une information de temps et une clé d'identification de l'objet (principalement le client)

difficulté : transformer les données en transactions Plusieurs possibilités offertes :

Ajouter à chaque article la notion de temps : avant, après, en même temps

Créer des fenêtres temporelles : regrouper toutes les transactions effectuées dans un même intervalle de temps par un même individu

permet de dégager des profils, surtout associée à des articles virtuels

Page 68: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

68

Mise en oeuvreMise en oeuvre

plusieurs indicateurs complémentaires pour évaluer

La fréquence règle vraie pour deux clients sur cinq : fréquence 40%  

Le niveau (ou taux) de confiance mesure de la probabilité dans la sous population concernée par la

condition de la règle (fréquence sur une sous population) Ex : règle "si achat de jus d'orange, alors achat d'eau minérale"

la population ayant acheté du jus d'orange (ex : 4 individus) le nombre de fois où la règle est respectée (ex : 2) La proportion obtenue (ici 2 sur 4, soit 50 %) : niveau de confiance

permet de mesurer la force de l'association Prudence : n'intègre pas la notion d'effectif  Ex : Si achat de lait, alors achat de nettoyant vitres 

effectif 1 individu : très relatif malgré un très bon taux de confiance !

Page 69: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

69

 LE NIVEAU DE SUPPORT nombre de fois où l'association est respectée, ramenée au nombre de fois où l'un

des articles est présent permet de mesurer la fréquence de l'association.

Le taux d'amélioration permet de mesurer la pertinence de l'association Que vaut une règle si son taux de confiance est inférieur à la fréquence du résultat

sans condition ? ex règle : "si achat d'eau minérale, alors achat de jus d'orange"

règle vraie pour 2 clients sur 3 qui ont acheté de l'eau taux de confiance pour l'achat du jus d'orange dans ces conditions : de 2/3 Or 4 clients sur 5 achètent du jus d'orange, soit 80% ! règle inintéressante à exploiter car ajout de condition pour un taux moins bon

Pour mesurer l'amélioration apportée par la règle, on divise le taux de confiance par la fréquence de l'événement ici : 0.66 / 0.80 = 83 % Si le résultat est supérieur à 1, la règle apporte une amélioration sur le résultat sinon renoncer à l'exploiter

Page 70: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

70

ConclusionConclusion

points forts de l'analyse du panier de la ménagère : résultats clairs et explicites adaptée à l'exploitation non dirigée des données traite des données de taille variable La technique et les calculs simples à comprendre

points faibles de l'analyse du panier de la ménagère : Le volume de calculs croît au carré ou au cube du volume de

données prend mal en compte les articles rares difficile de déterminer le bon nombre d'articles les attributs des articles (détails et quantités) souvent ignorés

Page 71: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

71

ConclusionConclusion

technique s'appliquant aux problèmes d'exploitation des données non dirigée contenant des articles bien définis, qui se regroupent

entre eux de manière intéressante souvent analyse préalable

car elle génère des règles susceptibles de soulever des interrogations ou des idées

débouchera sur d'autres analyses plus fines : test d'hypothèse ou découverte de connaissance dirigée pour expliquer un phénomène révélé

Page 72: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

72

Le raisonnement à partir de casLe raisonnement à partir de cas technique de découverte de connaissances dirigée

utilisée dans un but de classification et de prédiction bien adapté aux bases de données relationnelles mise en œuvre simple

équivalence de l'expérience chez l'homme processus : identification des cas similaires puis application de

l'information provenant de ces cas au problème actuel principe : on présente un nouvel enregistrement, il trouve les

voisins les plus proches et positionne ce nouvel élément s'applique à tous les types de données.

pour estimer des éléments manquants, détecter des fraudes, prédire l'intérêt d'un client pour une offre, classifier les réponses en texte libre

Page 73: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

73

Véhicule Age Enfants   Véhicule Age Enfants

 

 

 

 

 

 

 

 

 

 

 

 

Clio 25 0 Clio 27 1

Espace 32 4 Megane 30 2

Clio 28 1 Laguna 39 0

Megane 30 2 Safrane 55 0

Safrane 50 1 Clio 24 1

Laguna 35 2 Megane 33 2

Espace 40 3 Laguna 38 2

Clio 30 1 Clio 22 0

Megane 34 2 Megane 35 1

Safrane 52 2 Laguna 39 2

Laguna 38 1 Safrane 54 1

Espace 34 5      

ventesde voitures Renault ventilées en fonction de l'âge et du nombre d'enfants de l'acheteur

Page 74: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

74

Ventes de voitures Renault

20

25

30

35

40

45

50

55

60

0 1 2 3 4 5

Nombre d'enfants

Ag

e

Clio Espace Laguna Megane Safrane

Page 75: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

75

La consultation du graphique des zones bien nettes permettant de déterminer, pour un nouveau client dont on connaît

l'âge et le nombre d'enfants, le modèle susceptible de l'intéresser.

trois nouveaux clients La notion de distance est la distance métrique conseil au client 1 une Espace, au 2 une Clio, au 3 une Safrane

Ventes de voitures Renault

20

25

30

35

40

45

50

55

60

0 1 2 3 4 5

Nombre d'enfants

Ag

e

Clio Espace Laguna Megane Safrane

1

3

2

Page 76: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

76

Fonction de distanceFonction de distance Pour les données numériques

La valeur absolue de la différence : |A-B| Le carré de la différence : (A-B)² La valeur absolue normalisée : |A-B| / (différence maximale)

avantage : se trouve toujours entre 0 et 1, supprime les problèmes d'échelles libre de créer sa propre fonction.

Pour les autres types de données à l'utilisateur de définir sa propre fonction de distance Exemple :

pour comparer le sexe d'un individu, valeur 1 s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques

pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, périurbaine, rurale) ou de la région

toujours préférable d'avoir le résultat entre 0 et 1

Page 77: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

77

Fonction de combinaisonFonction de combinaison

consiste à combiner les n voisins les plus proches pour obtenir le résultat de la prédiction souhaitée

exemple :

soit une liste de clients ayant déjà répondu à une offre commerciale (par oui ou non)

l'utilisateur métier estime que les critères les plus déterminants sont le sexe, l'âge et le salaire net du dernier semestre

Page 78: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

78

Numéro Age Sexe Salaire Acheteur

A 27 F 19000 Non

B 51 M 66000 Oui

C 52 M 105000 Non

D 33 F 55000 Oui

E 45 M 45000 Oui

Page 79: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

79

soit un nouveau client : une femme de 45 ans ayant un revenu de 100000 Francs

cette cliente sera-t-elle intéressée par l'offre ?  La fonction de distance est définie ainsi :

il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes

A ce chiffre, on ajoute la distance normalisée du salaire et de l'âge Tableau des distances :

Les voisins les plus proches sont dans l'ordre : D C B E A

Client Age Sexe Salaire Distance totale

A 0.720 0 0.942 1.662

B 0.240 1 0.395 1.635

C 0.280 1 0.058 1.338

D 0.480 0 0.523 1.003

E 0.000 1 0.640 1.640

Page 80: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

80

Utilisons maintenant la fonction de combinaison nombre de voisins retenus ?

Nombre de voisins retenus

1 2 3 4 5

Numéro des voisins D DC DCB DCBE DCBEA

Réponses des voisins O O,N O,N,O O,N,O,O O,N,O,O,N

Décompte des réponses

Oui 1Non 0

Oui 1Non 1

Oui 2Non 1

Oui 3Non 1

Oui 3Non 2

Valeur retenue Oui ? Oui Oui Oui

Evaluation 100 % 50 % 66 % 75 % 60 %

•Si 3 voisins, réponse favorable avec une probabilité (plutôt espérance) de 66%•possible également de donner un poids à chaque contribution

•Ex: 1er voisin a un poids de 3, 2ème poids de 2, 3ème un poids de 1•Possible de pondérer chaque variable utilisée dans la fonction de distance

Page 81: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

81

Quelques remarquesQuelques remarques Complexité en fonction de la taille de la base de cas Technique d'optimisation

ajout d'expertise pour guider la recherche vers les critères les plus pertinents

Exemple : utilisation d'un arbre de décision

D'où principe : Collecte des données

Nombre d'exemples lié au nombre de variables et de valeurs par variable

Recherche des facteurs pertinents Par mots clés (mc)

dist(x,y)=1-(nombre_mc_commun(x,y)/ nombre_mc(x ou y) Hiérarchisation de concepts

Indexation des données (plus proche voisin)

Page 82: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

82

ConclusionConclusion

Les points forts : produit des résultats explicites s'applique à tout type de données capable de travailler sur de nombreux champs facile à mettre en œuvre et à comprendre

Les points faibles : nécessite un grand volume de données pour être

performant très dépendant des fonctions de distance et de

combinaison

Page 83: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

83

Détection automatique de clusters Détection automatique de clusters

méthode de découverte de connaissances non dirigée (ou apprentissage sans supervision)

ne nécessite aucun apprentissage principe : regrouper les éléments par similarités successives deux grandes catégories :

la méthode des K-moyennes et les méthodes par agglomération. objectif : procéder à une classification du type

regroupement par similitude un groupe appelé cluster utilisation classique : clusteriser une population puis étude prévoir une fonction de distance qui mesure l'écart entre

deux enregistrements

Page 84: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

84

K meansK means

permet de découper une population en K clusters K défini par l'utilisateur

principe de fonctionnement : on positionne les K premiers points (ou noyaux) au

hasard Chaque enregistrement est affecté au noyau le plus

proche A la fin de la première affectation, calcul de la valeur

moyenne de chaque cluster Le noyau prend cette nouvelle valeur répététition jusqu'à stabilisation des clusters

Page 85: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

85

ExempleExemple Personnes d'âge 27- 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57

Ex : K=3 Les 3 noyaux : les trois premières valeurs distance = différence / (amplitude maximum) = différence / 37)

  27 51 52 33 45 22 28 44 40 38 20 57

Noyau 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81

Noyau 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16

Noyau 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14

Minimum 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14

Affectation 1 2 3 1 2 1 1 2 2 1 1 3

noyau 1 (27) : 27 - 33 - 22 - 28 - 38 - 20noyau 2 (51) : 51 - 45 - 44 - 40noyau 3 (52) : 52 - 57

Page 86: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

86

calcul des centroïdes : moyenne arithmétique du cluster soit 28 pour noyau 1, 45 pour noyau 2 et 54.5 pour noyau 3 Ces valeurs = positions des nouvelles noyaux

Recommençons le processus par rapport à ces valeurs   27 51 52 33 45 22 28 44 40 38 20 57

Noyau 28 0.03 0.62 0.65 0.14 0.46 0.16 0 0.43 0.32 0.27 0.22 0.78

Noyau 45 0.49 0.16 0.19 0.32 0 0.62 0.46 0.03 0.14 0.19 0.68 0.32

Noyau 54.5 0.74 0.09 0.07 0.58 0.26 0.88 0.72 0.28 0.39 0.45 0.93 0.07

Minimum 0.03 0.09 0.07 0.14 0 0.16 0 0.03 0.14 0.19 0.22 0.07

Affectation 1 3 3 1 2 1 1 2 2 2 1 3

L'affectation donne la répartition suivante :noyau 1 (28) : 27 - 33 - 22 - 28 - 20 Moyenne = 26noyau 2 (45) : 45 - 44 - 40 - 38 Moyenne = 41.75noyau 3 (54.5) : 51 - 52 - 57 Moyenne = 53.33 En réitérant le processus, aucune modification des affectationsLes clusters sont finalisés :Cluster 1: 27 - 33 - 22 - 28 - 20 Jeunes majeurs - Centroïde = 26Cluster 2: 45 - 44 - 40 - 38 Quadragénaires - Centroïde = 41.75Cluster 3: 51 - 52 - 57 Quinquagénaires - Centroïde = 53.33

Page 87: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

87

Classification hiérarchique ascendanteClassification hiérarchique ascendante

Calcul des distances 2à 2 Agglomération des plus proches vosins (inférieurs à

un seuil Calcul des centroïdes On itère ..

Page 88: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

88

ExempleExemple

  27 51 52 33 45 22 28 44 40 38 20 57

27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81

51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16

52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14

33 0.16 0.49 0.51 0.00 0.32 0.30 0.14 0.30 0.19 0.14 0.35 0.65

45 0.49 0.16 0.19 0.32 0.00 0.62 0.46 0.03 0.14 0.19 0.68 0.32

22 0.14 0.78 0.81 0.30 0.62 0.00 0.16 0.59 0.49 0.43 0.05 0.95

28 0.03 0.62 0.65 0.14 0.46 0.16 0.00 0.43 0.32 0.27 0.22 0.78

44 0.46 0.19 0.22 0.30 0.03 0.59 0.43 0.00 0.11 0.16 0.65 0.35

40 0.35 0.30 0.32 0.19 0.14 0.49 0.32 0.11 0.00 0.05 0.54 0.46

38 0.30 0.35 0.38 0.14 0.19 0.43 0.27 0.16 0.05 0.00 0.49 0.51

20 0.19 0.84 0.86 0.35 0.68 0.05 0.22 0.65 0.54 0.49 0.00 1.00

57 0.81 0.16 0.14 0.65 0.32 0.95 0.78 0.35 0.46 0.51 1.00 0.00

Page 89: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

89

seuil = 10% (0.1) à chaque itération fixé aléatoirement en fonction du niveau de

regroupement souhaité par l'utilisateur. ensemble des valeurs ordonné en ordre croissant valeurs ayant un seuil inférieur à 10%, soit :

0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22)

51 52 27 28 44 45 38 40 20 22 33 57

Chaque cluster est représenté par son centroïde (ici moyenne)27.5 - 51.5 - 33 - 44.5 - 21 - 39 - 57

Page 90: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

90

On recommence avec un seuil de 20 %

  27.5 51.5 33 44.5 21 39 57

27.5 0.00 0.67 0.15 0.47 0.18 0.32 0.82

51.5 0.67 0.00 0.51 0.19 0.85 0.35 0.15

33 0.15 0.51 0.00 0.32 0.33 0.17 0.67

44.5 0.47 0.19 0.32 0.00 0.65 0.15 0.35

21 0.18 0.85 0.33 0.65 0.00 0.50 1.00

39 0.32 0.35 0.17 0.15 0.50 0.00 0.50

57 0.82 0.15 0.67 0.35 1.00 0.50 0.00

Page 91: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

91

ConclusionConclusion

Les points forts : Les résultats sont clairs plutôt facile à mettre en œuvre Pas grosse consommatrice de ressources application facile.

Les points faibles : difficile de trouver une bonne fonction de distance Certains clusters résultants peuvent être difficiles à

expliquer

Page 92: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

92

Les arbres de décisionLes arbres de décision

objectif : classification et prédiction fonctionnement basé sur un enchaînement hiérarchique de règles en langage courant composé :

D’un nœud racine De questions De réponses qui conditionnent la question suivante De nœuds feuilles correspondant à un classement

jeu de questions réponses itératif jusqu’à ce arrivé à un nœud feuille pour déterminer quelle variable affecter à chaque nœud, application

d'un algorithme sur chaque paramètre et conservation du plus représentatif pour un découpage

1

2 3

45

Noeud racine

Noeud fils

Noeuds feuilles

Noeud feuille

Page 93: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

93

Le modèle Utiliser la valeur des attributs pour subdiviser l’ensemble

d’exemples en sous-ensembles de plus en plus fins Réitérer la démarche jusqu’à obtenir une classe avec un nombre

majoritaire de n-uplets appartenant à la même classe Arbre : nœud racine = exemples Découpage successif par une séquence de décisions Résultat : un ensemble de règles Règle : si X=a et Y=b et… alors Classe 1 Parcours de l’arbre (liste d’attributs dont la valeur détermine

une classe d’appartenance)

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 94: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

94

Algorithme - Quinlan 1979 Fabrication d’un arbre minimal en recherchant à chaque niveau

le paramètre le plus discriminant pour classifier un exemple

chemin optimal pour une classification correcte

1. Sélection de l’attribut le + déterminant à chaque nœud

Développement des branches pour chacune des valeurs de l’attribut

2. si tout élément d’une branche appartient à la même classe

alors la feuille est étiquetée avec la classe

sinon retour en 2.

3. si toutes les feuilles sont étiquetées ou plus d’attributs

alors fin

sinon retour en 1.

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 95: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

95

Amélioration C4.5Amélioration C4.5

Utilisation de la notion d’entropie pour le choix de l’attribut à chaque étape

Limiter le développement de l’arbre (« élagage »)Force => Fréq. Classe / Fréq. Totale > seuil

Statistiques pour mesurer l’indépendance d’un attribut /classe (Chi 2)

Page 96: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

96

Les Arbres de décisionsLes Arbres de décisions

Traitements des infos bruitées ou corrompues 2 classes mais plus d’attributs pour subdiviser :

étiquetage par la classe majoritaire ou probabilité test statistique : pour mesurer l’indépendance entre attribut et classe

Traitements des valeurs manquantes Valeur majoritaire (renforce l’entropie) Ignorer l’exemple Probabilité sur chacune des branches

Les modèles du datamining

Page 97: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

97

Les Arbres de décisionsLes Arbres de décisionsPrincipes de calculs

Algorithme de détermination de variable significative Diminution du désordre apparent dans les données

Cas de descripteur qualitatif Probabilité d’appartenance

ex : grand-moyen-petit - sur 100 observations

20 ont la valeur « grand » - 20% Mesure de l’incertitude (désordre) : théorème de Shannon

= - Pi log2(Pi)

avec Pi : % d’appartenance à la catégorie Algorithme issus du Chi 2 qui permet de vérifier la conformité d’un

phénomène aléatoire à une loi de probabilité posée en hypothèse (algorithme de CHAID)

Les modèles du datamining

Page 98: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

98

Principes de calculs

Cas des attributs à valeur (oui, non) métrique de Hamming

Hd = Nbre de non coïncidences entre deux attributs

pseudo-métrique de Hamming

(facteur de la mesure du désordre)

Pm = Min ((nbre ex - Hd), Hd)

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 99: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

99

Les Arbres de décisionsLes Arbres de décisions

Question E1 E2 E3 E4 E5 E6 Hd Pm

Q1 Connaît l’école ? Oui Oui Non Oui Non Non 2 2

Q2 A eu un stagiaire ? Oui Non Non Non Non Non 2 2

Q3 A embauché un étudiant ? Non Oui Non Oui Non Oui 4 2

Q4 Verse la taxe ? Non Oui Oui Non Non Non 1 1

Q5 Participation à un événement ? Oui Oui Oui Oui Oui Oui 3 3

R Rendez-vous Oui Oui Oui Non Non Non

Oui Nonverse la taxe à l’école

A eu unstagiaireRDV accepté

RDV refuséRDV accepté

Oui Non

Arbre obtenu après 2 itérations

Exemple d’application de la distance de Hamming

Les modèles du datamining

Page 100: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

100

Principes de calculs Cas de descripteur quantitatif

Méthode de grappe :

partition sur la médiane pour deux classes, en déciles pour plusieurs classes

pas de garantie pour obtenir un seuil optimal de découpage mais la méthode est rapide

Méthode exhaustive :

méthode qui détermine le seuil optimal de découpage de la variable

parcours de toutes les valeurs numériques prises par l’attribut

calcul du pouvoir discriminant pour chaque valeur, la valeur ayant le plus grand pouvoir discriminant devient seuil

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 101: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

101

Enjeux La détection de variables importantes

(structuration du phénomène étudié et mise en place de

solutions correctrices)

La construction d’un S.I.

(repérage des variables déterminantes, amélioration des

règles d’alimentation d’un Data Warehouse, affinement

d’un processus d’historisation)

Data Mining de masse (formalisme très simple)

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 102: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

102

Résoudre 2 types de problèmes : Segmentation d’une population Affectation d’une classe à un individu

Domaines d’application Etude de marketing (critères prépondérants dans l’achat) Marketing direct (isoler les meilleurs critères explicatifs) Ventes (analyse des performances) SAV (détecter les causes de réclamation, les défauts) Contrôle de qualité (identifier les éléments du processus) Domaine médical...

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 103: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

103

Avantages et limites Simplicité d’utilisation Lisibilité du modèle : règle Si ... alors ... sinon Pas adapté à un apprentissage incrémental (base de test) Taille de l’arbre :

un arbre « touffu » perd son pouvoir de généralisation et de prédiction

importance de l’utilisateur métier Perspectives : intégrer ce type d’outil à des tableurs ou EIS

Les Arbres de décisionsLes Arbres de décisions

Les modèles du datamining

Page 104: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

104

Définition Travaux récent 1975 (J. Holland) Système artificiel qui s’appuie sur le principe de

sélection de Darwin et les méthodes de combinaison de gènes de Mendel

Description de l’évolution d’une population d’individus en réponse à leur environnement

Sélection : survie du plus adapté Reproduction Mutation

Les Algorithmes GénétiquesLes Algorithmes Génétiques

Les modèles du datamining

Page 105: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

105

PrincipePrincipe

Individus codés comme un ensemble de chromosomes Chaque chromosome a sa vie propre

Travail sur une population nombreuse de solutions potentielles toutes différentes

Élimination des plus faibles pour reproduire les mieux adaptés Individus les + adaptés ont une + forte chance d'être sélectionnés

et d’exister à la génération suivante

Reproduction par hybridation génétique des plus forts Donne des individus encore plus forts La mutation d’un gène permet de conserver une certaine diversité

dans la population

Page 106: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

106

La population initiale cherche à peupler l'espace des solutions

Succès dans les problèmes d’optimisation (proche des techniques de recherche opérationnelle)

L’application successive du processus de sélection + mutation permet d’atteindre une solution optimale

RemarqueRemarque

Les modèles du datamining

Page 107: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

107

CodageCodage

Codage sous forme de 0 et 1 (codage du chromosome)

ex : [1]Ancienneté de la cde : 1 si < 6 mois et 0 sinon

[2]CA Annuel : 1 si < 1000 $ et 0 sinon

variable numérique transformée en entier puis en binaire

Page 108: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

108

Fonction d'évaluationFonction d'évaluation

Dépendante du problème Ex : taux d'impayés constatés

Permet de sélectionner le taux de reproduction à la génération suivante Taille de la population constante Tirage au hasard des candidats à la survie

Biaisé : ceux qui ont une fonction d'évaluation importante

Page 109: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

109

Manipulation génétiqueManipulation génétique Hybridation

échange entre 2 chromosomes d'un "morceau"

mutation changement de parité

inversion inversion de 2 caractères successifs

Page 110: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

110

Principes

Les Algorithmes GénétiquesLes Algorithmes Génétiques

PopulationInitiale

Solutionacceptable ?

Nouvellegénération

Solutionretenue

Tri des solutions sur la fonction d’évaluation

Sélection des individusà conserver

HybridationMutation

Non Oui

Les modèles du datamining

Page 111: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

111

Exemple : voyageur de commerceExemple : voyageur de commerce

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 001 010 011 000 001 110 111

Codage : 8 villes donc 3 bitsOrdre donne la succession des villes traverséesFonction d'évaluation

Ville non visitée : pénalité de 1000 Kmdistance entre 2 villes successives

Page 112: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

112

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 001 010 000 000 000 111 000

000 010 001 011 100 000 111 000

000 010 001 011 100 101 111 100

3 chromosomes :

F(1) = 5400

F(2) = 4700

F(3) = 2700

Reproduction de 2 (1 fois) et de 3 (3 fois)

Page 113: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

113

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

000 010 001 011 100 000 111 000

Hybridation entre les chromosomes 3 et 4échange d'une portion de chaîne

Page 114: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

114

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

000 010 001 011 100 000 111 100

000 010 001 011 100 101 111 000

F(1) =2700F(2) = 4700F(3) = 3600F(4) = 3200

Page 115: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

115

Mutation du 1 : changement de parité au hasard

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 010 001 011 100 101 111 110

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

000 010 001 011 100 000 111 100

000 010 001 011 100 101 111 000

F(0) = 2200

On conserve 0, 1,4

Page 116: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

116

Lille Reims Dijon Lyon Aix Pau Nantes Rouen

000 010 001 011 100 000 111 000

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

000 010 001 011 100 101 111 100

Page 117: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

117

Domaines d’application Domaine industriel

problème d’optimisation ou de contrôle de processus complexes (ex : optimisation de la T° d’un four, de la pression d’un cylindre)

Domaine spatial et géomarketing

(ex : optimisation de l’emplacement d’automates bancaires, optimisation d’une campagne d’affichage)

Utiliser d’autres techniques en complément

(RN modifier le poids des liaisons, arbre de décision en isolant les variables qui expliquent un comportement)

Les Algorithmes GénétiquesLes Algorithmes Génétiques

Les modèles du datamining

Page 118: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

118

Avantages et limites Capacité à découvrir l’espace : N N3

Limite du codage (formé de 0 et 1) complexe à mettre en place pb pour représenter la proximité de valeurs numériques

Dosage des mutations : pb des sous-optimums locaux

réglage subtil entre le mouvement et la stabilité taux d’hybridation recombinaison des chaînes mais risque de

détruire de bonnes solutions

taux de mutation espace de solutions avec des risques

d’altération

Les Algorithmes GénétiquesLes Algorithmes Génétiques

Les modèles du datamining

Page 119: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

119

Les Réseaux NeuronauxLes Réseaux Neuronaux

Définition 1943 McCulloch et Pitts - Perceptron Connexionisme Analogie avec le fonctionnement du cerveau 2 catégories :

supervisé : réponse connue (apprentissage à partir d'exemples) non supervisé : le réseau ne connaît pas le type de résultat

Découvrir la structure sous-jacente des données par une recherche des corrélations des entrées pour les organiser en catégories

Réseau non supervisé techniques statistiques (analyse de données)

Les modèles du datamining

Page 120: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

120

Structure Structure

Les composants :

Le neurone formel Une règle d’activation Une organisation en couches Une règle d’apprentissage

Page 121: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

121

Neurone formel Neurone formel

calcule la somme pondérée par son poids de chaque entrée transmise par le reste du réseau

(Xi * Wi) X1

X2

X3

X4

W1

W2

W3

W4

Variables en entrée Poids associés surchaque connexion

Les modèles du datamining

Page 122: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

122

Règle d'activationRègle d'activation Associée à chaque neurone formel Définie avec

une fréquence T une fonction généralement sigmoïde, dont le résultat est d’activer

ou non le neurone de sortie

X1

X2

X3

X4

W1

W2

W3

W4

Fonction Sortie

Page 123: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

123

Les Réseaux NeuronauxLes Réseaux Neuronaux Définition

Organisation en couches pour résoudre des problèmes de toute complexité La couche d’entrée transmet ses résultats à la couche supérieure qui, ayant de

nouvelles données et de nouveaux poids retransmet ses données résultantes à la couche suivante et ainsi de suite jusqu’à la couche de sortie qui fournit le neurone de sortie

couches intermédiaires = couches cachées.

Matrice des poids pour chaque couche Activation du nœud en sortie

X1 X2 X3 X4 X5

W1 W15

U1

Les modèles du datamining

Page 124: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

124

Auto-apprentissage Capacité du réseau à changer son comportement en

fonction de son expérience passée

variation des poids de connexion Règle d’apprentissage :

minimiser l’erreur entre la donnée fournie par le réseau et la donnée réelle

Renforcement des connexions les plus actives (règle de Hebb) convergence rapide du réseau

Possibilité d’intégrer des relations complexes entre les données

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 125: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

125

Construction d’un réseau de neurones Phase 1 : préparation des données

Données en entrée / sortie Constitution de la base d’exemples

Représentativité de toutes les classes en sortie

=> Augmentation du pouvoir de prédiction

ex : si 3% refus, proportion (50% refus et 50% accepté)

Codage des entrées Variable discrète = un neurone par type de valeur Certaines variables continues traitées comme des variables discrètes

Optimisation du jeu de données

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 126: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

126

Construction d’un réseau de neurones Phase 2 : création des fichiers

Base d’exemples (80 %) et base de test (20%) Dispatching aléatoire : brassage du fichier

Phase 3 : paramètres du réseau Matrice : poids entre les connexions

Les logiciels : modes par défaut (mode novice ou expert)

Nombreux paramètres : architecture, fonction de sommation, fonction de transformation

(fonction sigmoïde), normalisation de la sortie, transmission de la sortie (sorties actives, rétro-propagation), calcul de l’erreur (erreur quadratique, absolue, moyenne…)

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 127: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

127

Construction d’un réseau de neurones Phase 4 : apprentissage (mise à jour itérative des poids)

calcul de la rétro-propagation

1. Initialisation de la matrice des poids au hasard

2. Choix d’un exemple en entrée

3. Propagation du calcul de cette entrée dans le réseau

4. Calcul de la sortie de cette entrée

5. Mesure de l’erreur de prédiction (sortie réelle et sortie prévue)

6. Calcul de la sensibilité d’un neurone (contribution à l’erreur)

7. Détermination du gradient

8. Correction des poids des neurones

9. Retour à l’étape 2

Phase 5 : performance du réseau Matrice de confusion

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 128: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

128

Domaines d’application RN sont largement diffusés Reconnaissance des formes Traitement du signal

domaine médical, risque cardiovasculaire domaine bancaire, risque de défaillance ou d’utilisation frauduleuse

Classification marketing (identification de segments de clients) industrie (détection de défauts et de pannes)

Prévision prévision de valeurs boursières, des ventes en marketing…

Contrôle adaptatif (robotique)

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 129: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

129

Avantages et limites Auto-apprentissage Technologie éprouvée (des réponses aux limites) Faux mythe de la boite noire Risque de trop apprendre Taille de la base d ’exemple

ex : 256 entrées, une couche intermédiaire à 10 neurones et 3 neurones en sortie = 2590 connexions soit 25 900 exemples

Risque de non optimalité présence de minima locaux

apprentissage sur plusieurs réseaux à partir de plusieurs matrices de poids ou variation du delta au cours de la construction du réseau

Temps de calcul

Les Réseaux NeuronauxLes Réseaux Neuronaux

Les modèles du datamining

Page 130: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

130

Les réseaux BayésiensLes réseaux Bayésiens Définition

Modèle graphique qui encode les probabilités entre les

variables plus pertinentes

Associer une probabilité d’apparition d’un événement étant

donné la connaissance d’autres événements

Comprendre certaines relations causales

(notion d’antériorité ou d’impact)

conjonction de certaines variables pour déclencher une action

Les modèles du datamining

Page 131: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

131

Les réseaux BayésiensLes réseaux Bayésiens Conception des réseaux bayésiens

Graphe orienté :

Probabilité d’apparition d’un événement :

Force des dépendances entre variable= probabilité conditionnelleObjet Prêt

ContentieuxSain

MontantDurée

P(Sain|Objet, Durée, Montant) = P(Objet) x P(Montant|Objet)x P(Durée|Montant, Objet) x P(Sain|Montant, Durée)

Les modèles du datamining

Page 132: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

132

Les réseaux BayésiensLes réseaux Bayésiens Conception des réseaux bayésiens

Complexité du réseau Variables discontinues autant de nœuds que de valeurs

Variables continues modélisées par la techniques de grappe

Limiter le nombre de nœuds et de connexions

Ex : 10 objets de prêt, 10 tranches de montant, 10 tranches de durée,

2 résultats en sortie = 32 nœuds

Elagage du réseau Regroupement des valeurs

Limitations des liens : recherche de la couverture minimale

Les modèles du datamining

Page 133: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

133

Les réseaux BayésiensLes réseaux Bayésiens

Domaines d’application Peu d’applications opérationnelles - technique jeune

(modélisation de processus d’alertes, prédiction de risques d’impayés pour télécommunications)

Peu de logiciels

Avantages et limites Bon compromis entre puissance et compréhension Bonne résistance au bruit Limite de la puissance de calcul

Ex : 3 var. de 10 modalités et 2 parents = 90 lectures

Les modèles du datamining

Page 134: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

134

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 135: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

135

exemple : Étude de casexemple : Étude de cas

Page 136: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

136

Exemple Exemple

Cas très simplifié

Identification de profils clients et organisation d’une campagne de marketing direct

Voyagiste qui organise des circuits touristiques et propose 5 types de prestations (A, B, C, D, E)

Politique de fidélisation des clients

Page 137: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

137

Exemple :Exemple : 1. Poser le problème 1. Poser le problème

Affiner le problème : fidéliser le client vendre aux clients existants de nouvelles prestations

transformer les mono-détenteurs en multi-détenteurs

1. Problème de structuration Distinguer les mono-détenteurs, qui sont mes clients ?

2. Problème d’affectation Construire des cibles prioritaires pour la vente croisée de

produits, quels sont les clients à contacter ?

Page 138: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

138

Exemple :Exemple : 2. Recherche des données 2. Recherche des données

Infos disponibles « comportement d’un client » informations Client :

Age, Sexe, Situation familiale, Nombre d’enfants, Catégorie socioprofessionnelle, Nombre d’années dans l’emploi

informations sur les Produits achetés : Produit A + date du 1er achat du produit A Produit B + date du 1er achat du produit B ... Produit E + date du 1er achat du produit E

Page 139: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

139

Exemple :Exemple : 2. Recherche des données 2. Recherche des données

Infos disponibles « comportement d’un client » informations comptables

Montant des achats, Date du dernier achat, Type de paiement, Statut financier

informations collectées par questionnaire Centres d’intérêts

informations géographiques Code commune, taille de la commune, type habitat

origine des variables de trois sources : systèmes gestion client, gestion produits et achats, enquêtes et Insee

Traitements sur les données « dédoublonnage » des fichiers et traitement des adresses

Page 140: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

140

Exemple :Exemple : 3. Sélection des données 3. Sélection des données

Données des centres d’intérêts données saisies manuellement + données issues de mégabases

(Calyx ou ConsoData) 1 client sur 2 répond aux enquêtes + 10% issus des mégabases

55% taux de renseignement

extraction sur toute la population (biais)

Étude sur le thème (Récence-Fréquence-Monétaire) pas d’achats sur les 5 dernières années pour 30% clients 10% clients = 40% du C.A.

suppression des 30% d’inactifs et sur-pondération des 10% des clients à fort C.A.

Page 141: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

141

Exemple :Exemple : 3. Sélection des données 3. Sélection des données

Modification du plan d’extraction :clients à fort C.A80% des questionnaires remplis

clients intermédiaires : 60% de réponses

Procédures d’extraction si dernier achat de + de 5 ans : ne pas extraire si achat > 25000F : tirage aléatoire 1 sur 3 (30%) sinon tirage aléatoire : un enregistrement sur 10 (10%)

Échantillon non représentatif de la population mais plus représentatif des enjeux de marketing(accroître le C.A.)

Page 142: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

142

Exemple :Exemple : 4. Nettoyage des données 4. Nettoyage des données

Taille du fichier Extraction fichiers de 1500 clients avec qualification de 1410 adresses

fichier de 1410 enregistrements Enrichissement des centres d’intérêts : taux de pertinence 94%

Valeurs aberrantes analyse valeurs minimales et maximales

ex : exclusion des clients avec C.A.> 35000F

erreur de codification clients particuliers et entreprises analyse de la distribution (homogénéité)

ex : distribution des âges, crête forte sur des valeurs rondes 20, 25, 30 contrôle de cohérence des infos

ex : code CSP inexistant classé 99, absence de personnes mariées, dates incohérentes

=> pb extraction ou suppression des enregistrements

Page 143: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

143

Exemple :Exemple : 4. Nettoyage des données 4. Nettoyage des données

Valeurs manquantes nombre d’enfants : valeur NR ou moyenne nationale

Valeurs nulles discrétisation de la valeur

ex : Nb enfants NR = Null, 0 = 0, 1 = 1, 2 = 2, 3 à N = 3

Transformation des variables pour introduire des dimensions particulières âge du client au 1er achat (âge et date au 1er achat) durée de vie du client (âge au 1er et au dernier achat) détention des produits (nbre de produits détenus) type habitat et taille de la commune

Page 144: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

144

Exemple :Exemple : 6. Recherche du modèle 6. Recherche du modèle

1. Caractériser la population en sous-groupes homogènes: typologie des clients Analyse factorielle met en évidence 3 facteurs principaux

nombre de produits achetés ancienneté des achats données sur l’âge du client ancienneté dans l’emploi C.A.

Techniques des nuées dynamiques

Page 145: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

145

Exemple :Exemple : 6. Recherche du modèle 6. Recherche du modèle

monodétenteur

Âgés

jeunes avec C.A. moyen

20 %

âgés avec gros C.A.

4 %

âgés avec C.A. moyen

21 %

jeunes avec petit C.A.

21%

âgés avec petit C.A.

7 %

S4

S5

S6

S3

S1

S2

S9 S8

S7

multidétenteur

Jeunes

C.A. élevé

C.A. faible

jeunes clients avec gros

C.A.3%

âge moyen avec C.A. moyen

6 %

âge moyen avec C.A. important

5%

âge moyen avec petit C.A.

7 %

1. Caractériser la population en sous-groupes

Page 146: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

146

Exemple :Exemple : 6. Recherche du modèle 6. Recherche du modèle

2. Ventes croisées (modèle de prédiction) Qu’est ce qui caractérise les gros C.A. parmi les jeunes clients,

les middle-aged et les âgés ? Étude sur les jeunes clients Approche neuronale :

distinction des facteurs pertinents 3 segments : multiacheteurs avec fort C.A. 3%, multiacheteur avec C.A.

moyen 20%, monoacheteurs 21%

Modèle pour permettre de vendre plus

(2 classes : monodétenteur et multidétenteur)

Page 147: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

147

Exemple :Exemple : 6. Recherche du modèle 6. Recherche du modèle Premiers résultats

(représentation équilibrée à 50% des deux classes) facteurs pertinents :

CSP, nb d’années dans l’emploi, statut familial, nb enfants

diminution des variables en entrée du réseau

Réseau final modèle appliqué à l’ensemble de la base probabilité d’appartenance des classes ajoutée dans la BD résultat : modèle à 75%

Mono observé

Multi prédit Mono prédit

Multi observé 45%

15%30%10%

erreurs

prospects

Page 148: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

148

Exemple :Exemple : 6. Recherche du modèle 6. Recherche du modèle

Arbre de décision : isoler les monodétenteurs des multidétenteurs mise en évidence de l’âge comme premier facteur explicatif de

la monodétention

Arbre de décision appliqué sur une population jeune cadre ou profession libérale consommateur de voyages

jeune marié avec un voyage longue distance : cible peu propice

Approche neuronale et Arbre de décision appliqués sur les populations « middle-aged » et « âgé »

Page 149: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

149

Exemple :Exemple : 7. Évaluation du résultat 7. Évaluation du résultat

Mesure du taux de classification sur la base test entre base apprentissage et test doit être minimale

Validation avec la connaissance des commerciaux et des spécialistes marketing possibilité d’interagir sur l’arbre de décision en forçant la

scission sur une variable supposée pertinente par les experts pour prouver le faible pouvoir discriminant

Travail important de communication et de présentation des résultats

Page 150: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

150

Flexibilité de production/logistique

Forte

Faible Forte

Fle

xibi

lité

de

com

mun

icat

ion

Flexibilitéexterne

One to

One

Monolithisme Flexibilitéexterne

Exemple :Exemple : 8. Intégration de la connaissance 8. Intégration de la connaissancepolitique de

communication et production orientée

client

augmenter les informations

stockées,personnalisa-

tion des courriers

personnalisation du catalogue et des

tarifs

rapport

Page 151: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

151

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 152: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

152

Choix d’un logiciel de Data MiningChoix d’un logiciel de Data Mining

Selon son prix

Selon son intégration possible

Selon le problème à résoudre

Selon les compétences des utilisateurs

Page 153: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

153

Gamme de prixGamme de prix

Suites statistiques évolutives (1500-4500 EUR) SPAD (CISIA) Smart Miner (Grimmer Soft) Knowlbox (Complex Systems)

mélange de techniques de gestion de bases de données, d’outils statistiques et de techniques de data mining

Page 154: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

154

Gamme de prixGamme de prix

Outils légers, pour PC de bureau (<2500 EUR) Scenario (Cognos) Diamond (SPSS) Previa (ElseWare)

technique unique de data mining, algorithme unique, facile d’utilisation

Page 155: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

155

Gamme de prixGamme de prix

Outils intermédiaires (3000-25000 EUR) Légers étendus :

Alice (ISoft) 4Thought (Cognos) Knowledge Seeker (Angoss)

Concurrents poids lourds : Clementine (SPSS) PolyAnalyst (Megaputer)

majoritaires, accessibles aux néophytes et aux experts

Page 156: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

156

Gamme de prixGamme de prix

Outils poids lourds (30000-150000-… EUR) Intelligent Miner (IBM) SAS Entreprise Miner (SAS) Decision Series (NeoVista) Mineset (Silicon Graphics) Tera Miner (NCR)

ensembles intégrés (techniques et algorithmes variés), puissants

Page 157: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

157

Possibilité d’intégration ?Possibilité d’intégration ?

Connexion aux BD ?Format spécifique ?Fonction de nettoyage ?

Interface avec des requêteurs et outils OLAP ? En amont, pour orienter l’analyse En aval, pour évaluer les résultats et simuler les décisions

Page 158: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

158

Complexité du problème ?Complexité du problème ?

Quantité des données traitées si énorme, éviter un outil utilisant Excel…

Origine des données traitées Nombre d’inter-relations entre variables Nature des relations linéaires ou non

Techniques souhaitées pour construire un modèle : Unique : connue à l’avance ou choisie par

expérimentation Combinées

Page 159: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

159

Niveau des utilisateurs ?Niveau des utilisateurs ?

Compétences requises spécialistes des données à traiter interfaces utilisateurs assistants formation proposée

Novices : interface conviviale, technicité masquée, interprétation

guidée Experts :

transformation des données, affinage du modèle, …

Page 160: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

160

Choix d’un logiciel de Data MiningChoix d’un logiciel de Data Mining

Bref,…

l’expérimentation est une bonne solution

Page 161: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

161

Outils spécialisésOutils spécialisés

Data morphing Amedea (Isoft)

Arbres de décisions Scenario, Answer Tree (SPSS), Alice

Réseaux de neurones Neuro One (Netral), Saxon (PMSI), Previa (ElseWare),

4Thought Text mining

TextAnalyst (Megaputer), NeuroText (Grimmer), Umap (Trivium)

Page 162: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

162

Outils intégrésOutils intégrés

Tous les « poids lourds » + Strada (Complex Systems) : AD, AG, RN + Knowledge Seeker : AD, RN

Page 163: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

163

Pièges à éviterPièges à éviter

Système d’exploitation Windows (en général) Unix (poids lourds + produits peu commerciaux)

Matériel Minimum 256Mo RAM pour les poids lourds Lenteur d’un réseau

Coût Achat ou location ?

Dépendances Besoin de « modules » supplémentaires ?

Page 164: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

164

ExpérimentationsExpérimentations

Indispensables pour choisir un outil

A l’UFR : Alice : version d’évaluation, à installer en local (C:\Temp

mot de passe : ducksoup) SAS Entreprise Miner : quelques licences louées très cher,

disponible (au moins) en salle 213

Page 165: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

165

PlanPlan

Introduction

1.Généralités

2. Le processus de datamining

3. Les modèles du datamining

4. Exemples

5. Critères pour le choix d’un logiciel

Conclusion et perspectives

Page 166: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

166

Conclusion et PerspectivesConclusion et Perspectives Réussite d’un bon projet pilote

Constituer un enjeu pour l’entreprise Impliquer plusieurs directions (application transversale) Avoir des effets mesurables rapidement

typologie client - pas immédiatement opérationnel + facile optimisation d’une cible de marketing

Sujet pour lequel il existe une compétence interne complémentarité avec les experts découverte de phénomène insoupçonnés (+ du DM)

Aboutir à des conclusions pouvant être mises en œuvre Rechercher les problèmes répétitifs de l’entreprise

Page 167: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

167

Conclusion et PerspectivesConclusion et Perspectives

L’outillage de base pour un projet de DM Une BD relationnelle

Un requêteur (BO, Impromptu, Bio ou GQL) [+ outil de visualisation graphique]

agrégation complexe et nettoyage des données

Logiciel statistique (si composantes non intégrées)

Logiciel d’arbre de décision (3 catégories : poids lourds, haut de gamme, solution légère)

Réseau de neurones (prévision temporelle, modèles non linéaires)

Matériel dépend des outils et du nbre d’enregistrements

Page 168: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

168

Conclusion et PerspectivesConclusion et Perspectives

Pièges à éviter Attention à la qualité des données !

Eviter une démarche centrée outils définir le pb avant

Le DM ne remplace pas les statistiques complémentarité

Intégrer les résultats du DM dans le S.I.

Ne pas négliger la communication et la mise en application

Anticiper la résistance participation des utilisateurs

Démystifier le DM

Page 169: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

169

Conclusion et PerspectivesConclusion et Perspectives Perspectives

Data Mining et SGBD intégration des fonctions de DM

transparence de l’analyse et flux continu

Data Mining et OLAP

intégration des technologies de DM dans les outils d’interrogation et de visualisation

ex : partenariat BO et Isoft produit Alice

partenaire Cognos / Angoss produit Scenario proposer à l’utilisateur les dimensions à étudier en priorité

conseiller l’intégration aux outils de navigation

Page 170: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

170

Conclusion et PerspectivesConclusion et Perspectives Perspectives

Data Mining et Multimédia

text mining, image mining, video mining

(ex : interprétation des commentaires libres dans les enquêtes)(ex : similarité entre images médicales aide au diagnostic)(ex : indexation automatique de banques de films)

Data Mining et Internet

Internet facilite la collecte d’information par son coût faible

- BD sur le comportement des clients (profil d’un client sur le site WEB d’un voyagiste) => applications interactives

DM apporte des solutions innovantes pour la navigation Interface internet standardisation des interfaces HTML

Page 171: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

171

Conclusion et PerspectivesConclusion et Perspectives

Vers une « verticalisation » des outils de DM ?

Applications du DM sur des domaines particuliers

profiter de la puissance du DM sans investir en compétences spécifiques

ex : SLP : outil d’analyse de départ de clients dans le domaine des télécommunications

VMData : outil prêt à l’emploi pour construire des ciblages

Le processus de DM est rarement reproductible

Solutions restreintes à des domaines très étroits

Page 172: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

172

Conclusion et PerspectivesConclusion et Perspectives Droit informatique & liberté et le DM ?

Domaine de prédilection du DM : la K du client

Exploitation de données pour prédire des comportements individuels

Position de la CNIL conformité des méthodes de ciblage à la loi Info & Liberté pas de prise en compte de critères raciaux, politiques, ni aboutir à des

qualificatifs péjoratifs ou défavorables Atteinte à la vie privée ? Ex : l’examen des achats par CB ? Droit de regard sur tout traitement automatisé « Big Brother »

Page 173: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

173

Conclusion et PerspectivesConclusion et Perspectives

Évolution plutôt que révolution Ne pas confondre le processus et les outils

souvent limité à la phase de recherche du modèle évolution des outils, intégration d’assistants dans le processus

Maturité des principales techniques de modélisation Une BD renferme de la connaissance sur l’entreprise

règle de gestion : contraintes d’intégrité, triggers modèle des données (ex : modélisation d’une base exprime

souvent une classification initiale, le modèle exprime également des liens entre les entités du monde réel)

Page 174: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

174

BibliographieBibliographie Le Data Mining

R. Lefébure, G.Venturi

Eyrolles 1998

Et de nombreux documents trouvés sur le web !

Page 175: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

175

ExempleExemple

Plusieurs en quêtes (sources) sur les goûts des gens au cinéma

Base de données relationnelle: cinéma Personne(id-personne,nom,sexe,âge) Enquête(id-personne,id-source,id-film,vote) Source(id-source,nom-source) Film(id-film, titre,année)

Page 176: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

176

Algorithme CARTAlgorithme CART

algorithme publié en 1984 par L.Briemen utilisé dans de nombreux outils du marché  Processus

Trouver la première "bifurcation" Développer l’arbre complet Mesurer le taux d’erreur à chaque nœud Calculer le taux d’erreur de l’arbre entier Elaguer Identifier les sous-arbres Evaluer les sous-arbres Evaluer le meilleur sous-arbre

Page 177: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

177

PrincipePrincipe

première "bifurcation" : celle qui divise le mieux les enregistrements en groupes

pour déterminer le critère qui effectuera le meilleur partage entre les éléments Calcul d'un indice de diversité  

Max(diversité(avant division) – (diversité fils gauche + diversité fils droit))

 différents modes de calcul pour l’indice de diversité : Min (Probabilité(c1), Probabilité(c2)) (Probabilité(c1)logProbabilité(c1))+ (Probabilité(c2)logProbabilité(c2))

Féminin Masculin

Nœud racine

Nœuds intermédiaires

80 % 20 %

Page 178: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

178

PrincipePrincipe

Une fois la première bifurcation établie : le nœud racine se sépare en 2

étape suivante : développer l’arbre complet en divisant de la même façon les nouveaux nœuds crées ainsi de suite tant que le résultat de la division a une

valeur significative dernier nœud : nœud feuille donnant le classement final

d’un enregistrement

Page 179: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

179

PrincipePrincipe

L’arbre résultant n’est pas obligatoirement le meilleur prochaine étape : calcul du taux d’erreur pour chaque nœud

Si 11 enregistrements sur 15 sont classés correctement d’après l’ensemble d’apprentissage, la probabilité pour ce nœud est de 11/15 soit 0,7333

Le taux d’erreur attribué est de 1 – 0,7333 = 0,2667. possible de calculer le taux d’erreur de l’arbre entier soit :

t : taux d’erreur d’un nœud P : probabilité d’aller au nœud Taux d’erreur de l’arbre = (t * P) Soit dans l’exemple, avec un taux d’erreur de (15/17) pour le nœud

Masculin

((11/15) * 0,80) + ((15/17) * 0,20) = 0,763

Page 180: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

180

PrincipePrincipe à l’issue du premier passage

certains nœuds feuilles ne contiennent pas suffisamment d’enregistrements pour être significatifs élaguer

le plus complexe étant de trouver la bonne limite à appliquer

choix des branches à supprimer : par taux d’erreur ajusté d’un arbre Calculé, sur chaque sous arbre possible  : Soit le compte des feuilles

Taux d’erreur ajusté = taux d’erreur + compte des feuilles

Un premier sous arbre est candidat lorsque son taux d’erreur ajusté devient plus petit ou égal au taux d’erreur ajusté de tout l’arbre

Toutes les branches, qui n’en font pas partie, sont élaguées le processus recommence ainsi de suite jusqu’au nœud racine 

Page 181: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

181

PrincipePrincipe

maintenant choisir parmi tous les sous arbres candidats chaque sous arbre va être exécuté avec un ensemble de test

celui qui aura le plus petit taux d’erreur sera le meilleur

pour contrôler l’efficacité du sous arbre sélectionné un ensemble d’évaluation va lui être soumis Son taux d’erreur obtenu donnera une estimation des performances

de l’arbre

Page 182: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

182

Différence avec CARTDifférence avec CART Nombre de sorties d’un nœud variable

CART génère des sorties binaires C4.5 accepte plusieurs valeurs à l’issue d’un nœud

Méthode de détermination de l’ordre des bifurcations CART utilise l’indice de diversité comme méthode d’affectation des bifurcations C4.5 utilise le gain informationnel total

  Elagage C4.5 n’utilise pas d’ensemble de test il élague son arbre à partir des données d’apprentissage en considérant que le

taux d’erreur réel sera sensiblement pire parfois, lorsque les nœuds comportent peu d’enregistrements, suppression de

sous-arbres complets

Ensemble de règles C4.5 déduit de l’arbre de décision un ensemble de règles,

facilite son interprétation

Page 183: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

183

Exemple : le logiciel ClasspadExemple : le logiciel Classpad

Page 184: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

184

Déduction Orientée AttributDéduction Orientée Attribut

DBLearn [Han et al. 92] Généraliser une table ou une requête en utilisant la connaissance

du domaine Utilisation des tables relationnelles comme structure

tuple = formule logique Langage d’apprentissage basé sur SQL Pré-sélection des données par des requêtes Connaissance extraite exprimée sous la forme de règles Connaissance du domaine exprimée :

hiérarchie « is-a » de concept hiérarchie de concepts discrets pour les attributs numériques

Page 185: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

185

Déduction Orientée AttributDéduction Orientée Attribut

PrincipesPour chaque attribut Ai dans RG (relation obtenue après l’étape de

sélection)

Tant que nb-valeurs(Ai) > seuil faire

substituer Ai avec le concept général

fusionner les tuples obtenus (calculer le vote)

Tant que nb-tuples(RG) > seuil faire

choisir les attributs généralisés

fusionner les tuples

Fusion de la relation initiale en n relations pour l’apprentissage de règles discriminantes (autant de relations que de classes)

Page 186: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

186

Déduction Orientée AttributDéduction Orientée Attribut

Exemple

Name Status Major Birth Place

GPA

Anderson M.A. History Vancouver 3,5

Bach Junior Math Calgary 3,7

Carlton Junior Computing Edmonton 2,6

Fraser M.S. Physics Ottawa 3,9

Gupta Ph.D. Math Bombay 3,3

Hart Sophomore Chemistry Richmond 2,7

...

Wang M.S. Statistics Nanjing 3.2

Wise Freshman Literature Toronto 3,9

Page 187: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

187

Déduction Orientée AttributDéduction Orientée Attribut

Etudiants en relation

apprentissage de la règle caractéristique pour Status = « Graduate » en fonction de Name, Major, Birth place, GPA

Name Major Birth Place

GPA Vote

Anderson History Vancouver 3,5 1

Fraser Physics Ottawa 3,9 1

Gupta Math Bombay 3,3 1

Liu Biology Shangai 3,4 1

...

Monk Computing Victoria 3,8 1

Wang Statistics Nanjing 3.2 1

Page 188: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

188

Déduction Orientée AttributDéduction Orientée Attribut Règle caractéristique

Major Birth Place

GPA Vote

Art B.C. excellent 35 Science Ontario excellent 10 Science B.C. excellent 30 Science India good 10 Science China good 15

Major Birth Place

GPA Vote

Art Canada excellent 35 Science Canada excellent 40 Science Foreign good 25

x, graduate(x) (Birth Place(x) Canada GPA(x) excellent) [75%] (Major(x) Science Birth Place(x) Foreign GPA(x) good) [25%]

Page 189: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

189

Déduction Orientée AttributDéduction Orientée Attribut Règle discriminante

Class Major Birth Place

GPA Vote Vote

Graduate Art B.C. excellent 35 Science Ontario excellent 10 Science B.C. excellent 30 * Science India good 10 Science China good 15 Ungraduate Science Alberta excellent 15 Art Alberta average 20 Science B.C. average 60 Science B.C. excellent 35 * Art B.C. average 50 Art Ontario excellent 20

Page 190: 1 Introduction au datamining Système dinformation décisionnel DESS ACSI et SID Anne Boyer Année universitaire 2004-2005

190

Déduction Orientée AttributDéduction Orientée Attribut Règle discriminante

Class Major Birth Place

GPA Vote Vote

Graduate Art Canada excellent 35 * Science Canada excellent 40 * Science Foreign good 25 Ungraduate Science Canada excellent 50 * Art Canada average 70 Science Canada average 60 Art Canada excellent 20 *

(2b) x, graduate(x)

(Major(x) Science Birth Place(x) Foreign GPA(x) good) [100%]

(Major(x) Science Birth Place(x) Canada GPA(x) excellent) [44,44%]

(Major(x) Art Birth Place(x) Canada GPA(x) excellent) [63,64%]

(2a) x, graduate(x)

(Major(x) Science Birth Place(x) Foreign GPA(x) good)