techniques du data mining

Download Techniques du data mining

Post on 14-Apr-2017

482 views

Category:

Engineering

0 download

Embed Size (px)

TRANSCRIPT

Techniques du Datamining

Techniques du Data MiningDonia HammamiAlya letaif

Plan de la prsentation Introduction Dfinition du Data MiningHistorique du Data MiningTches du Data MiningTechniques du Data MiningAlgorithmes du Data MiningConclusion

2

Lentreposage de donnes nous permet de regrouper toutes les donnes de lentreprise dans un seul systme. De cet entrept de donnes, nous pouvons slectionner, combiner et analyser diffrents types de donnes.Ce dernier processus sappelleData Mining. laide des donnes disponibles, nous essayons de trouver des associations en comparant ou en combinant les donnes de diffrentes sources.

3

Introduction (1)

Introduction (2) Le Data Mining est un domaine pluridisciplinaire permettant, partir dune trs importante quantit de donnes brutes, den extraire des informations caches, pertinentes et inconnues auparavant en vue dune utilisation industrielle ou oprationnelle de ce savoir.

Le Data Mining est une dcouverte de modles intressants partir dun ensemble de donnes de grande taille dans le but est d'extraire des donnes disponibles au sein de toute entreprise les informations exploitables.

4

Dfinition du Data MiningData Mining : forage de donnes Data Mining: ensemble des techniques et mthodes destines lexploration et lanalyse de grandes bases de donnes informatiques en vue de dtecter dans ces donnes des rgles, des Associations, des structures pour en extraire lessentiel de linformation utile dont lobjectif est laide la dcision.

5

Historique du Data MiningLexpression Data Mining serait apparue pour la premire fois dans les annes 60.

Lexpression Data Mining rapparat dans les annes 80.

Le concept apparat en 1989 sous un premier nom de KDD (Knowledge Discovery in Data bases).

En 1991, le concept du Data Mining ou fouille des donnes apparaisse pour la premire fois aux tats-Unis comme une nouvelle discipline linterface de la statistique et des technologies de linformation.6

Tches du Data Mining (1)7La classification automatique supervise:Elle consiste examiner les caractristiques dun objet nouvellement prsent afin de laffecter une classe dun ensemble prdfini.Le modle gnr permet de prdire ou estimer la valeur manquante ou errone en utilisant le modle de classification comme rfrence.La classification automatique non supervise:Elle vise identifier des ensembles dlments qui partagent certaines similarits. Elle ne se base pas sur des classes prdfinies.

Tches du Data Mining (2)8Les rgles dassociation :Cest une tche qui permet de dcouvrir les rapports de lien qui peuvent exister dans une base de donnes. Ces liens sont gnralement exprims sous la forme A B qui signifie que la prsence de A implique la prsence de B (avec une certaine probabilit).Exemple : Un tudiant qui russit en mathmatiques russira en algorithmique dans 80% des cas.

Techniques du Data Mining9Les techniques de Data Mining diffrent en fonction des besoins de lutilisateur (selon les tches effectuer).Chacune des tches regroupe une multitude dalgorithmes pour construire le modle auquel elle est associe.

9

10CARTOC1SLIQAdaBoostLearn++C.hirarchiqueK-meansEM

AprioriFP-GrowthECLATSSDMKDCI

GSPSPADEAlgorithmes de DATA Mining

Ces algorithmes sont classifis, selon la tche associe, comme suit :- Algorithmes de construction des arbres de dcision : CART, C4.5 ;- Algorithmes de classification non supervise : k-Means, EM ;- Algorithmes de classification supervise : k-NN, SVM, Naive Bayes et AdaBoost ;- Algorithme dextraction des rgles dassociation : Apriori ;- Algorithme de classification automatique des pages Web : PageRank.

10

Algorithme de segmentation non supervis : K-Means (1)Lalgorithme des K-moyennes est un algorithme qui permet de trouver des classes dans des donnes. Les classes quil construit nentretiennent jamais de relations hirarchiques: une classe nest jamais incluse dans une autre classe Lalgorithme fonctionne en prcisant le nombre de classes attendues. Lalgorithme calcule les distances Intra-Classe et Inter-Classe.

11

12Mesures de similarit : Il ny a pas de dfinition unique de la similarit entre objets .Diffrentes mesures de distances d (x ,y).La dfinition de la similarit entre objets dpend de : Le type des donnes considresLe type de similarit rechercheAlgorithme de segmentation non supervis : K-Means (2)

13 Donnes Numriques :

Distance de Minkowski:

Distance Euclidienne: K=2

Distance de Manhattan : K=1

Algorithme de segmentation non supervis : K-Means (3)

14Algorithme de segmentation non supervis : K-Means (4)Donnes binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

Donne numratives: Distance nulle si les valeurs sont gales et 1 sinon.

Donne numratives ordonnes: idem. On peut dfinir une distance utilisant la relation dordre.

Algorithme de segmentation non supervis : K-Means (5)

Algorithme K-Means Entre : k le nombre de groupes cherchs DEBUT Choisir alatoirement les centres des groupes REPETER i. Affecter chaque cas au groupe dont il est le plus proche au son centre ii. Recalculer le centre de chaque groupe JUSQUA (stabilisation des centres) OU (nombre d'itrations =t) OU (stabilisation de linertie totale de la population) FIN 15

16Algorithme de segmentation non supervis : K-Means (6)

Inconvnients du K-MeansLe nombre de classes est un paramtre de lalgorithme. Un bon choix du nombre k est ncessaire, car un mauvais choix de k produit de mauvais rsultats. Les points isols sont mal grs (doivent-ils appartenir obligatoirement un cluster ?) L'algorithme du K-Means ne trouve pas ncessairement la configuration la plus optimale correspondant la fonction objective minimale. Les rsultats de l'algorithme du K-Means sont sensibles l'initialisation alatoires des centres. 17Algorithme de segmentation non supervis : K-Means (7)

18Domaines Dapplication : Marketing : segmentation du march en dcouvrant des groupes de clients distincts partir de la base de donnes des achats.Environnement : identification des zones terrestre similaire ( en terme dutilisation ) dans une base de donn dobservation de la terre.Assurance : identification des groupes dassurs distincts associ un nombre important de dclarations.Planification de villes : identification des groupe dhabitants suivant le type dhabitation, ville , localisation gographique Mdecine : Localisation de tumeurs dans le cerveauAlgorithme de segmentation non supervis : K-Means (8)

Les rgles dassociation (1) Les rgles d'association sont traditionnellement lies au secteur de la distribution car leur principale application est l'analyse du panier de la mnagre qui consiste en la recherche d'associations entre produits sur les tickets de caisse.Le but de la mthode est l'tude de ce que les clients achtent pour obtenir des informations sur qui sont les clients et pourquoi ils font certains achats.Exemples de rgles d'association:Si un client achte des plantes alors il achte du terreau,Si un client achte du poisson et du citron alors il achte du coca.Si un client achte une tlvision, il achtera un magntoscope dans un an.

19

Description de la mthode :On suppose avoir dfini une liste d'articles.On dispose en entre d'une liste d'achats.Dfinitions:Une rgle d'association est une rgle de la forme: Si condition alors rsultat.Dans la pratique, on se limite, des rgles o la condition est une conjonction d'apparition d'articles et le rsultat est constitu d'un seul article.Par exemple, une rgle trois articles sera de la forme: Si X et Y alors Z; rgle dont la smantique peut tre nonce: Si les articles X et Y apparaissent simultanment dans un achat alors l'article Z apparat.

20Les rgles dassociation (2)

La mthode peut tre applique tout secteur d'activit pour lequel il est intressant de rechercher des groupements potentiels de produits ou de services: services bancaires, services de tlcommunications.Elle peut tre utilise dans le secteur mdical pour la recherche de complications dues des associations de mdicaments ou la recherche de fraudes en recherchant des associations inhabituelles.

21Les rgles dassociation (3)

Modles de prdiction : Les arbres de dcision (1)Les arbres de dcision permettent de classifier une population dindividus selon les valeurs de leurs attributs. Cest une reprsentation graphique de la procdure de classification o :Une feuille indique une classe ;Un nud spcifie un test que doit subir un certain attribut ;Chaque branche correspond une valeur possible de lattribut.Pour classifier un nouvel objet, on suit le chemin partant de la racine (nud initial) une feuille en effectuant les diffrents tests dattributs chaque nud.

22

23Apprentissage des arbres de dcisionAlgorithme d'apprentissage par arbres de dcisiondonne: un chantillon S de m enregistrements initialisation: arbre vide ; nud courant : racine ; chantillon courant : SRpterdcider si le nud courant est terminalSi le nud courant est terminal Alors tiqueter le nud courant par une feuilleSinon slectionner un test et crer le sous arbreFinsinud courant : un nud non encore tudichantillon courant : chantillon atteignant le nud courantJusque production d'un arbre de dcisionsortieModles de prdiction : Les arbres de dcision (2)

24Modles de prdiction : Les arbres de dcision (3)

Exemple : Base dapprentissage: dcisions prises les 8 jours prcdents le problme (4 attributs binaires et une classe)

25Modles de prdiction : Les arbres de dcision (4)

Entropie dune variable alatoire w :

Entropie de w conditionne par a :

Rsultat classique :

26Modles de prdiction : Les arbres de dcision (5)Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP)

H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1

Pour con

Recommended

View more >