data mining - associativité

Download Data mining - Associativité

Post on 14-Apr-2017

576 views

Category:

Data & Analytics

1 download

Embed Size (px)

TRANSCRIPT

  • LES RGLES

    ASSOCIATIVES

    DATA MINING

    Mohamed Heny SELMI medheny.selmi@esprit.tn

  • OBJECTIFS

    Rechercher les associations consiste rechercher les rgles de type :

    Si pour un individu, la variable A = Xa, la variable B = Xb, etc, alors, dans 80% des cas, la variable Z = Xz, cette configuration se rencontrant pour 30 % des individus

    Reprer des rgles liant les donnes avec un bon niveau de probabilit

    dcouverte de relations fines entre attributs (ou variables) gnralisation des dpendances fonctionnelles

    Mettre en vidence les produits / des articles achets ensemble

    Transcrire la connaissance sous forme de rgles dassociation

    Rgles du style : < si [P(tid,X) := prmisse] alors [P(tid,Y) := consquence] >

    Diffrents types de rgles

    origine panier de la mnagre tendues aux tables multiples et aux attributs continus

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • ANALYSE DES TICKETS DE CAISSE

    N Transaction (Caddie)

    Contenu du caddie

    1 Poulet Moutarde ufs Pates

    2 Moutarde ufs

    3 Pain Beurre Poulet

    4 Pates

    5 Pain Lait Beurre

    6 ufs Pain

    7 Confiture

    Une observation = un caddie

    Ne tenir compte que de la prsence des produits : peu importe leur quantit

    Dans un caddie : le nombre de produits est variables

    La liste des produits est immense et variable

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • N Transaction (Caddie)

    Contenu du caddie

    1 Poulet Moutarde ufs Pates

    TABLEAU DES TRANSACTIONS

    Mettre en vidence les produits / des articles achets ensemble

    Transcrire la connaissance sous forme de rgles dassociation

    si [P(tid,X) := prmisse] alors [P(tid,Y) := consquence]

    si Poulet et Moutarde alors ufs et Pates

    N Transaction (Caddie)

    Contenu du caddie

    6 ufs Pain

    si ufs alors Pain

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • TABLEAU BINAIRE

    N Transaction (Caddie)

    Contenu du caddie

    1 Poulet Moutarde ufs Pates

    2 Moutarde ufs

    3 Pain Beurre Poulet

    4 Pates

    5 Pain Lait Beurre

    6 ufs Pain

    7 Confiture

    dsignation

    P1 = Poulet

    P2 = Moutarde

    P3 = ufs

    P4 = Pates

    P5 = Pain

    P6 = Beurre

    P7 = Lait

    P8 = Confiture

    P1 P2 P3 P4 P5 P6 P7 P8

    1 1 1 1 1 0 0 0 0

    2 0 1 1 0 0 0 0 0

    3 1 0 0 0 1 1 0 0

    4 0 0 0 1 0 0 0 0

    5 0 0 0 0 1 1 1 0

    6 0 0 1 0 1 0 0 0

    7 0 0 0 0 0 0 0 1

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • CODAGE DISJONCTIF COMPLET

    Observation Taille Corpulence

    1 Petit Mince

    2 Grand Envelopp

    3 Grand Mince

    Observation Taille = Petit Taille = Grand Corpulence = Mince Corpulence = Envelopp

    1 1 0 1 0

    2 0 1 0 1

    3 0 1 1 0

    Ds que lon peut se ramener des donnes 0/1 :

    Il est possible de construire des rgles dassociation

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • PASSAGE EN FORME DISJONCTIVE COMPLTE

    Catgoriel, qualitatif, discret : type march, entreprises, taux, appartenance,

    Continu, quantitatif : virement, ge, temprature, consommation, pourcentage,

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • CRITRES DVALUATION

    DES RGLES DASSOCIATION

    SUPPORT indicateur de fiabilit

    probabilit absolue :

    P(X U Y)

    ||X U Y||/ ||BD|| = % de transactions vrifiant la rgle

    CONFIANCE Indicateur de prcision

    probabilit conditionnelle : P(Y/X)

    ||X U Y||/||X|| = % de transactions vrifiant l'implication

    Rgle dassociation : p1 p2

    sup(R1) = 2 : en termes absolus

    ou sup(R1) = 2 / 6 = 33% : en termes relatifs

    Conf(R1) = sup(R1) / sup(antcdant R1)

    = sup(p1 p2) / sup(p1) = 2 / 4 = 50 %

    Bonne rgle = rgle avec un support et une confiance leve

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • ANALYSE DES TICKETS

    { "crme" } { "pain" } ID PRODUITS

    1 pain, crme, eau

    2 crme

    3 pain, crme, vin

    4 eau

    5 crme, eau

    Support = Prob. (crme et pain) :

    Confiance = Prob(crme et pain / crme) :

    0.45

    2

    tran.)nom_total(

    pain)et crmeontenant nom(tran.cSup

    sup(crme)

    pain)et crme(sup5.0

    4

    2

    crme)contenant nom(tran.

    pain)et crmecontenant nom(tran.Conf

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • DMARCHE DEXTRACTION

    DES RGLES DASSOCIATION

    Paramtres : Fixer un degr dexigence sur les rgles extraire

    Support min. (exp. 2 transactions)

    Confiance min. (exp. 75%)

    Lide est surtout de contrler (limiter) le nombre de rgles produites

    Dmarche : Construction en deux temps

    recherche des itemsets frquents (support >= support min.)

    partir des itemsets frquents, produire les rgles (conf. >= conf. min.)

    Quelques dfinitions : item = produit itemset = ensemble de produits (ex. {p1,p3}) sup(itemset) = nombre de transactions dapparition simultane des produits (ex. sup{p1,p3} = 4) card(itemset) = nombre de produits dans lensemble (ex. card{p1,p3} = 2)

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • ALGORITHME APRIORI [AGRAWAL94]

    Premire passe :

    recherche des 1-ensembles frquents

    un compteur par produits

    L'algorithme gnre un candidat de taille k partir de deux candidats de taille k-1 diffrents par le dernier lment

    procdure apriori-gen

    Passe k :

    comptage des k-ensemble frquents candidats

    slection des bons candidats

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • APRIORI FRQUENTS ITEMSETS

    L1 = { frequent 1-ensemble } ;

    for (k = 2 ; Lk-1 ; k++) do

    {

    Ck = apriori-gen(Lk-1); // Generate new candidates

    foreach transactions t DB do

    { // Counting

    Ct = { subset(Ck, t) }; // get subsets of t candidates

    foreach cCt do c.count++;

    }

    Lk = { cCk |c.count >= minsup } ; // Filter candidates

    }

    F = {Lk} ;

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • SIMULATION

    1-Itemsets Support

    {p1} 4

    {p2} 3

    {p3} 5

    {p4} 1

    On va prendre la valeur du Support minimal = 3

    L1 = { {p1}, {p2}, {p3} }

    C2 = { {p1,p2}, {p1,p3}, {p2,p3} }

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • SIMULATION

    2-Itemsets Support

    {p1,p2} 2

    {p1,p3} 4

    {p2,p3} 3

    On va prendre le Support minimal = 3

    L2 = { {p1,p3}, {p2,p3} }

    C3 = { {p1,p2 ,p3} }

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • SIMULATION

    3-Itemsets Support

    {p1,p2, p3} 2

    On va prendre le Support minimal = 3

    L3 =

    C4=

    F = { {p1}, {p2}, {p3}, {p1,p3}, {p2,p3} }

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • SIMULATION

    {p1,p3}

    {p2,p3}

    On va prendre le pourcentage de la confiance minimale = 65%

    p1p3 : confiance = 4/4 = 100 % p3p1 : confiance = 4/5 = 80 %

    p2p3 : confiance = 3/3 = 100 % p3p2 : confiance = 3/5 = 60 %

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • INDICATEUR DE PERTINENCE DES RGLES

    MESURE DINTRT : LIFT DUNE RGLE

    Lamlioration apporte par une rgle, par rapport une rponse au hasard est appele lift et vaut :

    lift (rgle) = confiance (rgle) / p (rsultat) = p (condition et rsultat) / [ p (condition) x p (rsultat) ]

    Le lift est une bonne mesure de performance de la rgle dassociation. Le lift est la confiance de la rgle divise par la valeur espre de la confiance.

    Interprtation du lift : - Un lift suprieur 1 : Indique une corrlation positive - Un lift de 1 indique une corrlation nulle - Un lift infrieur 1 : Indique une corrlation ngative

    lift (C B) = 5/6 < 1

    lift (B E) = 6/5 > 1

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • ETUDE DE CAS DE RECHERCHE

    DASSOCIATIONS INTRESSANTES

    Le principe de lalgorithme est de rechercher lensemble L1 de tous les items

    apparaissant dans au moins Smin x m transactions.

    Puis, parmi C2 qui est le produit cartsien de L1 avec lui-mme, on construit

    lensemble L2 de tous les couples ditems apparaissant dans au moins

    Smin x m transactions.

    Lalgorithme sarrte quand Lk est vide.

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

  • La distribution russit mieux cibler ses mailings

    La course la fidlisation des clients

    Rductions personnalises la caisse

    Profil-client

    Le test des nouveaux produits

    Le panier moyen

    Le parcours magasin

    Cartes de fidlit

    UTILIT DES RGLES DASSOCIATION

    Mohamed Heny SELMI ESPRIT2015-2016 Data Mining

Recommended

View more >