data mining un état de l’art

1

Data MiningUn état de l’art

DEA - RACORModule : Data Mining et bases de données semi-structurées

2

Sélection des données

L’Extraction de Connaissances à partir de Données

(ECD)

Pré-traitementTransformation des attributs

Fouille de données(Data Mining)

InterprétationEvaluation

[Fayyad et al. 96][Kodratoff 97][Bigolin et al. 98] Connaissances

Base de données

Données sélectionnées

Données prétraitées

RèglesFormalisme logique Graphes ...

3

L’apprentissage

• Problématique ancienne abordée dans de nombreux domaines :Psychologie, Statistique, Didactique, Intelligence Artificielle, ...

• Donner une définition précise de l’apprentissage reste un problème difficile et délicat :«L’apprentissage je sais ce que c’est tant qu’on ne me demande pas de le définir»

S. Boucheron

• En IA, l’apprentissage (automatique) correspond à une caractéristique des machines :

leur capacité à organiser, construire et généraliser des connaissances pour une utilisation ultérieure

leur capacité à tirer profit de l’expérience pour améliorer la résolution d’un problème

Exemple- un patient décrit par un ensemble d’attributs (âge, sexe, pression sanguine, ...)- la classe : attribut binaire concluant ou non à l’affection du patient par une maladie- apprentissage automatique : «apprendre» des règles de classification à partir d’un ensemble de descriptions de patients.

4

L’apprentissage automatique

Objectif des algorithmes d’apprentissage :

Trouver une généralisation satisfaisante du problème en explorant un espace de généralisations possibles [Michalski 91].

L’apprentissage inductif apprentissage à partir d’exemples ou d’observations : recherche de descriptions générales plausibles qui expliquent les données en entrée et sont utiles pour en prédire de nouvelles [Dietterich 93]

5

L’apprentissage automatique

Ces algorithmes peuvent différer par le type de connaissances utilisées, leur représentation et leurs stratégies d’apprentissage [Carbonell 84] [Kodratoff 91][Michell 97]

Exemples :

•les arbres de décision,•les règles de production,•les formalismes logiques,•les réseaux,•les graphes, ...

De l’acquisition à l’extraction des connaissancesL’apprentissage automatique permet de remédier au problème de la prise d’expertise.

Deux approches distinctes de l’apprentissage existent :

• apprentissage non supervisé• apprentissage supervisé

6

L’apprentissage non supervisé

On dispose d’une masse de données indifférenciées, et l’on désire savoir si elles possèdent une quelconque structure de groupes.Clustering ou Cluster Analysis [Bournaud 96]

Regrouper en classes des objets en se basant sur des similarités entre eux (maximiser la similarité intra-classes et minimiser la similarité inter-classes)

Extrait de la classificationtaxinomique de Linné

Embranchements

Classe

Ordre

Famille

Genre

Espèces

......

...

...

...

...

...

......

......

7

L’apprentissage supervisé

8


Description des exemples étiquetés

par leur classe

Apprentissagesupervisé

Fonction de classement

• On dispose d’un ensemble de données étiquetées par un expertla base d’apprentissage

• Objectif de l’apprentissage supervisé : construire à partir de la base d’apprentissage des fonctions de classement

•Fonction de classement : reconnaît un attribut particulier (la classe) à partir de la description d’un objet.

9


Fonction de

classement

ApprentissageFonction de

classement

Base d’apprentissage

La phase d’apprentissage

La phase de reconnaissance

10


Espace de mesure

Prétraitementsfiltragelissage

...

Espace de décision

Identification et

Classement

Espace de représentation

Analyse et

Description

Modélisation et

Apprentissage

Schéma général d’un système de Reconnaissance de Formes

11

L’espace de mesure

• Représentation du monde réel

• Réalisée à l’aide d’une méthode de perception : le capteur

• Fonction du capteur : transformation de la grandeur physique en signal adapté au système de traitement : le codage

• Un certain nombre de prétraitements est effectué dans l’espace de mesure

12

L’espace de représentation

• Population d’individus ou d’exemples.

• Les exemples sont décrits par des attributs (variables exogènes) notéesX1, X2 , ..., Xp

qui prennent leur valeurs dans R1, R2 , ..., Rp

Espace de représentation : R = R1 x R2 x ...x Rp

• Une fonction permet d’associer à chaque exemple sa représentation.

On note Xi() la valeur prise par l’attribut Xi pour l’exemple

R = R1 x R2 x ...x Rp

(X1(),..., Xp())

13

L’espace de décision ou d’interprétation

• Les classes sont représentées par une variable notée Y qui prend ses valeurs dans un ensemble C discret et de cardinal fini.

C : espace d’interprétation.

• Objectif de la RdF : déterminer une procédure de prévision qui permette d’expliquer et de prédire la classe de tous les exemples de la population.

Identification, opérateur de RdF ou fonction de classement :application de l’espace de représentation dans l’espace d’interprétation :

Y : C = {y1,y2,...,yC} Y()

: R C() yj

14


Population • Xi variables prédictives : les attributs • Y variable à prédire : la classe

Population

Ensemble des

classes C

Espace de Représentation

R ’

Y

(X1(),..., Xp())

Y() ()

15

Des méthodes de classification

16

De l’approche statistique

•Les exemples sont représentés par des points dans un espace de dimension p (nb d’attributs).

•Les généralisations sont le plus souvent représentées par des surfaces de décision dans cet espace : hyperplans, polynômes d’un certain degré, ...

•Contraintes difficilement interprétables par l’utilisateur- la régression suppose un modèle linèaire sous-jacent- hypothèses sur les lois de probabilités des variables étudiées en analyse discriminante- analyse en composantes principales difficile à interpréter, ...

•Quelques méthodes :La régressionL’analyse discriminante

à but descriptifà but décisionnel

La discrimination fonctionnelle

17

La régression

•Objectif : prédire une variable Y (variable expliquée) à l’aide d’un ensemble de variables X1, X2 , ..., Xp (variables explicatives)

Toutes ces variables sont quantitatives continues

•On désire déterminer une fonction f telle que f(X1, X2 , ..., Xp ) soit aussi proche

que possible de Y

•Modèle linéaire - Régression linéaire simple

Y=a+bX + Estimation de a, b et sur l’échantillon d’apprentissage en utilisant la méthode des moindre carrés [Saporta 90]

- Régression linéaire multiple trouver l’hyperplan qui ajuste au mieux le nuage de points des exemples (X1, X2 , ..., Xp ,Y)

X

Y

xi

yi

yi*y

x

18

L’analyse discriminante

Extension de la régression dans le cas où la variable à expliquer est qualitative.

Deux aspects :

• Analyse discriminante à but descriptif : l’Analyse Factorielle Discriminante Objectif :

- déterminer les combinaisons linéaires de variables qui permettent de séparer au mieux les différentes classes,

- donner une représentation graphique.

• Analyse discriminante à but décisionnel Objectif :

- prédire la classe d’un nouvel objet décrit par la valeur de ces attributs.

19

L’Analyse Factorielle Discriminante AFD

• Trouver les axes factoriels qui discriminent au mieux les C classes.

• Quand le nombre d’attributs est très élevé : l’AFD cherche des variables synthétiques pour représenter au mieux les données et la discrimination des exemples selon les classes.

•Déterminer de nouvelles variables correspondant à des directions de IRp qui séparent le mieux possible en projection les C classes [Saporta 90]

•Les variables discriminantes sont des combinaisons linéaires des variables explicatives.

20

L’Analyse Factorielle Discriminante AFD

Première variable discriminante on cherche la meilleure combinaison U :

U = a1X1 + a2X2 +… + aiXi +…+ apXp Xi :les p variables explicatives, i=1…pai: les coefficients de la combinaison

Chercher la meilleure combinaison linéaire --> chercher l’axe a le plus discriminant en projection : les C centres de gravité de chaque classe doivent être aussi séparés que possible en projection sur cet axe a, tandis que chaque sous-nuage doit se projeter de manière groupée autour de la projection de son centre de gravité.

inertie inter-classes la plus grande possible, et inertie intra-classes minimale.

X1

X2

Axe a

Recherche du meilleur axe par l’AFD

Axe a

Projection des exemples sur le 1er axe factoriel

21

L’Analyse Discriminante à but décisionnel

Meilleure représentation de la séparation en C classes des N exemples trouvée :on cherche à affecter un nouvel objet à l’une des classes.

Les règles d’affectation géométriques

• Calculer les distances de l’observation à classer à chacun des C centres de gravité g1, ..., gj, …, gC.

• Classe attribuée : celle de plus faible distance.

g1

g2

d(x,g2) < d(x,g1)

x est affecté à la classe y2

X1

X2 x

22


Résultat de l’AFD : C fonctions discriminantes linéaires , les surfaces séparant les classes sont des hyperplans.

Visualisation des fonctions discriminantes (C=2)

a1

a2

Fonction discriminante

23


Les règles d’affectation probabilistes

La règle d’affectation dépend de la probabilité qu’un individu représenté

par le vecteur X, provienne de la classe yj :

P(yj/X)

L’observation X est affectée à la classe qui a la probabilité a posteriori

maximale : c’est la règle de Bayes.

nécessité de connaître ou d’estimer P(yj/X).

24


définir des fonctions permettant de séparer partiellement ou totalement des classes représentées par les vecteurs attributs de leurs exemples.

La forme de la fonction de discrimination dépend de la forme des classes, pas toujours linéaire.

Un exemple de discrimination linéaire dans le cas de deux classes

Chercher la droite w1.x1+w2.x2+w3=0 telle que tous les points de la classe y1 soient d’un côté (W.X<0, avec W=(w1,w2,w3) et X=(x1,x2,1)) et tous les points de la classe y2 soient de l’autre côté (W.X>0).

Généralisation possible aux cas de plusieurs classes (hyperplans) dans un espace de représentation de dimension p.

X1

X2

25

Plusieurs méthodes de détermination des fonctions de discrimination linéaires existent : l’analyse discriminante, l’algorithme du Perceptron, ... [Bélaïd et al. 92].

Discrimination linéaire par morceaux.

Classes non linéairement séparables mais formées de sous-classes qui, elles, sont linéairement séparables.

Plus généralement Lorsque les classes ne sont pas linéairement séparables, il est possible de définir des fonctions de discrimination non linéaires, par exemple de forme polynomiale, exponentielle, ...


26

De l’approche probabiliste

La théorie bayésienne de la décision

Règle de décision bayésienne : associer à chaque nouvel individu à classer la classe la plus probable.Fonction de classement définie par :

: R C =X yj / pour tout y dans C P(yj /X) >= P(y/X)

P(yj /X) est une probabilité a posteriori --> doit être estimée

Formule de Bayes :

ce qui s’écrit encore : avec l’hypothèse que l’ensemble {y1,y2,...,yC} constitue un système complet d’événements.

P(X)

)y)P(yP(X//X)yP( jj

j

)yP()yP(X/

)y)P(yP(X//X)yP(

i

C

1ii

jjj

27

Le problème revient donc à déterminer P(X/yj) pour chaque classe yj, j=1...C.

Probabilité conditionnelle échantillonnée par expérience : une statistique permet alors de l’estimer.

Deux types de solutions possibles :

•on se donne a priori des lois de probabilités paramètrées et on estime les paramètres en utilisant l’ensemble d’apprentissage : méthodes paramétriques.

•on cherche à interpoler la fonction de décision à partir des échantillons donnés par l’ensemble d’apprentissage Pas d’hypothèse spécifique sur la famille de loi de probabilités : méthodes non paramétriques

[Duda et al. 73] [Fukunaga 72] [Simon 85] [Saporta 90] [Caraux et al. 96]


28


Méthodes non paramétriquesPrincipe simple : reconstituer directement par des techniques d’interpolation les probabilités recherchées à partir des exemples de l’ensemble d’apprentissage, et ce sans aucune connaissance sur la distribution de probabilités sous-jacente.

Les méthodes non paramétriques sont très nombreuses :

• la méthode des histogrammes

• la méthode des noyaux de Parzen [Parzen 62]

• les réseaux de cooptation (fondés sur les notions de graphes de voisinages connexes)

• la discrimination par boules

• la méthode des k plus proches voisins

• les classifieurs bayésiens simples

•...

29

La discrimination « par boules »

• consiste à tracer autour du point X représentatif du nouvel individu à classer, une boule de rayon donné dans IRp (p : nombre d’attributs)

• On compte ensuite le nombre kj d’exemples de l’ensemble d’apprentissage de classe yj dans cette boule.

• On estime alors directement P(yj /X) par :

Méthodes non paramétriques

C

1ii

jj

k

k/X)yP(

30

La méthode des k plus proches voisins

Introduite par Cover et Hart en 1967.connaît un essor important : apprentissage fondé sur les « instances » (instance-based learning) [Aha et al. 91] [Dasarathy 90].

Règle de décision des k-ppv •examiner les k plus proches voisins, au sens d’une métrique à préciser, du nouvel individu à classer dans l’ensemble d’apprentissage. • affecter au nouvel exemple la classe de la majorité.

La probabilité a posteriori s’obtient comme pour la discrimination par boules (pas grand sens si k est faible)

Apprentissage --> mémorisation des exemples, Partie calculatoire --> différée à la phase de test.Inconvénient : nécessité, coûteuse, de mémoriser tous les exemples et de comparer chaque nouvel individu à classer à tous ces exemples.


31

Les classifieurs bayésiens simplesLeur principe consiste à estimer, à partir de l’ensemble d’apprentissage, les probabilités conditionnelles des valeurs associées à chaque attribut Xi connaissant la valeur de la classe :

P(Xk=vk,i/yj)

Avec Xk kième attribut à valeurs dans RkRk domaine de variation de l’attribut Xk dans l’ensemble d’apprentissage ,

on note Rk={vk,1,...,vk,i,...,vk,Card(Rk)}

Probabilités estimées en fonction du nombre de fois où l’attribut Xi et la classe yj co-occurent sur l’ensemble d’apprentissage.

•Phase d’apprentissage : estimer et mémoriser la matrice de ces probabilités conditionnelles. •Phase de reconnaissance : pour classer un nouvel individu X, on applique la règle de Bayes :

Calcul de la probabilité pour chaque classe, affectation à X la classe de plus forte probabilité.


)yP()yP(X/

)y)P(yP(X//X)yP(

i

C

1ii

jjj

)yP()y/XP(

)y/XP()yP(

i

C

1iik

p

1k

jk

p

1kj

32

Les approches connexionistes

Panoplie d’outils pour résoudre automatiquement des problèmes de classificationet d’approximation de fonctions.

Modèle de neurone formel : le modèle de Mc Culloch et Pitts 1943y : activité du neurone recevant les activations x1, x2, .., xn :

Coefficient wi : force de la connexion entre l’unité i et l’unité d’activité y (poids synaptique)S : fonction d’activation :

s(h) =1 si h>=0 et s(h) = 0 si h<0 : fonction de seuil binaire : seuil

) - wi.xiS(yn

1i

x1x2x3...xn

S y

33


• Le vecteur de poids w et le seuil associés à un neurone d’activité y définissent un hyperplan H d’équation w.x = dans l’espace des entrées. Séparation de l’ensemble des vecteurs d’entrée en 2 groupes :

ceux de sotie 1 : w.x >=ceux de sortie 0 : w.x <

un neurone formel effectue une séparation linéaire des entrées

Extension à d’autres modèles

•Différents types de fonctions non linéaires peuvent être utilisées à la place de la fonction de seuil binaire.

• Possibilité de changer l’hyperplan pour d’autres formes de surfaces discriminantes. La généralisation consiste à remplacer le polynôme w.x par un polynôme de degré supérieur ou par d’autres types de fonctions.

Régions de décision dans le plan : fonction à base radiale (par ex. une gaussienne)

X1

X2 Classe A

Classe B

34

Les réseaux de neuronesSystèmes considérés comme des boîtes noires : les connaissances acquises durant l’apprentissage et codées dans les connexions d’un réseau ne sont pas interprétables en termes de symboles et de règles .


A partir du modèle de Mc Collogh et Pitts divers réseaux peuvent être constitués.

Modèles composés de couches de neuronesLes activations de neurones se propagent dans un seul sens : de la couche entrée à la sortie.A une entrée, représentée sous forme vectorielle, un réseau à couche associe une sortie codée sur sa dernière couche [Rosenblatt 62]

Perceptron élémentaire Une seule couche de neurones

formels reliés à une couche d’entrée

Perceptron multicouchesPlusieurs couches de neurones formels : d’entrée, cachées, de sortie

...

x y

35

Apprentissage par génération de règles

• Méthodes qui consistent à générer directement ou indirectement des règles de classification.

Règles de production de la forme :Si [prémisse] Alors [conclusion]

Prémisse : conjonction de descripteurs logiques du type Attribut = valeur (ou opérateur de comparaison, ou ensemble de valeurs)

Conclusion : Classe = modalité.

• Méthodes à fort pouvoir explicatif , non paramétriques.

• Objectif de l’apprentissage inductif par génération de règles : identifier un nombre minimal de règles qui généralisent les exemples de la base d’apprentissage.

Une règle peut être considérée comme une combinaison de variables et de valeurs. Le problème de recherche d’un sous ensemble minimal de combinaisons est un problème NP-complet et les méthodes existantes sont toujours heuristiques.

36

• Exploration sélective du treillis de Galois d’une relation binaire (CHARADE [Ganascia 87], IPR[Maddouri et al. 97] )

• Méthodes d’apprentissage dites «disjonctives» (Espace des versions [Mitchell 82], Algorithme de l’Etoile [Michalski 83])

• Approches connexionistes ([D’Alché-Buc 93] [Craven et al. 94] [Nedjari 97])


37


• Les arbres de décision (ID3, C4.5 [Quinlan 83, 96], CART [Breiman et al. 84])

• Les graphes d’induction (SIPINA [Zighed et al. 92],[Rakotomalala 97])

• Les Systèmes d’Inférence Floue ([Ishibuchi et al. 92], [Nozaki et al. 94] )

38

Les arbres de décision

• Trois systèmes ont plus particulièrement marqué les travaux sur les arbres de décision : ID3 et C4.5 [Quinlan 83] [Quinlan 93] dans la communauté de l’IA CART [Breiman et al. 84] dont l’origine est statistique.

Plus récemment, des travaux ont étudiés les arbres de décision flous [Ramdani 94] [Marsala 98], qui permettent de traiter des connaissances imprécises.

• Un arbre de décision est constitué de trois types d’éléments : •les nœuds• les arcs•les feuilles

Chaque nœud est associé à un attribut et représente un test (par exemple taille=grand).

Chaque arc issu de ce nœud correspond à l’une des valeurs de cet attribut, les arcs sont étiquetés par les différents résultats des tests.

Les feuilles sont des nœuds où un ensemble d’exemples vérifient un critère d’arrêt, par exemple, tous les exemples du nœud possèdent la même valeur pour la classe.

39

Pour illustrer ce processus, considérons l’exemple donné dans [Quinlan 83].

Chaque individu est décrit par 3 attributs :taille dont les valeurs possibles sont {petit, grand}cheveux avec les valeurs {noir, roux, blond}yeux avec les valeurs {bleu, brun}

Attributs ClasseTaille Cheveux Yeuxpetit blond bleu +grand blond brun -grand roux bleu +petit noir bleu -grand noir bleu -grand blond bleu +grand noir brun -petit blond brun -


Cheveux

noirroux

blond

_

+Yeux

+

bleu brun

_

40


Choix du « meilleur » attribut pour partitionner la base :

Une mesure de discrimination permet de choisir l’attribut qui réduit au maximum l’incertitude de prédiction des classes.

Mesures souvent issues de la théorie de l’information ou des statistiques.

• le gain d’information (ou information mutuelle) issu de la mesure d’entropie de Shannon utilisé par Quinlan [Quinlan 83]

•le critère de Gini utilisé dans le système CART : mesure l’impureté d’un attribut au regard d’une classe [Breiman et al. 84]

Etude détaillée de différentes mesures de discrimination dans [Rakotomalala 97]

41


L’entropie de ShanonEntropie en bits d’un message M : H(M)= Log2(n)

n : nb de significations différentes que peut prendre le message.

• Quantité de bits nécessaires pour connaître la classe d’une observation :

avec pk=Pr(Y=yk) et y1, ..., yC les C classes.

Entropie conditionnelleNb de bits nécessaires pour connaître Y sachant la valeur xl de l’attribut X

avec pkl=Pr(Y=yk /X=xl)

En moyenne, pour connaître la valeur de Y sachant X :

avec pl=Pr(X=xl)

Gain d’information S(Y) = S(Y) - S(Y/X)

C

1kk2k )p(log.pS(Y)

C

1kkl2kll )p(log.p)xS(Y/

C

1kkl2kl

L

1ll )p(log.ppS(Y/X)

42


Stratégie de partitionement de la base

Elle consiste à décomposer la base d’apprentissage en sous-bases, chacune induite par une modalité de la liste des modalités de l’attribut traité.

Cas des attributs numériques une étape de discrétisation est nécessaire.

Critère d’arrêtSi tous les exemples de la sous-base courante possèdent la même classe, la construction de l’arbre peut s’arrêter, comme dans ID3. On peut choisir d’arrêter la construction en fonction d’autres critèrescomme la taille de la base.

Un arbre de décision : une base de règlesChaque chemin effectue une série de tests sur les valeurs des attributs pour déduire la classe à affecter aux valeurs testées.

Un chemin <==> une règle de production

43

La méthode IPR (1)

IPR : Incremental Production Rule based methodMéthode multi-attribut basée sur la notion géométrique de relation rectangulaire [Maddouri et al. 95] [Maddouri et al. 97]

•Transformer la description des exemples de la base d’apprentissage en une relation binaire.

•La relation binaire résultante regroupe un ensemble d’objets (les exemples) avec un ensemble de propriétés (les attributs).

•Une règle est alors une association entre un ensemble d’objets de même classe et un ensemble de propriétés vérifiées par tous ces objets.

==> relation rectangulaire, ou rectangle.

Problème d’extraction des règles : problème de recouvrement de la relation binaire.

IPR consiste à chercher de façon heuristique un ensemble minimal de rectangles maximaux qui couvrent une relation binaire.

44

On distingue deux classes :1 : rétrécissement du diamètre de la veine <= 50%2 : rétrécissement du diamètre de la veine > 50%

La discrétisation de chaque attribut conduit à deux propriétés :Ag1 : Ag >= 50 ans Pr1 : Pr <= 140 mm HgAg2 : Ag > 50 ans Pr2 : Pr > 140 mm Hg

La méthode IPR (2)

Exemples Attributs Classe Ag Pr

O1 37 120 1 O2 35 122 1 O3 62 160 2 O4 67 152 2 O5 66 160 2

2 attributs : l’âge et la pression sanguine.

45

La transformation des données par la discrétisation suivie d’un codage disjonctif complet conduit à la relation binaire suivante :

Ex Attributs Classe Ag1 Ag2 Pr1 Pr2O1 1 0 1 0 1O2 1 0 1 0 1O3 0 1 0 1 2O4 0 1 0 1 2O5 0 1 0 1 2

Décomposition en rectangles et écriture des règles par la méthode IPR.

La méthode IPR (3)

RE1={O1,O2}x{Ag1,Pr1} RE2={O3,O4 ,O5}x{Ag2,Pr2}

O1

O2 Pr1

Ag1

O4

O5

Pr2

Ag2

O3

Couverture Cv={RE1,RE2}

Transcription des rectangles en règles

Si Ag 50 et Pr 140 Alors classe 1Si Ag 50 et Pr > 140 Alors classe 2

46

Les Systèmes d’Inférence Floue - SIF (1)

Sous-ensembles flous• Introduits par Zadeh au milieu des années 60 pour répondre au besoin de représenter, formaliser et traiter les informations de nature imparfaite [Zadeh 65].

Sous-ensembles flous et variables linguistiques --> représenter les imprécisions. Théorie des possibilités --> gérer les incertitudes

• Sous-ensembles flous : généralisation du concept de sous-ensembles classiques caractère graduel de la notion d’appartenance d’un élément à un sous ensemble.

• Un sous-ensemble flou A d’un univers E est défini par une fonction d’appartenance fA : E [0,1] x fA(x)

Age25 45

1

jeune

35 Age

1

Fonction caractéristique

Sous-ensemble classique Sous-ensemble flou

47

Les SIF (2)

• Une règle floue peut être formalisée de la manière suivante :Si X est A Alors Y est Boù A et B représentent des sous-ensembles flous.

D’une manière générale, on peut combiner des propositions floues de types « X est A » par des opérateurs logiques de conjonction et de disjonction.

• La construction des règles floues à partir de données numériques consiste en deux phases : - une partition floue de l’espace des entrées (espace de représentation)- la construction d’une règle floue pour chaque sous-espace flou issu de cette partition.

X1

X1 - X1

+

1

0

A15 A2

5 A35 A4

5 A55

48

Les SIF (3)

Une règle est construite dans chaque région floue.

Ces régions constituentles prémisses des règles : c’est le domaine d’activation des règles.

RijK : Si X1 est AiK et X2 est AjKAlors X=(X1,X2) appartient à yijK avec un degré CF= CFijK

i =1,2,...,K et j=1,2,...,K.K nombre de sous-ensembles flous sur chaque axe de l’espace des entréesRijK label de la règle floueAiK, AjK sous-ensembles flousyijK conclusion de la règle (l’une des C classes y1, y2 ..., yC)CFijK degré de certitude de la règle floue.

A15 A2

5 A35 A4

5 A55

A15

A25

A35

A45

A55

49

Les SIF (4)

Construction des règles flouesLa conclusion et le degré de certitude de chaque règle peuvent être déterminésde différentes manières[Ishibuchi et al. 92] et [Nozaki et al. 94] (1) Calculer la somme des compatibilités des exemples d’apprentissage, par rapport à la prémisse, dans chaque classe : yt pour t=1,2,...,C

(2) Trouver la classe qui a la plus grande compatibilité avec la prémisse

ya=max{y1, y2, ..., yC}

(3) CFijK est définie par :

avec

))(X()).(X( 2Kj1

yt)(Y

Kiyt

C

1tyt

yaKijCF

yayt

yt )1C/(

50

Les SIF (5)

Classification d’un nouvel objet, phase de reconnaissance(1) Calculer yt pour t=1, ...,Cyt =max{i

K(X’1). jK(X’2).CFij

K / yijK=yt , Rij dans SR}

(2) trouver la classe ya qui maximise yt

Performances des classifieurs à base de règles floues • Dépendent directement des partitions floues, • Partition trop grossière :

le pouvoir de classification des règles floues générées peut être bas.• Partition trop fine :

cas possible où des règles floues ne peuvent pas être construites à cause du manque d’exemples dans la région floue correspondante.

éléments non classés lors de la phase de classification

• Solutions : Discrétisation supervisée, Sous-espaces flous distribués.

data mining un état de l’art

Documents