Απε Γεδ α Δ Γεδ Ìgounaris/courses/dwdm/class... · 2019-12-10 · •2 παδ - δζ Ê...

Post on 06-Jul-2020

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Απνζήθεο Γεδνκέλσλ θαη Δμόξπμε Γεδνκέλσλ:

Καηεγνξηνπνίεζε: Μέξνο Α’

http://datalab.csd.auth.gr/~gounaris/courses/dwdm/

Δπραξηζηίεο

• Οη δηαθάλεηεο ηνπ καζήκαηνο ζε γεληθέο γξακκέο αθνινπζνύλ ην ζύγγξακκα «Δηζαγσγή ζηελ Δμόξπμε θαη ηηο Απνζήθεο Γεδνκέλσλ»

• Xξεζηκνπνηήζεθε επηπιένλ πιηθό από ηα βηβιία

– «Introduction to Data Mining» ησλ Tan, Steinbach, Kumar , θαη

– «Data Mining: Concepts and Techniques» ησλ Jiawei Han, Micheline Kamber.

2

Μέξνο Α’

• Δηζαγσγηθέο Έλλνηεο

• Γέλδξα Απόθαζεο

Μέξνο Β’

• Bayesian θαηεγνξηνπνηεηέο

• Καηεγνξηνπνηεηέο πιεζηέζηεξσλ γεηηόλσλ

• Απνηίκεζε Αθξίβεηαο

Θέκαηα πξνο εμέηαζε

3

Καηεγνξηνπνίεζε

• H αλάζεζε αληηθεηκέλσλ ζε πξνθαζνξηζκέλεο θιάζεηο

• Ιδηόηεηεο Υ1, Υ2,... Υθ

• Μνληέιν θαηεγνξηνπνίεζεο

f: D(Υ1) x .... x D(Υk) D(C)

• Δθπαίδεπζε από ππάξρνληα δεδνκέλα (ζύλνιν εθκάζεζεο)

4

Παξάδεηγκα

f: [20...40] x {Άγακνο, Έγγακνο, Γηαδεπγκέλνο} {ΝΑΙ, ΟΥΙ}

5

Ηιηθία Οηθνγελεηαθή Καηάζηαζε Αγνξαζηήο

20 Γηαδεπγκέλνο ΝΑΙ

30 Γηαδεπγκέλνο ΝΑΙ

25 Έγγακνο ΟΥΙ

30 Άγακνο ΝΑΙ

40 Άγακνο ΝΑΙ

20 Έγγακνο ΟΥΙ

30 Γηαδεπγκέλνο ΝΑΙ

25 Γηαδεπγκέλνο ΝΑΙ

40 Γηαδεπγκέλνο ΝΑΙ

20 Άγακνο ΟΥΙ

Καηεγνξηνπνηεηήο

• Αιγόξηζκνο θαηαζθεπήο κνληέινπ

– Γηακεξηζκόο ζε πεξηνρέο

– Δμέηαζε θαηαλνκώλ πηζαλόηεηαο

– Δμέηαζε πιεζηέζηεξσλ αληηθεηκέλσλ

6

Παξάδεηγκα

7

Γηακεξηζκόο ζε πεξηνρέο

8

Δμέηαζε θαηαλνκώλ πηζαλόηεηαο

9

Δμέηαζε πιεζηέζηεξσλ αληηθεηκέλσλ

10

Κξηηήξηα Αμηνιόγεζεο Καηεγνξηνπνηεηώλ

• Αθξίβεηα πξόβιεςεο ηνπ κνληέινπ

• Δπθνιία ζηελ θαηαλόεζε ηνπ κνληέινπ

• Κιηκάθσζε ζην κέγεζνο ηνπ ζπλόινπ εθκάζεζεο

• Αλνρή ζην ζόξπβν θαη ζηηο ειιηπείο ηηκέο

11

έ

έέί

#

#

Γέλδξα απόθαζεο

12

Καηεγνξηνπνίεζε κε δέλδξν

• {Έγγακνο, 22 εηώλ}. Πηζαλόο αγνξαζηήο;

13

Δμαγσγή θαλόλσλ

• Μνλνπάηη = ζπδεύμεηο

• Κιάζε = δηάδεπμε ζπδεύμεσλ

14

Μνλνπάηηα: 1. Ηιηθία<30 θαη Ο.Κ. {Α,Δ} 2. Ηιηθία<30 θαη Ο.Κ. {Γ} 3. Ηιηθία >= 30

Κιάζε ΝΑΙ: (Ηιηθία<30 θαη Ο.Κ. {Γ}) ή (Ηιηθία >= 30)

Καηαζθεπή δέλδξνπ απόθαζεο (brute-force)

• Καηαζθεπή θάζε δπλαηνύ πηζαλνύ δέλδξνπ

• Δπηινγή ηνπ αθξηβέζηεξνπ

• NP-complete

15

Καηαζθεπή δέλδξνπ απόθαζεο (greedy)

16

Παξάδεηγκα 1/3

17

Παξάδεηγκα 2/3

18

Παξάδεηγκα 3/3

19

Πόζα παηδηά;

• εκαληηθό πξόβιεκα ζηηο ζπκβνιηθέο ηδηόηεηεο:

2 ή 3 (όζεο νη δηαθνξεηηθέο Οηθ. Καηαζηάζεηο);

20

Πιενλεθηήκαηα-Μεηνλεθηήκαηα

• Πνιιά παηδηά (=όια)

+ εύθνιε δηάζπαζε

- πεξίπινθν δέλδξν

- αξηζκεηηθέο ηδηόηεηεο? (κόλν κε θβάλησζε)

• 2 παηδηά

- δύζθνιε δηάζπαζε

+ απιό/επλόεην δέλδξν

+ ρεηξηζκόο αξηζκεηηθώλ ηδηνηήησλ

+ ζπρλά θαιύηεξε αθξίβεηα ζηελ πξάμε!

Πξώηε καο επηινγή: δπαδηθά δέλδξα (2 παηδηά)

21

Γηάζπαζε ζε δπαδηθά δέλδξα

22 12 1 n#δπλαηέο επηινγέο:

Παξάδεηγκα δπαδηθήο δηάζπαζεο κίαο ζπκβνιηθήο κεηαβιεηήο κε ηηκέο a,b,c

• a

• b

• c

• a,b

• a,c

• b,c

• a,b,c

• -

• b, c

• a, c

• a, b

• c

• b

• a

• -

• a,b,c

(2n-2) / 2 = 2n-1-1

23

Γηάζπαζε αξηζκεηηθώλ ηδηνηήησλ

• Σαμηλόκεζε ηηκώλ

• Αλ ππάξρνπλ n δηαθνξεηηθέο αξηζκεηηθέο ηηκέο ζηελ ηδηόηεηα,

ηόηε εμέηαζε n-1 δηαρσξηζηηθώλ ζέζεσλ

24

Πώο επηιέγνπκε ηε δηαρσξηζηηθή ηδηόηεηα

0 ΝΑΙ:3 ΟΥΙ 2:0

2:1 0:2

2:2

0:1

25

Μέηξν αλνκνηνγέλεηαο

• Δληξνπία γηα c θιάζεηο

• Γηα c = 2

26

Δληξνπία γηα c = 2

27

Παξάδεηγκα

0:3 2:0 2:1

0:2

2:2

0:1

Τπνινγίζηε ηελ εληξνπία θάζε πεξίπησζεο (p Ναη)

28

0:3 2:0

2:1 0:2

2:2

0:1

Α) Α: -0log0-1log1=0

Γ: -1log1-0log0=0

B) A: -2/3 log (2/3)

-1/3 log (1/3) = 0.9183

Γ: -0log0 -1log1=0

Γ) Α: - 2/4 log (2/4)

- 2/4 log (2/4) = 1

Γ: -0log0 -1log1=0

29

Παξάδεηγκα

Αμηνιόγεζε δηαρσξηζηηθήο ηδηόηεηαο

• Πιεξνθνξηαθό όθεινο γηα κία ηδηόηεηα:

30

Παξάδεηγκα πιεξνθνξηαθνύ νθέινπο

31

0 0 0.9183

0

1

0

Πξηλ ηε δηάζπαζε: Δ(Ν) = 0.971

Τπνινγίζηε ην πιεξνθνξηαθό όθεινο θάζε πεξίπησζεο

Παξάδεηγκα πιεξνθνξηαθνύ νθέινπο

A) 0.971 – 3/5 *0 -2/5*0 = 0.971

B) 0.971 – 3/5*0.9183 – 2/5 * 0 = 0.42

Γ) 0.971 – 4/5 *1 – 1/5 * 0 = 0.171

32

0 0 0

1

0

Πξηλ ηε δηάζπαζε: Δ(Ν) = 0.971

0.9183

Δπηινγή δηαρσξηζηηθήο ηδηόηεηαο

• Δμεηάδνπκε γηα θάζε ηδηόηεηα όινπο ηνπο δπλαηνύο δηαρσξηζκνύο

– επηιέγνπκε ην δηαρσξηζκό κε ην κέγηζην όθεινο

• Δπηιέγνπκε ηελ ηδηόηεηα κε ην κεγαιύηεξν πιεξνθνξηαθό όθεινο

– εθαξκόδνπκε ην δηαρσξηζκό κεγίζηνπ νθέινπο

33

Καηαζθεπή δέλδξνπ απόθαζεο (greedy)

ΜΗ ΠΡΑΚΣΙΚΟ ΚΡΙΣΗΡΙΟ

34

Δλαιιαθηηθά θξηηήξηα ηεξκαηηζκνύ

• Έλα πνζνζηό (π.ρ., 80%) αλήθνπλ ζηελ ίδηα θιάζε

• Αλ ν θόκβνο πεξηέρεη ιηγόηεξα από, π.ρ., 10, αληηθείκελα

– ε θιάζε ηνπ θύιινπ είλαη ε πιεηνςεθνύζα

• Μπνξνύκε λα έρνπκε θαη ηα δύν θξηηήξηα

35

Απνηέιεζκα ελαιιαθηηθώλ θξηηεξίσλ

36

Υαξαθηεξηζηηθά Γέλδξσλ Απόθαζεο

• Η θαηαζθεπή ηνπ βέιηηζηνπ δέλδξνπ απόθαζεο απαηηεί απνηξεπηηθό ρξόλν (είλαη NP-complete πξόβιεκα). – Γηα ην ιόγν απηό ρξεζηκνπνηνύληαη επξεηηθνί αιγόξηζκνη, νη νπνίνη είλαη

άπιεζηνη θαη δελ ρξεζηκνπνηνύλ νπηζζνδξόκεζε. – Σα επξεηηθά κεηώλνπλ θαηά πνιύ ην ρξόλν θαηαζθεπήο. – Σν απνηέιεζκα είλαη όηη ηα δέλδξα απόθαζεο θιηκαθώλνληαη ζε

κεγάινπο όγθνπο δεδνκέλσλ

• Γξήγνξε εθαξκνγή.

• Η αθξίβεηα πξόβιεςεο ησλ δέλδξσλ απόθαζεο είλαη απνδεθηή γηα ηηο πεξηζζόηεξεο πεξηπηώζεηο, ζπγθξίζηκε κε ηελ αθξίβεηα άιισλ θαηεγνξηνπνηεηώλ

• Σν κνληέιν πνπ πξνθύπηεη είλαη πνιύ εύθνιν ζηελ θαηαλόεζε.

• Σα δέλδξα απόθαζεο έρνπλ θαιή αλνρή ζην ζόξπβν – εηδηθά όηαλ εθαξκόδεηαη ςαιηδηζκόο

37

• Σα ΓΑ κπνξνύλ λα δηαρεηξηζηνύλ πνιπδηάζηαηα δεδνκέλα

– 1 δηάζηαζε ηε θνξά ρξεζηκνπνηείηαη θαηά ηελ αλάπηπμε ηνπ κνληέινπ

• … θαη θάζε ηύπν κεηαβιεηώλ

– πκβνιηθέο, αξηζκεηηθέο, θιπ.

Δπηπιένλ

38

Μεηνλεθηήκαηα

• Αγλννύλ εμαξηήζεηο κεηαμύ ησλ ηδηνηήησλ.

• Πξνβιήκαηα όηαλ ιείπνπλ πνιιά δεδνκέλα

• Γηάζπαζε σο πξνο κία ηδηόηεηα =>

– αληηζηνίρηζε κε πεξηνρέο, ηα όξηα ησλ νπνίσλ είλαη παξάιιεια κε ηνπο άμνλεο. Π.ρ., ε παξαθάησ δηάζπαζε ΓΔΝ γίλεηαη ζε έλα ζηάδην.

39

x + y < 1

Class = + Class =

• Οη ζπλζήθεο ειέγρνπ κπνξνύλ λα πεξηιακβάλνπλ πεξηζζόηεξα από έλα γλσξίζκαηα

• Μεγαιύηεξε εθθξαζηηθόηεηα

• Η εύξεζε βέιηηζησλ ζπλζεθώλ ειέγρνπ είλαη ππνινγηζηηθά αθξηβή

Oblique (πιάγην) Δέληξν Απόθαζεο

Πιάγηα Γέλδξα Απόθαζεο

40

Η εικόνα είναι από

Duda, Hart & Stork,

Chap. 8

Μηθξή κεηαθίλεζε ελόο κόλν δείγκαηνο, νδεγεί ζε πνιύ δηαθνξεηηθά απνηειέζκαηα.

Πξόβιεκα αζηάζεηαο

41

Βειηίσζε ηεο αθξίβεηαο

• Ξέξνπκε πώο λα εθηηκνύκε ζσζηά ηελ αθξίβεηα

• Μπνξνύκε λα βειηηώζνπκε ηελ αθξίβεηα ρξεζηκνπνηώληαο δηαθνξεηηθά ηνπο γλσζηνύο καο θαηεγνξηνπνηεηέο; – Κιάδεκα

– ύλνια θαηεγνξηνπνηεηώλ

42

Σν θαηλόκελν ηεο ππεξβνιηθήο πξνζαξκνγήο

• 2000 δηζδηάζηαηα ζεκεία ζε δύν θιάζεηο (1000 ζεκεία αλά θιάζε), πνπ αθνινπζνύλ θαλνληθή θαηαλνκή.

• Πξνζζέηνπκε ζόξπβν: αληαιιάδνπκε ηελ θιάζε 150 ζεκείσλ • Γηαρσξίδνπκε 1000 ζεκεία ζην ζύλνιν ειέγρνπ • Πξνζζέηνπκε επηπιένλ ζόξπβν ζην ζύλνιν εθκάζεζεο:

αληαιιάδνπκε ηελ θιάζε άιισλ 200 ηπραίσλ ζεκείσλ

43

Σν θαηλόκελν ηεο ππεξβνιηθήο πξνζαξκνγήο

44

Σν θαηλόκελν ηεο ππεξβνιηθήο πξνζαξκνγήο

• Μηθξόο αξηζκόο θόκβσλ: αλεπαξθήο πξνζαξκνγή (undefiting)

• ην δέλδξν απόθαζεο πξνζηίζεληαη νινέλα θαη πεξηζζόηεξνη θόκβνη κε ζθνπό λα θαιπθζνύλ (δειαδή, λα γίλεη εθκάζεζε) ηα ζεκεία ζνξύβνπ.

• Η ππεξβνιηθή πξνζαξκνγή, πνπ δειώλεηαη από ηε κείσζε ηνπ ιάζνπο εθκάζεζεο, κεηώλεη όκσο ηε δπλαηόηεηα ηνπ δέλδξνπ απόθαζεο λα γεληθεύεη ζε άγλσζηα αληηθείκελα, θάηη πνπ δειώλεηαη από ηελ αύμεζε ηνπ ιάζνπο ειέγρνπ.

• Σν πξόβιεκα είλαη γεληθό ζε όινπο ηνπο θαηεγνξηνπνηεηέο, όρη κόλν ζηα ΓΑ.

45

Κιάδεκα (pruning)

• Πξν-θιάδεκα: ελαιιαθηηθά θξηηήξηα ηεξκαηηζκνύ θαηά ηε δεκηνπξγία (δηαθ. 35)

– Γύζθνιε επηινγή θαησθιίνπ

• Μεηά-θιάδεκα:

– Πξώηα δεκηνπξγνύκε ην δέλδξν

– Μεηά, δηαγξάθνπκε ππνδέλδξα ώζηε λα κεηώζνπκε ηελ ππεξβνιηθή πξνζαξκνγή

46

Αιγόξηζκνο REP

47

REP: Reduced Error Pruning

1. Καηεγνξηνπνηνύκε ηα αληηθείκελα ηνπ ζπλόινπ ςαιηδηζκνύ.

2. Δθαξκόδνπκε κεηα-δηαηεηαγκέλε δηάζρηζε ζην δέλδξν.

3. Δμεηάδνπκε θάζε εζσηεξηθό θόκβν λ πνπ είλαη παηέξαο θύιινπ:

– Δ(Σ_λ): αληηθείκελα ηνπ ζπλόινπ ςαιηδηζκνύ πνπ θαηαηάζζνληαη ιαλζαζκέλα ζε όια ηα θύιια ηνπ λ

– Δ(λ): αληηθείκελα ηνπ ζπλόινπ ςαιηδηζκνύ πνπ θαηαηάζζνληαη ιαλζαζκέλα αλ ζέζνπκε ην λ σο θύιιν

• θιάζε ηνπ λένπ θύιινπ λ : ε πην ζπρλή θιάζε ησλ αληηθεηκέλσλ ησλ ησξηλώλ θύιισλ

Αιγόξηζκνο REP

48

4. Αλ γηα θάζε θόκβν λ ηζρύεη Δ(λ)>Δ(Σ_λ), ηόηε ν αιγόξηζκνο ηεξκαηίδεη.

5. Γηαθνξεηηθά βξίζθνπκε ηνλ θόκβν λ κε ηε κεγαιύηεξε δηαθνξά Δ(Σ_λ)-Δ(λ).

6. Φαιηδίδνπκε ην ππνδέλδξν κε ξίδα ην λ, ζέηνληαο ην λ σο θύιιν θαη αλαζέηνληάο ηνπ ηελ θιάζε πνπ πιεηνςεθεί κεηαμύ ησλ αληηθεηκέλσλ ηνπ ζπλόινπ αλάπηπμεο.

7. Πίζσ ζην Βήκα 1.

49

Αιγόξηζκνο REP (ζπλέρεηα)

Παξάδεηγκα

50

Κιηκαθνύκελνη αιγόξηζκνη

• Γέλδξα απόθαζεο:

– απαίηεζε ηα δεδνκέλα λα είλαη ζηελ θύξηα κλήκε γηα απνδεθηή απόδνζε,

– αιιεπάιιειεο ηαμηλνκήζεηο ζπκβνιηθώλ θαη αξηζκεηηθώλ δεδνκέλσλ ζε θάζε θόκβν.

• Γελ θιηκαθώλνληαη εύθνια.

• Κιηκαθνύκελεο παξαιιαγέο πνπ ζα εμεηάζνπκε: SLIQ, SPRINT

– ΔΕΝ κεηώλνπλ ηελ αθξίβεηα

51

SLIQ: Supervised Learning In Quest

• Αξρέο ηνπ SLIQ:

– Πξν-ηαμηλόκεζε

– Αλάπηπμε θαηά πιάηνο

52

Πξν-ηαμηλόκεζε: Λίζηεο Ιδηνηήησλ/Κιάζεσλ

Αξρηθή ξίδα

53

Γηάζπαζε κε gini index

• Έζησ c θιάζεηο θαη n αληηθείκελα.

• Pi : ζρεηηθή ζπρλόηεηα ηεο θιάζεο i ζην ζύλνιν S

• Γείθηεο gini:

• Αλ έλα δηαρσξηζηηθό ζεκείν ρσξίδεη ην ζύλνιν S ζε δύν ππνζύλνια, S1 θαη S2 , κεγέζνπο n1 θαη n2 αληίζηνηρα:

54

2

11)( i

c

ipSgini

)()()( 22

11 Sgini

n

nSgini

n

nSginisplit

Παξάδεηγκα SLIQ

55

Παξάδεηγκα SLIQ

56

Παξάδεηγκα SLIQ

57

Έλα αθόκε παξάδεηγκα: θαηά πιάηνο αλάπηπμε

κηζζόο RID

15 2

40 4

60 6

65 1

75 3

100 5

58

RID θιάζε Φύιιν

1 ΝΑΙ Ν1

2 ΟΥΙ Ν1

3 ΝΑΙ Ν2

4 ΟΥΙ Ν2

5 ΝΑΙ Ν2

6 ΝΑΙ Ν2

Μειεηνύκε ηε δηάζπαζε ησλ Ν1, Ν2 ηαπηόρξνλα βάζεη κηζζνύ: Εμεηάδνπκε κία κία ηηο εγγξαθέο ηεο αληίζηνηρεο ιίζηαο

Ν1 Ο Ν Ν2 Ο Ν

Αξη 0 0 Αξη 0 0

Γεμ 1 1 Γεμ 1 3

Ν1 Ο Ν Ν2 Ο Ν

Αξη 1 0 Αξη 0 0

Γεμ 0 1 Γεμ 1 3

Ν1 Ο Ν Ν2 Ο Ν

Αξη 1 0 Αξη 1 0

Γεμ 0 1 Γεμ 0 3

Αξρηθά (κηζζόο < 15) Μεηά ηελ 1ε εγγξαθή (κηζζόο < 27.5)

Μεηά ηελ 2ε εγγξαθή (κηζζόο < 50) θ.ν.θ

Πνιππινθόηεηα

• Αλ έρνπκε D εγγξαθέο ζην ζύλνιν εθπαίδεπζεο θαη k αξηζκεηηθέο ηδηόηεηεο:

– ε θάζε επίπεδν ηνπ δέλδξνπ έρνπκε θόζηνο O(kD), γηα ηελ εμέηαζε όισλ ησλ πηζαλώλ ηδηνηήησλ δηάζπαζεο.

– Άξα ην θόζηνο είλαη O(kD*depth), όπνπ depth ην βάζνο ηνπ δέλδξνπ.

– Αλ έρνπκε ζπκβνιηθέο ηδηόηεηεο θαη θάλνπκε δπαδηθέο δηαζπάζεηο, ηόηε πξέπεη λα ιεθζεί ππόςηλ ε ζπδήηεζε ζηηο πξνεγνύκελεο δηαθάλεηεο.

59

SPRINT (Scalable PaRallelizable INndution of decision Tree)

• Ο SLIQ απαηηεί ε ιίζηα θιάζεο λα παξακέλεη ζηε κλήκε

• Πξόβιεκα αλ απηό δελ είλαη εθηθηό

• Ο SPRINT θαηαξγεί ηε ιίζηα θιάζεο

– πξνζζέηεη ηελ θιάζε ζηηο ιίζηεο ηδηνηήησλ

• Κάζε θόκβνο έρεη ηε δηθή ηνπ ιίζηα ηδηνηήησλ

– Γπλαηόηεηα γηα παξαιιειηζκό

60

Λίζηεο ηδηνηήησλ SPRINT

61

Δλεκέξσζε ιηζηώλ

• Γηα ηελ ηδηόηεηα δηάζπαζεο:

– απιώο δηαρσξίδεηαη ε αληίζηνηρε ιίζηα ζε 2 άιιεο (δπαδηθή δηάζπαζε)

• Γηα ηηο ππόινηπεο ηδηόηεηεο:

– ν δηαρσξηζκόο γίλεηαη βάζεη RID

62

SPRINT vs. SLIQ

• SPRINT

– Γελ έρεη πεξηνξηζκό κλήκεο

– Απαηηεί ρξόλν ελεκέξσζεο θαη επαλαπνζήθεπζεο ιηζηώλ

– Παξαιιειίδεηαη εύθνια

• SLIQ

– Μεηώλεη ηνπο πεξηνξηζκνύο κλήκεο αιιά δελ ηνπο εμαιείθεη (ιίζηα θιάζεο)

– Δλεκεξώλεη κόλν ηε ιίζηα θιάζεσλ (ζηε κλήκε)

– Γελ παξαιιειίδεηαη εύθνια (ιόγσ κίαο θεληξηθήο ιίζηαο θιάζεο)

63

ρεηηθά κε ηα κέηξα δηάζπαζεο

• Σν πιεξνθνξηαθό όθεινο, ηείλεη λα πξνηείλεη δηαζπάζεηο ζε πνιιά κνλνπάηηα, ζε πεξίπησζε πνπ εμεηάδνπκε κε δπαδηθά δέλδξα.

• Μπνξνύκε λα κεηξηάζνπκε απηή ηελ ηάζε δπγίδνληαο ην όθεινο κε έλα «θόζηνο δηάζπαζεο». Απηό ην κέηξν ιέγεηαη Gain Ratio.

• To ginisplit δελ έρεη ηέηνηα ηάζε.

64

Οη δύν βαζηθνί αιγόξηζκνη πνπ ρξεζηκνπνηνύληαη ζηελ πξάμε

• C4.5 (J48 ζην WEKA):

– Υξεζηκνπνηεί ην Gain Ratio

– Δπηηξέπεη δηάζπαζε ζπκβνιηθώλ ηδηνηήησλ ζε πάλσ από 2 παηδηά

– Γηαδέρζεθε ην ID3 πνπ ρξεζηκνπνηεί ην πιεξνθνξηαθό όθεινο, δελ θάλεη θιάδεκα, δελ ρεηξίδεηαη ειιηπείο ηηκέο θαη δηαζπά ζε όζα παηδηά όζεο θαη νη δηαθξηηέο ηηκέο

• CART:

– Υξεζηκνπνηεί ην gini

– Δθαξκόδεη δπαδηθέο δηαζπάζεηο

• Καη νη 2 αιγόξηζκνη ρξεζηκνπνηνύλ δηαθνξνπνηεκέλεο ηερληθέο γηα

– pruning, πνπ είλαη πην εμειηγκέλεο από ην REP

– δηαρείξηζε ειιεηπώλ ηηκώλ

65

top related