De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Jan Talmon Medische Informatica Universiteit Maastricht

Verwante presentaties


Presentatie over: "Jan Talmon Medische Informatica Universiteit Maastricht"— Transcript van de presentatie:

1 Jan Talmon Medische Informatica Universiteit Maastricht
BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht

2 Opzet presentatie Algemene opmerkingen over classificatie algoritmen
Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

3 Algemene opmerkingen Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte X Yi

4 Algemene opmerkingen De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties niet, licht, matig, ernstig, zeer ernstig

5 Algemene opmerkingen Parametrisch versus niet-parametrisch
One shot versus sequentieel Classificatiebomen zijn Niet-parametrisch en sequentieel

6 Algemene opmerkingen Definities:
Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

7 Opzet presentatie Algemene opmerkingen over classificatie algoritmen
Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

8 Principes Een leerset deel je op in twee of meer subsets
Hiervoor wordt één attribuut gebruikt Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

9 Principes P1 P2 P1> P2>

10 Opzet presentatie Algemene opmerkingen over classificatie algoritmen
Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

11 Issue: Keuze attributen
We hebben een maat nodig die de kwaliteit van een split aangeeft Entropie Gemiddelde onzekerheid over de klassificatie van een case

12 Issue: Keuze attributen
Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej Totale entropie na split= ES = pjxEj We kiezen attribuut met minimale Es Of met maximale entropie reductie H=E - Es

13 Issue: Splits Binair versus multiple splits Binair
Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden P1

14 Issue: Splits Multiple
Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde P1

15 Issue: Splits Multiple
Verwijder de potientele split die de entropie het minst doet toenemen P1 P1

16 Issue: Splits Multiple
Bij nominale attributen kunnen we combinaties van attribuut waarden nemen Gebruik weer entropie reductie als maat

17 Issue: Stop criterium We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie Slechte voorspellende waarde Ons model is aangepast aan de leerset Wanneer stoppen we???

18 Issue: Stop criterium De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het aantal subgroepen minus 1 Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

19 Issue: Stop criterium Stop als deze kans > 0.05
Stop als deze kans voor een pad in de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

20 Issue: Pruning Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden Pruning vereist een test-set Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd Deze testset is eigenlijk een leerset!!

21 Issue: Missing values Niet altijd zijn alle gegevens van een case bekend. Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren

22 Issue missing values Splits een knoop in de boom
Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen. P1> M=5,k=20 M=15,k=2 A B a=10,b=13 A=15,b=4 P2>

23 Opzet presentatie Algemene opmerkingen over classificatie algoritmen
Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

24 Voordelen Niet parametrisch Ordening is belangrijk, niet de maat
Lokaal Snel Flexibel Interactief Inzichtelijk

25 Nadelen Matige theoretische onderbouwing Grote leersets nodig
Elke split maakt de leerset voor de volgende laag kleiner Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie Geen vooruitziende blik Bouw geen boom maar een bos

26 Uitdagingen Gebruik domeinkennis
Bv. sommig onderzoek doe je voor ander, duurder onderzoek Hoe maak je kosten-effectieve klassificatiebomen Incrementeel leren/leren van fouten

27 Opzet presentatie Algemene opmerkingen over classificatie algoritmen
Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

28 Toepassingen ECG analyse
Voorspellen van de uitkomst van endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van medicatie bij epilepsie

29 Literatuur Quinlan: ID3 (1986), C4.5
Breiman: Classification And Regression Trees (CART) Talmon: NPPA in: Pattern Recognition Letters (1986)


Download ppt "Jan Talmon Medische Informatica Universiteit Maastricht"

Verwante presentaties


Ads door Google