De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht.

Verwante presentaties


Presentatie over: "BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht."— Transcript van de presentatie:

1 BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht

2 Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

3 Algemene opmerkingen Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte XYiYi

4 Algemene opmerkingen De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties niet, licht, matig, ernstig, zeer ernstig

5 Algemene opmerkingen Parametrisch versus niet-parametrisch One shot versus sequentieel Classificatiebomen zijn Niet-parametrisch en sequentieel

6 Algemene opmerkingen Definities: Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

7 Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

8 Principes Een leerset deel je op in twee of meer subsets Hiervoor wordt één attribuut gebruikt Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

9 Principes P1 P2 P1>  P2> 

10 Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

11 Issue: Keuze attributen We hebben een maat nodig die de kwaliteit van een split aangeeft Entropie Gemiddelde onzekerheid over de klassificatie van een case

12 Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie E j Totale entropie na split= E S =  p j xE j We kiezen attribuut met minimale E s Of met maximale entropie reductie H=E - E s

13 Issue: Splits Binair versus multiple splits Binair Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden P1

14 Issue: Splits Multiple Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde P1

15 Issue: Splits Multiple Verwijder de potientele split die de entropie het minst doet toenemen P1

16 Issue: Splits Multiple Bij nominale attributen kunnen we combinaties van attribuut waarden nemen Gebruik weer entropie reductie als maat

17 Issue: Stop criterium We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie Slechte voorspellende waarde Ons model is aangepast aan de leerset Wanneer stoppen we???

18 Issue: Stop criterium De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het aantal subgroepen minus 1 Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

19 Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

20 Issue: Pruning Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden Pruning vereist een test-set Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd Deze testset is eigenlijk een leerset!!

21 Issue: Missing values Niet altijd zijn alle gegevens van een case bekend. Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren

22 P1> M=5,k=20M=15,k=2 AB Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen. a=10,b=13A=15,b=4 P2> 

23 Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

24 Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel Interactief Inzichtelijk

25 Nadelen Matige theoretische onderbouwing Grote leersets nodig Elke split maakt de leerset voor de volgende laag kleiner Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie Geen vooruitziende blik Bouw geen boom maar een bos

26 Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor ander, duurder onderzoek Hoe maak je kosten-effectieve klassificatiebomen Incrementeel leren/leren van fouten

27 Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

28 ECG analyse Voorspellen van de uitkomst van endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van medicatie bij epilepsie

29 Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And Regression Trees (CART) Talmon: NPPA in: Pattern Recognition Letters (1986)


Download ppt "BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht."

Verwante presentaties


Ads door Google