Jan Talmon Medische Informatica Universiteit Maastricht BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht
Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen
Algemene opmerkingen Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte X Yi
Algemene opmerkingen De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties niet, licht, matig, ernstig, zeer ernstig
Algemene opmerkingen Parametrisch versus niet-parametrisch One shot versus sequentieel Classificatiebomen zijn Niet-parametrisch en sequentieel
Algemene opmerkingen Definities: Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)
Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen
Principes Een leerset deel je op in twee of meer subsets Hiervoor wordt één attribuut gebruikt Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.
Principes P1 P2 P1> P2>
Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen
Issue: Keuze attributen We hebben een maat nodig die de kwaliteit van een split aangeeft Entropie Gemiddelde onzekerheid over de klassificatie van een case
Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej Totale entropie na split= ES = pjxEj We kiezen attribuut met minimale Es Of met maximale entropie reductie H=E - Es
Issue: Splits Binair versus multiple splits Binair Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden P1
Issue: Splits Multiple Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde P1
Issue: Splits Multiple Verwijder de potientele split die de entropie het minst doet toenemen P1 P1
Issue: Splits Multiple Bij nominale attributen kunnen we combinaties van attribuut waarden nemen Gebruik weer entropie reductie als maat
Issue: Stop criterium We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie Slechte voorspellende waarde Ons model is aangepast aan de leerset Wanneer stoppen we???
Issue: Stop criterium De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het aantal subgroepen minus 1 Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft
Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)
Issue: Pruning Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden Pruning vereist een test-set Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd Deze testset is eigenlijk een leerset!!
Issue: Missing values Niet altijd zijn alle gegevens van een case bekend. Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren
Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen. P1> M=5,k=20 M=15,k=2 A B a=10,b=13 A=15,b=4 P2>
Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen
Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel Interactief Inzichtelijk
Nadelen Matige theoretische onderbouwing Grote leersets nodig Elke split maakt de leerset voor de volgende laag kleiner Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie Geen vooruitziende blik Bouw geen boom maar een bos
Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor ander, duurder onderzoek Hoe maak je kosten-effectieve klassificatiebomen Incrementeel leren/leren van fouten
Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen
Toepassingen ECG analyse Voorspellen van de uitkomst van endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van medicatie bij epilepsie
Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And Regression Trees (CART) Talmon: NPPA in: Pattern Recognition Letters (1986)