Jan Talmon Medische Informatica Universiteit Maastricht

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Schoolsecretariaten (n=555)
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
HC2MFE Meten van verschillen
Op zoek naar een ondernemingsmodel dat werkt
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Resultaten tevredenheidsmeting van gebruikers Lokale Dienstencentra Kortrijk m.b.t. tot de onthaalmedewerkers.
Veranderingen bij ICT afdelingen, cultuur en processen Rosemarijn de Groot 18 januari 2012.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
H10: Prijsmanagement.
Statistiek Niveua 3 Kerntaak 5 Blz. 81.
Kwaliteit en betrouwbaarheid van simulaties ir. Rudolf van Mierlo Efectis Nederland BV.
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
Eindpresentatie Modelleren C Random Seeds
Prestaties Schatten en Managen
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
 Ongeveer auto’s in Nederland  Query: zoek op kenteken  Aannames ◦ Een tuple (record) kost ongeveer 400 bytes ◦ Een disk block bevat 8.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Gegevensverwerving en verwerking
Non-parametrische technieken
Insertie van etheen in BH 3 en NH 3 Doorrekenen van een reactiepad.
Levensloop voor tussentijds verlof en / of eerder stoppen met werken
Databases I EER and Object Modeling Martin Caminada / Wiebren de Jonge Vrije Universiteit, Amsterdam definitieve versie 2002.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Dataverzamelingsmethoden
Hoofdstuk 5 Secundaire data, online databases en gestandaardiseerde informatiebronnen.
variabelen vaststellen
Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.
Lokale zoekmethoden Goed in de praktijk:
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Parsing: Top-down en bottom-up
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
Psychologische Test.
Inhoud college Lijnbalancering Comsoal Random Sequence Generation
Werken in K.U.Loket Syllabi. 1 ZoekmogelijkhedenVolledige lijst opvragen is ook mogelijk, maar kan lang duren Start in K.U.Loket de toepassing “mijn syllabi”
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Maandag 18 november Licht & witbalans Avond fotografie – blauwe uurtje
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Baarde en de goede Hoofdstuk 11: Data-analyse
Inleiding in de statistiek voor de gedragswetenschappen
Vragen subsets OM3. Vragen subsets (1) Benchmarking:  Kan benchmarking leiden tot copy-paste strategieën (waar blijft innovativiteit)?  Om te komen.
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Iedereen is context driven!
Empirical librarianship ceci n’est pas un texte De bibliotheek als onderzoeker Workshop - template kaartjes Jeroen Bosman & Bianca Kramer Universiteitsbibliotheek.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Plan voor uitvoering. Gebruik je boek Begin bij 8.4 de innovatiecyclus Stap 1 is eigenlijk het onderzoek wat je al gedaan hebt Je begint je ontwerp met.
TirPrs06: Wachttijdtheorie & simulatietechniek
Zelfmanagement Longpunt
Verminderde nierfunctie & de apotheek
Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.
Uitleg  In dit spel is het de bedoeling dat je zoveel mogelijk punten verzamelt door vragen goed te beantwoorden.  In ronde 2, 3 en 4 staat er ook een.
Dr. Alyt Oppewal AVG opleiding
Minimum Opspannende Bomen
Dataverzamelingsmethoden
Modderdorp UNPLUGGED Bron: csunplugged.org.
Modderdorp Bron: csunplugged.org.
Modderdorp Bron: csunplugged.org.
Toetsen van verschillen tussen twee of meer groepen
Modderdorp UNPLUGGED Bron: csunplugged.org.
Is testen een project op zich?
Doolhof. doolhof doolhof Maak een routine die de ‘hekken’ tussen de cellen weghaalt Maak een 2-dimensionale array met kolommen en rijen aangeklikt.
Transcript van de presentatie:

Jan Talmon Medische Informatica Universiteit Maastricht BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht

Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

Algemene opmerkingen Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte X Yi

Algemene opmerkingen De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties niet, licht, matig, ernstig, zeer ernstig

Algemene opmerkingen Parametrisch versus niet-parametrisch One shot versus sequentieel Classificatiebomen zijn Niet-parametrisch en sequentieel

Algemene opmerkingen Definities: Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

Principes Een leerset deel je op in twee of meer subsets Hiervoor wordt één attribuut gebruikt Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

Principes P1 P2 P1>   P2>

Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

Issue: Keuze attributen We hebben een maat nodig die de kwaliteit van een split aangeeft Entropie Gemiddelde onzekerheid over de klassificatie van een case

Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej Totale entropie na split= ES = pjxEj We kiezen attribuut met minimale Es Of met maximale entropie reductie H=E - Es

Issue: Splits Binair versus multiple splits Binair Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden P1

Issue: Splits Multiple Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde P1

Issue: Splits Multiple Verwijder de potientele split die de entropie het minst doet toenemen P1 P1

Issue: Splits Multiple Bij nominale attributen kunnen we combinaties van attribuut waarden nemen Gebruik weer entropie reductie als maat

Issue: Stop criterium We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie Slechte voorspellende waarde Ons model is aangepast aan de leerset Wanneer stoppen we???

Issue: Stop criterium De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het aantal subgroepen minus 1 Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

Issue: Pruning Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden Pruning vereist een test-set Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd Deze testset is eigenlijk een leerset!!

Issue: Missing values Niet altijd zijn alle gegevens van een case bekend. Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren

Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen. P1> M=5,k=20 M=15,k=2 A B a=10,b=13 A=15,b=4 P2>

Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel Interactief Inzichtelijk

Nadelen Matige theoretische onderbouwing Grote leersets nodig Elke split maakt de leerset voor de volgende laag kleiner Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie Geen vooruitziende blik Bouw geen boom maar een bos

Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor ander, duurder onderzoek Hoe maak je kosten-effectieve klassificatiebomen Incrementeel leren/leren van fouten

Opzet presentatie Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits, Stop criterium, Pruning, Missing values Voor- en nadelen Toepassingen

Toepassingen ECG analyse Voorspellen van de uitkomst van endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van medicatie bij epilepsie

Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And Regression Trees (CART) Talmon: NPPA in: Pattern Recognition Letters (1986)