Pieter Adriaans Niels Netten (Maarten van Someren) Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)
Doel Praktijk Machine Learning/Data Mining: CRISP methodiek Probleem analyseren Tools kiezen + inwerken Data cleaning Samenwerking met opdrachtgever
Organisatie Opdrachten uit de praktijk Forensische Data (Veenman) Visuele waarneming (Snoek) 1 plenaire bijeenkomst per week (zaal I.103) Kort verslag Bespreken problemen Geen begeleid practicum, wel: Hulp van Niels Netten Practicumruimte gereserveerd (zie roosters) Eindpresentatie aan opdrachtgevers
NB: Contrast met “Leren” (accent theorie / praktijk); meer praktijkkennis nodig Moeilijke / vage problemen; niet duidelijk of het wel kan
Beoordeling Kwaliteit van de oplossing gezien vanuit de opdrachtgever Samenwerking met de opdrachtgever Presentatie Verslag NB: iets technisch moois waar de opdrachtgever niks aan heeft laag cijfer
Diverse tips en trucs
Hagelschot aanpak Alles proberen en er uithalen wat werkt Data Mining = “torture data until they confess” Vormen: Variabelen selecteren/construeren Subsets van de data Technieken Parameters Gevaar: overfitting; geen overzicht
Maatregelen: Ga zo goed mogelijk na welke kenmerken van de data maken dat een methode er wel/niet op werkt Ga hiermee iteratief te werk Probeer methoden / modelklassen van eenvoudig naar complex Maak systematisch gebruik van kruisvalidatie Sanity check op resultaat let op hoeveelheid data ten opzichte van complexiteit van te vinden patronen en van ruis/onzekerheid
Meervoudige tests We onderzoeken oorzaken van variabele V We kiezen at random, “exploratief” 100 variabelen aan de hand van steekproeven We kiezen alfa (overschrijdingskans) 5% We vinden dat 5 variabelen een statistisch significant effect hebben Wat betekent dit?
Te complexe technieken Probleem: overfitting (en onoverzichtelijkheid) Aanpak: gebruik een complexere techniek alleen als die betere resultaten oplevert dan simpelere broertjes
Verkeerde tools Let op: NB: capaciteit: Beschikbare technieken adekwaat? Data transformatie/entry; visualisatie Capaciteit: genoeg geheugen, snelheid Beschikbaarheid NB: capaciteit: Probeer in een vroeg stadium data te reduceren tot wat relevant lijkt “windowing” werkt vaak erg goed
Tools WEKA MATLAB Excel (!?) R NB: helemaal zelf maken is meestal geen optie wegens extra’s: evaluatie / kruisvalidatie, visualisatie, snelheid