De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)

Verwante presentaties


Presentatie over: "Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)"— Transcript van de presentatie:

1 Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)

2 Doel Praktijk Machine Learning/Data Mining: –CRISP methodiek –Probleem analyseren –Tools kiezen + inwerken –Data cleaning –Samenwerking met opdrachtgever

3 Organisatie Opdrachten uit de praktijk –Forensische Data (Veenman) –Visuele waarneming (Snoek) 1 plenaire bijeenkomst per week (zaal I.103) –Kort verslag –Bespreken problemen Geen begeleid practicum, wel: –Hulp van Niels Netten –Practicumruimte gereserveerd (zie roosters) Eindpresentatie aan opdrachtgevers

4 NB: Contrast met “Leren” (accent theorie / praktijk); meer praktijkkennis nodig Moeilijke / vage problemen; niet duidelijk of het wel kan

5 Beoordeling Kwaliteit van de oplossing gezien vanuit de opdrachtgever Samenwerking met de opdrachtgever Presentatie Verslag NB: iets technisch moois waar de opdrachtgever niks aan heeft  laag cijfer

6 Diverse tips en trucs

7 Hagelschot aanpak Alles proberen en er uithalen wat werkt Data Mining = “torture data until they confess” Vormen: –Variabelen selecteren/construeren –Subsets van de data –Technieken –Parameters Gevaar: overfitting; geen overzicht

8 Maatregelen: –Ga zo goed mogelijk na welke kenmerken van de data maken dat een methode er wel/niet op werkt –Ga hiermee iteratief te werk –Probeer methoden / modelklassen van eenvoudig naar complex –Maak systematisch gebruik van kruisvalidatie –Sanity check op resultaat –let op hoeveelheid data ten opzichte van complexiteit van te vinden patronen en van ruis/onzekerheid

9 Meervoudige tests We onderzoeken oorzaken van variabele V We kiezen at random, “exploratief” 100 variabelen aan de hand van steekproeven We kiezen alfa (overschrijdingskans) 5% We vinden dat 5 variabelen een statistisch significant effect hebben Wat betekent dit?

10 Te complexe technieken Probleem: overfitting (en onoverzichtelijkheid) Aanpak: gebruik een complexere techniek alleen als die betere resultaten oplevert dan simpelere broertjes

11 Verkeerde tools Let op: –Beschikbare technieken adekwaat? –Data transformatie/entry; visualisatie –Capaciteit: genoeg geheugen, snelheid –Beschikbaarheid NB: capaciteit: –Probeer in een vroeg stadium data te reduceren tot wat relevant lijkt –“windowing” werkt vaak erg goed

12 Tools WEKA MATLAB Excel (!?) R NB: helemaal zelf maken is meestal geen optie wegens extra’s: evaluatie / kruisvalidatie, visualisatie, snelheid


Download ppt "Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)"

Verwante presentaties


Ads door Google