De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Pieter Adriaans Niels Netten (Maarten van Someren)

Verwante presentaties


Presentatie over: "Pieter Adriaans Niels Netten (Maarten van Someren)"— Transcript van de presentatie:

1 Pieter Adriaans Niels Netten (Maarten van Someren)
Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)

2 Doel Praktijk Machine Learning/Data Mining: CRISP methodiek
Probleem analyseren Tools kiezen + inwerken Data cleaning Samenwerking met opdrachtgever

3 Organisatie Opdrachten uit de praktijk
Forensische Data (Veenman) Visuele waarneming (Snoek) 1 plenaire bijeenkomst per week (zaal I.103) Kort verslag Bespreken problemen Geen begeleid practicum, wel: Hulp van Niels Netten Practicumruimte gereserveerd (zie roosters) Eindpresentatie aan opdrachtgevers

4 NB: Contrast met “Leren” (accent theorie / praktijk); meer praktijkkennis nodig Moeilijke / vage problemen; niet duidelijk of het wel kan

5 Beoordeling Kwaliteit van de oplossing gezien vanuit de opdrachtgever
Samenwerking met de opdrachtgever Presentatie Verslag NB: iets technisch moois waar de opdrachtgever niks aan heeft  laag cijfer

6 Diverse tips en trucs

7 Hagelschot aanpak Alles proberen en er uithalen wat werkt
Data Mining = “torture data until they confess” Vormen: Variabelen selecteren/construeren Subsets van de data Technieken Parameters Gevaar: overfitting; geen overzicht

8 Maatregelen: Ga zo goed mogelijk na welke kenmerken van de data maken dat een methode er wel/niet op werkt Ga hiermee iteratief te werk Probeer methoden / modelklassen van eenvoudig naar complex Maak systematisch gebruik van kruisvalidatie Sanity check op resultaat let op hoeveelheid data ten opzichte van complexiteit van te vinden patronen en van ruis/onzekerheid

9 Meervoudige tests We onderzoeken oorzaken van variabele V
We kiezen at random, “exploratief” 100 variabelen aan de hand van steekproeven We kiezen alfa (overschrijdingskans) 5% We vinden dat 5 variabelen een statistisch significant effect hebben Wat betekent dit?

10 Te complexe technieken
Probleem: overfitting (en onoverzichtelijkheid) Aanpak: gebruik een complexere techniek alleen als die betere resultaten oplevert dan simpelere broertjes

11 Verkeerde tools Let op: NB: capaciteit:
Beschikbare technieken adekwaat? Data transformatie/entry; visualisatie Capaciteit: genoeg geheugen, snelheid Beschikbaarheid NB: capaciteit: Probeer in een vroeg stadium data te reduceren tot wat relevant lijkt “windowing” werkt vaak erg goed

12 Tools WEKA MATLAB Excel (!?) R
NB: helemaal zelf maken is meestal geen optie wegens extra’s: evaluatie / kruisvalidatie, visualisatie, snelheid


Download ppt "Pieter Adriaans Niels Netten (Maarten van Someren)"

Verwante presentaties


Ads door Google