Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdSarah Cools Laatst gewijzigd meer dan 10 jaar geleden
1
Pieter Adriaans Niels Netten (Maarten van Someren)
Leren & Beslissen Pieter Adriaans Niels Netten (Maarten van Someren)
2
Doel Praktijk Machine Learning/Data Mining: CRISP methodiek
Probleem analyseren Tools kiezen + inwerken Data cleaning Samenwerking met opdrachtgever
3
Organisatie Opdrachten uit de praktijk
Forensische Data (Veenman) Visuele waarneming (Snoek) 1 plenaire bijeenkomst per week (zaal I.103) Kort verslag Bespreken problemen Geen begeleid practicum, wel: Hulp van Niels Netten Practicumruimte gereserveerd (zie roosters) Eindpresentatie aan opdrachtgevers
4
NB: Contrast met “Leren” (accent theorie / praktijk); meer praktijkkennis nodig Moeilijke / vage problemen; niet duidelijk of het wel kan
5
Beoordeling Kwaliteit van de oplossing gezien vanuit de opdrachtgever
Samenwerking met de opdrachtgever Presentatie Verslag NB: iets technisch moois waar de opdrachtgever niks aan heeft laag cijfer
6
Diverse tips en trucs
7
Hagelschot aanpak Alles proberen en er uithalen wat werkt
Data Mining = “torture data until they confess” Vormen: Variabelen selecteren/construeren Subsets van de data Technieken Parameters Gevaar: overfitting; geen overzicht
8
Maatregelen: Ga zo goed mogelijk na welke kenmerken van de data maken dat een methode er wel/niet op werkt Ga hiermee iteratief te werk Probeer methoden / modelklassen van eenvoudig naar complex Maak systematisch gebruik van kruisvalidatie Sanity check op resultaat let op hoeveelheid data ten opzichte van complexiteit van te vinden patronen en van ruis/onzekerheid
9
Meervoudige tests We onderzoeken oorzaken van variabele V
We kiezen at random, “exploratief” 100 variabelen aan de hand van steekproeven We kiezen alfa (overschrijdingskans) 5% We vinden dat 5 variabelen een statistisch significant effect hebben Wat betekent dit?
10
Te complexe technieken
Probleem: overfitting (en onoverzichtelijkheid) Aanpak: gebruik een complexere techniek alleen als die betere resultaten oplevert dan simpelere broertjes
11
Verkeerde tools Let op: NB: capaciteit:
Beschikbare technieken adekwaat? Data transformatie/entry; visualisatie Capaciteit: genoeg geheugen, snelheid Beschikbaarheid NB: capaciteit: Probeer in een vroeg stadium data te reduceren tot wat relevant lijkt “windowing” werkt vaak erg goed
12
Tools WEKA MATLAB Excel (!?) R
NB: helemaal zelf maken is meestal geen optie wegens extra’s: evaluatie / kruisvalidatie, visualisatie, snelheid
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.