1 Aart Smits (eauQstat), Eit C.J. van der Meulen (AMO) Gerrit van de Haar (RIWA), Paul K. Baggelaar (Icastat) Imputeren en beoordelen meetreeksen RIWA-base.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Introductie tot de lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
De aantrekkingskracht van uitzendwerk voor werkgevers De rol van ontslagbescherming Amsterdam, 9 juni.
ANALYSE VAN HET VERBRUIK EN KOSTPRIJS VAN MEDISCHE MATERIALEN BIJ PVS/MRS- PATIËNTEN IN EEN RVT Project in opdracht van het Bestuur van de Gezondheidszorg.
Icastat - AMO Icastat - AMO 1 NHV - dinsdag 6 maart 2012 drs. Paul K. Baggelaar Icastat ir. Eit C.J. van der Meulen AMO Trendanalyse op maat voor een meetnet.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
Betrouwbaarheidsanalyse van stofbalansen Hella PomariusWaterschap Rivierenland Beleidsafdeling Water Team Wateradvies Carlijn BakDeltares 2 februari 2010.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Probleem Professionals gebruiken innovaties niet (helemaal) zoals bedoeld Waardoor mogelijk de effecten uitblijven bij de einddoelgroep (cliënten, patiënten.
Statistiek voor Historici
DIAGNOSE Typisch probleem:
Ontwikkeling 3D- model Noordzeekanaal
Betrouwbaarheid en Validiteit
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
Prestaties Schatten en Managen
18/11/2008 Interpreteren van studietijd- resultaten.
Portfolio Faculteit der Letteren
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Hoofdstuk 6 Het voorspellen van prestaties Deel 2: Vermogenvoorspellingen op architectuurniveau Prof. dr. ir. Dirk Stroobandt Academiejaar
Gegevensverwerving en verwerking
Meervoudige lineaire regressie
Inferentie voor regressie
Een fundamentele inleiding in de inductieve statistiek
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Medmec04 – Engagement Les 5
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Logistische regressie
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Statistiek voor Historici
Microdatamiddag, 8 november 2007 Representativiteit Fannie Cobben Afdeling Methodologie Voorburg.
Temperatuur reconstructie door Mann et al.
HAV is meten ook weten Hoe betrouwbaar is een meting?
Statistische functies (aggregaatfuncties)
Onderzoek gefinancierd door de Vlaamse Regering in het kader van het programma ‘Steunpunten voor Beleidsrelevant Onderzoek’ SSL-conferentie februari.
Terugkomdag Ortho16 nov 2001 Leesproblemen voorspellen: Mogelijk of Onmogelijk? Wenselijk of Onwenselijk? dr. Anna M. T. Bosman KU Nijmegen, Orthopedagogiek:
“Jaarverslag bodemsanering 2007” Mark in ‘t Veld Senior adviseur Milieu & R.O.
H4 Differentiëren.
De steekproefuitkomsten generaliseren naar de populatie
Nederlands tijdschrift voor Diabetologie
MF “Meten in de Fysica” Introductie en Kennismaking met Dataverwerking INTRO 7.
Varianties bij replicatie (herhaald testen)
BEEBREED.EU Doel Beebreed
Vergelijkingen oplossen
Ontwikkeling van aanbevelingsalgoritmen voor online social games Jan Heuninck.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Baarde en de goede Hoofdstuk 11: Data-analyse
Inleiding Kennistechnologie §Hoofdstuk 12: Diagnose §Hoofdstuk 13: Machinaal leren §Hoofdstuk 14: De Toekomst van KT.
Valide tijdreeksmodellen Bestaan die ? Frans van Geer.
Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.
11 NHV-werkgroep Tijdreeksanalyse Discussiemiddag 1 oktober 2015 Paul Baggelaar Belang van ruismodel bij tijdreeksmodellering Icastat.
Testen met een klein aantal testmonsters Rob Ross.
Efficiënt onderhandelen Beter, sneller, goedkoper 11 februari 2016 Bart van Reeken.
FUNCTIES ACHTER VEERSYSTEMEN Dominiek Ramboer, Rudy Briers.
Gegevens verzamelen Statistiek gaat over het verzamelen en verwerken van data (gegevens ) Data zijn vaak gespreid: -mensen hebben verschillende lengtes.
Wat doe je met twee onnauwkeurigheden?
Gebruik van het annotatiesysteem
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Gemeenschaps- en systeemecologie (Ba3) Werkcollege Diversiteitsindices
Metingen in de afvalwaterketen:
Eenvoudige data-analyse: beschrijvende statistische
Invloed verkoop van corporatiewoningen op leefbaarheid
Voorspellende analyse
Genoomfokwaarden in de praktijk
Transcript van de presentatie:

1 Aart Smits (eauQstat), Eit C.J. van der Meulen (AMO) Gerrit van de Haar (RIWA), Paul K. Baggelaar (Icastat) Imputeren en beoordelen meetreeksen RIWA-base Icastat

Waar gaat het om? RIWA Meetnet Rijn en Maas RIWA-base Jaarrapportages (al circa 45 jaar) Kengetallen toestand en trend Belemmeringen door ontbrekende waarden Vraag: kan imputeren oplossing bieden? Icastat2

Bevindingen voorstudies Gebruik statistische relaties met andere parameters en/of zelfde parameter op andere locaties Beoordeel deze met Spearman-rangcorrelatie- coëfficiënt Gebruik statistische relaties over korte, recente periode Icastat3

Imputeermethoden Meervoudig (MICE, Amelia) Enkelvoudig o Lineaire regressie o Neuraal Netwerk o Random Forest Icastat4 Machinaal Leren

5Icastat

6

7 Per knooppunt: Vind welke waarde van welke predictor de set in de twee meest homogene delen splitst

Van zwakke naar sterke voorspeller Icastat8 Leo Breiman [1993 en 2001] combineer veel beslisbomen voeg stochastiek toe => Random Forest

Toegevoegde stochastiek 1.Stel elke beslisboom af met trainingsset die even groot is als dataset, maar getrokken mét teruglegging -> ongeveer 63% unieke records 2.Selecteer per knooppunt aselect p/3 predictoren (p is totaal aantal predictoren) Icastat9

Nauwkeurigheid Per beslisboom wordt 37% van dataset niet gebruikt om boom af te stellen Dit is de Out-of-Box-set (OOB-set) Wordt gebruikt om nauwkeurigheid Random Forest-voorspellingen te schatten Geeft redelijk zuivere schatting van die nauwkeurigheid Icastat10

Selectie van predictoren Icastat11 Uit simulatie bleek dat predictorenselectie op basis van de VI tot betere imputaties leidt

Vergelijken imputeermethoden Icastat12 Monte Carlosimulaties Kunstmatige reeksen en praktijkreeksen, elk vijf jaar lang, maandwaarden (n = 60) 25 predictoren per reeks Verwijder waarde en imputeer deze, met elk van drie imputeermethoden Bepaal imputeerfout per imputeermethode Bepaal kenmerken kansverdeling imputeerfout Verleen scores aan imputeerprestaties per reeks

Scoringssysteem Icastat13 Beschouwde kenmerken imputeerfout – mediaan – gemiddelde – RMSE – onnauwkeurigheid: max[|P 2,5 | ; |P 97,5 |]

Vergelijking imputeerprestaties op kunstmatige processen Icastat14 RF: Random Forest LR: Lineaire regressie NN: Neuraal netwerk

Vergelijking imputeerprestaties op 460 praktijkreeksen (RIWA-base) Icastat15

Imputeerprestaties Random Forest op 460 meetreeksen RIWA-base Icastat16

Icastat17

Icastat18

Icastat19

Conclusies Icastat20 Random Forest imputeert doorgaans beter dan lineaire regressie (en is numeriek stabieler) Klassieke parameters zijn beter te imputeren (o.a. minder extreme waarden / meetfouten) Een andere geschikte toepassing is het beoordelen van reekswaarden Rapport beschikbaar februari 2014 (riwa.org)

Gebruikte software R – Package missForest – Package party Matlab – Treebagger Icastat21

22 Vragen? Icastat