Extreme-waardenstatistiek

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Overzicht Sessie 1 Inleiding
-Glucuronidase (GUS)
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Pieter van Gelder TU Delft (Fac. Civiele Techniek)
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
De Weibull verdeling Waloddi Weibull ( ) Weibull:
BiO-M Wiskundig Modelleren
Op zoek naar verbetering
Is cosmology a solved problem?. Bepaling van Ω DM met behulp van rotatie krommen.
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
Background Subtraction for Urban Traffic Monitoring using Webcams Master Thesis Verdediging Begeleider: Rein van den Boomgaard door: Mark Smids 19 maart.
Statistiek ?! … Ronald Buyl - BISI.
Jan Talmon Medische Informatica Universiteit Maastricht
Voorraadbeheersing en voorspellen
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Gegevensverwerving en verwerking
Meervoudige lineaire regressie
Inferentie voor regressie
Het proefverslag Van de calorimetrie-proef (proef 4) moet een proefverslag worden gemaakt. De studenten die proef 4 hebben gedaan in de week van 29 sept 
Metingen met spreiding
1212 /n Metingen aan de hoogte van een toren  D  wordt gemeten met onzekerheid S  =0.1 o. Vraag 1: Op welke afstand D moet je gaan staan om H zo nauwkeurig.
Continue kansverdelingen
Insertie van etheen in BH 3 en NH 3 Doorrekenen van een reactiepad.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
College Project Management 1 maart 2002
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Flow controle Keuzes maken. Het if-statement Soms moet code alleen in bepaalde situaties uit gevoerd worden Hiervoor heeft C de if-else constructie: if(voorwaarde1){
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Logistische regressie
Statistiek voor Historici
Statistiek voor Historici
Statistiek voor Historici Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen College 3.
6e HYDRA Workshop, 17 september 2003 Extreme waardenstatistiek van de wind in Nederland: vergelijkend warenonderzoek? Ilja Smits, KNMI.
Workshop ISC – Overstromingen Bepalen van de hoogste waterlijn door een statistische benadering met omhullende curven Voorbeeld: het Loire-estuarium Thierry.
Opbrengsten van onderwijs
1 Aart Smits (eauQstat), Eit C.J. van der Meulen (AMO) Gerrit van de Haar (RIWA), Paul K. Baggelaar (Icastat) Imputeren en beoordelen meetreeksen RIWA-base.
Baarde en de goede Hoofdstuk 11: Data-analyse
Energieneutraal wonen…?
28 mei Symposium Statistical Auditing Slide 1 Steekproefmethoden bij EU audits Paul van Batenburg.
Keuzevak onderzoeksvaardigheden Tijdreeksen. Definitie  Een tijdreeks (historische reeks) is een reeks van cijfers die de ontwikkeling aangeven van een.
TirPrs06: Wachttijdtheorie & simulatietechniek
Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.
Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?
Testen met een klein aantal testmonsters Rob Ross.
Mart H. Mojet Workshop 2.2 Docentendag Netwerk Noord, 24 juni 2016 NLT Statistiek, Big Data, en MS Excel.
Alleen toevallige variaties
Wat zegt een steekproef?
Controlekaarten Industrie
Betrouwbaarheidsinterval
Alleen toevallige variaties
Hoe eenvoudig is een gemiddelde?
Keuzevoorlichting havo wiskunde AB.
Wind gezien door de ogen van een windturbine ontwerper
Helderheid over materialiteit
Gemeenschaps- en systeemecologie (Ba3) Werkcollege Diversiteitsindices
Training statistiek NEN-689
Kan je zelf een geschikte schaalverdeling maken
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
De Kostprijs Why Bother?.
Hoe eenvoudig is een gemiddelde?
Transcript van de presentatie:

Extreme-waardenstatistiek Joost Beckers

Overzicht Begrippen Wat is extreme waardenstatistiek? Toepassen van extreme waardenstatistiek Oefening

Begrippen Herhalingstijd (T): gemiddelde tijd tussen twee overschrijdingen Frequentie (f): gemiddeld aantal overschrijdingen per tijdseenheid 𝑓= 1 𝑇 𝑇= 1 𝑓 Overschrijdingskans (P): Kans op tenminste een overschrijding per tijdseenheid frequentie kan groter zijn dan 1 de overschrijdingskans is maximaal 1 Siméon Denis Poisson (1781–1840) 𝑃=1−exp⁡(−𝑓)

Wat is extreme waardenstatistiek? Extreme waardentheorie (EVT): De kansverdeling van het maximum van een groot aantal trekkingen convergeert naar een familie van kansverdelingen ongeacht de onderliggende verdeling. Vgl Centrale limietstelling: De kansverdeling van het gemiddelde van een groot aantal trekkingen convergeert naar een normaalverdeling ongeacht de onderliggende verdeling. N=1 N=5 N=30

Probeer het zelf Trek 10-20 waarden uit een normaalverdeling en neem het maximum Doe dit 1000 keer en maak een histogram van deze maxima Bekijk de staart van de verdeling, dit is de kans op extremen in een tijdreeks De extremen zijn niet normaal verdeeld!

Toepassingen in de hydrologie Kans op extreme neerslag Kans op extreme afvoeren/hoogwaters Kans op droogte Berekenen van hydraulische randvoorwaarden voor toetsing van dijken/duinen Berekenen van de gemiddelde jaarlijkse overstromingsschade, kosten/baten analyse voor het verhogen/versterken van dijken, duinen, dammen etc.

Stappenplan extreme waarden analyse 11 oktober 2017 Stappenplan extreme waarden analyse Selecteer een set van extremen uit een tijdreeks (bijvoorbeeld afvoer) Fit een extreme waardenverdeling op deze set (meerdere verdelingen mogelijk) Bereken de overschrijdingskans van een bepaalde afvoer of de afvoer voor een gegeven overschrijdingskans/herhalingstijd

1. Selecteren van events Annual Maxima: Het maximum per vaste periode, meestal het hydrologisch jaar Peaks over Threshold: Alle overschrijdingen van een zelf gekozen drempelwaarde

Zelf kiezen bij PoT: drempelwaarde en zichtduur

Annual Maxima - geen zelf gekozen parameters, aantal events gelijk aan aantal jaren Peaks over Threshold - meer events, maar tuning nodig van drempel en window

Kansverdeling Annual Maxima Fisher–Tippett–Gnedenko theorema: De extreme jaarmaxima zijn verdeeld volgens een GEV verdeling: P(x) = exp(-(1+ ξ(x-μ)/σ)-1/ξ) Type I, Gumbel: ξ = 0, P(x) = exp(-exp(-(x-μ)/σ) Type II, Frechet: ξ > 0 Type III, reversed Weibull: ξ < 0 Voorwaarden: Het onderliggende proces is homogeen, dwz geen trends, geen fysische maxima en geen mix van processen De verdeling van extremen convergeert Boris Gnedenko (1948), Ronald Fisher and Leonard Tippett (1928), Maurice Fréchet (1927)

Kansverdeling Peaks over Threshold Pickands–Balkema–de Haan theorema: De extreme waarden zijn verdeeld volgens een gegeneraliseerde Paretoverdeling (GPD): P(x) = 1 - (1+ ξ(x-μ)/σ))-1/ξ ξ≠0 P(x) = 1 - exp(-(x-μ)/σ) ξ=0 Als ξ=0 en μ=0: exponentiële verdeling Voorwaarden: Homogeen proces De verdeling van extremen convergeert Onafhankelijke events (Poisson arrivals) Guus Balkema en Laurens de Haan (1974); James Pickands (1975)

Fitten van verdelingen aan extremen Gebruikelijke kansverdelingen: GEV verdeling (w.o. Gumbelverdeling) Generalized Pareto (w.o. exponentiële verdeling) Conditionele Weibull verdeling Lognormaal verdeling Pearson familie van verdelingen (w.o. beta en gammaverdeling) Fitmethoden: Lineaire regressie van gereduceerde variabele (gebruik plotposities) Maximum likelihood Method of moments Regional frequency analysis (RFA) en L-moments (Hosking and Wallis, 1997) Aanbevolen (maar andere keuzes zijn niet verboden)

Plotposities Voor het plotten van de (geschatte) kansen van de extremen uit de tijdreeks en vervolgens fitten van een kansverdeling op log papier. Of voor visuele controle van de ‘goodness of fit’. Beste plotpositie hangt af van de gekozen kansverdeling: P = m/N California (af te raden, levert 1 op voor m=N) P = m/(N+1) Weibull (aan te raden bij onbekende kansverdeling, herhalingstijd van grootste waarden wordt onderschat bij Gumbel) P = (m-0.44)/(N+0.12) Gringorten (beste voor Gumbel) P = (m-0.375)/(N+0.25) Blom (beste voor normaalverdeling) P = (m-0.31)/(N+0.38) Beard P = (m+0.5)/N Hazen

Onzekerheid De meeste fitmethoden geven een ‘goodness of fit’ en een onzekerheid van de kansverdeling Aandachtspunten: Bij meer coëfficiënten wordt de onzekerheid groter Bij meer data wordt de onzekerheid kleiner (overweeg gebruik van PoT, RFA) De onzekerheden van meerdere verdelingsparameters kunnen gecorreleerd zijn Alternatieve methoden om onzekerheid te bepalen: Bootstrap, Jackknife Breng variaties aan in de dataset (resampling, leave-one-out) De variatie in het resultaat is een maat voor de onzekerheid

Onzekerheid bij extrapolatie ? afvoer interpolatie extrapolatie 50 jaar herhalingstijd

Voorbeeld 1 Neerslagdata Hong Kong: Annual Maxima - Gumbel vs GEV Type II

Voorbeeld 2 Zeewaterstanden Hong Kong: Gumbel vs GEV Type II (Frechet) Kleinere onzekerheid Slechtere fit Grotere onzekerheid Betere fit

Voorbeeld 3 Waterstanden Hoek van Holland Peaks over threshold GPD verdeling met logisch verloop van krommingsparamater ξ langs de kuststations 5 m 10-4

Voorbeeld 4 IJsselmeerwaterstanden Fysische grens?

Voorbeeld 5 Myanmar – Kalay Goede fit exponentiële verdeling op 25 jaar metingen, … maar de 2015 event is buitencategorie

Conclusies Het resultaat hangt af van keuzes en aannames. Probeer alternatieven, bepaal de goodness of fot en de onzekerheid. Vraag jezelf af of de uitkomsten realistisch zijn. Indien tijd en middelen beschikbaar zijn, analyseer dan de fysica voor de berekende extreme omstandigheden, al dan niet met behulp van een model. Maak gebruik van bestaande software: Probabilistic toolbox (Python) OpenEarth statistical toolbox (matlab) Maar blijf kritisch op de resultaten en gebruik je gezonde “boerenverstand”.

Oefening Onderzoek de kansverdeling van extreme waarden: Trek 10 waarden uit een normaalverdeling, bereken het maximum Excel: norm.inv(rand(); 0; 1) Maak zo een serie van 100 jaarmaxima Maak een histogram, bekijk de staart van de verdeling Excel: data-analysis, histogram Fit een Gumbelverdeling op de jaarmaxima: Sorteer 100 jaarmaxima van groot naar klein Excel: data-sort Schat de overschrijdingskansen P=(m-0.44)/(n+0.12) m=rang, n=aantal maxima Bereken de gereduceerde Gumbel variabele Y=-ln(-ln(1-P)) Voer een lineaire regressie uit Excel: data-analysis, regression Wat is de kans op overschrijding van waarde 3? Als er tijd is: Gebruik een andere basis-kansverdeling, tabblad GEV in voorbeeld-Excel Bepaal het 95% betrouwbaarheidsinterval

Excel: trekkingen uit kansverdelingen Standaard-normaalverdeling: NORM.INV(RAND(); 0; 1) SQRT(-2*LN(1-RAND()))*COS(RAND()*2*PI()) Lognormaalverdeling (met ondergrens): LOGNORM.INV(RAND(); 0; 1) EXP(NORM.INV(RAND(); 0; 1)) Exponentiële verdeling (met ondergrens): -LN(RAND())