Extreme-waardenstatistiek Joost Beckers
Overzicht Begrippen Wat is extreme waardenstatistiek? Toepassen van extreme waardenstatistiek Oefening
Begrippen Herhalingstijd (T): gemiddelde tijd tussen twee overschrijdingen Frequentie (f): gemiddeld aantal overschrijdingen per tijdseenheid 𝑓= 1 𝑇 𝑇= 1 𝑓 Overschrijdingskans (P): Kans op tenminste een overschrijding per tijdseenheid frequentie kan groter zijn dan 1 de overschrijdingskans is maximaal 1 Siméon Denis Poisson (1781–1840) 𝑃=1−exp(−𝑓)
Wat is extreme waardenstatistiek? Extreme waardentheorie (EVT): De kansverdeling van het maximum van een groot aantal trekkingen convergeert naar een familie van kansverdelingen ongeacht de onderliggende verdeling. Vgl Centrale limietstelling: De kansverdeling van het gemiddelde van een groot aantal trekkingen convergeert naar een normaalverdeling ongeacht de onderliggende verdeling. N=1 N=5 N=30
Probeer het zelf Trek 10-20 waarden uit een normaalverdeling en neem het maximum Doe dit 1000 keer en maak een histogram van deze maxima Bekijk de staart van de verdeling, dit is de kans op extremen in een tijdreeks De extremen zijn niet normaal verdeeld!
Toepassingen in de hydrologie Kans op extreme neerslag Kans op extreme afvoeren/hoogwaters Kans op droogte Berekenen van hydraulische randvoorwaarden voor toetsing van dijken/duinen Berekenen van de gemiddelde jaarlijkse overstromingsschade, kosten/baten analyse voor het verhogen/versterken van dijken, duinen, dammen etc.
Stappenplan extreme waarden analyse 11 oktober 2017 Stappenplan extreme waarden analyse Selecteer een set van extremen uit een tijdreeks (bijvoorbeeld afvoer) Fit een extreme waardenverdeling op deze set (meerdere verdelingen mogelijk) Bereken de overschrijdingskans van een bepaalde afvoer of de afvoer voor een gegeven overschrijdingskans/herhalingstijd
1. Selecteren van events Annual Maxima: Het maximum per vaste periode, meestal het hydrologisch jaar Peaks over Threshold: Alle overschrijdingen van een zelf gekozen drempelwaarde
Zelf kiezen bij PoT: drempelwaarde en zichtduur
Annual Maxima - geen zelf gekozen parameters, aantal events gelijk aan aantal jaren Peaks over Threshold - meer events, maar tuning nodig van drempel en window
Kansverdeling Annual Maxima Fisher–Tippett–Gnedenko theorema: De extreme jaarmaxima zijn verdeeld volgens een GEV verdeling: P(x) = exp(-(1+ ξ(x-μ)/σ)-1/ξ) Type I, Gumbel: ξ = 0, P(x) = exp(-exp(-(x-μ)/σ) Type II, Frechet: ξ > 0 Type III, reversed Weibull: ξ < 0 Voorwaarden: Het onderliggende proces is homogeen, dwz geen trends, geen fysische maxima en geen mix van processen De verdeling van extremen convergeert Boris Gnedenko (1948), Ronald Fisher and Leonard Tippett (1928), Maurice Fréchet (1927)
Kansverdeling Peaks over Threshold Pickands–Balkema–de Haan theorema: De extreme waarden zijn verdeeld volgens een gegeneraliseerde Paretoverdeling (GPD): P(x) = 1 - (1+ ξ(x-μ)/σ))-1/ξ ξ≠0 P(x) = 1 - exp(-(x-μ)/σ) ξ=0 Als ξ=0 en μ=0: exponentiële verdeling Voorwaarden: Homogeen proces De verdeling van extremen convergeert Onafhankelijke events (Poisson arrivals) Guus Balkema en Laurens de Haan (1974); James Pickands (1975)
Fitten van verdelingen aan extremen Gebruikelijke kansverdelingen: GEV verdeling (w.o. Gumbelverdeling) Generalized Pareto (w.o. exponentiële verdeling) Conditionele Weibull verdeling Lognormaal verdeling Pearson familie van verdelingen (w.o. beta en gammaverdeling) Fitmethoden: Lineaire regressie van gereduceerde variabele (gebruik plotposities) Maximum likelihood Method of moments Regional frequency analysis (RFA) en L-moments (Hosking and Wallis, 1997) Aanbevolen (maar andere keuzes zijn niet verboden)
Plotposities Voor het plotten van de (geschatte) kansen van de extremen uit de tijdreeks en vervolgens fitten van een kansverdeling op log papier. Of voor visuele controle van de ‘goodness of fit’. Beste plotpositie hangt af van de gekozen kansverdeling: P = m/N California (af te raden, levert 1 op voor m=N) P = m/(N+1) Weibull (aan te raden bij onbekende kansverdeling, herhalingstijd van grootste waarden wordt onderschat bij Gumbel) P = (m-0.44)/(N+0.12) Gringorten (beste voor Gumbel) P = (m-0.375)/(N+0.25) Blom (beste voor normaalverdeling) P = (m-0.31)/(N+0.38) Beard P = (m+0.5)/N Hazen
Onzekerheid De meeste fitmethoden geven een ‘goodness of fit’ en een onzekerheid van de kansverdeling Aandachtspunten: Bij meer coëfficiënten wordt de onzekerheid groter Bij meer data wordt de onzekerheid kleiner (overweeg gebruik van PoT, RFA) De onzekerheden van meerdere verdelingsparameters kunnen gecorreleerd zijn Alternatieve methoden om onzekerheid te bepalen: Bootstrap, Jackknife Breng variaties aan in de dataset (resampling, leave-one-out) De variatie in het resultaat is een maat voor de onzekerheid
Onzekerheid bij extrapolatie ? afvoer interpolatie extrapolatie 50 jaar herhalingstijd
Voorbeeld 1 Neerslagdata Hong Kong: Annual Maxima - Gumbel vs GEV Type II
Voorbeeld 2 Zeewaterstanden Hong Kong: Gumbel vs GEV Type II (Frechet) Kleinere onzekerheid Slechtere fit Grotere onzekerheid Betere fit
Voorbeeld 3 Waterstanden Hoek van Holland Peaks over threshold GPD verdeling met logisch verloop van krommingsparamater ξ langs de kuststations 5 m 10-4
Voorbeeld 4 IJsselmeerwaterstanden Fysische grens?
Voorbeeld 5 Myanmar – Kalay Goede fit exponentiële verdeling op 25 jaar metingen, … maar de 2015 event is buitencategorie
Conclusies Het resultaat hangt af van keuzes en aannames. Probeer alternatieven, bepaal de goodness of fot en de onzekerheid. Vraag jezelf af of de uitkomsten realistisch zijn. Indien tijd en middelen beschikbaar zijn, analyseer dan de fysica voor de berekende extreme omstandigheden, al dan niet met behulp van een model. Maak gebruik van bestaande software: Probabilistic toolbox (Python) OpenEarth statistical toolbox (matlab) Maar blijf kritisch op de resultaten en gebruik je gezonde “boerenverstand”.
Oefening Onderzoek de kansverdeling van extreme waarden: Trek 10 waarden uit een normaalverdeling, bereken het maximum Excel: norm.inv(rand(); 0; 1) Maak zo een serie van 100 jaarmaxima Maak een histogram, bekijk de staart van de verdeling Excel: data-analysis, histogram Fit een Gumbelverdeling op de jaarmaxima: Sorteer 100 jaarmaxima van groot naar klein Excel: data-sort Schat de overschrijdingskansen P=(m-0.44)/(n+0.12) m=rang, n=aantal maxima Bereken de gereduceerde Gumbel variabele Y=-ln(-ln(1-P)) Voer een lineaire regressie uit Excel: data-analysis, regression Wat is de kans op overschrijding van waarde 3? Als er tijd is: Gebruik een andere basis-kansverdeling, tabblad GEV in voorbeeld-Excel Bepaal het 95% betrouwbaarheidsinterval
Excel: trekkingen uit kansverdelingen Standaard-normaalverdeling: NORM.INV(RAND(); 0; 1) SQRT(-2*LN(1-RAND()))*COS(RAND()*2*PI()) Lognormaalverdeling (met ondergrens): LOGNORM.INV(RAND(); 0; 1) EXP(NORM.INV(RAND(); 0; 1)) Exponentiële verdeling (met ondergrens): -LN(RAND())