Help! Statistiek! Doorlopende serie laagdrempelige lezingen,

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Toetsen van verschillen tussen twee of meer groepen
Het belang van een goede steekproef
De omvang van een steekproef bepalen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Ronde (Sport & Spel) Quiz Night !
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 3 Maatstaven voor ligging en spreiding
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Centrummaten gemiddelde
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Afhankelijkheidstabellen
Schatter voor covariantie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Een fundamentele inleiding in de inductieve statistiek
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 8 Centrale tendentie en spreiding
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
Toetsen als Leerinterventie. Samenvatten in het Testing Effect Paradigma. Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner CELSTEC, Open Universiteit.
Populatiegemiddelden: recap
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
havo/vwo D Samenvatting Hoofdstuk 4
Statistiekbegrippen en hoe je ze berekent!!
De steekproefuitkomsten generaliseren naar de populatie
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
Inleiding in de statistiek voor de gedragswetenschappen
Centrummaten en Boxplot
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Baarde en de goede Hoofdstuk 11: Data-analyse
28 mei Symposium Statistical Auditing Slide 1 Steekproefmethoden bij EU audits Paul van Batenburg.
1 CCC & CCM Module Statistiek voor CM Drs. J.H. Gieskens AC CCM QT.
Gegevens verzamelen Statistiek gaat over het verzamelen en verwerken van data (gegevens ) Data zijn vaak gespreid: -mensen hebben verschillende lengtes.
Wat zegt een steekproef?
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 19 november : Robuuste statistiek 17 december : Resampling methoden 21 januari : Poisson regressie Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

Overzicht Wat is robuuste statistiek Introductie data (van dr. A.J. de Vries) met gebruikelijke analyse Beschrijvende statistiek Locatie parameters Spreidingsmaten Outlier detectie Nonparametrische toetsing Bootstrap

Robuuste statistiek? Hans Burgerhof

Wat is robuuste statistiek Methoden die robuust zijn tegen schendingen van modelveronderstellingen zoals normaliteit, covariantie structuren en lineaire verbanden. Robuust zijn tegen: weerstand bieden aan minder gevoelig zijn voor kunnen tegen een stootje 4

Data Data van hartoperatie patiënten: Heeft het reinigen van bloed effect, en zo ja, met welke methode? RCT: 4 behandelingsarmen (methoden): controle cell saver filter cell saver+filter In deze lezing slechts 10% van alle patienten: 74 patienten kreatinine level in bloed in eerste uur Vraag: Is er een verschil tussen mannen en vrouwen? 5

Data Is er een verschil tussen mannen en vrouwen m.b.t. gemiddelde kreatinine level ? Statistische toets H0: µman = µvrouw H1: µman ≠ µvrouw Twee steekproeven t-test 6

Data T-toets voor 2 onafhankelijke waarnemingen Conclusie: geen verschil in kreatinine levels 7

Data Hoe zit het met de aannames? Onafhankelijke waarnemingen o.k. Waarnemingen zijn normaal verdeeld niet o.k. Beide groepen hebben zelfde variantie o.k. In hoeverre geeft niet-normaliteit een ‘verkeerd’ resultaat? Mogelijke oplossing: Transformatie van gegevens: ln transformatie 8

Data 9

Data Ln transformatie Conclusie: wel verschil tussen beide groepen 10

Data Ln transformatie 11

Locatie maten Locatie maat: Waarde die het best de data beschrijft : Welke waarde ligt het dichtst bij alle punten? (dus in termen afstand) Gemiddelde Mediaan γ% Trimmed mean γ% Winsorized mean

Maat voor robuustheid: Locatie maten Maat voor robuustheid: Finite-sample break down point van een steekproefgrootheid: In Nederlands: Eindige steekproef breekpunt Kleinste deel van de waarnemingen die de steekproefgrootheid willekeurig groot of klein kan maken

Locatie maten Kleinste deel van de waarnemingen die de steekproefgrootheid willekeurig groot of klein kan maken Gemiddelde 1/n Mediaan 1/2 γ% Trimmed mean γ% γ% Winsorized mean γ%

Variantie en standaarddeviatie - Median Absolute Deviance (MAD) Spreidingsmaten Variantie en standaarddeviatie - Median Absolute Deviance (MAD) Interkwartielafstand (Interquartile Quartile Range (IQR))

Spreidingsmaten Median Absolute Deviance (MAD) Bereken de mediaan van de waarnemingen, Med Trek Med van alle waarnemingen af, en neem absolute waarden Bereken de mediaan van deze absolute waarden Uitkomst: MAD Als waarnemingen normaal verdeeld zijn: MADN = MAD/0.6745 Is een schatter voor de populatie standaarddeviatie

Spreidingsmaten Interkwartiel afstand : IQR Bereken eerste kwartiel Q1 (25 percentiel) Bereken derde kwartiel Q3 (75 percentiel) IQR = Q3 – Q1 Zegt iets over de middelste 50% Onder normaliteit: IQR = 2*MAD Gebruikt in boxplots

Spreidingsmaten Boxplot : IQR

Finite sample break down? - Variantie en standaarddeviatie 1/n Spreidingsmaten Finite sample break down? - Variantie en standaarddeviatie 1/n - Median Absolute Deviance (MAD) 1/2 - Interkwartielafstand (IQR) 1/4

Xi < q1 - 1.5*IQR of als Xi > q3 + 1.5*IQR Outlier detectie Gebaseerd op Standaarddeviatie: Verklaar waarneming outlier als: |Xi - x |/ s > 2.24 MAD Verklaar waarneming als outlier als |Xi - med |/ MADN > 2.24 IQR verklaar waarneming als outlier als Xi < q1 - 1.5*IQR of als Xi > q3 + 1.5*IQR

Data Is er een verschil tussen mannen en vrouwen m.b.t. gemiddelde kreatinine level ? Beantwoord dit voor alle waarnemingen zonder outliers (gebaseerd op methode 2, via MAD en mediaan) Er zijn in totaal 5 ouliers (van de 74). H0: µman = µvrouw H1: µman ≠ µvrouw Twee steekproeven t-test 21

Data Hoe ziet nu de verdeling eruit? 22

Data Data inclusief outliers Zonder outliers 23

Data Twee steekproeven t-test 24

Nonparametrische toetsen Nonparametrische methoden worden ook wel verdelingsvrije methoden genoemd: Maken geen veronderstelling omtrent verdeling van de waarnemingen Meeste nonparametrische toetsen zijn gebaseerd op de rangordes van de waarnemingen i.p.v. op de waarnemingen zelf Nadeel: meer geschikt voor het toetsen van hypotheses dan voor schatten

Nonparametrische toetsen

Mann-Whitney toets Voeg beide groepen samen Rangnummer elke waarneming Bepaal het gemiddelde rangnummer binnen elke groep H0: De verdeling van kreatinine level is voor mannen en vrouwen gelijk Onder H0: Gemiddelde rangnummer van elke groep zal ongeveer hetzelfde zijn

Data Mann-Whitney toets Conclusie: er is wel verschil tussen de groepen 28

Betrouwbaarheidsintervallen bij deze toets in SPSS? H0: De verdeling van kreatinine level is voor mannen en vrouwen gelijk: Kan men vertalen als: De verschuiving/shift tussen beide verdelingen is 0 Zoek die verschuivingen die net niet een significant resultaat opleveren bij de Mann-Whitney toets

Mann-Whitney: betrouwbaarheidsintervallen in SPSS? Zoek die verschuivingen die net niet een significant resultaat opleveren Tel bij één van de groepen een getal op, zeg x en doe dan de Mann-Whitney toets De x-en waarbij de Man-whitney toets net niet significant worden zijn de onder- en bovengrens: In onze data zijn dat -2 en -26

Bootstrap methode Wikipedia: Een bootstrap is een laarslus, een lus die bovenaan een rijlaars is bevestigd en waaraan men kan trekken om de laars aan te trekken. Het is mogelijk iemand op te tillen door aan zijn laarslussen te trekken. Het is niet mogelijk jezelf op te tillen door aan je eigen laarslussen te trekken.

Bootstrap methode

Bootstrap methode We willen de kansverdeling weten van de populatie die ten grondslag ligt aan de waarnemingen We hebben slechts de data Als de data representatief zijn voor de populatie, dan kan de kansverdeling benaderd worden door een groot aantal trekkingen met teruglegging uit deze data De frequentieverdeling van de gesimuleerde data (steekproefgrootheid) is een schatter voor de theoretische verdeling

Bootstrap methode Gegeven een steekproef van 300 waarnemingen, representatief voor de populatie. Trek met teruglegging 300 keer een waarneming uit deze steekproef; dit heet een bootstrap sample Bereken de relevante steekproefgrootheid, bijvoorbeeld het gemiddelde gem1* over de 300 waarnemingen Herhaal deze twee stappen een groot aantal keren (minstens 1000); men krijgt dan dus gem1*, … gem1000* Maak een relatieve frequentieverdeling van deze 1000 waarden Op basis van deze frequentieverdeling kan men dan uitspraken doen over de relevante steekproefgrootheid

Bootstrap methode Gegeven een steekproef van 300 waarnemingen, representatief voor de populatie. Veronderstel populatie is standaard normaal verdeeld Steekproefverdeling van het gemiddelde: Normale verdeling met gemiddelde 0, en standaarddeviatie 1/300 = 0.057 Neem 10.000 bootstrap samples

Bootstrap methode Bootstrap resultaten van deze gesimuleerde data Statistic Theorie bootstrap gemiddelde sd 2.5% 97.5% 0 -0.02 0.057 0.055 -0.11 -0.13 0.11 0.08

Data T-toets voor 2 onafhankelijke waarnemingen Bootstrap gemiddeld verschil: -14.65 Bootstrap schatting van betrouwbaarheidsinterval: -28.84 ; 0.91 37

Data Samenvattend: methode P-waarde 95% BI T-test T-test op ln T-test zonder outliers Mann-Whitney Bootstrap 0.09 -31.46; 2.38 0.04 0.72; 0.99 0.004 -29.36; -5.96 0.02 -26; -2 -28.84 ; 0.91 38

Afsluitende opmerkingen Er zijn geavanceerdere methodes van bootstrappen die op een andere manier de verdeling schatten en daardoor andere resultaten zullen geven Er bestaan ook robuuste regressiemethoden: methoden die gebaseerd zijn op robuuste maten Beide onderwerpen zullen in de toekomst aan bod komen

Afsluitende opmerkingen Referenties: Wilcox R.R.: Applying contemporary statistical techniques (2003) Fundamentals of Modern statistical methods (2001) Davison A.C. abd Hinkley D.V. Bootstrap methods and their application (1997) Volgende Keer : 17 december