Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten?

Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten? 21 mei : Multiple testing 18 juni : Statistische aspecten van de probiotica studie Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

2 Overzicht - Hoe toetsen we tegenwoordig? - Relatie tussen onderzoeksvraag, hypotheses en toetsen - Wat zijn de problemen bij de interpretaties van toets resultaten? - Hoe kunnen we effect groottes erin betrekken -Klinische relevantie -Statistische significantie - Wat is de relatie met de power? - Bayesiaanse benadering - Samenvatting: hoe moeten we de test resultaten interpreteren?

3 Hoe toetsen we tegenwoordig? Formulering van een onderzoeksvraag. Formuleren van H 0 Formuleren van H 1. Uitspraken als “Verwerp H 0 ten gunste van H 1 ” of “Verwerp H 0 niet” Dit betekent: H 1 weerspiegelt de onderzoeksvraag Definieren van significantie niveau P(verwerp H 0 |H 0 waar): 5% Uitvoeren van de toets Berekenen van p-waarde Verwerpen H 0 als p-waarde <0.05

4 Popper: falsificatie principe Men kan nooit een theorie bewijzen, slechts falsificeren! theorie T Data patroon P Data patroon P Theorie T Theorie S Als theory T waar is  data patroon P moet optreden Foute conclusie Observatie van data P  theorie T is waar Als data P niet optreedt  theorie T is niet waar

5 Toetsen: twee soorten fouten  = P(verwerp H 0 | H 0 is waar)  = P(Verwerp H 0 niet| H 0 is niet waar) H 0 waarH 0 niet waar Verwerp H 0 Fout van de 1 e soort Kans:  Power Kans 1- β Verwerp H 0 niet Kans 1-  Fout van de 2 e soort Kans β

6 Toetsen: p-waarde  = P(verwerp H 0 | H 0 is waar)  = P(Verwerp H 0 niet| H 0 is niet waar) De p-waarde is de kans op de gevonden waarde in de steekproef of nog extremer, gegeven dat H 0 waar is Verwerp H 0 als p-waarde klein is

7 Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Is de p-waarde de kans dat H 0 waar is?

8 Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Is de p-waarde de kans dat het resultaat toevallig optreedt?

9 Problemen bij interpreteren van toets resultaten Vraag interpretatie van de p-waarde Hoe kan je de p-waarde dan wel interpreteren? P(resultaat of extremer| H 0 waar) p-waarde als bewijs tegen H 0

10 Problemen bij interpreteren van toets resultaten Vraag over interpretatie van (1 - p-waarde) Is dit de kans dat een significant resultaat gevonden wordt bij het herhalen van het experiment? NEE Power: kans op onderscheiden van effect gegeven dat H 0 niet waar is Let elke keer op de conditie!!!!!

11 Problemen bij interpreteren van toets resultaten Problemen vanwege hanteren van criteria die op onzekerheid berusten: we hebben te maken met kansen op resultaten onder verschillende hypothesen. We willen redeneren alsof onze conclusies zeker zijn. –p > 0.05: er is geen effect; geen significant resultaat –p <= 0.05: er is een effect; significant resultaat Maar we moeten aldoor bewust zijn van Significant resultaat : fout van de eerste soort Geen significant resultaat: fout van de tweede soort

12 Popper : falsificatie principe Data patroon P H0H0 H1H1 Als H 0 waar is  Patroon P is waarschijnlijk onder H 0 Fout Als data P waarschijnlijk is onder H 0  H 0 is waar Als data P niet waarschijnlijk is onder H 0  H 0 is niet waar Data patroon P H0H0 Data patroon P H0H0 H1H1 Ook fout

13 Problemen bij interpreteren van toets resultaten Er zijn altijd wel kleine verschillen tussen de effecten van twee behandelingen te vinden Tukey (1991): H 0 is altijd fout Als je voldoende data verzamelt zal je altijd wel de H 0 verwerpen effect groottes en klinische relevantie

14 Problemen bij interpreteren van toets resultaten Identieke effect groottes kunnen leiden tot verschillende conclusies vanwege verschillende p- waarden, en gebruik van vast significantie niveau Veronderstel : 5% significantie niveau p-waarde van 0.049: verwerp H 0 P-waarde van 0.051: Verwerp H 0 niet

15 Problemen bij interpreteren van toets resultaten Hoe kunnen we p-waarde interpreteren? p-waarde als bewijs tegen H 0 p-waarde van 0.049 en p-waarde van 0.051: Vergelijkbare resultaten Effect sizes and statistical significance

16 Schatten van effect groottes Geen toetsuitspraak zonder schatting van effect groottes Voorbeelden effect groottes 1.d = (  A -  B )/ , 2.  A -  B 3.Correlatiecoefficient 4. odds ratio

17 Schatten van effect groottes Toets probleem: H 0 :  A -  B = 0 (effect grootte = 0) p-waarden : bewijs tegen H 0 : Vraag: Zijn de data verenigbaar met H 0 ?

18 Schatten van effect groottes Schattings probleem Vraag: Welke effect groottes zijn verenigbaar met de data? Punt schatting: verschil van de gevonden gemiddelden in de steekproef interval schatting: het betrouwbaarheidsinterval BI 95% BI: punt schatting  2*SE(effect grootte)

19 Betrouwbaarheidsintervallen Gerelateerd aan hypothese toetsen Interval rondom punt schatting van effect grootte: Welke effect groottes zijn verenigbaar met de data? Klassieke definitie: interval met random onder- en bovengrenzen: The kans dat het interval de ware effect grootte bevat is 95%. Een meer aansprekende definitie: interval van niet verworpen nulhypothesen Bayesiaanse definitie: De kans dat de effect grootte in het interval ligt is 95%

20 Betrouwbaarheidsintervallen Voorbeeld 1: Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand RCT: 20 proefpersonen (A:10 ; B:10) Resultaten: Steekproefgemiddelde verlaging voor A :20 Steekproefgemiddelde verlaging voor B : 17 Verschil 3; Standard error : 3.5 95% Betrouwbaarheidsinterval: 3  2*3.5 : (-4 ; 10)

21 Betrouwbaarheidsintervallen 95% betrouwbaarheidsinterval: 3  2*3.5 : (-4 ; 10) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar zijn met de data Conclusie???

22 Betrouwbaarheidsintervallen Voorbeeld 2: Vergelijking van 2 behandelingen A en B m.b.t. wachttijden palliatieve behandeling voor botmetastasen CRT: 1000 respondents: (A: 500; B: 500) Resultaten Steekproefgemiddelde voor A: 8 dagen Steekproefgemiddelde voor B: 5 dagen Verschil: 3 dagen; Standard error: 0.2 95% betrouwbaarheidsinterval: 3  2*0.2 : (2.6; 3.4)

23 Betrouwbaarheidsintervallen 95% betrouwbaarheidsinterval: 3  2*0.2 : (2.6; 3.4) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar Zijn met de data Conclusie???

24 Betrouwbaarheidsintervallen, klinische relevantie en statistische significantie p-waarden en effect groottes zijn beide essentieel: Geen significante verschillen, maar wel klinisch relevante verschillen in het betrouwbaarheidsinterval: meer informatie is nodig om conclusies te trekken (voorbeeld 1) Significante verschillen, maar geen klinisch relevante verschillen in het betrouwbaarheidsinterval: de bevindingen hebben geen klinische implicaties; er is teveel informatie (voorbeeld 2).

25 Power berekeningen Nodig voor balans tussen klinische relevantie and statistische significantie Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen? Na keuze toets, geef input: Significantie niveau α Gestandaardiseerde effect grootte (  A -  B )/  Steekproefgrootte  Power (1-β)

26 Power  stijgt  power stijgt

27 Power effect size stijgt  power stijgt

28 Power n stijgt  power stijgt

29 Problemen bij interpreteren van toets resultaten (Falk and Greenbaum, 1995): Illusion of probabilistic proof by contradiction: Het toetsen van hypotheses en wetenschappelijke gevolgtrekkingen zijn verschillende zaken: We berekenen P(data|H 0 is waar): de p-waarde Wat willen we eigenlijk weten? Wat is P(H 0 is waar|data)? Bayesiaans

Bayesiaanse statistiek Andere opvatting over kans Meer een subjectieve maat (in tegenstelling tot relatieve fequenties) Trekken van conclusies zijn gebaseerd op data en eerder opgedane kennis/ervaring (prior informatie) (in tegenstelling tot alleen data)

Regel van Bayes Laat H 1, H 2,…, H k elkaar uitsluitende en uitputtende gebeurtenissen zijn, en laat D een andere gebeurtenis zijn: Dan geldt voor elke j = 1,2,…,k, P(D|H j )P(H j ) P(H j |D) = -------------------- ∑ P(D|H i )P(H i ) i Bayesiaanse statistiek

Regel van Bayes : voorbeeld Laat H 0 and H 1 twee elkaar uitsluitende en uitputtende gebeurtenissen zijn (H 0 : ziek en H 1 : niet ziek), Laat D de test uitslag zijn. P(test| ziek)P(ziek) P(ziek|test) = -------------------------------------------------- P(test|ziek)P(ziek) + P(test|niet ziek)P(niet ziek) Prior informatie: P(H 0 ) = P(ziek) Posterior informatie: P(ziek|test uitslag) Hoe verandert de prior in the posterior door de data? Posterior Prior Bayesiaanse statistiek

Regel van Bayes : voorbeeld Laat H 0 and H 1 twee elkaar uitsluitende en uitputtende hypotheses zijn (H 0 : θ = 0 en H 1 : θ = 1), Laat D de data zijn. P(D| θ=0)P(θ=0) P(H 0 |D) = -------------------------------------------------- P(D|θ=0)P(θ=0) + P(D|θ=1)P(θ=1) Prior informatie: P(H 0 ) = P(θ=0) Posterior informatie: P(H 0 |D) Hoe verandert de prior in the posterior door de data? Posterior prior Bayesiaanse statistiek

Voordelen Sluit beter aan bij onze natuurlijke manier van formuleren van een probleem en kennis vermeerdering Nadelen Verkrijgen van prior informatie prior kennis is verschillend voor verschillende experts: verschillende priors kunnen tot verschillende conclusies leiden Bayesiaanse statistiek

Kenmerkend: Populatie parameters (bijvoorbeeld effect groottes) zijn random variabelen met onbekende verdelingen. Dus niet vast!!! Men praat over priors: P(H 0 ) and P (H 1 ) Test procedure: Hoe onwaarschijnlijk is H 0 gegeven de data: P (H 0 |D)? In hoeverre bevestigt de data H 1 : P(H 1 |D)? Schatten: 95% Betrouwbaarheidsinterval De kans dat de ware effect grootte in het interval ligt is 95% Bayesiaanse statistiek

36 Samenvatting: hoe moeten we toetsresultaten interpreteren? Het niet verwerpen H 0 betekent niet: H 0 waar, maar wel: onvoldoende bewijs tegen H 0 Het betrouwbaarheidsinterval geeft aan of niet signficantie ook ondersteuning van H 0 betekent. Power berekeningen zijn essentieel bij study design, maar niet voor het bepalen of niet-significante resultaten H 0 ondersteunen; daarvoor hebben we het betrouwbaarheidsinterval

37 Samenvatting: hoe moeten we toetsresultaten interpreteren? Toetsresultaten zeggen niets over de kans dat H 0 of H 1 waar is, maar wel iets over de kans dat we de steekproefuitkomsten hebben (of extremer) gegeven de hypothese: P(data|H 0 ) is niet P(H 0 |data) (bayesiaans) Bepalen van klinische relevantie is verschillend van bepalen van statistische significantie: Schatten van effect groottes is zeer belangrijk, en verschillend van statistisch toetsen! De alternatieve hypothese is niet hetzelfde als een wetenschappelijke theorie H 0 is slechts een hypothese

Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten?

Verwante presentaties

Presentatie over: "Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten?"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten?

Verwante presentaties

Presentatie over: "Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, 12-13 uur 16 april : Hoe interpreteren we toetsresultaten?"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback