Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 20 mei : Statistiek en Ethiek 17 juni : Groeicurven 16 september : Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide www.EpidemiologieGroningen.nl
Overzicht WMO Criteria toetsing Onderzoeksprotocol Onderzoeksvraag en onderzoekspopulatie en onderzoeksopzet en powerberekening en statistische analyses eenzijdige toetsing versus tweezijdige toetsing informed consent: methodologische problemen
Medisch wetenschappelijk Onderzoek WMO de Wet Medisch wetenschappelijk Onderzoek met mensen Heeft betrekking op al het wetenschappelijk onderzoek waarbij proefpersonen aan handelingen worden onderworpen of hen gedragsregels worden opgelegd
Medisch wetenschappelijk Onderzoek WMO de Wet Medisch wetenschappelijk Onderzoek met mensen Regelt de toetsing van onderzoek in de zin van de WMO Onderzoek in de zin van de WMO mag alleen worden uitgevoerd als een erkende toetsingscommissie een positief WMO-oordeel heeft afgegeven voor een onderzoekprotocol erkende toetsingscommissie: Medisch Ethisch Toetsingscommissie: METc
Op basis van Artikel 3 (eerste 4 punten van de 8) Criteria toetsing Op basis van Artikel 3 (eerste 4 punten van de 8) het wetenschappelijk onderzoek leidt tot nieuwe inzichten op het gebied van de geneeskunde Het is niet mogelijk om op een andere, minder ingrijpende manier tot dergelijk inzicht te komen Het belang van het onderzoek staat in redelijke verhouding tot de belasting (bezwaren en risico’s) van de proefpersoon Het onderzoek voldoet aan de eisen van een juiste methodologie
Criteria toetsing Stelling Een slecht opgezet en uitgevoerd onderzoek is niet ethisch. m.b.t. opzet Citaat May W.W., 1975: The composition and function of ethical committees. J. Medical Ethics “one of the most serious ethical problems in clinical research is that placing subjects at risk and injury, discomfort, or inconvenience in experiments where there are too few subjects for valid results, too many subjects for the point to be established, or an improperly designed random or double blind procedure”
Criteria toetsing Niet alleen opzet is belangrijk: Onderzoeksstadia: Planning Design Dataverzameling en invoer/beheer Analyse Interpretaties/conclusies publicatie Methodologie en statistiek spelen een essentiële rol in de wetenschappelijke kwaliteit van onderzoek.
Onderzoeksprotocol Bestaat uit verplichte delen, waaronder: Onderzoeksdoel/onderzoeksvragen Onderzoeksdesign Uitkomstmaten Onderzoeksgroep/powerberekening Statistische analyses WMO-vormvereisten Onderzoeksprotocol: Een contract van de onderzoeker met de groep proefpersonen Template is te downloaden op www.ccmo.nl
Onderzoeksvraag Doelstellingen van het onderzoek Vertaald naar onderzoeksvragen Relatie met statistisch toetsingsprobleem: Formuleren van H0 Formuleren van H1 Uitspraken als “Verwerp H0 ten gunste van H1” of “Verwerp H0 niet” Dit betekent: H1 weerspiegelt de onderzoeksvraag Denk aan falsificatie principe van Popper wetenschappelijke opbrengst / belang
Onderzoeksvraag Doelstellingen van het onderzoek Vertaald naar onderzoeksvragen Relatie met statistisch schattingsprobleem Schatting van effect grootte is doel: Betrouwbaarheidsinterval BI: Welke waarden passen bij (zijn verenigbaar met) de data 95% BI: geschatte effect grootte 2*SE wetenschappelijke opbrengst / belang
Doel en onderzoekspopulatie Definitie van onderzoekspopulatie noodzakelijk Inclusie criteria Exclusie criteria Essentieel om later te generaliseren! Implicaties voor het trekken van conclusies Hoe homogener de onderzoekspopulatie, hoe minder mogelijkheden om te generaliseren Hoe heterogener de onderzoekspopulatie, hoe beter men kan generaliseren Nadeel van heterogene populatie?
Doel en design Doelstellingen van het onderzoek bepaalt het design. Verschillende opsplitsingen in onderzoek mogelijk: Observationeel/interventie studie (karakter) Prospectief/retrospectief (dataverzameling) Pilot studie / bevestigende studie Bij geneesmiddelenstudie fase1 t/m fase 4 studie 3 en 4 : onderscheid naar bewijskracht : wat wil men met het onderzoek bereiken? Relatie met belang van het onderzoek
Doel en design Pilot onderzoek Haalbaarheid (feasibility) Eerste effect schattingen Kenmerken: 1. Nieuwe interventie of diagnostiek met onbekende effecten 2. Kleine aantallen proefpersonen 3. Uitkomstmaten moeten gericht zijn op haalbaarheidsindicatoren en effect maten Powerberekening en hypothese toetsen omtrent effect sizes: niet nodig. Berekening van aantal proefpersonen alleen op basis van betrouwbaarheids-intervallen (precisie van de schattingen)
Doel en design Bevestigende studie Men wil bepalen welke interventie/diagnostisch tool het beste is. Toetsen van een hypothese en op basis daarvan beslissing nemen t.a.v. nieuwe tool Kenmerken: 1. Effect sizes zijn al in een eerdere studie geschat 2. Uitkomstmaten moeten gericht zijn op het meten van effect - primaire uitkomstmaat kiezen 3. Aantal proefpersonen moet via een powerberekening op de primaire effectmaat worden verantwoord Zowel statistische toetsing als betrouwbaarheidsintervallen zijn van belang: klinische en statistische significantie!
Power berekeningen Nodig voor balans tussen klinische relevantie and statistische significantie Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen? Let op : dit hangt samen met de onderzoeksvraag!!! En dus ook met belang van het onderzoek 15
Voorbeeld klinische en statistische significantie Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand RCT: 20 proefpersonen (A:10 ; B:10) Resultaten: Steekproefgemiddelde verlaging voor A :22 Steekproefgemiddelde verlaging voor B : 17 Verschil 5; Standard error : 4 95% Betrouwbaarheidsinterval: 5 2*4 : (-3 ; 13) 16
Voorbeeld klinische en statistische significantie 95% betrouwbaarheidsinterval: 5 2*4 : (-3 ; 13) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar zijn met de data Conclusie??? 17
Voorbeeld klinische en statistische significantie Vergelijking van 2 behandelingen A en B m.b.t. wachttijden palliatieve behandeling voor botmetastasen RCT: 1000 respondents: (A: 500; B: 500) Resultaten Steekproefgemiddelde voor A: 8 dagen Steekproefgemiddelde voor B: 5 dagen Verschil: 3 dagen; Standard error: 0.2 95% betrouwbaarheidsinterval: 3 2*0.2 : (2.6; 3.4) 18
Voorbeeld klinische en statistische significantie 95% betrouwbaarheidsinterval: 3 2*0.2 : (2.6; 3.4) Verzameling van niet verworpen nulhypotheses Verzameling van effect groottes die verenigbaar Zijn met de data Conclusie??? 19
Power: klinische relevantie en statistische significantie Geen significante verschillen, maar wel klinisch relevante verschillen in het betrouwbaarheidsinterval: meer informatie is nodig om conclusies te trekken (voorbeeld 1) Underpowered study Significante verschillen, maar geen klinisch relevante verschillen in het betrouwbaarheidsinterval: de bevindingen hebben geen klinische implicaties; er is teveel informatie (voorbeeld 2). Overpowered study 20
Power berekeningen Nodig voor balans tussen klinische relevantie and statistische significantie Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen? Na keuze toets, geef input: Significantie niveau α Gestandaardiseerde effect grootte (A- B)/ Steekproefgrootte Power (1-β) 21
Power stijgt power stijgt 22 22
Power effect size stijgt power stijgt 23 23
Power n stijgt power stijgt 24 24
Statistische analyse Statistische modellering geeft Schatting van effect sizes Toetsen van hypotheses In onderzoeksprotocol dient een analyseplan te worden opgenomen. Waarom? ? Analyseplan is check op juiste methodologie Dwingt onderzoeker om expliciet na te denken over design, uitkomstmaten en analyse
Eenzijdig en tweezijdig toetsen Gebruikelijk: tweezijdige toetsing Waarom? Als we al zeker zijn van de superioriteit van nieuw experiment, waarom dan experimenteren Objectiviteit : correctie van vooringenomenheid
Eenzijdig en tweezijdig toetsen Wat zijn de argumenten voor eenzijdige toetsing? Minder mensen nodig: dus minder mensen worden belast Minder mensen krijgen de slechtere behandeling Veel onderzoeksvragen zijn eenzijdig, dus waarom tweezijdig toetsen?
Eenzijdig en tweezijdig toetsen Tabel : aantallen per groep; α = 5%; 1- = 80%; t-test Verschil Tweezijdig N1 = N2 Eenzijdig N1 = N2 2:1 randomisatie N1 N2 0.2 0.6 1.0 1.6 2 393 45 17 8 6 310 36 14 4 295 590 34 68 26 6 12 4 8
Eenzijdig en tweezijdig toetsen Minder mensen? Een eenzijdige toets heeft ±0.80 keer zoveel mensen nodig als een tweezijdige toets, met α = 5% (power 80% of 90%). Dus winst is geen factor 2!
Eenzijdig en tweezijdig toetsen Minder mensen krijgen de slechtere (aanname) behandeling Oplossingen: interim analyses 2: 1 randomisatie 2:1 alleen als je voldoende tijd hebt.
Eenzijdig en tweezijdig toetsen Veel onderzoeksvragen zijn eenzijdig Voorbeelden: 1. Bij non-inferiority studies of equivalentie studies: De nieuwe behandeling mag niet slechter zijn De beide behandelingen moeten gelijkwaardig zijn. Marges van gelijkwaardigheid of inferiority worden gegeven. 2. Per definitie additief: voorbeeld uitbreiding diagnostiek 3. Knottnerus & Bouter (2001) Journal of Epidemiology Als de standaard zorg alleen maar aangepast wordt bij het vinden van superioriteit ?????
Eenzijdig en tweezijdig toetsen Voorbeeld Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand RCT: 40 proefpersonen (A:20 ; B:20) Resultaten: Steekproefgemiddelde verlaging voor A : 22 Steekproefgemiddelde verlaging voor B : 17 Verschil 5; Standard error : 3 Test statistic t = 5/3 = 1.7
Bijbehorende eenzijdige P-waarde = 5% 1.645
Bijbehorende tweezijdige P-waarde = 5%
Eenzijdig en tweezijdig toetsen Voorbeeld: A is nieuw middel: Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand Verlaging A :22; Verlaging B: 17; Verschil 5; se: 3 Tweezijdig Eenzijdig H0: µA - µB = 0 H0: µA - µB ≤ 0 H1: µA - µB ≠ 0 H1: µA - µB ≥ 0 Verwerp H0 als t >1.95 Verwerp H0 als t>1.645 of als t <-1.96 Test statistic t = 5/3 = 1.7 Conclusie?
Eenzijdig en tweezijdig toetsen Voorbeeld: B is nieuw middel: Vergelijking van 2 behandelingen A en B m.b.t. bloeddrukverlaging na 1 maand Verlaging A :22; Verlaging B: 17; Verschil -5; se: 3 Tweezijdig Eenzijdig H0: µB - µA = 0 H0: µB - µA ≤ 0 H1: µB - µA ≠ 0 H1: µB - µA ≥ 0 Verwerp H0 als t>1.95 Verwerp H0 als t>1.645 of als t<-1.96 Test statistic t = -5/3 = -1.7 Conclusie?
Eenzijdig en tweezijdig toetsen Wat betekent H0 niet verwerpen? Is H0 dan waar? Een niet significant resultaat betekent niet: bewijs voor de H0! Het betekent : nog niet voldoende informatie! Check zijn er interessante verschillen in het BI? Eenzijdige toetsing: heeft meer power, omdat je minder bewijskracht hoeft te leveren! : tweezijdige toetsing met α = 5% is gelijkwaardig met eenzijdige toetsing met α = 2.5% qua bewijskracht Tweezijdige toetsing: geeft meer informatie in geval van negatieve resultaten.
Eenzijdig en tweezijdig toetsen Gebruikelijk: tweezijdige toetsing Waarom? Als we al zeker zijn van de superioriteit van nieuw experiment, waarom dan experimenteren Objectiviteit : correctie van vooringenomenheid Bewijskracht minstens zo groot als bij eenzijdige toetsing Bij negatieve uitkomst van trial: geen problemen; vandaar kosten effectief Referentie: Moyé & Tita (2002) in circulation : defending rationale for the two tailed Test in Clinical research
Informed consent informed consent is verplicht : niet alleen bij WMO, maar ook bij WGBO. (Wet op de Geneeskundige Behandelingsovereenkomst; Betreft onderzoek met gegevens van patiënten verzameld in kader van klinisch onderzoek) Schriftelijke informatie zodat een goede afweging gemaakt kan worden door de individuele proefpersoon. Schriftelijke toestemming van deelname Proefpersonen onderwerpen zich willens en wetens aan medisch wetenschappelijk onderzoek: persoonlijke integriteit.
Informed consent Methodologische problemen Veel administratieve rompslomp : genereert fouten Kosten en tijd : onderzoek wordt onmogelijk gemaakt Bias als gevolg van selectie van proefpersonen Na informed consent is de behandeling veranderd, en worden de verkeerde onderzoeksarmen vergeleken Oplossingen: uitdaging voor de onderzoekers en methodologen/statistici
Volgende keer 17 juni : Groeicurven Zaal 16