Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk, Doel: Informeren over statistiek in klinisch onderzoek, Tijd: Derde.

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Voorraadwaardering Technische en economische voorraad FIFO methode
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Welke eis stel je aan de ondergrond als je aan uitwendige hartmassage begint Dat deze hard is.
Toetsen van verschillen tussen twee of meer groepen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Aflezen van analoge en digitale meetinstrumenten
Inleiding tot inferentie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
De stand van zaken in Enkele cijfers - verneveling Rond de flesjes per jaar verstrekt aan alle deelnemers …….en even zoveel naalden, spuiten.
UNILEVER BELGIUM Aandelenoptieplan.
M3F-MATEN - Tijd en Snelheid
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Verbinden, stimuleren & ontwikkelen 1 ESF informatiebijeenkomst 24 november 2010 Arie Visser Projectleider ESF.
Minder angst bij kanker
P-waarde versus betrouwbaarheidsinterval
REKENEN.
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 6: Controle structuren
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Lineaire functies Lineaire functie
De grafiek van een lineair verband is ALTIJD een rechte lijn.
Gegevensverwerving en verwerking
Non-parametrische technieken
Inferentie voor regressie
Afhankelijkheidstabellen
Schatter voor covariantie
Metingen met spreiding
Eenzijdige Betrouwbaarheidsgrens
Continue kansverdelingen
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Tussentijds Toetsen als Leerstrategie Dirkx, K.J. H., Kester, L., Kirschner, P.A.
Toetsen als Leerinterventie. Samenvatten in het Testing Effect Paradigma. Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner CELSTEC, Open Universiteit.
Populatiegemiddelden: recap
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Interpretatie van statistiek bij toetsen en toetsvragen
Varianties bij replicatie (herhaald testen)
Gebruik grafische rekenmachine bij M&O via de TVM-solver
Inhoud college Bespreken opdracht Lijnbalancering: TPM
Inhoud college Lijnbalancering Comsoal Random Sequence Generation
Baarde en de goede Hoofdstuk 11: Data-analyse
Het optimale design versus de weerbarstige praktijk Prof. Dr. Jan Busschbach
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk, Doel: Informeren over statistiek in klinisch onderzoek, Tijd: Derde woensdag in de maand, 12-13 uur 16 december Interim analyses 20 januari Meta-analyse van diagnostische studies 17 februari Sprekers: Sacha la Bastide, Hans Burgerhof, Vaclav Fidler www.EpidemiologyGroningen.nl

Interim analyses Waarom een interim analyse? Opfrissen begrippen significantieniveau, power, fouten van de eerste en tweede soort Correctie voor multiple testing bij interim analyses Stopregels van Pocock, O’Brien en Fleming, en Snapinn Adaptive designs

Interim analyse: wat en waarom? Wat is een interim analyse? Een tussentijdse analyse, vaak bij gerandomiseerde studies, om te kijken of er reden is de studie te stoppen of aan te passen. Waarom wordt een interim analyse uitgevoerd? - Indien reeds bekend is dat de ene methode beter werkt dan de andere, is het onethisch om nog langer patiënten met de inferieure merhode te behandelen. - als parameters verkeerd geschat zijn kan de studieopzet gewijzigd worden. - verschil in bijwerkingen? Wat is het probleem? Bij vaker toetsen verandert het overall significantieniveau.

Fouten van eerste en tweede soort bij het uitvoeren van een statistische toets Hebben middel A en B gemiddeld dezelfde bloeddrukverlaging tot gevolg (BDL)? H0: gemiddelde BDL bij middel A = gemiddelde BDL bij middel B Beslissing H0 waar H0 niet waar Werkelijkheid OK Fout van de eerste soort, kans hierop: α Fout van de tweede soort, kans hierop: β Kans: 1 – β (power) Als α kleiner wordt, wordt β groter. Daarmee wordt de power kleiner.

Het klassieke probleem van de multiple testing Bij een statistische toets hanteren we significantieniveau α (in de regel 0,05). Dat wil zeggen dat we een kans ter grootte van α accepteren om ten onrechte de nulhypothese te verwerpen. Wat betekent het uitvoeren van meerdere toetsen voor de totale kans om minstens één nulhypothese ten onrechte te verwerpen (als alle nulhypothesen waar zijn)? Kanskapitalisatie!

Onafhankelijke toetsen Als we n onafhankelijke toetsen uitvoeren, elk met een α = 0,05, geldt voor de kans om minstens éénmaal ten onrechte een H0 te verwerpen: Aantal toetsen n overall alpha 3 0,143 10 0,401 100 0,994

Overall alfa bij interim analyses Tussentijdse toetsen en de eindtoets zijn niet onafhankelijk van elkaar (we gebruiken deels dezelfde informatie). Kernvraag: Hoe controleren we onze overall alfa, in de regel 0,05, terwijl we het onderscheidingsvermogen (0,8 of 0,9) op peil willen houden?

Herhaalde toetsen op cumulerende data Armitage, McPherson en Rowe (1969) Tabellen met overall alfa na herhaald toetsen voor observaties uit de Binomiale, de Normale en Exponentiële verdelingen Ter illustratie rekenen we een voorbeeld na (n patiënten worden behandeld met zowel A als B en moeten een voorkeur aangeven. H0: A = B = 0,5. We toetsen na iedere patiënt).

X~B(n, 0,5) Overall alfa wordt groter, maar minder extreem dan bij onafhankelijke tests

H0:  = 0,5; α = 0,01 tweezijdig (per test): totale kans op verwerpen onder H0= 0,00781 (1) aantal successen voor A 10 9 8 7 6 5 4 3 2 1 X ~ B(8, 0,5) P(X=0) = P(X=8) ≈ 0,0039 Verwerp H0 X ~ B(10, 0,5) P(X1) = P(X9) ≈ 0,0107 Niet verwerpen X~B(n, 0,5) 1 2 3 4 5 6 7 8 9 10 n

daarna nog drie maal een α = 0,03 tweezijdig (per test): totale kans op verwerpen onder H0 = 0,02930 (2) X ~ B(10, 0,5) P(X1) = P(X9) ≈ 0,0107 Verwerp H0 aantal successen voor A 10 9 8 7 6 5 4 3 2 1 X ~ B(7, 0,5) P(X = 0) = P(X= 7) ≈ 0,0078 P(X = 1) bij n =10 = P(X = 1) bij n = 7 en daarna nog drie maal een mislukking: 0,0547*(0,5)³ ≈ 0,0068 1 2 3 4 5 6 7 8 9 10 n Overall ongeveer 2*0,0078 + 2*0,0068 = 0,0292

Voorbeeld met een continue responsievariabele (1) We willen twee groepen vergelijken met betrekking tot een continue, Normaal verdeelde, variabele. De nulhypothese luidt µA = µB, tegen het tweezijdige alternatief. We denken dat de standaarddeviatie in beide groepen 10 is, α = 0,05, β = 0,1 en we willen een verschil tussen de gemiddelden aantonen van 5. De steekproefgroottebepaling leidt tot n = 86 per groep. Verwerp H0 (gemiddelde A is groter) Accepteer H0 Verwerp H0 (gemiddelde B is groter) 86 n

Voorbeeld met een continue responsievariabele (2) Interim analyse bij 2 maal 43 deelnemers, beide toetsen op α = 0,05. Totale alfa ≈ 0,085 Power bij 2 * 43 is 0,63 Pas de procedure aan, zodanig dat overall alfa = 0,05 en de power behouden blijft α per toets omlaag, dus n moet omhoog Verwerp H0 (gemiddelde A is groter) Accepteer H0 Verwerp H0 (gemiddelde B is groter) Verwachte n gaat omlaag! 43 86 n

Normaal verdeelde data Advies van Armitage, McPherson en Rowe: voor een overall alfa = 0,05 Aantal testen alfa per toets 1 0,050 5 0,015 10 0,010 15 0,008 20 0,007 Hoeveel toetsen moeten we uitvoeren?

Pocock: Groep sequentieel design overall α = 0,05, β = 0,1, variantie ², µ1 - µ2 =  Aantal testen (k) Benodigd aantal Totaal maximaal Gemiddeld onder alfa per per test (n) (kn) HA test ___________________________________________________________________ 1 42,04 42,04 42,04 0,050 2 23,12 46,24 32,60 0,029 3 16,11 48,33 30,29 0,022 4 12,43 49,72 29,33 0,018 5 10,14 50,70 28,80 0,016 10 5,35 53,50 28,03 0,0106 20 2,79 55,80 27,98 0,0075 aantallen vermenigvuldigen met (/)² Grootste winst te behalen met één interim analyse. Nauwelijks meerwaarde bij vaker dan vijf maal toetsen.

Continu sequentieel toetsen Gedachte: na iedere beoordeelde patiënt opnieuw toetsen Theoretische en praktische problemen Organisatorisch lastig (trial moet ieder moment stop gezet kunnen worden) Responsie soms een hele tijd na interventie Groep sequentieel toetsen bijna even effectief (in termen van gemiddeld aantal patiënten) Continu sequentieel toetsen alleen uitvoeren als in een vroeg stadium een groot effect niet uitgesloten is

O’Brien en Fleming / Peto variabele alfa voor de toetsen Minimalisatie van het verwachte aantal benodigde patiënten onder een gegeven alternatief voor het vijf toetsen design Power test 1 test 2 test 3 test 4 test 5 _______________________________________ 0,5 0,0002 0,004 0,010 0,018 0,042 0,75 0,003 0,011 0,016 0,019 0,031 0,9 0,010 0,017 0,017 0,017 0,021 0,95 0,015 0,016 0,016 0,016 0,017 Peto: alle interim analyses op 0,001 eindtoets op 0,05

Voorbeelden van alfa spending functies (DeMets en Lan in Statistics in Medicine, 1994)

Éénzijdige stopregel van Snapinn Help! Statistiek! dd 18 juni 2008: statistische aspecten van de Probioticastudie. We stoppen bij de interim analyse niet alleen op het moment dat de resultaten significant zijn (kleine P-waarde), maar ook als de een significant verschil op het eind van de studie niet langer te verwachten is (grote P-waarde). Voordeel: eindtoets kan op “normale” alfa getoetst worden; berekenen van betrouwbaarheidsintervallen op standaard wijze. Bij de overige stopregels moet een aanpassing plaats vinden voor de berekening van de betrouwbaarheids- Intervallen. Mogelijke software: EaSt (Cytel Software), PEST (John Whitehead) en S Plus Seq Trial.

Schematisch overzicht van de stopregel van Snapinn verschil Stop, verwerp H0 Ga door Stop, accepteer H0 n Interim analyse Onafhankelijke gedeblindeerde commissie!

Adaptive designs Als tijdens een interim analyse blijkt dat zaken anders liggen dan verwacht (aan te tonen verschil kleiner dan gedacht / gehoopt, spreiding groter dan in het verleden) kan het wenselijk zijn het design aan te passen Grotere n Aangepast randomisatieschema Om het significantieniveau te handhaven wordt de test statistic aangepast

Tsiatis en Metha (2003) Voorbeeld van aanpassing t-toets voor onafhankelijke groepen

Elk voordeel heb z’n nadeel De aldus bepaalde test statistic is geen “sufficient statistic”, en daarmee is de toets niet optimaal. Tsiatis en Metha: On the inefficiency of the adaptive design for monitoring clinical trials (2003) For any adaptive design, one can always construct a standard group-sequential test based on the sequential likelihood ratio test that, for any parameter value in the space of alternatives, will reject the null hypothesis earlier with higher probability, and, for any parameter not in the space of alternatives, will accept the null hypothesis earlier with higher probability.

Jennison en Turnbull (2006) Nuancering: het is mogelijk om met adaptive designs een kleine winst te behalen (“However, similar improvements are often achieved by nonadaptive designs with one extra analysis, avoiding the administrative complications of a preplanned adaptive design.”) Goede voorbereiding van een studie blijft bijzonder belangrijk!

Gebruikte literatuur Armitage, McPherson en Rowe (1969): Repeated Significance tests on Accumulating Data, Journal of the Royal Statistical Society, Series A, 132, 235 – 244 Pocock (1982): Interim Analyses for Randomized Clinical Trials: The Group Sequential Approach, Biometrics 38, 1153 – 162 Pocock (1983) Clinical trials, A Practical Approach, John Wiley & sons Schouten, HJA (1994) Klinische Statistiek Tsiatis en Mehta (2003): On the inefficiency of the adaptive design for monitoring clinical trials, Biometrika 90, 367 – 378 Tweel, I, van der (2004): Applications and efficiency of sequential tests in matched case-control studies Jennison en Turnbull (2006): Adaptive and nonadaptive group sequential tests, Biometrika 93, 1 – 21 Letter from the editor (BMJ Clinical Evidence). Interim analysis: its uses and limitations, Augustus 2007

Meta-analyse van diagnostische studies Volgende keer 20 januari 2010 12 – 13 uur Rode Zaal Meta-analyse van diagnostische studies