Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Inleiding tot inferentie
Statistiek II Deel 1.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Math Candel Universiteit Maastricht. 1.Heldere en haalbare probleemstelling 2.Keuze van het design 3.Keuze van onderzoeks/analyse-eenheid 4.Operationalisatie.
H 27: Kostprijs bij homogene productie.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Haal meer uit je Hersenen masterclass wiskunde
Hoofdstuk 3 – Gegevens verzamelen
Beschrijvende en inferentiële statistiek
Inhoud bijeenkomst 1 Doel- en vraagstelling Conceptueel model
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
Als de som en het verschil gegeven zijn.
Experimenteel Design Prof. Dr. S. Van Dongen
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Hypothese toetsen We hebben de volgende situatie.
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Twee-factor Variantie-analyse
Inferentie voor regressie
Schatter voor covariantie
Metingen met spreiding
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Een fundamentele inleiding in de inductieve statistiek
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Populatiegemiddelden: recap
Effect modificatie Algemeen principe Bepalen van effect modificatie
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Meetonzekerheden In de natuurkunde moet je vaak een grootheid meten
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Tweedegraadsfuncties
Begrippen hoofdstuk 3.
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
GELIJKNAMIGE BREUKEN les 31.
24 april 2008 | 1 › / Henk Druiven Repository-gebruikersdag donderdag 24 april 2008.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Standaard normaalverdeling
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Toetsen van verschillen tussen twee of meer groepen
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” 20 juni: “Logistische regressie” 19 september: ”Survival analyse” 17 oktober: “Over proefopzet en steekproefgrootte” 21 november “Hoe gaan we om met ontbrekende waarnemingen?” Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

Programma Wat is “power” ook al weer? Hoe hangt dat samen met de steekproefgrootte? Enkele voorbeelden van steekproefaantallen onder verschillende designs Het “design effect”

Vergelijken van twee groepen Bij een onderzoek naar gewichtsafname bij personen met obesitas willen we weten of het geven van gestructureerde voorlichting in combinatie met een dieet betere resultaten geeft dan het dieet alleen. Hoeveel proefpersonen hebben we nodig? (uitgaande van een normale verdeling van de gewichten)

Eerst even terug naar de theorie: Statistisch toetsen (één steekproef) Nulhypothese H0: µ = 115 mm Hg Alternatief H1: µ > 115 mm Hg (bv 118) Kies α (meestal 0,05) Verzamel je gegevens (n stuks) Bereken het steekproefgemiddelde en de sd Trek je conclusie (verwerp H0 of accepteer H0)

Fouten van eerste en tweede soort Beslissing H0 waar H0 niet waar Werkelijkheid OK Fout van de eerste soort, kans hierop: α Fout van de tweede soort, kans hierop: β

Fouten van eerste en tweede soort Beslissing H0 waar H0 niet waar Werkelijkheid OK Fout van de eerste soort, kans hierop: α Fout van de tweede soort, kans hierop: β OK, power met kans 1 - β

De kleur van de power is … Geel!

Toetsen van twee gemiddelden H0: µ1 = µ2 of H0: µ1 - µ2 = 0 of δ = 0 H1: µ1 ≠ µ2 of H1: δ ≠ 0 Kies α (meestal 0,05) Verzamel je gegevens (per groep n) Bereken de steekproef gemiddelden en de sd’s Trek je conclusie (verwerp H0 of accepteer H0) NB: statistische significantie is niet hetzelfde als klinische relevantie!

Hoe groot moet n (per groep) zijn? Hangt af van α (hier eenzijdig) Hangt af van β Hangt af van de spreiding σ (of s) Hangt af van het aan te tonen verschil d 1 / effectsize

Ons voorbeeld Gewichtsafname bij obesitas Na dieet gemiddeld 10 kg (standaardbehandeling) We denken dat de gestructureerde voorlichting 2 kg extra afname geeft α = 0,05, eenzijdig power = 90 % Op grond van eerder onderzoek: s = 3 kg

Andere responsievariabele Als we niet zouden kijken naar de continue variabele “gewichtsafname”, maar naar “wel of niet meer dan 10 kg afgevallen”, hoeveel respondenten hebben we dan nodig? Uitgaande van dezelfde gegevens (in groep 1 is het gemiddelde 10 kg, dus de kans om meer dan 10 kg af te vallen is 0,5; in groep 2 verwachten we een gemiddelde van 12 kg, met een sd van 3 kg geeft dit een proportie van 0,75 boven de 10 kg): H0: π1 = π2 = 0,5 H1: π1 = 0,5 en π2 = 0,75

Formule voor proporties α = 0,05 (éénzijdig), power = 0,9 Ongeveer 60 personen per groep! Dus ongeveer 1,5 maal zo veel als bij de continue responsievariabele Als de grens bij 9 kg wordt genomen blijken er per groep 53 personen nodig

Meerdere verklarende variabelen Waarnemen van mogelijke confounders Matching Analytisch Reductie van de spreiding!

Ongecorrigeerde analyse: de t-toets

Gecorrigeerd voor leeftijd (lineaire regressie)

(on)verklaarde variabiliteit van Y de zelfde P- waarde als bij de gepoolde T-test Vergelijk de sd’s van de t-toets: 6,0 en 6,5 Reductie onverklaarde spreiding

Meerdere waarnemingen per respondent Eenvoudigste herhaalde waarnemingen model: twee waarnemingen per persoon Respondent dient als eigen controle n nu twee keer zo klein?

Gepaarde waarnemingen continue variabele Per groep! Standaarddeviatie van de verschillen Gepaard onderzoek r = correlatie tussen meting 1 en meting 2

Meerdere waarnemingen Is het beter om proefpersonen vaker te meten of meer proefpersonen te includeren? (bij gelijke kosten) Afhankelijk van de spreidingen binnen en tussen de groepen Afhankelijk van de onderzoeksvraag Multilevel analyse: bij voorkeur meer waarnemingen op het hoogste level (liever meer patienten)

Vergelijk Twee onafhankelijke groepen, aan te tonen verschil van 0,5 sd met α = 0,05 en β = 0,2 (t-toets): 64 per groep Gepaarde t-toets, dezelfde gegevens met correlatie tussen beide metingen r = 0,5: 34 respondenten nodig.

Combineren van meerdere vraagstellingen Achtergrond: Dierexperimenteel onderzoek Is er een effect van factor A? Is er een effect van factor B? Onderzoeksopzet Twee verschillende onderzoeken (twee controlegroepen) Controlegroep, groep met A, groep met B Vier groepen: controle, alleen A, alleen B, zowel A als B One way ANOVA? Two-way ANOVA!

Aantal dieren Twee verschillende onderzoeken: 2n1 + 2n2 Drie groepen: 3k met k = maximum(n1, n2) (of andere opties) Two way ANOVA? Hangt af van de sterkte van de interactie! Factor B 0 (niet) 1 (wel) Factor A Nodig?

Twee afzonderlijke experimenten Twee onafhankelijke experimenten betreffende factor A (effect 1,5 sd) en factor B (geen effect) Simulatie van data: er worden voor experiment A 6 waarnemingen getrokken uit N(20,2) en 6 uit N(23,2) Voor experiment B 2 maal 6 waarnemingen uit N(20,2) Dit wordt 10.000 maal uitgevoerd, bij ieder experiment toetsen we met de t-toets

Resultaten t-testen van de 10.000 simulaties met steeds12 dieren voor experiment A en 12 voor B: 6543 significant voor A, 510 voor B Dit komt goed overeen met de theorie: de power is ± 65 % bij een verschil van anderhalve sd en een α = 0,05 (factor A) en als er geen effect is (factor B) verwacht je in 5 % van de gevallen ten onrechte de nulhypothese te verwerpen

Simulaties met twee factoren in één proefopzet (zonder interactie) Data gesimuleerd volgens een additief model (effecten van factor A en B zijn geheel onafhankelijk van elkaar) Gesimuleerd worden data uit een normale verdeling met gemiddelden: Factor B = 0 Factor B = 1 Factor A = 0 µ µ + b Factor A = 1 µ + a µ + a + b en dezelfde standaarddeviatie

ANOVA zonder toets op interactie, 10.000 toetsen Aantal per cel: Aantal significante tests voor factor A (1,5 sd) Aantal significante tests voor factor B (geen effect) n=4 (totaal 16) 7908 498 n=5 (totaal 20) 8880 502 n=6 (totaal 24) 9398 495 Bij een t-toets met 2x8 is de power 80% Vergelijk power t-toets: 65 % (n=2x6)

Idem, effect A is 1,5 sd, effect B is 1 sd Aantal per cel: Aantal significante tests voor factor A Aantal significante tests voor factor B n=4 (totaal 16) 7878 4532 n=5 (totaal 20) 8849 5556 n=6 (totaal 24) 9402 6463 Power t-test bij n = 2*6 = 12 factor A: 65 % (dus totaal 24) factor B: 35 %

Testen met interactie Eerst kijken naar de test van de interactie: als deze significant is zijn de hoofdeffecten niet meer los te interpreteren. (Het verschil tussen de diëten is anders voor mannetjes dan voor vrouwtjes). Als er in werkelijkheid geen interactie is, zul je in ongeveer 5 % van de gevallen ten onrechte toch een interactie constateren Als er wel een interactie is, zul je dat in twee gescheiden onderzoeken nooit constateren!

Effect A = 1,5 sd, effect B = 1 sd, geen interactie (10.000 maal) Aantal significante tests A Aantal significante tests B Aantal significante interacties n = 4 (totaal 16) 4903 2509 503 n = 5 (totaal 20) 6007 3126 516 n = 6 (totaal 24) 7060 3773 513 Power t-test bij n = 2*6 = 12 factor A: 65 % factor B: 35 %

Vergelijking met de onafhankelijke toetsen Er lijkt slechts een geringe winst in power, maar op het moment dat de interactie niet significant is, toets dan opnieuw, zonder de interactieterm in het model (alhoewel hier in de literatuur geen éénduidigheid over is)

10.000 experimenten met effect A = 1,5 sd, effect b = 0, interactie-effect = 2 sd Aantal significante tests voor A Aantal significante tests voor B Aantal significante tests voor AB n = 4 (totaal 16) 4900 510 4573 n = 5 (totaal 20) 6071 501 5542 n = 6 (totaal 24) 6989 523 6437 Minder power voor het toetsen van de interactieterm (power om 2 sd aan te tonen bij 2 maal 6: 0,88)

Het design effect Als we van een parameter (bijvoorbeeld δ, een verschil tussen gemiddelden) willen toetsen of deze gelijk is aan 0, maken we gebruik van de grootheid Het design effect (deff) van een design is:

Als deff < 1 is dit design efficienter dan het “standaarddesign” Aangezien se = sd/√n, is het benodigde aantal respondenten met dit design gelijk aan het aantal respondenten van het standaard design vermenigvuldigd met het design effect.