P-waarde versus betrouwbaarheidsinterval Hans Burgerhof Epidemiologie UMCG
Uit de literatuur (random van Internet) In the presence of 10 μg of CTB, a dose-dependent antibody response was observed, with larger amounts of EcMSP4/5 inducing higher levels of antibodies; however, the difference was not statistically significant (P value, >0.05, as determined by analysis of variance) due to the small numbers of animals in the groups.
Onderwerpen Wat is een P-waarde? Wat is een betrouwbaarheidsinterval? Wat is de relatie? Wat is het verschil?
Inleiding toetsen We willen onderzoeken of een nieuw middel een beter effect op de longfunctie heeft dan een standaardmiddel bij een goed gedefinieerde groep patiënten. Randomized Clinical Trial (RCT) Responsievariabele: continue Y (FEV1 of verschil FEV1 op t1 – FEV1 op t0 ?) als voorbeeld Nulhypothese : μ1 = μ2 (of μ1 - μ2 = 0) tegen het tweezijdige alternatief We willen een nulhypothese toetsen en komen uit bij een beslissingsprobleem: H0 verwerpen of H0 accepteren
Beschrijvende statistiek
De toets Aannemende dat aan de voorwaarden van de t-toets (normale verdeling, gelijke varianties, onafhankelijke waarnemingen) is voldaan berekenen we Waarin sp de gepoolde standaarddeviatie is
Independent t-test (SPSS) Dit is de P-waarde van de t-test (tweezijdig)
Bijbehorende eenzijdige P-waarde Gevonden t-waarde: -2,6
Bijbehorende tweezijdige P-waarde Gevonden t-waarde: -2,6
Definitie P-waarde De P-waarde is de kans op de in de steekproef gevonden waarde of nog extremer, onder de aanname dat de nulhypothese juist is Een kleine P-waarde maakt de nulhypothese ongeloofwaardig P ≤ α: verwerp H0 P > α: accepteer H0 α is het significantieniveau, of de onbetrouwbaarheid, van de toets, meestal geldt α = 0,05
Fouten van eerste en tweede soort Beslissing H0 waar H0 niet waar Werkelijkheid OK Fout van de eerste soort, kans hierop: α Fout van de tweede soort, kans hierop: β
Fouten van eerste en tweede soort Beslissing H0 waar H0 niet waar Werkelijkheid OK Fout van de eerste soort, kans hierop: α Fout van de tweede soort, kans hierop: β OK, power met kans 1 - β
Voorbeeld power H0: μ = 115 tegen H1: μ = 118
Als n groter wordt … … neemt je power toe. Als er echt een verschil is, heb je meer kans om dat ook aan te tonen … wordt je onderzoek betrouwbaarder; het BI zal smaller worden
Vermelding P-waarde In sommige artikelen tref je aan P > 0,05 of P < 0,01 of slechts ns, * , ** of *** Informatiever is vermelding van de P-waarde zelf: P = 0,087 geeft een ander beeld dan P = 0,87 Mogelijke vuistregel: als P > 0,20: gebruik twee decimalen, anders drie. Minimum: P < 0,001
Inleiding schatten Bij schatten willen we van een onbekende parameter in de populatie een indruk hebben door middel van een puntschatting (één getal) of een betrouwbaarheids-interval BI (Engels: Confidence Interval, CI) Meest gebruikte % betrouwbaarheid: 95 % Een 95 % BI geeft een gebied waarin met 95 % betrouwbaarheid de onbekende populatieparameter ligt
Vervolg schatten In ons voorbeeld willen we het verschil in gemiddelden van FEV1 tussen de twee groepen schatten Het verschil wordt geschat op (afgerond) 0,55 l. Het 95 % BI is [ 0,13 , 0,97 ]
Relatie toetsen en schatten van verschillen Als de tweezijdige toets voor de nulhypothese van geen verschil significant is bij een α = 0,05, dan zal het 95 % BI de waarde 0 niet bevatten Als de tweezijdige toets voor de nulhypothese van geen verschil niet significant is bij een α = 0,05, dan zal het 95 % BI de waarde wel 0 bevatten Dit geldt in zijn algemeenheid (mutatis mutandis) voor een tweezijdige toets op niveau α en een 100*(1-α) % BI Het BI is de verzameling van niet-verworpen nulhypothesen
In een plaatje (1) 95 % BI voor het verschil in gemiddelden 0,97 0,13 0,13 Puntschatting 0,55 Hier is de tweezijdige toets met α = 0,05 significant (0 zit niet in het BI)
In een plaatje (2) 95 % BI voor het verschil in gemiddelden -0,15 0,69 -0,15 0,69 Puntschatting 0,27 Hier is de tweezijdige toets met α = 0,05 niet significant (0 zit wel in het BI)
Verschil P-waarde en BI (1) Statistische significantie is niet hetzelfde als klinische relevantie Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P = 0,003 Toets 1: 95 % BI = [ 0,12 , 0,28 ] Toets 2: 95 % BI = [ 0,78 , 1,22 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde: 0,2 Gemiddelde: 1,0
Verschil p-waarde en BI (2) “Absence of evidence is not evidence of absence” Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P > 0,05 Toets 1: 95 % BI = [ - 0,22 , 0,28 ] Toets 2: 95 % BI = [ - 0,08 , 1,28 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde 0,03 Gemiddelde 0,6
Algemene Conclusies Er is een relatie tussen tweezijdige toets en BI: ligt de te toetsen waarde niet in het BI dan wordt de nulhypothese verworpen Het BI geeft ons gedetailleerdere informatie dan de P-waarde en heeft daarom over het algemeen de voorkeur (geef eventueel meerdere BI’s (90%, 95%, 99%)) Voordeel P-waarde: eenvoudig aan te passen aan andere α