Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Het doel en de grondbeginselen van statistiek Basisbegrippen van hypothesetoetsing: nulhypothese en alternatieve hypothese Steekproefomvang Bias (vertekening) Type I- en type II-fout Significantie ‘Power’ (onderscheidend vermogen) Betrouwbaarheidsintervallen Typen onderzoeksopzet
Wat is hypothesetoetsing? Een statistische hypothese is een aanname over een populatieparameter (een meetbaar kenmerk van een populatie). Hypothesetoetsing is de evaluatie door een onderzoeker om een hypothese te bevestigen of te verwerpen. Een hypothese toetst meestal een willekeurige steekproef uit de populatie. Als de gegevens van de steekproef niet overeenkomen met de statistische hypothese, wordt de hypothese verworpen. Steekproeven moeten representatief zijn voor de populatie, maar hypothesetoetsing op steekproeven kan nooit definitief uitsluitsel geven over een hypothese – het kan alleen aangeven dat deze een bepaalde waarschijnlijkheid heeft om juist of onjuist te zijn. Een hypothese is een voorgestelde aanname voor een verschijnsel die wel of niet waar kan zijn. Hypothesetoetsing is de evaluatie door een onderzoeker om een hypothese te bevestigen of te verwerpen. Men neemt een bestaande hypothese en onderzoekt deze om de waarschijnlijkheid ervan te toetsen of deze juist of onjuist is. Hypothesetoetsing onderzoekt meestal een willekeurige steekproef uit de populatie. De geselecteerde steekproeven kunnen sterk variëren afhankelijk van hoe representatief ze voor de populatie zijn. Daarom kan een steekproef nooit definitief uitsluitsel geven over een hypothese maar kan deze alleen aangeven dat deze een bepaalde waarschijnlijkheid heeft om juist of onjuist te zijn. Hypothesetoetsing wordt uitgevoerd om vast te stellen welke uitkomsten van een onderzoek zouden leiden tot verwerping van de ‘nulhypothese’ of tot acceptatie van de ‘alternatieve hypothese’. De nulhypothese en de alternatieve hypothese worden van elkaar onderscheiden aan de hand van twee conceptuele typen fouten (type I en type II). 3
Nulhypothese en alternatieve hypothese Nulhypothese (H0) - geformuleerd om onze huidige situatie vast te leggen. Een nulhypothese in een klinisch onderzoek kan zijn dat het nieuwe geneesmiddel niet beter is dan de huidige behandeling. Alternatieve hypothese (H1) - geformuleerd om vast te leggen wat we met het onderzoek willen aantonen. Een alternatieve hypothese in een klinisch onderzoek kan zijn dat het nieuwe geneesmiddel beter is dan de huidige behandeling. Deze twee hypothesen moeten zodanig zijn opgesteld dat ze elkaar uitsluiten. Dat wil zeggen dat als de ene juist is, de andere onjuist moet zijn. Wanneer we een hypothese toetsen, dan toetsen we of de hypothese (alternatieve hypothese) waarschijnlijker is dan de bestaande hypothese (nulhypothese). Bij hypothesetoetsing gaan we ervan uit dat de nulhypothese juist is tot kan worden bewezen dat de alternatieve hypothese juist is. 4
Nulhypothese is onjuist Type I- en type II-fout Nulhypothese is juist Nulhypothese is onjuist De nulhypothese verwerpen Type I-fout Foutpositief Juiste uitkomst Echt positief De nulhypothese kan niet worden verworpen Echt negatief Type II-fout Foutnegatief Het proces van besluitvorming tussen de nulhypothese en de alternatieve hypothese wordt ondersteund door twee conceptuele typen fouten (type I en type II) te identificeren: Type I - wanneer u ten onrechte veronderstelt dat u de nulhypothese kunt verwerpen en dat de alternatieve hypothese juist is. Dit wordt ook een foutpositief resultaat genoemd. Type II - wanneer u ten onrechte veronderstelt dat u de alternatieve hypothese kunt verwerpen en dat de nulhypothese juist is. Dit wordt ook een foutnegatief resultaat genoemd. Bij het onderscheiden van de twee hypothesen moeten ook specifieke grenzen (bijv. hoeveel type I-fouten worden toegestaan) worden vastgesteld. De kans dat een toets een type I-fout maakt, wordt weergegeven door een α (alfa), terwijl de kans op een type II-fout wordt weergegeven door de Griekse letter β (bèta). Dit getal is gerelateerd aan de ‘power’ (onderscheidend vermogen) van de hypothesetoets, weergegeven door 1 – bèta. 5
Steekproefomvang De steekproefomvang is het totale aantal deelnemers dat vereist is voor een onderzoek. Deze wordt gebaseerd op de principes van statistische hypothesetoetsing. Omvang van het verwachte effect Variabiliteit in de variabelen die worden geanalyseerd Gewenste waarschijnlijkheid De steekproefomvang is een groep individuen in een populatie. In een klinisch onderzoek zou deze het totale aantal patiënten zijn dat voor het onderzoek vereist is. Dit aantal is een belangrijk kenmerk van een onderzoek dat als doel heeft om uit een steekproef conclusies te trekken over een populatie. Om vertrouwen te hebben dat de onderzoeksresultaten representatief zijn, is het cruciaal dat elke onderzoeksgroep een toereikend aantal, willekeurig geselecteerde deelnemers omvat. In de praktijk wordt de steekproefomvang die in een onderzoek wordt gebruikt, gebaseerd op: 1) de omvang van het verwachte effect; 2) de variabiliteit in de variabelen die worden geanalyseerd; 3) de gewenste waarschijnlijkheid dat de nulhypothese terecht kan worden verworpen wanneer deze onjuist is. 6
Steekproeffout Een willekeurig voor een onderzoek geselecteerde steekproef hoeft niet representatief te zijn voor de echte populatie. Door in het onderzoek grotere steekproeven te gebruiken kan de ernst van de steekproeffout worden verminderd. In de statistiek kan er een steekproeffout optreden wanneer de kenmerken van een populatie worden geschat op basis van een subgroep, of steekproef, van die populatie. Aangezien de steekproef niet alle leden van een populatie omvat, zullen de statistische gegevens van de steekproef verschillen van de parameters die voor de gehele populatie worden beoordeeld. Als men bijvoorbeeld de bloeddruk meet van honderd personen uit een populatie van één miljoen, dan zal de gemiddelde waarde voor de bloeddruk niet gelijk zijn aan de gemiddelde waarde voor die hele populatie van één miljoen. Omdat een steekproef meestal wordt genomen om de kenmerken van een populatie te bepalen, wordt het verschil tussen de steekproef en de populatie als een steekproeffout beschouwd. De ernst van de steekproeffout kan worden verkleind door meer personen in de steekproef op te nemen. 7
Bias (vertekening) Bias (vertekening) is de opzettelijke of onopzettelijke aanpassing van de opzet en/of uitvoering van een klinisch onderzoek en van de analyse en beoordeling van de gegevens die de resultaten kan beïnvloeden. Een voorbeeld van bias: wanneer een arts patiënten onderzoekt, oordeelt hij/zij gunstiger bij patiënten die het werkelijke geneesmiddel in plaats van de placebo krijgen. Bias kan verschillende oorzaken hebben: niet-representatieve steekproeven - een goede steekproef moet representatief zijn, d.w.z. elke steekproef moet de eigenschappen van een bekende populatie vertegenwoordigen. De bias die voortkomt uit een niet-representatieve steekproef, wordt selectiebias genoemd. meetfout - een slecht uitgevoerde meting kan ook tot bias leiden. In de statistiek is een fout geen vergissing maar kan bias veroorzaken. Steekproefbias - is een vorm van bias waarbij een steekproef zodanig wordt samengesteld dat sommige leden van de beoogde populatie een kleinere kans hebben te worden opgenomen dan anderen. 8
Significantieniveau Het significantieniveau is de waarschijnlijkheid dat een type I-fout wordt gemaakt. Factoren die het significantieniveau beïnvloeden zijn: De ‘power’ (onderscheidend vermogen) van de toets; de steekproefomvang. Significant betekent aanzienlijk, maar in de statistiek betekent ‘significant’ dat het waarschijnlijk juist is (niet berustend op toeval) en betekent het niet (per se) dat het erg belangrijk is. Een wetenschappelijke bevinding kan juist zijn zonder (klinisch) belangrijk te zijn. Significantie wordt uitgedrukt als een getal dat een waarschijnlijkheid weergeeft en dit getal kan een foutenmarge zijn. Er zijn enkele factoren die het significantieniveau beïnvloeden, zoals: de ‘power’ van de toets (hoe conservatiever – lager – het significantieniveau, hoe lager de ‘power’); de steekproefomvang: hoe groter de steekproefomvang, hoe zekerder het kan zijn dat de uitkomst een werkelijke afspiegeling van de populatie is. 9
‘Power’ (onderscheidend vermogen) De waarschijnlijkheid om geen type II-fout te maken, wordt de ‘power’ van de hypothesetoets genoemd. Factoren die de ‘power’ kunnen vergroten: een grotere steekproef; een hoger significantieniveau. De ‘power’ of gevoeligheid (sensitiviteit) van een statistische toets is de waarschijnlijkheid dat deze terecht de nulhypothese (H0) verwerpt wanneer deze onjuist is. De ‘power’ kan ook worden beschouwd als de waarschijnlijkheid dat de alternatieve hypothese (H1) terecht wordt geaccepteerd wanneer deze juist is - dat wil zeggen, het vermogen van een toets een effect waar te nemen als het effect ook echt bestaat. Er zijn factoren die de ‘power’ van de toets kunnen vergroten: Steekproefomvang: ‘power’-analyse kan worden gebruikt om de minimale steekproefomvang te berekenen die nodig is om met redelijke waarschijnlijkheid een effect van een bepaalde grootte waar te nemen. Ervan uitgaande dat andere zaken gelijk zijn, geldt hoe groter de steekproefomvang, hoe groter de ‘power’ van de toets. Significantieniveau: hoe hoger het significantieniveau, hoe hoger de ‘power’ van de test. Als u het significantieniveau verhoogt, verkleint u de spreiding van de waarden die ertoe leiden dat de nulhypothese wordt geaccepteerd. Het resultaat hiervan is dat de kans groter is dat u de nulhypothese verwerpt. Dit betekent dat de kans kleiner is dat u de nulhypothese accepteert wanneer deze onjuist is, d.w.z. dat het minder waarschijnlijk is dat u een type II-fout maakt. En dus is de ‘power’ van de test toegenomen. 10
Betrouwbaarheidsinterval Het ‘betrouwbaarheidsinterval’ wordt gebruikt om de mate van onzekerheid uit te drukken van een statistische grootheid. Type I- en type II-fouten maken deel uit van het proces van hypothesetoetsing. Hoewel de fouten niet volledig kunnen worden geëlimineerd, kunnen we de kans op een type I-fout wel minimaliseren. Een betrouwbaarheidsinterval is een maat voor de schatting. Het is een geschat waardenbereik waarbinnen waarschijnlijk de populatieparameter valt die wordt berekend. In plaats van de gemiddelde leeftijd van een populatie op bijvoorbeeld 15 jaar te schatten, zeggen we dat de gemiddelde leeftijd ligt tussen 14 en 16 jaar. Dit betrouwbaarheidsinterval bevat de enkelvoudige waarde die we schatten en geeft een bredere marge dat deze juist is. De kans dat de populatieparameter binnen het betrouwbaarheidsinterval valt, wordt het betrouwbaarheidsniveau genoemd. 11
Veelgebruikte hypothesetoetsen Er zijn diverse typen statistische toetsen die voor hypothesetoetsing kunnen worden gebruikt: z-toets: gebruikt om een hypothese te toetsen over een populatiegemiddelde wanneer de populatiespreiding bekend is; t-toets: geeft aan of er een significant verschil is tussen twee sets gegevens; chi-kwadraat-toets: wordt gebruikt om vast te stellen of twee variabelen gerelateerd zijn. Het doel van hypothesetoetsing is de kans vaststellen dat een hypothese waarschijnlijk juist is. Hypothesetoetsing kent vier stappen: opstellen van de hypothesen; de criteria voor een beslissing vaststellen; de toets statistisch berekenen; een beslissing nemen. Er zijn diverse typen statistische toetsen die voor hypothesetoetsing kunnen worden gebruikt: z-toets: deze vergelijkt de gemiddelden van de steekproef en de populatie om vast te stellen of er een significant verschil is. Deze toets vereist een eenvoudige willekeurige steekproef van een populatie met een normaalverdeling en waarvan de variatie bekend is; t-toets: geeft aan of er een significant verschil is tussen twee sets gegevens of dat het gemiddelde van een set gegevens significant verschilt van een voorspelde waarde. Voor deze toets moeten de gegevens normaal verdeeld zijn; chi-kwadraat-toets: wordt gebruikt om vast te stellen of twee variabelen gerelateerd zijn. Chi-kwadraat geeft aan of er een groot verschil bestaat tussen verzamelde gegevens en verwachte gegevens. 12