Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 17 maart Corrigeren voor achtergrondvariabelen: Lord’s paradox causaal ontrafeld 21 april Survival analysis en competing risks 19 mei Lineaire regressie Sprekers: Václav Fidler, Hans Burgerhof, Sacha la Bastide afdeling Epidemiologie Tekst op: www.EpidemiologyGroningen.nl (download area)
Corrigeren voor achtergrondvariabelen: Lord’s paradox causaal ontrafeld Corrigeren voor achtergrond variabelen: Lord’s paradox en Simpson’s paradox (voorbeeld) Confounding en causale grafen De paradox ontrafeld: het effect van conditioneren
Lord’s paradox (en Simpson’s, Berkson’s en andere paradoxen) Paradox (Van Dale): schijnbare tegenstrijdigheid Lord’s paradox: het effect van een variabele op een andere in subgroepen verandert van richting ten opzichte van het effect in de hele groep (Simpson’s paradox, suppressie effect, ...) Of: Na statistische correctie voor een extra achtergrondvariabele verandert het effect van een andere variabele van richting van richting, of grootte, maar richting is dramatischer en gaat sterker tegen je gevoel in, wat de paradox tot gevolg heeft
Voorbeeld (Tu et al. 2008) geboortegewicht (gg) bloeddruk (bd) ? huidig gewicht (hg) ? normale bd hoge bd totaal laag gg 354 132 486 hoog gg 328 186 514 totaal 682 318 1000 laag gg < 3.5 kg hoge bd >135 mmHg
Voorbeeld I (Tu et al. 2008) geboortegewicht (gg) bloeddruk (bd) ? huidig gewicht (hg) ? normale bd hoge bd totaal %hoge bd laag gg 354 132 486 27% hoog gg 328 186 514 36% totaal 682 318 1000 32% → laag geboortegewicht heeft een risicoverlagend effect op het hebben van hoge bloeddruk laag gg < 3.5 kg hoge bd >135 mmHg
Voorbeeld I (vervolg) Onderverdelen in groepen (hg categorisch): normale bd hoge bd totaal %hoge bd laag gg 354 132 486 27% laag hg 329 99 428 hoog hg 25 33 58 hoog gg 328 186 514 36% laag hg 221 55 276 hoog hg 107 131 238 totaal 682 318 1000 32% laag hg 550 154 704 hoog hg 132 164 296 laag gg < 3.5 kg hoog hg >= 90 kg hoge bd >135 mmHg
Voorbeeld I (vervolg) Onderverdelen in groepen (hg categorisch): normale bd hoge bd totaal %hoge bd laag gg 354 132 486 27% laag hg 329 99 428 23% hoog hg 25 33 58 57% hoog gg 328 186 514 36% laag hg 221 55 276 20% hoog hg 107 131 238 55% totaal 682 318 1000 31.8% laag hg 550 154 704 22% hoog hg 132 164 296 55% → in beide subgroepen lijkt een laag geboortegewicht nu een risicoverhogend effect op het hebben van hoge bloedddruk te hebben ... hoe kan dit? wat gaat er fout?
Voorbeeld I: Simpson’s paradox
Voorbeeld II Nu: dezelfde data, maar met bd en hg als continue variabelen Lineaire regressiemodellen: 1) Model 1 (onvoorwaardelijk effect van gg op bd) 2) Model 2 (voorwaardelijk effect van gg op bd gegeven hg) NB: beide regr.coeff. significant ... hoe kan dit? wat gaat er `fout’?
Voorbeeld II: Lord’s paradox huidig gewicht
Het probleem in een notendop Het dilemma lijkt te zijn: Welk resultaat is correct? Welke analyse is de juiste? (hele groep? subgroepen? corrigeren?) De grote vraag is eigenlijk: Wordt het effect waarin we geïnteresseerd zijn verstoord door andere variabelen? (confounding) … en zo ja, voor welke variabele(n) moeten we corrigeren om dat te verhelpen? (de confounder / verzameling confounders) De oplossing: Causale grafen helpen (nog voor de analyse plaats vindt!) het probleem te ontleden. NB: Dit probleem is minder van belang wanneer we een voorspellend model willen bouwen. Het wordt pas een probleem zodra we de relaties tussen de variabelen nader willen verklaren!
Confounder – Definitie Een variabele is een confounder: als hij geassocieerd is met de behandeling/blootstelling waarin we geïnteresseerd zijn Hier: hg is een confounder als hij geassocieerd is met gg als hij onafhankelijk van de behandeling/blootstelling geassocieerd is met de uitkomst … als hg (onafhankelijk van gg) geassocieerd is met bd als hij niet op het causale pad ligt … als niet geldt: gg → hg → bd
Mogelijke situaties ? ? ? ? Is hg confounder? bd gg bd gg hg hg 1) hg is geen confounder 2) hg is geen confounder hg bd gg ? gg ? bd hg 3) hg is geen confounder 4) hg is confounder Wat moeten we doen in meer complexe situaties? Wanneer is er sprake van confounding?
Complexere situaties Is er sprake van confounding? (u1, u2 ongemeten variabelen) Zo ja, waarvoor moeten we corrigeren? hg bd gg ? u1 u2 → theorie van causale grafen helpt hierbij!
Causale grafen Wat terminologie Z Y B X A X, Y: ouders van Z; Z: kind van X en Y A: voorouder van Z; Z: afstammeling van A Z: put (collider): variabele op pad waarbij er vanuit de voorgaande en volgende variabele pijlen in de richting van de variabele wijzen Hier: X Z Y
Causale grafen Statistische associatie B X Y Z Twee variabelen zijn alleen dan statistisch geassocieerd in de gehele populatie als: OF: de een oorzaak van de ander is X veroorzaakt Z; A veroorzaakt B OF: ze een gemeenschappelijke (voor-)ouder delen B en X hebben beide A als gemeenschappelijke oorzaak, idem B en Z
Causale grafen Conditioneren op ouders Er geldt: Door op zijn ouders te conditioneren (stratificeren, aangegeven met omkadering) wordt een variabele X onafhankelijk van alle variabelen die geen afstammeling van X zijn. longkanker gele vingers roken
Causale grafen Conditioneren op kinderen Ook geldt: conditioneren (stratificeren) op kinderen beïnvloedt de associaties tussen de (voor-)ouders van die variabele. Voorbeeld: A: de accu is leeg B: de benzinetank is leeg C: de auto start niet A B C
Causale grafen Conditioneren op afstammelingen Conditioneren (stratificeren) op D veroorzaakt een associatie tussen A en B (binnen strata van D) maar kan ook de grootte van de associaties tussen A-C en B-C veranderen! A B A: de accu is leeg B: de benzinetank is leeg C: de auto start niet D: op de fiets naar het werk C D
Het effect van conditioneren Samenvattend: conditioneren (stratificeren) kan marginale afhankelijkheden doen verdwijnen kan (conditionele) afhankelijkheden introduceren die er eerst nog niet waren kan de grootte van al bestaande afhankelijkheden beïnvloeden Dit is wat er gebeurt in het geval van onze paradoxen! Terug naar de vraag: wanneer is er sprake van confounding? wanneer moet je conditioneren?
Open en gesloten paden A B C E D Een pad is een wandeling over het diagram, niet rekening houdend met de richting van de pijlen bv. A – C – E , maar ook: E – C – A Elk pad met een put erop, is een gesloten pad (blocked path) bv. A – C – B (C is een put) Elk pad dat niet gesloten is, is een open pad (unblocked path) bv. E – C – D
Het opsporen van confounding: algemeen stappenplan Teken het causale diagram Verwijder alle effecten vanuit de behandeling/blootstelling 3) Zijn er open paden van de behandeling naar de uitkomst? Ja → confounding (conditioneren/corrigeren) Nee → geen confounding → Confounding wordt vervolgens opgeheven door die open paden te blokkeren door conditioneren (achterdeurcriterium/d-separatie) ? gg bd hg
Complexere situaties (vervolg) Wanneer is er sprake van confounding? Toepassen stappenplan: ? bd ? gg bd gg hg hg u1 1) Geen confounding (per ongeluk wel corrigeren geeft juist confounding/bias!) 2) Confounding → corrigeren voor hg (of u1) om deze op te heffen ? bd gg ? bd gg hg hg u1 u2 u2 3) Geen confounding (per ongeluk wel corrigeren geeft juist confounding/bias!) 4) Geen confounding (per ongeluk wel corrigeren geeft juist confounding/bias!)
Samenvattend De paradoxen zijn slechts symptoom van een groter onderliggend probleem: het correct vinden en corrigeren voor confounding Oplossing kun je niet vinden door het toepassen van een statistische toets! Causale grafen kunnen helpen dergelijke problemen te structureren, confounding op te sporen en uit te schakelen om een correcte schatting van het effect te verkrijgen `Voor de zekerheid’ corrigeren voor alle covariaten is gevaarlijk en kan juist bias veroorzaken Pas wel op: verschillende causale modellen kunnen even plausibel zijn, maar verschillende consequenties voor de analyse hebben
Literatuur Arah, O.A., `The role of causal reasoning in understanding Simpson’s paradox, Lord’s paradox, and the suppression effect: covariate selection in the analysis of observational studies’, Emerging Themes in Epidemiology 5 (2008) S. Greenland, J. Pearl, J.M. Robins, `Causal diagrams for epidemiologic research’, Epidemiology 10 (1999), 37-48 M.A. Hernán, S. Hernández-Diaz, J.M. Robins, `A structural approach to selection bias’, Epidemiology 15 (2004), 615-625 J. Pearl, Causality. Models, reasoning and inference (Cambridge 2000) Tu, Y-K., Gunnel, D., Gilthorpe, M.S., `Simpson’s paradox, Lord’s paradox, and Suppression effect are the same phenomenon – the reversal paradox’, Emerging Themes in Epidemiology 5 (2008) → Zie ook de website van Charles Pool voor een programma voor het zoeken van confounding in een diagram: http://epi.dife.de/dag
Survival analysis en competing risks Volgende maand Woensdag 21 april 2010 12 – 13 uur Survival analysis en competing risks