Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 20 juni: Logistische regressie (Lokaal 16 OC) 19 september: Survival analyse (Lokaal 16 OC) 17 oktober: Over steekproefopzet en steekproefgrootte 21 november: Hoe gaan we om met ontbrekende waarnemingen? Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie
Overzicht Inleiding Welke soort onderzoeksvragen Waarom geen ‘gewone’ lineaire regressie het model Interpretatie de gewone kruistabel met risicomaten het model met één factor (dichotoom) als verklarende variabele het model met één covariaat (continu) als verklarende variabele Schatten en toetsen Goodness of fit model selectie regressiemodellen voor andere onderzoeksvragen
onderzoeksvraag Vraagstellingen: Wat zijn voorspellers voor het optreden van een taalprobleem bij jonge kinderen (1-6 jaar) Is er een relatie tussen enerzijds het optreden van een taalprobleem, en anderzijds een zekere testuitslag van het kind of het geboorte-gewicht Algemeen: Relatie tussen een dichotome response variabele (Y) enerzijds continue en categoriale variabelen (X) anderzijds
Logistisch regressiemodel: Statistisch modelleren van relatie tussen onderzoeksvraag Logistisch regressiemodel: Statistisch modelleren van relatie tussen een dichotome response variabele (Y) continue en categoriale variabelen (X) anderzijds Belangrijk: Eerst tekenen dan rekenen!!
onderzoeksvraag Plaatje suggereert: kinderen zonder taalprobleem hebben gemiddeld hoger geboortegewicht
Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continu): Yi = β0 + β1Xi + εi Y|X = β0 + β1Xi By Y : dichotoom: Y|X = P(Y= 1|X)= π(x)
Waarom geen gewone lineaire regressie? Bij Y = dichotoom: Modelleren van π(x) Tekenen: Plot proportie tegen X (gewichtklasse) Geen lineair verband 0 proportie 1
Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continue): Yi = β0 + β1Xi + εi εi ~ N(0, 2) By Y dichotoom: Y|X = P(Y= 1|X)= π(x) Y|X ~ Bin(π(x))
Het logistisch regressiemodel Gebruik een logit transformatie voor π(x) = π π Logit(π) = ln(Odds) = ln 1 - π ln = β0+ β1x1+ β2x2+ … + βpxp = S 1- π Logit(π) = S = eS = exp(S) 1-π
Het logistisch regressiemodel Modelleren van logit: ln (π/(1- π)) Tekenen: Plot logit tegen geboortegewichtklasse lineair verband - < logit <
Het logistisch regressiemodel logit(π) = S = β0+ β1x1+ β2x2+ … + βpxp - < logit(π) < + exp(S) 1 π = 1- π = 1+ exp(S) 1+ exp(S) 0 π 1
Het logistisch regressiemodel Modelveronderstellingen Onafhankelijke waarnemingen Lineair verband tussen logit (ln(Odds)) en de verklarende variabelen Checken!!!!
Interpretatie kruistabel Is de screeningstest een voorspeller voor taalproblemen? Odds voor test = - 12/69 = 0.17 Odds voor test = + 23/46 = 0.50 Odds Ratio OR = (23/46) / (12/69) = 2.875
Interpretatie kruistabel Odds Ratio is iets anders dan Relatief Risico!!! Risico voor test = - = 12/81 = 0.15 Risico voor test = + = 23/69 = 0.33 Relatief risico RR = 0.33/0.15 = 2.25 Alleen bij kleine prevalentie: OR RR
Interpretatie logistisch model Is de screeningstest (een dichotome factor) een voorspeller voor taalproblemen? Y : taalprobleem X : test resultaat, positief (x =1) of negatief (x = 0) π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π For x = 0: ln(Odds0) = β0 Odds0 = exp(β0) For x = 1: ln(Odds1) = β 0 + β 1 Odds1 = exp(β0 + β1) Odds1 exp(β0 + β1) OR = = = exp(β1) Odds0 exp(β0)
Interpretatie logistisch model Is de screeningstest een voorspeller voor taalproblemen? Resultaten van een logistische regressie-analyse in SPSS schatting van OR schatting van odds0
Interpretatie logistisch model Is geboortegewicht (een continue verklarende) een voorspeller voor taalproblemen? Y : taalprobleem X : geboortegewicht π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π Vergelijking kinderen met geboortegewicht 2 kilo met kinderen die bij de geboorte 4 kilo zijn : eenheid is dus kilo’s!!!
Interpretatie logistisch model Vergelijken van kinderen met 2 kilo als geboortegewicht met kinderen met 4 kilo als geboortegewicht For x = 2: ln(Odds2) = β0+ 2β1 Odds2 = exp(β0 + 2β1) For x = 4: ln(Odds4) = β0 + 4β1 Odds4 = exp(β0 + 4β1) Odds4 exp(β0 + 4β1) OR = = = exp(2β1) Odds2 exp(β0+ 2β1) Let op: hoogte OR hangt af van de eenheden van x !!!! OR 4 kilo t.o.v 2 kilo
Interpretatie multiple logistisch model Model met 2 verklarende variabelen: Y = taalprobleem (1 = ja, 0 = nee) X1 = test uitslag (+ = 1, - = 0) X2 = geboortegewicht kind in kilo’s Gewichtsgecorrigeerde OR van test uitslag: 2.888 ln(Odds) for test - : -1.355 – 0.125 * gewicht ln(Odds) for test+ : -1.355 +1.061– 0.125 * gewicht Voor testuitslag gecorrigeerde OR van gewicht
Interpretatie multiple logistisch model Als we verwachten dat effect gewicht verschillend is voor beide test resultaten: Model met 2 verklarende variabelen en interactieterm: Y = taalprobleem (ja = 1, nee = 0) X1 = test uitslag (+ = 1, - = 0) X2 = gewicht kind in kilo’s X1*X2 = interactieterm gewicht *testuitslag
Interpretatie multiple logistisch model Schattingen: Test result - : S = -1.734 - 0.005*gewicht OR(gewicht) = 0.995 Test result +: S = -1.734 +1.679 - 0.005*gewicht -0.197*gewicht OR(gewicht) = 0.995*0.821 = 0.817 OR(test result) = 5.358 voor gewicht = 0!
Schatten van de parameters In gewone lineaire regressie :kleinste kwadraten methode Algemener: maximum likelihood methode Likelihood functie: Kans op de data als functie van de onbekende parameters. Methode: Deze kans maximaliseren. De parameters als functie van de data die de hoogste waarde opleveren voor de likelihoodfunctie zijn de maximum likelihood schatters: ML-schatters
Toetsen van hypothesen omtrent model parameters Net als bij gewone regressie: H0: er is geen verband, of 1 = 0, of exp(1) = 1 H1: er is verband, of 1 0, of exp(1) 1 Methode: Wald test Likelihood ratio test
Wald test Vergelijking van de ML schatting met zijn standard error (b- β) /se(b) ~ N(0, 1) In SPSS: wordt kwadraat genomen (2-verdeling)
Likelihood ratio test Deze test is gebaseerd op verschil van de ln(likelihood) voor twee modellen. Model 1: klein model (zeg alleen constante) Model 2: klein model + 1 term (bijvoorbeeld test uitslag) Likelihood van model 2 is altijd minstens zo groot als dat van model 1( het kleinere model)! (vergelijk residuele standaardafwijking in gewone lineaire regressie) -2ln(Lmodel1) + 2ln(Lmodel2) ~ 2-verdeling (1) In SPSS: bij step wise regression
Likelihood ratio functies als maten voor Model fit Deviance: -2ln(Lmodel1) + 2ln(Lmodel2) Proporties verklaarde variatie: Cox and Snell R2 en Nagelkerke R2: Deze maten zijn functies van de verschillen in likelihood
Andere maat voor model fit Hosmer and Lemeshow test H0 : het model past Voor grote p-values: de nulhypothese wordt niet verworpen.
Model selectie Selectie van variabelen op basis van theorie en literatuur Bekijk de correlaties tussen de variabelen: bij hoge correlaties: beslis welke het klinisch relevantst is, en maak een keuze. Test alle variabelen in een enkelvoudig model (univariaat) met α<=0.25 Behoud alle variabelen waarvan ‘bewezen’ is dat ze er toe doen (zowel op basis van theorie als op p-waarde) Stop de geselecteerde variabelen er één voor één in. Evalueer het model per stap met de deviance en andere statistics en check de tekens en kijk naar relevante effect sizes! Uiteindelijk neem interactie-termen op (op basis van theorie en common sense)
Model selectie Een goed model is goed interpreteerbaar Goede model fit Check ook de robustheid van de schattingen!
Regressiemodellen voor andere onderzoeksvragen By Y met meer dan 2 categorieën: Het polytome logistische regressiemodel (of nominale logistische regressiemodel) Bij Y waarvan de categorieën geordend zijn: het ordinale logistische regressiemodel Survival data: Y is het wel of niet optreden van een event en er zijn gecensureerde waarnemingen: Survival modellen, zoals bijvoorbeeld het Cox regressiemodel. Volgende keer!