Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Introductie tot de lineaire regressie
Klimaatrobuustere modellering van evapotranspiratie
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistiek II Deel 1.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Cursus Mei – Juni 2002 Kruistabelanalyse & Logistische regressie Frans Tan Methodologie en Statistiek COLLEGE 3: VOOR PAUZE.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
DIAGNOSE Typisch probleem:
De Weibull verdeling Waloddi Weibull ( ) Weibull:
(11,25;10) (10,15) (10,16) Totaal 7 lijnen getekend.
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
Jong geleerd, fout gedaan?
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Het proefverslag Van de calorimetrie-proef (proef 4) moet een proefverslag worden gemaakt. De studenten die proef 4 hebben gedaan in de week van 29 sept 
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Effect modificatie Algemeen principe Bepalen van effect modificatie
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
HC2 – Statistiek in vogelvlucht
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Nederlands tijdschrift voor Diabetologie
Partiële r² Predictie van y gebaseerd op z alleen
De financiële functie: Integrale bedrijfsanalyse©
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Echtscheiding en sociaal kapitaal in Vlaanderen Belinda Wijckmans, Maaike Jappens & Jan Van Bavel Interface Demography Vlaanderen Gepeild 2009 Brussel,
Leydi Johana Breuls “In hoeverre speelt de sociale samenstelling van een sportclub een rol in de beslissing van leden om te stoppen?“ 01 Waarom?
Wesley van Hout, aiotho VUmc
Latent class growth analysis als succesvolle methode om subgroepen te identificeren binnen een gewichtsreductie interventie. Bastiaan C. de Vos¹, MD,
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Prepare for analysis: 2 planfiles maken, 1 per weegfactor
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 20 juni: Logistische regressie (Lokaal 16 OC) 19 september: Survival analyse (Lokaal 16 OC) 17 oktober: Over steekproefopzet en steekproefgrootte 21 november: Hoe gaan we om met ontbrekende waarnemingen? Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

Overzicht Inleiding Welke soort onderzoeksvragen Waarom geen ‘gewone’ lineaire regressie het model Interpretatie de gewone kruistabel met risicomaten het model met één factor (dichotoom) als verklarende variabele het model met één covariaat (continu) als verklarende variabele Schatten en toetsen Goodness of fit model selectie regressiemodellen voor andere onderzoeksvragen

onderzoeksvraag Vraagstellingen: Wat zijn voorspellers voor het optreden van een taalprobleem bij jonge kinderen (1-6 jaar) Is er een relatie tussen enerzijds het optreden van een taalprobleem, en anderzijds een zekere testuitslag van het kind of het geboorte-gewicht Algemeen: Relatie tussen een dichotome response variabele (Y) enerzijds continue en categoriale variabelen (X) anderzijds

Logistisch regressiemodel: Statistisch modelleren van relatie tussen onderzoeksvraag Logistisch regressiemodel: Statistisch modelleren van relatie tussen een dichotome response variabele (Y) continue en categoriale variabelen (X) anderzijds Belangrijk: Eerst tekenen dan rekenen!!

onderzoeksvraag Plaatje suggereert: kinderen zonder taalprobleem hebben gemiddeld hoger geboortegewicht

Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continu): Yi = β0 + β1Xi + εi Y|X = β0 + β1Xi By Y : dichotoom: Y|X = P(Y= 1|X)= π(x)

Waarom geen gewone lineaire regressie? Bij Y = dichotoom: Modelleren van π(x) Tekenen: Plot proportie tegen X (gewichtklasse) Geen lineair verband 0  proportie  1

Waarom geen gewone lineaire regressie? Lineair regressiemodel (Y continue): Yi = β0 + β1Xi + εi εi ~ N(0, 2) By Y dichotoom: Y|X = P(Y= 1|X)= π(x) Y|X ~ Bin(π(x))

Het logistisch regressiemodel Gebruik een logit transformatie voor π(x) = π π Logit(π) = ln(Odds) = ln 1 - π ln = β0+ β1x1+ β2x2+ … + βpxp = S 1- π Logit(π) = S = eS = exp(S) 1-π

Het logistisch regressiemodel Modelleren van logit: ln (π/(1- π)) Tekenen: Plot logit tegen geboortegewichtklasse lineair verband - < logit < 

Het logistisch regressiemodel logit(π) = S = β0+ β1x1+ β2x2+ … + βpxp -  < logit(π) < + exp(S) 1 π = 1- π = 1+ exp(S) 1+ exp(S) 0  π  1

Het logistisch regressiemodel Modelveronderstellingen Onafhankelijke waarnemingen Lineair verband tussen logit (ln(Odds)) en de verklarende variabelen Checken!!!!

Interpretatie kruistabel Is de screeningstest een voorspeller voor taalproblemen? Odds voor test = - 12/69 = 0.17 Odds voor test = + 23/46 = 0.50 Odds Ratio OR = (23/46) / (12/69) = 2.875

Interpretatie kruistabel Odds Ratio is iets anders dan Relatief Risico!!! Risico voor test = - = 12/81 = 0.15 Risico voor test = + = 23/69 = 0.33 Relatief risico RR = 0.33/0.15 = 2.25 Alleen bij kleine prevalentie: OR  RR

Interpretatie logistisch model Is de screeningstest (een dichotome factor) een voorspeller voor taalproblemen? Y : taalprobleem X : test resultaat, positief (x =1) of negatief (x = 0) π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π For x = 0: ln(Odds0) = β0 Odds0 = exp(β0) For x = 1: ln(Odds1) = β 0 + β 1 Odds1 = exp(β0 + β1) Odds1 exp(β0 + β1) OR = = = exp(β1) Odds0 exp(β0)

Interpretatie logistisch model Is de screeningstest een voorspeller voor taalproblemen? Resultaten van een logistische regressie-analyse in SPSS schatting van OR schatting van odds0

Interpretatie logistisch model Is geboortegewicht (een continue verklarende) een voorspeller voor taalproblemen? Y : taalprobleem X : geboortegewicht π logit(π) = ln(Odds) = ln = β0 + β1x = S 1- π Vergelijking kinderen met geboortegewicht 2 kilo met kinderen die bij de geboorte 4 kilo zijn : eenheid is dus kilo’s!!!

Interpretatie logistisch model Vergelijken van kinderen met 2 kilo als geboortegewicht met kinderen met 4 kilo als geboortegewicht For x = 2: ln(Odds2) = β0+ 2β1 Odds2 = exp(β0 + 2β1) For x = 4: ln(Odds4) = β0 + 4β1 Odds4 = exp(β0 + 4β1) Odds4 exp(β0 + 4β1) OR = = = exp(2β1) Odds2 exp(β0+ 2β1) Let op: hoogte OR hangt af van de eenheden van x !!!! OR 4 kilo t.o.v 2 kilo

Interpretatie multiple logistisch model Model met 2 verklarende variabelen: Y = taalprobleem (1 = ja, 0 = nee) X1 = test uitslag (+ = 1, - = 0) X2 = geboortegewicht kind in kilo’s Gewichtsgecorrigeerde OR van test uitslag: 2.888 ln(Odds) for test - : -1.355 – 0.125 * gewicht ln(Odds) for test+ : -1.355 +1.061– 0.125 * gewicht Voor testuitslag gecorrigeerde OR van gewicht

Interpretatie multiple logistisch model Als we verwachten dat effect gewicht verschillend is voor beide test resultaten: Model met 2 verklarende variabelen en interactieterm: Y = taalprobleem (ja = 1, nee = 0) X1 = test uitslag (+ = 1, - = 0) X2 = gewicht kind in kilo’s X1*X2 = interactieterm gewicht *testuitslag

Interpretatie multiple logistisch model Schattingen: Test result - : S = -1.734 - 0.005*gewicht OR(gewicht) = 0.995 Test result +: S = -1.734 +1.679 - 0.005*gewicht -0.197*gewicht OR(gewicht) = 0.995*0.821 = 0.817 OR(test result) = 5.358 voor gewicht = 0!

Schatten van de parameters In gewone lineaire regressie :kleinste kwadraten methode Algemener: maximum likelihood methode Likelihood functie: Kans op de data als functie van de onbekende parameters. Methode: Deze kans maximaliseren. De parameters als functie van de data die de hoogste waarde opleveren voor de likelihoodfunctie zijn de maximum likelihood schatters: ML-schatters

Toetsen van hypothesen omtrent model parameters Net als bij gewone regressie: H0: er is geen verband, of 1 = 0, of exp(1) = 1 H1: er is verband, of 1  0, of exp(1)  1 Methode: Wald test Likelihood ratio test

Wald test Vergelijking van de ML schatting met zijn standard error (b- β) /se(b) ~ N(0, 1) In SPSS: wordt kwadraat genomen (2-verdeling)

Likelihood ratio test Deze test is gebaseerd op verschil van de ln(likelihood) voor twee modellen. Model 1: klein model (zeg alleen constante) Model 2: klein model + 1 term (bijvoorbeeld test uitslag) Likelihood van model 2 is altijd minstens zo groot als dat van model 1( het kleinere model)! (vergelijk residuele standaardafwijking in gewone lineaire regressie) -2ln(Lmodel1) + 2ln(Lmodel2) ~ 2-verdeling (1) In SPSS: bij step wise regression

Likelihood ratio functies als maten voor Model fit Deviance: -2ln(Lmodel1) + 2ln(Lmodel2) Proporties verklaarde variatie: Cox and Snell R2 en Nagelkerke R2: Deze maten zijn functies van de verschillen in likelihood

Andere maat voor model fit Hosmer and Lemeshow test H0 : het model past Voor grote p-values: de nulhypothese wordt niet verworpen.

Model selectie Selectie van variabelen op basis van theorie en literatuur Bekijk de correlaties tussen de variabelen: bij hoge correlaties: beslis welke het klinisch relevantst is, en maak een keuze. Test alle variabelen in een enkelvoudig model (univariaat) met α<=0.25 Behoud alle variabelen waarvan ‘bewezen’ is dat ze er toe doen (zowel op basis van theorie als op p-waarde) Stop de geselecteerde variabelen er één voor één in. Evalueer het model per stap met de deviance en andere statistics en check de tekens en kijk naar relevante effect sizes! Uiteindelijk neem interactie-termen op (op basis van theorie en common sense)

Model selectie Een goed model is goed interpreteerbaar Goede model fit Check ook de robustheid van de schattingen!

Regressiemodellen voor andere onderzoeksvragen By Y met meer dan 2 categorieën: Het polytome logistische regressiemodel (of nominale logistische regressiemodel) Bij Y waarvan de categorieën geordend zijn: het ordinale logistische regressiemodel Survival data: Y is het wel of niet optreden van een event en er zijn gecensureerde waarnemingen: Survival modellen, zoals bijvoorbeeld het Cox regressiemodel. Volgende keer!