Help! Statistiek! Doorlopende serie laagdrempelige lezingen,

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
De samenstelling van de loonkloof
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Introductie tot de lineaire regressie
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Obesitas De obesitasepidemie en de evolutie van het aantal bariatrische ingrepen bij MLOZ-leden Dr. Katrien Van Rie Dr. Jan Van Emelen.
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Beschrijvende en inferentiële statistiek
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
Nooit meer onnodig groen? Luuk Misdom, IT&T
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
vwo A Samenvatting Hoofdstuk 13
vwo C Samenvatting Hoofdstuk 14
Lineaire functies Lineaire functie
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Oefeningen F-toetsen ANOVA.
Schatter voor covariantie
Discrete stochasten Onderwerpen Stochasten (random variables)
Continue kansverdelingen
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Een fundamentele inleiding in de inductieve statistiek
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Effect modificatie Algemeen principe Bepalen van effect modificatie
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Meetonzekerheden In de natuurkunde moet je vaak een grootheid meten
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Statistiek voor Dataverwerking
havo/vwo D Samenvatting Hoofdstuk 4
Partiële r² Predictie van y gebaseerd op z alleen
De financiële functie: Integrale bedrijfsanalyse©
In opdracht van NOC*NSF
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
College 9 zHoe gaat het met de afname? zData-invoer zEerste analyses.
Prepare for analysis: 2 planfiles maken, 1 per weegfactor
Disclosure belangen NHG spreker
Voorspellende analyse
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 januari : Poisson regressie 18 februari : Graven naar causaliteit 18 maart : Betrouwbaarheidsintervallen Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide DG Epidemiologie

Overzicht Welke soort onderzoeksvragen Introductie van voorbeeld Waarom geen gewone lineaire regressie? Wat is het Poisson regressiemodel De Poisson verdeling Specificatie van het regressiemodel Interpretatie van parameters Schatten en toetsen Model fit Hoe in SPSS Referenties

Onderzoeksvragen Mogelijke vragen: Zijn er in Nederland economische determinanten die het aantal kinderen voorspellen? Welke variabelen voorspellen het aantal blessures in een bepaald sport seizoen? Welke variabelen bepalen het aantal nieuwe tumorgevallen in een bepaald gebied in een jaar? Algemeen: Men is geïnteresseerd in relatie tussen Y: aantal events (afhankelijke variabele); niet negatieve gehele getallen!!!! X1 tm Xk : k continue en/of categoriale variabelen

Onderzoeksvragen Regressie modellen Altijd relatie tussen afhankelijke variabele Y en onafhankelijke variabelen Lineaire regressie: Y is continu Logistische regressie: Y is dichotoom Poisson regressie: Y is een aantal niet negatief gehele getallen Schat gemiddelde van Y als functie van predictoren

data Gegevens (gemanipuleerde data van Michel Brink): 50 topsporters in leeftijd 15-19 jaar Afhankelijke variabele: aantal blessures in een seizoen Achtergrond variabelen: Geslacht: 23 vrouwen (“0”), 27 mannen (“1”) Vetpercentage: gemiddeld 8; sd = 2; range 4-13 Onderzoeksvraag: Wordt het aantal blessures bepaald door geslacht en vetpercentage?

data

Poisson verdeling Bij niet vaak voorkomende gebeurtenissen is de Poisson verdeling geschikt vanwege 1. geen negatieve getallen 2. Positief verwachte waarde (gemiddelde) e -µ  µy Pr(Y= y) = -------------, voor µ > 0 y! Gemiddelde (verwachting) = µ Speciale eigenschap: gemiddeld aantal, µ = variantie van aantal = var(Y)

Poisson verdeling Simulatie van 100 waarnemingen Uit Poisson verdeling met verschillende verwachtingen mu

Poisson verdeling Poisson verdeling: Gerelateerd aan binomiale verdeling bin(n,p) Voor n heel groot, en p heel klein: Verwachting = np, variantie np(1-p)  np Wanneer voldoet de Poissonverdeling? De kans op het optreden van tenminste één gebeurtenis in een zeker tijdsinterval is proportioneel aan de lengte van dat tijdsinterval De kans op meer dan 1 gebeurtenis in een heel klein tijdsinterval is verwaarloosbaar klein De aantallen gebeurtenissen in verschillende tijdsintervallen zijn onderling onafhankelijk

Poisson regressie model Onze data over blessures: steekproef 50 personen Het aantal blessures voor persoon i, Yi heeft een Poisson verdeling met parameter µi Notatie: Yi ~ Poisson(µi) , Let op µi = verwachting (gemiddelde) = var(Yi) > 0

Poisson regressie model Schat gemiddelde als functie van predictoren Lineaire model: µi = β0 + β1*geslachti + β2*vetpercentagei Probleem: negatieve schattingen zijn mogelijk Mogelijke oplossing: Schat log µi als functie van predictoren: Dus, Log(µi)= β0 + β1*geslachti + β2*vetpercentagei

Vergelijking logistisch model Modelleren van gemiddelde in logistisch model: Een proportie  dat ligt tussen 0 en 1 Vandaar: log( /1- ) = β0 + β1*x1 + β2*x2 Zowel logistische regressie als Poisson regressie behoren tot de klasse van generalized linear models Gebruik van verschillende linkfuncties Logistisch model: log( /1- ) Poisson model: log(µi)

Poisson regressie model Yi ~ Poisson(µi), waarbij µi = exp(β0 + β1*geslachti + β2*vetpercentagei) Dus, Yi ~ Poisson(exp(β0 + β1*geslachti + β2*vetpercentagei)) Interpretatie??

Poisson regressie model: voorbeeld Onze data van 50 sporters met de vraag : Zijn geslacht en vetpercentage van invloed op aantal blessures? Resultaten van Poisson analyse in R (maximum likelihood) predictor Coefficient (se) Intercept Geslacht (man=1) Vetpercentage - 0.17 (0.38) 0.42 (0.18) 0.11 (0.04)

Poisson regressie model: voorbeeld Resultaten van Poisson analyse in R: µ = exp(β0 + β1*geslacht + β2*vetpercentage) µdak = exp(-17 + 0.42*man + 0.11*vet) = exp(-0.17) * exp(0.42*man) * exp(0.11*vet) = 0.84 * 1.52man * 1.12vet Vrouw: 0.84 * 1.12vet Man: 0.84 * 1.52* 1.12vet predictor Coefficient (se) Intercept Geslacht Vet - 0.17 (0.38) 0.42 (0.18) 0.11 (0.04)

Poisson regressie model scatterplot + schattingen

Poisson regressie model In de niet gemanipuleerde data: Elke sporter heeft een verschillende follow-up periode Oplossing voor dat probleem: ti = lengte follow-up voor persoon i: Schat log (µi/ti) als functie van predictoren. log(µi/ti)= β0 + β1*geslachti + β2*vetpercentagei log(µi) – log(ti)= β0 + β1*geslachti + β2*vetpercentagei log(µi) = log(ti) + β0 + β1*geslachti + β2*vetpercentagei log(ti) = offset gemiddelde proportioneel met follow-up Verdubbeling van follow-up betekent verdubbeling van aantal (mits andere predictoren zelfde blijven)

Poisson regressie model toetsen Wald test voor elke predictor predictor Coefficient se wald pvalue Intercept Geslacht Vet - 0.17 0.38 -0.45 0.66 0.42 0.18 2.35 0.02 0.11 0.04 2.62 0.01 De interactieterm was niet significant: p-value 0.08

Poisson regressie model toetsen Likelihood ratio test: gebaseerd op likelihood Vergelijken van geneste modellen: Verschil ~ 2 verdeeld modellen 2*loglikelihood verschil (vrijheidsgraden) nulmodel (intercept) nul +geslacht Nul +geslacht+vet Nul+geslacht+vet+interactie 80.6 (49) 74.9 (48) 5.7 (1) 68.2 (47) 6.7 (1) 65.2 3 (1)

Poisson regressie model goodness of fit Voorspelde waarden (ydak) vergelijken met geobserveerde waarnemingen (y): (yi – ydaki) ei = residu(gestandaardiseerd)i = --------------- , (ydaki) Onder Poisson model: Gemiddeld 0 en variantie 1:

Poisson regressie model modelfit

Overdispersion Bij Poisson verdeling: Gemiddelde = variantie! In veel gevallen: variantie > gemiddelde (bijvoorbeeld bij veel nullen) Dit heet overdispersion: Kan je checken en toetsen gestandaardiseerd residu is basis voor toetsing Bij overdispersion: in R: met optie quasipoisson werken

R-syntax In onze data: geen overdispersion. model1 = glm(formula = n_blessures ~ geslacht + vet, family =poisson) summary(model1) model2 = glm(formula = n_blessures ~ geslacht + vet, family = quasipoisson) summary(model3) In onze data: geen overdispersion.

Poisson regressie model in SPSS

Poisson regressie model SPSS

Poisson regressie model SPSS

Poisson regressie model SPSS

Poisson regressie model SPSS

Referenties Matthews D.E. & Farewell V.T. Using and Understanding Medical Statistics (hoofdstuk 12) Gelman A. & Hill J. Data analysis Using Regression and multilevel/hierarchical Models (hoofdstuk 6) Mc Cullagh P. & Nelder J.A. Generalized linear models (hoofdstuk 6)

Volgende keer 18 februari: Graven naar causaliteit Zaal: 16