Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistische uitspraken over onbekende populatiegemiddelden
WOT statistiek Correlaties CLIN Centre for Linguistics.
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistiek II Deel 1.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Math Candel Universiteit Maastricht. 1.Heldere en haalbare probleemstelling 2.Keuze van het design 3.Keuze van onderzoeks/analyse-eenheid 4.Operationalisatie.
Vergelijkbaarheid historische studies
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
Jan Talmon Medische Informatica Universiteit Maastricht
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Twee-factor Variantie-analyse
Inferentie voor regressie
Schatter voor covariantie
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Populatiegemiddelden: recap
Logistische regressie
Effect modificatie Algemeen principe Bepalen van effect modificatie
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
HC2 – Statistiek in vogelvlucht
WOT statistiek Inleiding
Hoorcollege 3 Samenhang tussen variabelen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Diagnostische waarde van de anamnese om lumbosacrale wortelcompressie vast te stellen
De seksuele start Timing en kenmerken van de eerste keer, en verbanden met de latere seksuele loopbaan Dra. Katrien Symons Prof. Dr. Mieke Van Houtte Dr.
De incidentie-trend van dementie Analyse van Nederlandse eerstelijns data Emma F. van Bussel PhD student en huisarts in opleiding.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Een frequent attender is meer dan de som van zijn morbiditeiten
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 19 mei: Lineaire regressie (Lokaal 16 OC) 16 juni: Statistische en biologische interactie (16) Sprekers: Sacha la Bastide, Hans Burgerhof, Vaclav Fidler DG Epidemiologie

Lineaire regressie Wat is het? Wanneer gebruiken we het (niet)? Wat komt er allemaal bij kijken? Waar komt de naam eigenlijk vandaan?

Enkelvoudige lineaire regressie Er is een continue responsievariabele Y Er is een verklarende variabele X We zijn geïnteresseerd in de relatie tussen Y en X We beschikken over onafhankelijke waarnemingen Een lineair verband lijkt redelijk Bijvoorbeeld: systolische bloeddruk Bijvoorbeeld: leeftijd

Lineair verband?

Lineair verband? leeftijd

Lineaire regressie (formule) We schatten de populatierelatie We nemen aan dat Controleren! Residuen normaal verdeeld rond leeftijds- gemiddelde, met dezelfde spreiding Rechtlijnig verband van de gemiddelden

De geschatte regressielijn Waarom is dit de “best passende lijn”?

De geschatte lijn De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is Rond 1800 Gauss en Legendre Astronomie

Minimaliseer Residu e = verschil tussen waargenomen en voorspelde waarde Minimaliseer

Lineaire regressie in SPSS

Toelichting SPSS uitdraai SBP = 128,8 + 0,33*leeftijd, bv, de geschatte bloeddruk van een 70-jarige: SBP = 128,8 + 0,33*70 = 151,9

De geschatte regressielijn H0: β1 = 0 (geen lineair verband) b0

ANalysis Of VAriance De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen) Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie

,003 F = t² ,003

R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r) R square = R in het kwadraat = SSregression /SStotal = de proportie verklaarde variantie Adjusted R square: reëlere schatting van R² in de populatie Standaard error of the estimate = gemiddelde grootte van een residu

Controle van de aannames Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie) Het verband tussen E(Y) en X is lineair (strooiingsdiagram) De residuen zijn normaal verdeeld (pplot) De spreiding van de residuen is gelijk, ongeacht de grootte van X (scatter)

Normaliteit van de residuen

Normaliteit van de residuen

Homogene spreiding van de residuen

Lineaire regressie op deze data leeftijd

Controle aannames De gebruikte testen zijn niet valide! Overweeg een transformatie (bv logaritmisch) of zoek naar een verbetering van je model (toevoegen van variabelen)

Betrouwbaarheidsintervallen (gemiddelden) Breedte BI verschilt per leeftijd

Predictie-intervallen (individueel)

Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is? Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht

Kan men een lineaire regressie uitvoeren als de verklarende variabele dichotoom is? Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht man vrouw

Test van de richtingscoëfficiënt = gepoolde t-test Gemiddelde vrouwen 155,0 Gemiddelde mannen: 147,7 H0: β1=0 Maakt de gebruikte codering iets uit? vrouw man

Verklarende variabelen: Continu: ok Dichotoom: ok Nominaal met meer dan twee categorieën: maak dummy’s (hulpvariabelen) Ordinaal: als er sprake lijkt van een lineaire trend: ok, anders dummy’s

Meervoudige lineaire regressie Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y? Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2?

Relatie studie-uren en cijfer

Conclusie van deze enkelvoudige regressie-analyse: Hoe langer je studeert hoe lager je cijfer ????? Wat gebeurt er als we rekening houden met de vooropleiding van de respondenten?

Conclusie van deze meervoudige regressie-analyse In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studie-uren op het cijfer Dit effect is in beide groepen ongeveer gelijk Als we geen rekening houden met de vooropleiding, schatten we het effect van studie-uren op het cijfer totaal verkeerd Vooropleiding wordt een confounder genoemd

Leeftijd verklaart ongeveer 3% van de spreiding van bloeddruk Equivalentie van F-test en t-test Wat gebeurt er als we geslacht toevoegen?

Meervoudige lineaire regressie Leeftijd en geslacht verklaren samen ongeveer 5 % van de spreiding van de bloeddruk ANOVA toetst de H0 dat leeftijd en geslacht samen niets verklaren Geen equivalentie meer tussen F-test en t-test(en) T-test van geslacht toetst de H0 dat geslacht niets verklaart, rekening houdend met leeftijd Was 0,33

SBP = 129 + 0,3*leeftijd + 6*geslacht vrouwen (1) mannen (0) SBP = 129 + 0,3*leeftijd + 6*geslacht

NB Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie: - onafhankelijke data - lineair verband - normaal verdeelde residuen - homogene spreiding van de residuen

Twee continue verklarende variabelen

Interactie Als het effect van een verklarende variabele beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie. Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie. In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen.

Model met interactie Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de vergelijking voor niet rokers: Y = β0 + β1*leeftijd + ε Maar voor rokers: Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε = β0 + β2 + (β1 + β3)*leeftijd + ε Als de coëfficiënt van de interactieterm (β3) significant is, lopen de regressielijnen van rokers en niet-rokers niet parallel en spreken we van interactie (ook wel effectmodificatie genoemd). Als de interactieterm significant is, horen de bijbehorende hoofdeffecten ook in het model!

Voorbeeld van interactie leeftijd

Hoe wordt een model opgebouwd? Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?) Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie Stop alle geselecteerde variabelen in het model en bouw het model stap voor stap af. Begin met het verwijderen van de variabele met de hoogste (niet-significante) P-waarde. Stop als alle overgebleven variabelen significant zijn. Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren

Wat als we meerdere variabelen tegelijkertijd willen toevoegen? Bij nominale variabelen met meer dan twee categorieën zijn we meestal niet geïnteresseerd in het effect van één dummy, maar in het totale effect van de nominale variabele. Hoe testen we dat?

Vergelijken van geneste modellen

De partiële F-toets Model 1 Gewicht moeder Model 2 Gewicht moeder en ras

De term “regressie” Regressie = terugval Wat heeft dat met een lineair verband te maken? Onderzoek van Francis Galton naar de lengte van ouders en kinderen

Regression to the mean Francis Galton y = x Valkuil bij selectie van respondenten! Francis Galton Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886

Geen lineaire regressie Y dichotoom Wel / geen verbetering na 1 uur Y categorisch (>2 categorieën) Y ordinaal Herhaalde waarnemingen Overlevingsduren Logistische regressie Polytome logistische regressie Ordinale logistische regressie Repeated measures MANOVA Mixed effects models Multilevel analyse Survival analyse

Statistische en biologische interactie Volgende keer … Woensdag 16 juni: Statistische en biologische interactie