Download de presentatie
GepubliceerdJeroen Maes Laatst gewijzigd meer dan 9 jaar geleden
1
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer
2
Meervoudige Regressie Analyse
multipele regressie: twee of meer predictoren van interval meetniveau gezamenlijke invloed van subset van predictoren welke predictor is 't belangrijkste, welke daarna, etc. selectie van relevante predictoren: als er (weinig of) geen theorie is
3
econkrant= 5 + 0.2*salaris + 2*opleiding
Interpretatie van simpele versus multipele regressie effecten econkrant = * salaris econkrant= *salaris + 2*opleiding multipele effect effect van salaris gecontroleerd voor opleiding effect van salaris onder controle van opleiding effect van salaris onder constanthouding van opleiding simpele effect ongecontroleerde effect van salaris
4
Voorstelling van een regressievlak bij 2 predictoren
= effect X2 op Y onder constanthouding van X1 = effect X1 op Y onder constanthouding van X2 Algemene vorm van multipele regressie model
5
Schatten van b0, b1 … bp via "kleinste kwadraten" of OLS
geschatte voorspelde Y waarde van persoon i maat voor spreiding van punten rond regressievlak “gemiddelde fout” van model (spss: std. error of the estimate) “gemiddelde afstand” van punten tot regressievlak "hoe kleiner hoe fijner"
6
Past het lineaire model goed bij de data?
SSY = SSRegression Residual SS Proportie verklaarde variantie van Y = R2 = SSR / (SSR + RSS) R R = correlatie ( ) = multipele correlatie coëfficiënt
7
De optimistische R2 versus de realistische Adjusted R2
Populatie Nijmegenaren van 18+ jaar 10 predictoren Stel ware R2 = 0.30 Steekproef 100 Nijmegenaren van 18+ jaar 10 predictoren over heel veel steekproeven de gemiddelde R2 = 0.38 de gemiddelde adj. R2 = 0.298 Adjusted R2 rapporteer je bij kleine N en relatief veel predictoren
8
Gezamenlijke invloed van een subset van predictoren
X1 = leeftijd X2 = opleiding X3 = urentv X4 = urenkrant Y = onveilig (A) (B) Gezamenlijke invloed van urentv + urenkrant kun je toetsen: H0 : b3 = b4= ofwel H0 : R2model (A) = R2model(B) Als H0 waar is volgt een F verdeling, df1 = aantal 0 gestelde b’s df2 = n – aantal X in model (A) - 1 Als Significantie van F < dan H0 verwerpen!
9
Gezamenlijk invloed X3 en X4 toetsen via F en R Square Change
regression /dependent y /enter x1 x2 /test (x3 x4). F en Significantie van F !
10
Welke predictor is het sterkst c.q. heeft de grootste invloed op Y?
Leeftijd: jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: st.afw = 15 Onveilig = *Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant “0.6*Leeftijd” betekent: als Leeftijd 1 jaar stijgt dan verandert Onveilig met +0.6” Een idee om de sterkte van de predictoren te bepalen is misschien: “Hoe veel verandert Onveilig als Leeftijd stijgt van 20 naar 70 jaar?” “Hoe veel verandert Onveilig als Opleiding stijgt van 1 naar 7?” “Hoe veel verandert Onveilig als Urentv stijgt van 0 naar 30 uur p/w?” “Hoe veel verandert Onveilig als Urenkrant stijgt van 0 naar 3 uur p/w?” Dit idee werkt niet zo goed als er “uitschieters” zijn bij Urentv of Urenkrant!
11
Beter idee: “Gestandaardiseerde b coëfficiënt” voor sterkte van predictor
Leeftijd: jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: st.afw = 15 Onveilig = *Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant Als Leeftijd met 10 jaar stijgt, verandert Onveilig met (= 10 * +0.6) Als Leeftijd met 1 st.afw stijgt, verandert Onveilig met st.afw (= 6 : 15) Als Opleid met 1.5 stijgt, verandert Onveilig met (= 1.5 * -2) Als Opleid met 1 st.afw stijgt, verandert Onveilig met st.afw (= -3 : 15)
12
Gestandaardiseerde b coëfficiënt in spss: Beta
Predictoren in volgorde van sterkte: 1) leeftijd 2) urentv 3) opleid 4) urenkrant
13
Modelbouw: welke predictoren kies je om een “goed” model te krijgen?
Wat verstaat men onder een “goed” model? interpreteerbaar theorie en eerder onderzoek, gezond verstand zuinig zo min mogelijk predictoren want - eenvoudiger interpreteerbaar b ’s nauwkeuriger te schatten - ietsje andere steekproef, “zelfde” schattingen goed passen zo hoog mogelijke R2 Zuinig Goedpassend "het goede model" geen predictor Yi = b0 + ei n=100 Yi = b0 + b1X1i+...+b99X99i
14
Empirische selectie procedures: voor exploratieve modelbouw
opleiding start: y=b0+e R2 stijging door opname van: opleiding c + d + e + f / SSY inkomen b + d + f + g / SSY leeftijd a + b + c + d / SSY e f inkomen g d c b nieuw: y=b0+b1leeftijd+e R2 stijging door opname van: door opleiding e + f / SSY door inkomen f + g / SSY a h leeftijd nieuw: y=b0+b1leeftijd+b2opleiding+e R2 stijging door opname van: door inkomen g / SSY Y=onveiligheidsgevoel SSY = a+b+c+d+e+f+g+h Forward, Backward of Stepwise
15
Werking van selectieprocedure “Stepwise”
grootste stijging R2 significant α=0.05 (spss: pin) kleinste daling R2 niet significant α=0.10 (spss: pout) X1 X2 X3 X4 X5 X6 startmodel: Y = b0 mogelijke X X2 X3 X6 eindmodel: Y = b0 + b2X2 + b3X3 + b6X6
16
Hoe verder na ‘t gebruik van Stepwise?
Is de b coëfficiënt (+/-) van elke geselecteerde predictor interpreteerbaar? Zijn er predictoren, tegen je verwachting, niet geselecteerd? Kan komen doordat “aanverwante” predictoren wel zijn geselecteerd inkomen en soc.econ.status wel, opleiding niet kerkbezoek wel, mate van religiositeit niet Kan komen doordat er een “causale keten” bestaat X1=opleiding X2=localisme Y=interesse regionaal nieuws opleiding niet, localisme wel opleiding heeft geen directe invloed op Y en daarom niet geselecteerd Kan komen doordat je verwachting fout was!
17
kan komen doordat je ‘n andere belangrijke predictor vergat
onveilig stad platteland urentv kan komen doordat die predictor ‘n tegenstelde invloed heeft op Y voor verschillende groepen mensen onveilig vrouwen mannen urentv
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.