Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer
Meervoudige Regressie Analyse multipele regressie: twee of meer predictoren van interval meetniveau gezamenlijke invloed van subset van predictoren welke predictor is 't belangrijkste, welke daarna, etc. selectie van relevante predictoren: als er (weinig of) geen theorie is
econkrant= 5 + 0.2*salaris + 2*opleiding Interpretatie van simpele versus multipele regressie effecten econkrant = 5.6 + 0.5 * salaris econkrant= 5 + 0.2*salaris + 2*opleiding multipele effect effect van salaris gecontroleerd voor opleiding effect van salaris onder controle van opleiding effect van salaris onder constanthouding van opleiding simpele effect ongecontroleerde effect van salaris
Voorstelling van een regressievlak bij 2 predictoren = effect X2 op Y onder constanthouding van X1 = effect X1 op Y onder constanthouding van X2 Algemene vorm van multipele regressie model
Schatten van b0, b1 … bp via "kleinste kwadraten" of OLS geschatte voorspelde Y waarde van persoon i maat voor spreiding van punten rond regressievlak “gemiddelde fout” van model (spss: std. error of the estimate) “gemiddelde afstand” van punten tot regressievlak "hoe kleiner hoe fijner"
Past het lineaire model goed bij de data? SSY = SSRegression + Residual SS Proportie verklaarde variantie van Y = R2 = SSR / (SSR + RSS) 0 R2 1 R = correlatie ( ) = multipele correlatie coëfficiënt
De optimistische R2 versus de realistische Adjusted R2 Populatie 120.000 Nijmegenaren van 18+ jaar 10 predictoren Stel ware R2 = 0.30 Steekproef 100 Nijmegenaren van 18+ jaar 10 predictoren over heel veel steekproeven de gemiddelde R2 = 0.38 de gemiddelde adj. R2 = 0.298 Adjusted R2 rapporteer je bij kleine N en relatief veel predictoren
Gezamenlijke invloed van een subset van predictoren X1 = leeftijd X2 = opleiding X3 = urentv X4 = urenkrant Y = onveilig (A) (B) Gezamenlijke invloed van urentv + urenkrant kun je toetsen: H0 : b3 = b4=0 ofwel H0 : R2model (A) = R2model(B) Als H0 waar is volgt een F verdeling, df1 = aantal 0 gestelde b’s df2 = n – aantal X in model (A) - 1 Als Significantie van F < 0.05 dan H0 verwerpen!
Gezamenlijk invloed X3 en X4 toetsen via F en R Square Change regression /dependent y /enter x1 x2 /test (x3 x4). F en Significantie van F !
Welke predictor is het sterkst c.q. heeft de grootste invloed op Y? Leeftijd: 20-70 jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: 0 -100 st.afw = 15 Onveilig = 2 + 0.6*Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant “0.6*Leeftijd” betekent: als Leeftijd 1 jaar stijgt dan verandert Onveilig met +0.6” Een idee om de sterkte van de predictoren te bepalen is misschien: “Hoe veel verandert Onveilig als Leeftijd stijgt van 20 naar 70 jaar?” “Hoe veel verandert Onveilig als Opleiding stijgt van 1 naar 7?” “Hoe veel verandert Onveilig als Urentv stijgt van 0 naar 30 uur p/w?” “Hoe veel verandert Onveilig als Urenkrant stijgt van 0 naar 3 uur p/w?” Dit idee werkt niet zo goed als er “uitschieters” zijn bij Urentv of Urenkrant!
Beter idee: “Gestandaardiseerde b coëfficiënt” voor sterkte van predictor Leeftijd: 21-70 jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: 0 -100 st.afw = 15 Onveilig = 2 + 0.6*Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant Als Leeftijd met 10 jaar stijgt, verandert Onveilig met 6 (= 10 * +0.6) Als Leeftijd met 1 st.afw stijgt, verandert Onveilig met 0.4 st.afw (= 6 : 15) Als Opleid met 1.5 stijgt, verandert Onveilig met -3 (= 1.5 * -2) Als Opleid met 1 st.afw stijgt, verandert Onveilig met -0.2 st.afw (= -3 : 15)
Gestandaardiseerde b coëfficiënt in spss: Beta Predictoren in volgorde van sterkte: 1) leeftijd 2) urentv 3) opleid 4) urenkrant
Modelbouw: welke predictoren kies je om een “goed” model te krijgen? Wat verstaat men onder een “goed” model? interpreteerbaar theorie en eerder onderzoek, gezond verstand zuinig zo min mogelijk predictoren want - eenvoudiger interpreteerbaar - b ’s nauwkeuriger te schatten - ietsje andere steekproef, “zelfde” schattingen goed passen zo hoog mogelijke R2 Zuinig Goedpassend "het goede model" geen predictor Yi = b0 + ei n=100 Yi = b0 + b1X1i+...+b99X99i
Empirische selectie procedures: voor exploratieve modelbouw opleiding start: y=b0+e R2 stijging door opname van: opleiding c + d + e + f / SSY inkomen b + d + f + g / SSY leeftijd a + b + c + d / SSY e f inkomen g d c b nieuw: y=b0+b1leeftijd+e R2 stijging door opname van: door opleiding e + f / SSY door inkomen f + g / SSY a h leeftijd nieuw: y=b0+b1leeftijd+b2opleiding+e R2 stijging door opname van: door inkomen g / SSY Y=onveiligheidsgevoel SSY = a+b+c+d+e+f+g+h Forward, Backward of Stepwise
Werking van selectieprocedure “Stepwise” grootste stijging R2 significant α=0.05 (spss: pin) kleinste daling R2 niet significant α=0.10 (spss: pout) X1 X2 X3 X4 X5 X6 startmodel: Y = b0 mogelijke X X2 X3 X6 eindmodel: Y = b0 + b2X2 + b3X3 + b6X6
Hoe verder na ‘t gebruik van Stepwise? Is de b coëfficiënt (+/-) van elke geselecteerde predictor interpreteerbaar? Zijn er predictoren, tegen je verwachting, niet geselecteerd? Kan komen doordat “aanverwante” predictoren wel zijn geselecteerd inkomen en soc.econ.status wel, opleiding niet kerkbezoek wel, mate van religiositeit niet Kan komen doordat er een “causale keten” bestaat X1=opleiding X2=localisme Y=interesse regionaal nieuws opleiding niet, localisme wel opleiding heeft geen directe invloed op Y en daarom niet geselecteerd Kan komen doordat je verwachting fout was!
kan komen doordat je ‘n andere belangrijke predictor vergat onveilig stad platteland urentv kan komen doordat die predictor ‘n tegenstelde invloed heeft op Y voor verschillende groepen mensen onveilig vrouwen mannen urentv