De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Verwante presentaties


Presentatie over: "1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer."— Transcript van de presentatie:

1 1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer

2 2 Meervoudige Regressie Analyse multipele regressie:twee of meer predictoren van interval meetniveau gezamenlijke invloed van subset van predictoren welke predictor is 't belangrijkste, welke daarna, etc. selectie van relevante predictoren: als er (weinig of) geen theorie is

3 3 econkrant = * salariseconkrant= *salaris + 2*opleiding multipele effect effect van salaris gecontroleerd voor opleiding effect van salaris onder controle van opleiding effect van salaris onder constanthouding van opleiding simpele effect ongecontroleerde effect van salaris Interpretatie van simpele versus multipele regressie effecten

4 4 Voorstelling van een regressievlak bij 2 predictoren = effect X 2 op Y onder constanthouding van X 1 = effect X 1 op Y onder constanthouding van X 2 Algemene vorm van multipele regressie model 0

5 5 geschatte voorspelde Y waarde van persoon i Schatten van b 0, b 1 … b p via "kleinste kwadraten" of OLS maat voor spreiding van punten rond regressievlak “gemiddelde fout” van model (spss: std. error of the estimate) “gemiddelde afstand” van punten tot regressievlak "hoe kleiner hoe fijner"

6 6 Past het lineaire model goed bij de data? 0 SSY = SSR egression + R esidual SS Proportie verklaarde variantie van Y = R 2 = SSR / (SSR + RSS) 0 R 2 1 R = correlatie ( ) = multipele correlatie coëfficiënt

7 7 De optimistische R 2 versus de realistische Adjusted R 2 Adjusted R 2 rapporteer je bij kleine N en relatief veel predictoren Populatie Nijmegenaren van 18+ jaar 10 predictoren Stel ware R 2 = 0.30 Steekproef 100 Nijmegenaren van 18+ jaar 10 predictoren over heel veel steekproeven de gemiddelde R 2 = 0.38 de gemiddelde adj. R 2 = 0.298

8 8 Gezamenlijke invloed van een subset van predictoren X1 = leeftijd X2 = opleiding X3 = urentv X4 = urenkrant Y = onveilig(A) (B) Gezamenlijke invloed van urentv + urenkrant kun je toetsen: H 0 : b 3 = b 4 =0 ofwel H 0 : R 2 model (A) = R 2 model(B) Als H 0 waar is volgt een F verdeling,df1 = aantal 0 gestelde b’s df2 = n – aantal X in model (A) - 1 Als Significantie van F < 0.05 dan H 0 verwerpen!

9 9 Gezamenlijk invloed X3 en X4 toetsen via F en R Square Change regression /dependent y /enter x1 x2 /test (x3 x4). F en Significantie van F !

10 10 Welke predictor is het sterkst c.q. heeft de grootste invloed op Y? Leeftijd: jaarst.afw = 10 Opleiding: 1 – 7 LO t/m Unist.afw = 1.5 Urentv:0 – 30 uur p/wst.afw = 5 Urenkrant:0 – 3 uur p/wst.afw = 0.6 Onveilig: st.afw = 15 “0.6*Leeftijd” betekent: als Leeftijd 1 jaar stijgt dan verandert Onveilig met +0.6” Een idee om de sterkte van de predictoren te bepalen is misschien: “Hoe veel verandert Onveilig als Leeftijd stijgt van 20 naar 70 jaar?” “Hoe veel verandert Onveilig als Opleiding stijgt van 1 naar 7?” “Hoe veel verandert Onveilig als Urentv stijgt van 0 naar 30 uur p/w?” “Hoe veel verandert Onveilig als Urenkrant stijgt van 0 naar 3 uur p/w?” Dit idee werkt niet zo goed als er “uitschieters” zijn bij Urentv of Urenkrant! Onveilig = *Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant

11 11 Beter idee: “Gestandaardiseerde b coëfficiënt” voor sterkte van predictor Leeftijd: jaarst.afw = 10 Opleiding: 1 – 7 LO t/m Unist.afw = 1.5 Urentv:0 – 30 uur p/wst.afw = 5 Urenkrant:0 – 3 uur p/wst.afw = 0.6 Onveilig: st.afw = 15 Als Leeftijd met10 jaarstijgt, verandert Onveilig met 6 (= 10 * +0.6) Als Leeftijd met1 st.afwstijgt, verandert Onveilig met 0.4 st.afw (= 6 : 15) Als Opleid met 1.5stijgt, verandert Onveilig met -3 (= 1.5 * -2) Als Opleid met 1 st.afwstijgt, verandert Onveilig met -0.2 st.afw (= -3 : 15) Onveilig = *Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant

12 12 Predictoren in volgorde van sterkte: 1) leeftijd 2) urentv 3) opleid 4) urenkrant Gestandaardiseerde b coëfficiënt in spss: Beta

13 13 interpreteerbaartheorie en eerder onderzoek, gezond verstand zuinig zo min mogelijk predictoren want - eenvoudiger interpreteerbaar - b ’s nauwkeuriger te schatten - ietsje andere steekproef, “zelfde” schattingen goed passenzo hoog mogelijke R 2 Modelbouw: welke predictoren kies je om een “goed” model te krijgen? Wat verstaat men onder een “goed” model? ZuinigGoedpassend "het goede model" geen predictor Y i = b 0 + e i n=100 Y i = b 0 + b 1 X 1i +...+b 99 X 99i

14 14 leeftijd a b c d e g opleiding inkomen Y=onveiligheidsgevoel SSY = a+b+c+d+e+f+g+h h f Empirische selectie procedures: voor exploratieve modelbouw start: y=b 0 +e R 2 stijging door opname van: opleidingc + d + e + f / SSY inkomenb + d + f + g / SSY leeftijd a + b + c + d / SSY nieuw: y=b 0 +b 1 leeftijd+e R 2 stijging door opname van: door opleidinge + f / SSY door inkomenf + g / SSY nieuw: y=b0+b 1 leeftijd+b 2 opleiding+e R 2 stijging door opname van: door inkomeng / SSY Forward, Backward of Stepwise

15 15 X1 X2 X3 X4 X5 X6 mogelijke X kleinste daling R 2 niet significant α=0.10 (spss: pout) grootste stijging R 2 significant α=0.05 (spss: pin) Werking van selectieprocedure “Stepwise” startmodel: Y = b 0 eindmodel: Y = b 0 + b 2 X2 + b 3 X3 + b 6 X6 X2 X3 X6

16 16 Hoe verder na ‘t gebruik van Stepwise? Is de b coëfficiënt (+/-) van elke geselecteerde predictor interpreteerbaar? Zijn er predictoren, tegen je verwachting, niet geselecteerd? Kan komen doordat “aanverwante” predictoren wel zijn geselecteerd inkomen en soc.econ.status wel, opleiding niet kerkbezoek wel, mate van religiositeit niet Kan komen doordat er een “causale keten” bestaat X1=opleiding X2=localisme Y=interesse regionaal nieuws opleiding niet, localisme wel opleiding heeft geen directe invloed op Y en daarom niet geselecteerd Kan komen doordat je verwachting fout was!

17 17 kan komen doordat je ‘n andere belangrijke predictor vergat kan komen doordat die predictor ‘n tegenstelde invloed heeft op Y voor verschillende groepen mensen mannen vrouwen urentv onveilig platteland stad urentv onveilig


Download ppt "1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer."

Verwante presentaties


Ads door Google