Cursus Regressie-analyse Rijkswaterstaat, 13 februari

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Toetsen van verschillen tussen twee of meer groepen
Statistiek II Deel 1.
H1 Basis Rekenvaardigheden
Roundtable 8 Teach as you preach: training in toepassen van het 4C-ID model volgens het model Symposium 4C-ID IV, 14 april 2011, Utrecht Studiecentrum.
Ronde (Sport & Spel) Quiz Night !
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
1. 2 ‘EEN MANAGER MOET VAN MENSEN HOUDEN’ 3 STRATEGIE WEES GEWOON OVERTUIGD DAT HET ALTIJD MET MENSEN BEGINT.
Leer de namen van de noten 2
Oppervlakten berekenen
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Oefeningen F-toetsen ANOVA.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Een fundamentele inleiding in de inductieve statistiek
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Werken aan Intergenerationele Samenwerking en Expertise.
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Inkomen les 20 Begrippen & opgave 100 t/m Begrippen Collectieve lasten Geheel van belastingen en sociale premies.
Inkomen les 14 Begrippen & 65 t/m Begrippen Primaire sector Bedrijven die zaken aan de natuur onttrekken (landbouw, jacht, bosbouw, visserij)
Inkomen les 19 Begrippen & 92 t/m 99
Inkomen les 7 27 t/m 37.
A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)
Voorrangsregels bij rekenen (1)
Test- retest methode -- voorbeeld r = 0, Test Hertest r = 0, Test Hertest r = 1,00.
De financiële functie: Integrale bedrijfsanalyse©
Worteltrekken (1) F.J. Schuurman De Meibrink 30 Dinxperlo.
Hoorcollege 3 Samenhang tussen variabelen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Even bijpraten… Jan Bartling 30 januari 2015 In vogelvlucht langs de belangrijkste thema’s.
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Echtscheiding en sociaal kapitaal in Vlaanderen Belinda Wijckmans, Maaike Jappens & Jan Van Bavel Interface Demography Vlaanderen Gepeild 2009 Brussel,
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (2) Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Leydi Johana Breuls “In hoeverre speelt de sociale samenstelling van een sportclub een rol in de beslissing van leden om te stoppen?“ 01 Waarom?
Testen met een klein aantal testmonsters Rob Ross.
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Meervoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer

Meervoudige Regressie Analyse multipele regressie: twee of meer predictoren van interval meetniveau gezamenlijke invloed van subset van predictoren welke predictor is 't belangrijkste, welke daarna, etc. selectie van relevante predictoren: als er (weinig of) geen theorie is

econkrant= 5 + 0.2*salaris + 2*opleiding Interpretatie van simpele versus multipele regressie effecten econkrant = 5.6 + 0.5 * salaris econkrant= 5 + 0.2*salaris + 2*opleiding multipele effect effect van salaris gecontroleerd voor opleiding effect van salaris onder controle van opleiding effect van salaris onder constanthouding van opleiding simpele effect ongecontroleerde effect van salaris

Voorstelling van een regressievlak bij 2 predictoren = effect X2 op Y onder constanthouding van X1 = effect X1 op Y onder constanthouding van X2 Algemene vorm van multipele regressie model

Schatten van b0, b1 … bp via "kleinste kwadraten" of OLS geschatte voorspelde Y waarde van persoon i maat voor spreiding van punten rond regressievlak “gemiddelde fout” van model (spss: std. error of the estimate) “gemiddelde afstand” van punten tot regressievlak "hoe kleiner hoe fijner"

Past het lineaire model goed bij de data? SSY = SSRegression + Residual SS Proportie verklaarde variantie van Y = R2 = SSR / (SSR + RSS) 0 R2 1 R = correlatie ( ) = multipele correlatie coëfficiënt

De optimistische R2 versus de realistische Adjusted R2 Populatie 120.000 Nijmegenaren van 18+ jaar 10 predictoren Stel ware R2 = 0.30 Steekproef 100 Nijmegenaren van 18+ jaar 10 predictoren over heel veel steekproeven de gemiddelde R2 = 0.38 de gemiddelde adj. R2 = 0.298 Adjusted R2 rapporteer je bij kleine N en relatief veel predictoren

Gezamenlijke invloed van een subset van predictoren X1 = leeftijd X2 = opleiding X3 = urentv X4 = urenkrant Y = onveilig (A) (B) Gezamenlijke invloed van urentv + urenkrant kun je toetsen: H0 : b3 = b4=0 ofwel H0 : R2model (A) = R2model(B) Als H0 waar is volgt een F verdeling, df1 = aantal 0 gestelde b’s df2 = n – aantal X in model (A) - 1 Als Significantie van F < 0.05 dan H0 verwerpen!

Gezamenlijk invloed X3 en X4 toetsen via F en R Square Change regression /dependent y /enter x1 x2 /test (x3 x4). F en Significantie van F !

Welke predictor is het sterkst c.q. heeft de grootste invloed op Y? Leeftijd: 20-70 jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: 0 -100 st.afw = 15 Onveilig = 2 + 0.6*Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant “0.6*Leeftijd” betekent: als Leeftijd 1 jaar stijgt dan verandert Onveilig met +0.6” Een idee om de sterkte van de predictoren te bepalen is misschien: “Hoe veel verandert Onveilig als Leeftijd stijgt van 20 naar 70 jaar?” “Hoe veel verandert Onveilig als Opleiding stijgt van 1 naar 7?” “Hoe veel verandert Onveilig als Urentv stijgt van 0 naar 30 uur p/w?” “Hoe veel verandert Onveilig als Urenkrant stijgt van 0 naar 3 uur p/w?” Dit idee werkt niet zo goed als er “uitschieters” zijn bij Urentv of Urenkrant!

Beter idee: “Gestandaardiseerde b coëfficiënt” voor sterkte van predictor Leeftijd: 21-70 jaar st.afw = 10 Opleiding: 1 – 7 LO t/m Uni st.afw = 1.5 Urentv: 0 – 30 uur p/w st.afw = 5 Urenkrant: 0 – 3 uur p/w st.afw = 0.6 Onveilig: 0 -100 st.afw = 15 Onveilig = 2 + 0.6*Leeftijd – 2*Opleiding + 1*Urentv + 1*Urenkrant Als Leeftijd met 10 jaar stijgt, verandert Onveilig met 6 (= 10 * +0.6) Als Leeftijd met 1 st.afw stijgt, verandert Onveilig met 0.4 st.afw (= 6 : 15) Als Opleid met 1.5 stijgt, verandert Onveilig met -3 (= 1.5 * -2) Als Opleid met 1 st.afw stijgt, verandert Onveilig met -0.2 st.afw (= -3 : 15)

Gestandaardiseerde b coëfficiënt in spss: Beta Predictoren in volgorde van sterkte: 1) leeftijd 2) urentv 3) opleid 4) urenkrant

Modelbouw: welke predictoren kies je om een “goed” model te krijgen? Wat verstaat men onder een “goed” model? interpreteerbaar theorie en eerder onderzoek, gezond verstand zuinig zo min mogelijk predictoren want - eenvoudiger interpreteerbaar - b ’s nauwkeuriger te schatten - ietsje andere steekproef, “zelfde” schattingen goed passen zo hoog mogelijke R2 Zuinig Goedpassend "het goede model" geen predictor Yi = b0 + ei n=100 Yi = b0 + b1X1i+...+b99X99i

Empirische selectie procedures: voor exploratieve modelbouw opleiding start: y=b0+e R2 stijging door opname van: opleiding c + d + e + f / SSY inkomen b + d + f + g / SSY leeftijd a + b + c + d / SSY e f inkomen g d c b nieuw: y=b0+b1leeftijd+e R2 stijging door opname van: door opleiding e + f / SSY door inkomen f + g / SSY a h leeftijd nieuw: y=b0+b1leeftijd+b2opleiding+e R2 stijging door opname van: door inkomen g / SSY Y=onveiligheidsgevoel SSY = a+b+c+d+e+f+g+h Forward, Backward of Stepwise

Werking van selectieprocedure “Stepwise” grootste stijging R2 significant α=0.05 (spss: pin) kleinste daling R2 niet significant α=0.10 (spss: pout) X1 X2 X3 X4 X5 X6 startmodel: Y = b0 mogelijke X X2 X3 X6 eindmodel: Y = b0 + b2X2 + b3X3 + b6X6

Hoe verder na ‘t gebruik van Stepwise? Is de b coëfficiënt (+/-) van elke geselecteerde predictor interpreteerbaar? Zijn er predictoren, tegen je verwachting, niet geselecteerd? Kan komen doordat “aanverwante” predictoren wel zijn geselecteerd inkomen en soc.econ.status wel, opleiding niet kerkbezoek wel, mate van religiositeit niet Kan komen doordat er een “causale keten” bestaat X1=opleiding X2=localisme Y=interesse regionaal nieuws opleiding niet, localisme wel opleiding heeft geen directe invloed op Y en daarom niet geselecteerd Kan komen doordat je verwachting fout was!

kan komen doordat je ‘n andere belangrijke predictor vergat onveilig stad platteland urentv kan komen doordat die predictor ‘n tegenstelde invloed heeft op Y voor verschillende groepen mensen onveilig vrouwen mannen urentv