Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer
geographer, meteorologist, tropical explorer, founder of differential psychology, inventor of fingerprint identification, convinced hereditarian, eugenicist, proto-geneticist, half-cousin of Charles Darwin and best-selling author, friend of Karl Pearson, pioneer of statistical correlation and regression Stichtte Eugenics Education Society in 1907 Uitvinder van woord "regression" toen:"regression to mediocrity" = "terugval naar de middenmoot" nu:"regression" = "terugvoeren op", "herleiden tot" 2
Regressie van een kenmerk Y op een of meer andere kenmerken X Yafhankelijke variabele, dependent variable Xonafhankelijke variabele, independent variable, verklarende variabele, predictor Sterk punt: Y terugvoeren op meer dan één kenmerk X inkomenshoogte terugvoeren op opleiding en geslacht sociaal kapitaal terugvoeren op leeftijd en internetgebruik Interpretatie: invloed van X1 op Y onder controle van X2 invloed van X1=internetgebruik op Y=sociaal kapitaal Y onder controle van X2=leeftijd d.w.z. voor mensen van gelijke leeftijd Causaliteit 3
Y interval, één X interval Y = onveiligheidsgevoelens X1=leeftijd Y interval, meerdere X interval Y = onveiligheidsgevoelens X1=leeftijd X2= uren misdaad kijken tv Y interval, één of meer X nominaal Y = onveiligheidsgevoelens X1=krant die men leest X2=favoriete tv programma Y interval, sommige X nominaal, andere X interval Y = onveiligheidsgevoelens X1=krant die men leest X2=leeftijd Y dichotoom, sommige X nominaal, andere X interval Y = wel / niet veilig = 0 of 1 X1=krant die men leest X2=leeftijd Varianten regressie analyse in deze cursus simpele regressie multipele regressie logistische regressie 4
bij 5 km/u wandelsnelheid geldt: Y = b 1 X = 5 X X=uren 10 Y = afgelegde afstand X =loopsnelheid 70 Y = hartslag Perfecte lineaire samenhang van Y met X: deterministisch model Algemene gedaante deterministisch lineaire regressie model: intercept regressie coëfficiënt, effect, slope hartslag = b 0 + b 1 loopsnelheid als loopsnelheid=20 dan hartslag = * 20 = 150 5
Interpretatie van de parameters b 0 en b 1 b 0 =waarde van Y als X = 0 b 1 =verandering in Y als X één eenheid stijgt b1 b1 b0 b0 X Y Relatie Y = b 0 + b 1 X is deterministisch: alle observaties exact op lijn Deterministisch model (meestal) niet plausibel in sociale wetenschappen 6
Lineaire niet perfecte samenhang van Y met X: probabilistisch model Y= onveilig X = uren tv Regressiemodel: structurele deel = gemiddelde Y waarde bij specifieke X waarde toevallige deel, fout, error, residu verzamelbak van onbekende en/of onmeetbare invloeden op Y 7
Voorwaarden waaraan de toevallige fouten e i moeten voldoen 1.gemiddeld 0 voor elke waarde van X 2.onafhankelijk voor verschillende personen 3.zelfde standaardafwijking bij elke X waarde: s (sigma) 4.normaal verdeeld bij elke X waarde 3 8 uren tv onveilig uren tv onveilig 8
Waarom voorwaarde “ e i gemiddeld 0 voor elke X -waarde”? Dan is relatie tussen Y en X lineair leeftijd inkomen 35 Voorbeeld waarbij dat niet het geval is. 18 Bij leeftijd=18: alle punten onder de lijn dus alle Bij leeftijd=35: alle punten boven de lijn dus alle Aan voorwaarde 1 is boven niet voldaan want relatie is niet lineair Aan voorwaarde 2 is boven niet voldaan want … 9
Waarom kiest men vaak voor een lineair model? interpretatie eenvoudig robuust: andere steekproef, bijna zelfde resultaten in sociale wetenschappen vooral globale conlusies handige basis voor allerlei niet lineaire modellen 10
Schatten van b 0 en b 1 via "kleinste kwadraten" (OLS=ordinary least squares) Regressielijn zo kiezen dat zo dicht mogelijk bij 0 ligt maat voor spreiding van punten rond regressielijn “gemiddelde” fout van model (spss: std. error of the estimate) “gemiddelde” afstand van punten tot de regressielijn "hoe kleiner hoe fijner" verwachte / voorspelde Y waarde van persoon i 11
Hoe goed past het model bij de data? observatie voorspelling gemiddelde Totale variatie van Y (total sum of squares, SSY) bestaat uit: onverklaard deel (residual sum of squares, RSS) door model verklaard deel (sum of squares regression, SSR) Verhouding SSR / SSY noemt men "proportie verklaarde variantie“ of "determinatie coëfficiënt" 12
Proportie verklaarde variantie heet ook R-kwadraat, R-square, R 2 Minimale en maximale waarde van proportie verklaarde variantie geen invloed van X op Y proportie = 0 want perfecte relatie van X op Y proportie = 1 want 13
Familie van de proportie verklaarde variantie: (Pearson) correlatie r Maat voor lineaire samenhang tussen 2 variabelen r = 0 r = 0.7 r = -0.7 r = 0.9r = -0.9 r = 0r = 0.9 r = 1 r = -1 r 2 (X,Y) = proportie verklaarde variantie = R 2 r (X,Y) = r ( X+7, Y-8 ) =r ( 3X+7, 0.2Y-8 ) belangrijke eigenschap van r en dus ook van R 2 14
Is er echt invloed van X op Y of is dit steekproeftoeval? We doen alsof er in werkelijk geen invloed van leeftijd is: Als dat klopt volgt een t verdeling met n-2 vrijheidsgraden (df) standaard error van : geschatte variatie in waarden van oneindig veel steekproeven leeftijd onveilig
Gebruik van de t verdeling om te toetsen H 0 : b 1 = 0 populatie volgens H 0 : b 1 = 0 - trek oneindig veel steekproeven (n=9) - bereken voor elke steekproef - maak histogram van alle t waarden t verdeling met df = 7 t Stel voor jouw steekproef is t = 1.5 Bereken met spss de Sig(nificantie) van t : kans dat t > kans dat t < -1.5 Als Significantie < 0.05 dan verwerp H 0 ten gunste van H 1 : b 1 ≠ 0 Toets recept 16
regression dependent onveilig / enter leeftijd - “gemiddelde” fout van model - “gemiddelde” afstand tot regr. lijn RSS SSR SSY = RSS + SSR R-square = RSS / SSY std.error van significantie (2-zijdig!) proportie verklaarde variantie 17