Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer

1822 - 1911 geographer, meteorologist, tropical explorer, founder of differential psychology, inventor of fingerprint identification, convinced hereditarian, eugenicist, proto-geneticist, half-cousin of Charles Darwin and best-selling author, friend of Karl Pearson, pioneer of statistical correlation and regression Stichtte Eugenics Education Society in 1907 Uitvinder van woord "regression" toen:"regression to mediocrity" = "terugval naar de middenmoot" nu:"regression" = "terugvoeren op", "herleiden tot" 2

Regressie van een kenmerk Y op een of meer andere kenmerken X Yafhankelijke variabele, dependent variable Xonafhankelijke variabele, independent variable, verklarende variabele, predictor Sterk punt: Y terugvoeren op meer dan één kenmerk X inkomenshoogte terugvoeren op opleiding en geslacht sociaal kapitaal terugvoeren op leeftijd en internetgebruik Interpretatie: invloed van X1 op Y onder controle van X2 invloed van X1=internetgebruik op Y=sociaal kapitaal Y onder controle van X2=leeftijd d.w.z. voor mensen van gelijke leeftijd Causaliteit 3

Y interval, één X interval Y = onveiligheidsgevoelens X1=leeftijd Y interval, meerdere X interval Y = onveiligheidsgevoelens X1=leeftijd X2= uren misdaad kijken tv Y interval, één of meer X nominaal Y = onveiligheidsgevoelens X1=krant die men leest X2=favoriete tv programma Y interval, sommige X nominaal, andere X interval Y = onveiligheidsgevoelens X1=krant die men leest X2=leeftijd Y dichotoom, sommige X nominaal, andere X interval Y = wel / niet veilig = 0 of 1 X1=krant die men leest X2=leeftijd Varianten regressie analyse in deze cursus simpele regressie multipele regressie logistische regressie 4

bij 5 km/u wandelsnelheid geldt: Y = b 1 X = 5 X 0 1 2 3 4 5 6 7 8X=uren 10 Y = afgelegde afstand 0 10 15 20 X =loopsnelheid 70 Y = hartslag Perfecte lineaire samenhang van Y met X: deterministisch model Algemene gedaante deterministisch lineaire regressie model: intercept regressie coëfficiënt, effect, slope 20 30 40 150 hartslag = b 0 + b 1 loopsnelheid als loopsnelheid=20 dan hartslag = 70 + 4 * 20 = 150 5

Interpretatie van de parameters b 0 en b 1 b 0 =waarde van Y als X = 0 b 1 =verandering in Y als X één eenheid stijgt 0 1 2 3 4 1 b1 b1 b0 b0 X Y Relatie Y = b 0 + b 1 X is deterministisch: alle observaties exact op lijn Deterministisch model (meestal) niet plausibel in sociale wetenschappen 6

0 1 2 3 4 5 6 7 8 9 Lineaire niet perfecte samenhang van Y met X: probabilistisch model Y= onveilig X = uren tv Regressiemodel: structurele deel = gemiddelde Y waarde bij specifieke X waarde toevallige deel, fout, error, residu verzamelbak van onbekende en/of onmeetbare invloeden op Y 7

Voorwaarden waaraan de toevallige fouten e i moeten voldoen 1.gemiddeld 0 voor elke waarde van X 2.onafhankelijk voor verschillende personen 3.zelfde standaardafwijking bij elke X waarde: s (sigma) 4.normaal verdeeld bij elke X waarde 3 8 uren tv onveilig uren tv onveilig 8

Waarom voorwaarde “ e i gemiddeld 0 voor elke X -waarde”? Dan is relatie tussen Y en X lineair leeftijd inkomen 35 Voorbeeld waarbij dat niet het geval is. 18 Bij leeftijd=18: alle punten onder de lijn dus alle Bij leeftijd=35: alle punten boven de lijn dus alle Aan voorwaarde 1 is boven niet voldaan want relatie is niet lineair Aan voorwaarde 2 is boven niet voldaan want … 9

Waarom kiest men vaak voor een lineair model? interpretatie eenvoudig robuust: andere steekproef, bijna zelfde resultaten in sociale wetenschappen vooral globale conlusies handige basis voor allerlei niet lineaire modellen 10

Schatten van b 0 en b 1 via "kleinste kwadraten" (OLS=ordinary least squares) Regressielijn zo kiezen dat zo dicht mogelijk bij 0 ligt maat voor spreiding van punten rond regressielijn “gemiddelde” fout van model (spss: std. error of the estimate) “gemiddelde” afstand van punten tot de regressielijn "hoe kleiner hoe fijner" verwachte / voorspelde Y waarde van persoon i 11

Hoe goed past het model bij de data? observatie voorspelling gemiddelde Totale variatie van Y (total sum of squares, SSY) bestaat uit: onverklaard deel (residual sum of squares, RSS) door model verklaard deel (sum of squares regression, SSR) Verhouding SSR / SSY noemt men "proportie verklaarde variantie“ of "determinatie coëfficiënt" 12

Proportie verklaarde variantie heet ook R-kwadraat, R-square, R 2 Minimale en maximale waarde van proportie verklaarde variantie geen invloed van X op Y proportie = 0 want perfecte relatie van X op Y proportie = 1 want 13

Familie van de proportie verklaarde variantie: (Pearson) correlatie r Maat voor lineaire samenhang tussen 2 variabelen r = 0 r = 0.7 r = -0.7 r = 0.9r = -0.9 r = 0r = 0.9 r = 1 r = -1 r 2 (X,Y) = proportie verklaarde variantie = R 2 r (X,Y) = r ( X+7, Y-8 ) =r ( 3X+7, 0.2Y-8 ) belangrijke eigenschap van r en dus ook van R 2 14

Is er echt invloed van X op Y of is dit steekproeftoeval? We doen alsof er in werkelijk geen invloed van leeftijd is: Als dat klopt volgt een t verdeling met n-2 vrijheidsgraden (df) standaard error van : geschatte variatie in waarden van oneindig veel steekproeven leeftijd onveilig 20 25 15 30 60 35 55 40 25 45 40 50 80 55 60 60 70 15

Gebruik van de t verdeling om te toetsen H 0 : b 1 = 0 populatie volgens H 0 : b 1 = 0 - trek oneindig veel steekproeven (n=9) - bereken voor elke steekproef - maak histogram van alle t waarden t verdeling met df = 7 t Stel voor jouw steekproef is t = 1.5 Bereken met spss de Sig(nificantie) van t : kans dat t > 1.5 + kans dat t < -1.5 Als Significantie < 0.05 dan verwerp H 0 ten gunste van H 1 : b 1 ≠ 0 Toets recept 16

regression dependent onveilig / enter leeftijd - “gemiddelde” fout van model - “gemiddelde” afstand tot regr. lijn RSS SSR SSY = RSS + SSR R-square = RSS / SSY std.error van significantie (2-zijdig!) proportie verklaarde variantie 17

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Verwante presentaties

Presentatie over: "Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Verwante presentaties

Presentatie over: "Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback