Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (2) Transparanten beschikbaar gesteld door Dr. B. Pelzer
Regressie-analyse Residuen analyse, deel 2 Controleren van de 4 assumpties via Spss 1) E(e|X)=0 2) var (e|X) = σ 2 3) e ~ N (0, σ 2 ) 4) corr(e i, e j ) = 0 Durbin-Watson
Vorige les vergeleken met deze les Vorige les: residuen / afgeleide maten van AFZONDERLIJKE cases Bij N < 500 controleer outliers en influential cases via via sdresid cook's distance sresid lever Deze les: residuen van ALLE cases samen - nonlineariteit - ontbreken van belangrijke predictoren - heteroscedasticiteit 3
Mogelijke medicijnen voor zieke modellen Bij nonlineariteit: inkomen = b 0 +b 1 leeftijd + b 2 leeftijd 2 +e log(inkomen) = b 0 +b 1 leeftijd + e Bij ontbreken van belangrijke predictoren: inkomen = b 0 +b 1 leeftijd + b 2 leeftijd 2 + b 3 man +e Bij heteroscedasticiteit: i.p.v. ordinary least squares "weighted least squares" toepassen 4
Schending van "E(e|X) = 0" vaak moeilijk te zien 5 Voorbeeld 1, model Y = b 0 +b 1 X +e Schending "E(e|X)=0" makkelijk te zien X Y Voorbeeld 2, model Y = b 0 +b 1 X 1 +b 2 X 2 +e Schending "E(e|X)=0" moeilijk te zien
Controle van "E(e|X) = 0" en "var(e|X) = σ 2 " met Spss, 1 6 regression /dep y /enter x1 x2 /save sresid(sresid). compute x1klas = rnd (x1 / 0.5) * 0.5. compute x2klas = rnd (x2 / 0.5) * 0.5. means sresid by x1klas x2klas. Predictoren met veel verschillende scores eerst klassificeren! klassebreedte=0.5 x1klas mean N stddev x2klas mean N stddev output bij vb 2 dia 4
Controle van "E(e|X) = 0" en "var(e|X) = σ 2 " met Spss, 2 graph line mean (sresid) by x1klas. graph line stdev (sresid) by x1klas. graph line mean (sresid) by x2klas. graph line stdev (sresid) by x2klas. 7
regression /dep y /enter x1 x2 /save sresid(sresid) pred(pred). compute predklas = rnd (pred / 1) * 1. Controle van "E(e|X) = 0" en "var(e|X) = σ 2 " met Spss, 3 graph line mean (predklas) by x2klas. Voorspelde scores "pred" eerst klassificeren! klassebreedte=1 meanssresid by predklas. predklas mean N stdev
Controle "E(e|X) = 0" en "var(e|X) = σ 2" met Spss, samengevat Vier recepten voor berekenen gemiddelden / std.afwijkingen van SRESID 1) voor combinaties van waarden van x1, x2, x3, … means sresid by x1 by x2 by x3. - heeft geen zin bij kleine N! 2)voor alle afzonderlijke waarden van x1, x2, x3,... means sresid by x1 x2 x3. 3)voor geklassificeerde predictoren recode leeftijd (18 thru 25=1)(26 thru… of via: compute x1klas = rnd (x1 / 3) * 3.klassebreedte 3 compute x2klas = rnd (x2 / 0.5) * 0.5klassebreedte 0.5 means sresid by x1klas x2klas. 4)voor klassen van PRED (= ) compute predklas = rnd (pred /10) *10.klassebreedte 10 means sresid by predklas. 9
Vijf recepten voor maken van histogrammen van SRESID 1) voor alle combinaties van waarden van x1, x2, x3, … 2) voor alle afzonderlijke waarden van x1, x2, x3,... 3) voor klassen van x1, x2, … 4) voor klassen van PRED (= ) 5) voor alle cases samen Spss via menubalk: graphs, interactive, histogram, sresid - bij "panel variables" opgeven: x1, x1klasse, predklas - geen "panel variable" noemen: histogram voor alle cases 10 Controle van " e|X ~ N (0, σ 2 )" met Spss, samengevat
Controle van "cor (e i,e j ) = 0" met Spss Na sorteren op PRED is hier de Durbin-Watson statistic = Voeg = PRED toe aan spss-bestand regr /dep y /enter x1 x2... /save pred(pred). 2Sorteer bestand volgens PRED sort cases by pred. 3Opnieuw regr. analyse en Durbin-Watson maat opvragen regr /dep y /enter x1 x2... /residuals durbin. 0 < Durbin-Watson < 4, als 2: OK, als <1.5: NIET OK 11