De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Verwante presentaties


Presentatie over: "Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer."— Transcript van de presentatie:

1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer

2 Regressie-analyse Residuen analyse, deel 1 ●vier assumpties ●doelstelling residuen analyse ●fit en invloed van 1 individu

3 Assumptie 1 residuen 3 Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0 gemiddelde van Y in populatie = voorspelde Y door model !! Assumptie geschonden als relatie niet lineair of als predictor ontbreekt YY XX 3 3 okniet ok

4 Assumptie 2 residuen Hangen onderling niet samen: autocorrelatie(e i,e j ) = 0 onveiligheid leeftijd X Y wijk 0 wijk 1 onveiligheid = b 0 + b 1 leeftijdY = b 0 + b 1 X niet ok residuen van 2 personen uit zelfde wijk correleren positief residuen van 2 personen met zelfde X correleren positief Assumptie geschonden als predictor ontbreekt of als relatie niet lineair 4

5 Assumptie 3 residuen Variantie even groot bij elke (combinatie van) X waarde(n): var (e | X) = σ 2 conservatisme opleiding inkomen opleiding homoscedasticiteitheteroscedasticiteit okniet ok WLS in plaats van OLS 5 Assumptie geschonden als variantie in Y samenhangt met X

6 Assumptie 4 residuen Normaal verdeeld bij elke (combinatie van) X waarde(n): e | X ~ N (0, σ 2 ) σ 6

7 Assumptie 4 residuen, vervolg Assumptie e | X ~ N (0, σ 2 ) geschonden als Y scheef verdeeld, bijv. inkomen op dia 3 rechts predictor ontbreekt, zie hieronder Interesse = b 0 + b 1 Salaris + eHistogram residuen bij salaris=10 7

8 Doel residuen analyse 1Globale evaluatie model belangrijke variabelen niet in model? relatie Y met X lineair? 2Rol individuele cases achterhalen cases die slecht 'passen'? cases die de - schattingen sterk bepalen? Zinvol als N niet groot: vuistregel N < 500 3Geloofwaardigheid toetsresultaten controleren heteroscedasticiteit? residuen normaal verdeeld? 8

9 Ad doel 2: residuen en daaruit afgeleide maten residual residabsolute grootte van e i standardized residual zresidrelatieve grootte van e i studentized residualsresidrelatieve grootte van e i studentized deleted residual sdresidpast individu i goed bij de overige individuen? Cook's distancecook- ligging in X ruimte - invloed op eigen fit - invloed op ‘s centered leveragelever- ligging in X ruimte - invloed op eigen fit leverage - zie centered leverage Mahalanobis distancemahalzie centered leverage invloed fit 9 NaamSpss Doel

10 Centered Leverage, Spss: Lever Cent. Leverage van persoon i:- ligging van persoon i in X ruimte - invloed op eigen fit Y-score persoon i irrelevant voor cent. leverage! Ondergrens =0 als voor alle predictoren Bovengrens =(n-1) / n als extreem voor alle predictoren X C.lever X C.lever X C.lever

11 Centered Leverage (vervolg) en Leverage Als Centered Leverage van persoon i “groot” vuistregel > (2p+1)/n dan waarde(n) X extreem groot en/of klein en als gevolg hiervan dicht bij nul, dicht bij dus grote invloed eigen fit vaak: andere 's na verwijderen van individu i 11 Leverage = h = centered leverage + 1/n Ondergrens =1/n “Groot” als > (2p+2)/n Bovengrens =1

12 Waarde van X’en en variantie van | X Stel populatie-data:Steekproef (A) Trek 10 cases, 1 per X waarde x 0 20 y V V V V V V V V V V Herhaal (A) en (B) 1000 maal en bereken var( ) t/m var( ) x (B) Bepaal t/m x x Conclusie: hoe extremer X des te kleiner de variantie van de 1000 's, des te beter de 'fit' 12 var(ê)

13 Standardised en Studentised Residual σ = e i = 11.2 = 1.6 σ leeftijd conserva absoluutrelatief 13

14 Steekproef: Gebruik van Studentised Residual in een steekproef Gebruik sresid voor: vergelijken fouten van individuen met verschillende X controleren normaal verdeeld zijn residuen als ware e 's in populatie normaal verdeeld dan sresid in steekproef t-verdeeld (bijna normaal bij grote N!) controleren homoscedasticiteit 14

15 Voorbeeld met resid, zresid en sresid resid zresid sresid regression /dependent Y /enter X /residuals outliers(resid zresid sresid) id(X). 15

16 Past case i in het plaatje c.q. past case i bij de andere cases? 16 residual deleted residual van case i spss: dresid Als ware e 's normaal verdeeld dan sdresid t-verdeeld Toets H 0 : case i is geen "outlier" Kritieke waarden in bijlage 4.1 dictaat s dresid i

17 Heeft case i te veel invloed op de b's? Cook's Distance gebaseerd op verschil: regression /dependent y /enter x /residuals outliers(cook) id(x). AB C 17 (output hoort bij data in plotje dia 15)


Download ppt "Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer."

Verwante presentaties


Ads door Google