Download de presentatie
GepubliceerdBart Wouters Laatst gewijzigd meer dan 10 jaar geleden
1
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Transparanten beschikbaar gesteld door Dr. B. Pelzer
2
Regressie-analyse Residuen analyse, deel 1 vier assumpties doelstelling residuen analyse fit en invloed van 1 individu
3
Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0
Assumptie 1 residuen Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0 gemiddelde van Y in populatie = voorspelde Y door model !! Assumptie geschonden als relatie niet lineair of als predictor ontbreekt Y Y X X 3 3 ok niet ok 3
4
Hangen onderling niet samen: autocorrelatie(ei,ej) = 0
Assumptie 2 residuen Hangen onderling niet samen: autocorrelatie(ei,ej) = 0 Assumptie geschonden als predictor ontbreekt of als relatie niet lineair wijk 0 Y onveiligheid wijk 1 leeftijd X onveiligheid = b0 + b1leeftijd Y = b0 + b1X residuen van 2 personen uit zelfde wijk correleren positief residuen van 2 personen met zelfde X correleren positief niet ok niet ok 4
5
Assumptie geschonden als variantie in Y samenhangt met X
Assumptie 3 residuen Variantie even groot bij elke (combinatie van) X waarde(n): var (e | X) = σ2 Assumptie geschonden als variantie in Y samenhangt met X homoscedasticiteit heteroscedasticiteit inkomen conservatisme opleiding opleiding ok niet ok WLS in plaats van OLS 5
6
Assumptie 4 residuen Normaal verdeeld bij elke (combinatie van) X waarde(n): e | X ~ N (0, σ2) σ 6
7
Assumptie 4 residuen, vervolg
Assumptie e | X ~ N (0, σ2) geschonden als Y scheef verdeeld, bijv. inkomen op dia 3 rechts predictor ontbreekt, zie hieronder Interesse = b0 + b1 Salaris + e Histogram residuen bij salaris=10 7
8
1 Globale evaluatie model belangrijke variabelen niet in model?
Doel residuen analyse 1 Globale evaluatie model belangrijke variabelen niet in model? relatie Y met X lineair? 2 Rol individuele cases achterhalen cases die slecht 'passen'? cases die de schattingen sterk bepalen? Zinvol als N niet groot: vuistregel N < 500 3 Geloofwaardigheid toetsresultaten controleren heteroscedasticiteit? residuen normaal verdeeld? 8
9
Ad doel 2: residuen en daaruit afgeleide maten
Naam Spss Doel residual resid absolute grootte van ei standardized residual zresid relatieve grootte van ei studentized residual sresid relatieve grootte van ei studentized deleted residual sdresid past individu i goed bij de overige individuen? Cook's distance cook - ligging in X ruimte - invloed op eigen fit - invloed op ‘s centered leverage lever - ligging in X ruimte leverage zie centered leverage Mahalanobis distance mahal zie centered leverage fit invloed 9
10
Centered Leverage, Spss: Lever
Cent. Leverage van persoon i: - ligging van persoon i in X ruimte - invloed op eigen fit Y-score persoon i irrelevant voor cent. leverage! Ondergrens = als voor alle predictoren Bovengrens = (n-1) / n als extreem voor alle predictoren X C.lever X C.lever X C.lever 1010
11
Centered Leverage (vervolg) en Leverage
Als Centered Leverage van persoon i “groot” vuistregel > (2p+1)/n dan waarde(n) X extreem groot en/of klein en als gevolg hiervan dicht bij nul, dicht bij dus grote invloed eigen fit vaak: andere 's na verwijderen van individu i Leverage = h = centered leverage /n Ondergrens = 1/n “Groot” als > (2p+2)/n Bovengrens = 1 1111
12
Waarde van X’en en variantie van | X
Stel populatie-data: Steekproef 1 2 3 4 5 6 7 8 9 10 x 20 y V (A) Trek 10 cases, 1 per X waarde x x (B) Bepaal t/m Herhaal (A) en (B) 1000 maal en bereken var( ) t/m var( ) Conclusie: hoe extremer X des te kleiner de variantie van de 's, des te beter de 'fit' var(ê) x 12
13
Standardised en Studentised Residual
50 ei = = 1.6 σ conserva σ = 7 absoluut relatief leeftijd 13
14
Gebruik van Studentised Residual in een steekproef
Gebruik sresid voor: vergelijken fouten van individuen met verschillende X controleren normaal verdeeld zijn residuen als ware e 's in populatie normaal verdeeld dan sresid in steekproef t-verdeeld (bijna normaal bij grote N!) controleren homoscedasticiteit 14
15
Voorbeeld met resid, zresid en sresid
regression /dependent Y /enter X /residuals outliers(resid zresid sresid) id(X). zresid sresid 15
16
Past case i in het plaatje c.q. past case i bij de andere cases?
deleted residual van case i spss: dresid residual i sdresid Als ware e 's normaal verdeeld dan sdresid t-verdeeld Toets H0: case i is geen "outlier" Kritieke waarden in bijlage 4.1 dictaat 16
17
Heeft case i te veel invloed op de b's?
Cook's Distance gebaseerd op verschil: C regression /dependent y /enter x /residuals outliers(cook) id(x). A B (output hoort bij data in plotje dia 15) 17
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.