Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

H3 Tweedegraads Verbanden
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
HC2MFE Meten van verschillen
Beschrijvende en inferentiële statistiek
H1 Basis Rekenvaardigheden
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Vergroting.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Les 14 : MODULE 1 Kabels Rekloze kabels
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
toetsen voor het verband tussen variabelen met gelijk meetniveau
Recap Tom Wenseleeers, 22 oktober 2009
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Lineaire functies Lineaire functie
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Meervoudige lineaire regressie
Inferentie voor regressie
Schatter voor covariantie
Continue kansverdelingen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Een fundamentele inleiding in de inductieve statistiek
Les 10 : MODULE 1 Snedekrachten
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Logistische regressie
Werken aan Intergenerationele Samenwerking en Expertise.
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
ribwis1 Toegepaste wiskunde Lesweek 3
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
havo/vwo D Samenvatting Hoofdstuk 4
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
1 Welk plaatje hoort bij de hals? 2 Welk plaatje hoort bij het neusgat?
Welk plaatje hoort bij de herfst?
Varianties bij replicatie (herhaald testen)
Partiële r² Predictie van y gebaseerd op z alleen
De financiële functie: Integrale bedrijfsanalyse©
Inleiding in de statistiek voor de gedragswetenschappen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Inleiding in de statistiek voor de gedragswetenschappen
Kwantitatieve & kwalitatieve data analyse
Trillingstijd en frequentie bepalen uit een oscilloscoopbeeld
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Regressie-analyse Casus:
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Echtscheiding en sociaal kapitaal in Vlaanderen Belinda Wijckmans, Maaike Jappens & Jan Van Bavel Interface Demography Vlaanderen Gepeild 2009 Brussel,
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (2) Transparanten beschikbaar gesteld door Dr. B. Pelzer.
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Voorspellende analyse
Transcript van de presentatie:

Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer

Regressie-analyse Residuen analyse, deel 1 vier assumpties doelstelling residuen analyse fit en invloed van 1 individu

Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0 Assumptie 1 residuen Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0 gemiddelde van Y in populatie = voorspelde Y door model !! Assumptie geschonden als relatie niet lineair of als predictor ontbreekt Y Y X X 3 3 ok niet ok 3

Hangen onderling niet samen: autocorrelatie(ei,ej) = 0 Assumptie 2 residuen Hangen onderling niet samen: autocorrelatie(ei,ej) = 0 Assumptie geschonden als predictor ontbreekt of als relatie niet lineair wijk 0 Y onveiligheid wijk 1 leeftijd X onveiligheid = b0 + b1leeftijd Y = b0 + b1X residuen van 2 personen uit zelfde wijk correleren positief residuen van 2 personen met zelfde X correleren positief niet ok niet ok 4

Assumptie geschonden als variantie in Y samenhangt met X Assumptie 3 residuen Variantie even groot bij elke (combinatie van) X waarde(n): var (e | X) = σ2 Assumptie geschonden als variantie in Y samenhangt met X homoscedasticiteit heteroscedasticiteit inkomen conservatisme opleiding opleiding ok niet ok WLS in plaats van OLS 5

Assumptie 4 residuen Normaal verdeeld bij elke (combinatie van) X waarde(n): e | X ~ N (0, σ2) σ 6

Assumptie 4 residuen, vervolg Assumptie e | X ~ N (0, σ2) geschonden als Y scheef verdeeld, bijv. inkomen op dia 3 rechts predictor ontbreekt, zie hieronder Interesse = b0 + b1 Salaris + e Histogram residuen bij salaris=10 7

1 Globale evaluatie model belangrijke variabelen niet in model? Doel residuen analyse 1 Globale evaluatie model belangrijke variabelen niet in model? relatie Y met X lineair? 2 Rol individuele cases achterhalen cases die slecht 'passen'? cases die de - schattingen sterk bepalen? Zinvol als N niet groot: vuistregel N < 500 3 Geloofwaardigheid toetsresultaten controleren heteroscedasticiteit? residuen normaal verdeeld? 8

Ad doel 2: residuen en daaruit afgeleide maten Naam Spss Doel residual resid absolute grootte van ei standardized residual zresid relatieve grootte van ei studentized residual sresid relatieve grootte van ei studentized deleted residual sdresid past individu i goed bij de overige individuen? Cook's distance cook - ligging in X ruimte - invloed op eigen fit - invloed op ‘s centered leverage lever - ligging in X ruimte leverage - zie centered leverage Mahalanobis distance mahal zie centered leverage fit invloed 9

Centered Leverage, Spss: Lever Cent. Leverage van persoon i: - ligging van persoon i in X ruimte - invloed op eigen fit Y-score persoon i irrelevant voor cent. leverage! Ondergrens = 0 als voor alle predictoren Bovengrens = (n-1) / n als extreem voor alle predictoren X C.lever 10 .245 1 .245 9 .148 2 .148 8 .076 3 .076 7 .027 4 .027 6 .003 5 .003 X C.lever 15 .540 1 .167 2 .107 9 .060 3 .060 8 .027 4 .027 7 .007 5 .007 6 .000 X C.lever 50 .871 1 .038 2 .030 3 .022 4 .016 5 .011 6 .007 7 .003 8 .001 9 .000 1010

Centered Leverage (vervolg) en Leverage Als Centered Leverage van persoon i “groot” vuistregel > (2p+1)/n dan waarde(n) X extreem groot en/of klein en als gevolg hiervan dicht bij nul, dicht bij dus grote invloed eigen fit vaak: andere 's na verwijderen van individu i Leverage = h = centered leverage + 1/n Ondergrens = 1/n “Groot” als > (2p+2)/n Bovengrens = 1 1111

Waarde van X’en en variantie van | X Stel populatie-data: Steekproef 1 2 3 4 5 6 7 8 9 10 x 20 y V (A) Trek 10 cases, 1 per X waarde x x (B) Bepaal t/m Herhaal (A) en (B) 1000 maal en bereken var( ) t/m var( ) Conclusie: hoe extremer X des te kleiner de variantie van de 1000 's, des te beter de 'fit' var(ê) x 12

Standardised en Studentised Residual 50 ei = 11.2 = 1.6 σ conserva σ = 7 absoluut relatief leeftijd 13

Gebruik van Studentised Residual in een steekproef Gebruik sresid voor: vergelijken fouten van individuen met verschillende X controleren normaal verdeeld zijn residuen als ware e 's in populatie normaal verdeeld dan sresid in steekproef t-verdeeld (bijna normaal bij grote N!) controleren homoscedasticiteit 14

Voorbeeld met resid, zresid en sresid regression /dependent Y /enter X /residuals outliers(resid zresid sresid) id(X). zresid sresid 15

Past case i in het plaatje c.q. past case i bij de andere cases? deleted residual van case i spss: dresid residual i sdresid Als ware e 's normaal verdeeld dan sdresid t-verdeeld Toets H0: case i is geen "outlier" Kritieke waarden in bijlage 4.1 dictaat 16

Heeft case i te veel invloed op de b's? Cook's Distance gebaseerd op verschil: C regression /dependent y /enter x /residuals outliers(cook) id(x). A B (output hoort bij data in plotje dia 15) 17