Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
De Weibull verdeling Waloddi Weibull ( ) Weibull:
(11,25;10) (10,15) (10,16) Totaal 7 lijnen getekend.
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
Jan Talmon Medische Informatica Universiteit Maastricht
Overzicht presentatie
Internationale hogeschool Breda Wiskunde bij het ontwerpen en evalueren van verkeerslichtenregelingen Wachten voor een verkeerslicht duurt altijd te lang…..
vwo C Samenvatting Hoofdstuk 14
De grafiek van een lineair verband is ALTIJD een rechte lijn.
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Schatter voor covariantie
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Een fundamentele inleiding in de inductieve statistiek
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Statistiek voor Historici
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
havo/vwo D Samenvatting Hoofdstuk 4
Tweedegraadsfuncties
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Enquête.
Varianties bij replicatie (herhaald testen)
Inhoud college Bespreken opdracht Lijnbalancering: TPM
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Sociale compositie van sportverenigingen en het effect op dropout
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (2) Transparanten beschikbaar gesteld door Dr. B. Pelzer.
FOKKE en SUKKE helpen bij het veldwerk. Gebruik van een statistisch pakket SPSS Opslaan en bewerken data –selecteren –wegen –hercoderen –Ontwerpen van.
Voorspellende analyse
Transcript van de presentatie:

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer

geographer, meteorologist, tropical explorer, founder of differential psychology, inventor of fingerprint identification, convinced hereditarian, eugenicist, proto-geneticist, half-cousin of Charles Darwin and best-selling author, friend of Karl Pearson, pioneer of statistical correlation and regression Stichtte Eugenics Education Society in 1907 Uitvinder van woord "regression" toen:"regression to mediocrity" = "terugval naar de middenmoot" nu:"regression" = "terugvoeren op", "herleiden tot" 2

Regressie van een kenmerk Y op een of meer andere kenmerken X Yafhankelijke variabele, dependent variable Xonafhankelijke variabele, independent variable, verklarende variabele, predictor Sterk punt: Y terugvoeren op meer dan één kenmerk X inkomenshoogte terugvoeren op opleiding en geslacht sociaal kapitaal terugvoeren op leeftijd en internetgebruik Interpretatie: invloed van X1 op Y onder controle van X2 invloed van X1=internetgebruik op Y=sociaal kapitaal Y onder controle van X2=leeftijd d.w.z. voor mensen van gelijke leeftijd Causaliteit 3

Y interval, één X interval Y = onveiligheidsgevoelens X1=leeftijd Y interval, meerdere X interval Y = onveiligheidsgevoelens X1=leeftijd X2= uren misdaad kijken tv Y interval, één of meer X nominaal Y = onveiligheidsgevoelens X1=krant die men leest X2=favoriete tv programma Y interval, sommige X nominaal, andere X interval Y = onveiligheidsgevoelens X1=krant die men leest X2=leeftijd Y dichotoom, sommige X nominaal, andere X interval Y = wel / niet veilig = 0 of 1 X1=krant die men leest X2=leeftijd Varianten regressie analyse in deze cursus simpele regressie multipele regressie logistische regressie 4

bij 5 km/u wandelsnelheid geldt: Y = b 1 X = 5 X X=uren 10 Y = afgelegde afstand X =loopsnelheid 70 Y = hartslag Perfecte lineaire samenhang van Y met X: deterministisch model Algemene gedaante deterministisch lineaire regressie model: intercept regressie coëfficiënt, effect, slope hartslag = b 0 + b 1 loopsnelheid als loopsnelheid=20 dan hartslag = * 20 = 150 5

Interpretatie van de parameters b 0 en b 1 b 0 =waarde van Y als X = 0 b 1 =verandering in Y als X één eenheid stijgt b1 b1 b0 b0 X Y Relatie Y = b 0 + b 1 X is deterministisch: alle observaties exact op lijn Deterministisch model (meestal) niet plausibel in sociale wetenschappen 6

Lineaire niet perfecte samenhang van Y met X: probabilistisch model Y= onveilig X = uren tv Regressiemodel: structurele deel = gemiddelde Y waarde bij specifieke X waarde toevallige deel, fout, error, residu verzamelbak van onbekende en/of onmeetbare invloeden op Y 7

Voorwaarden waaraan de toevallige fouten e i moeten voldoen 1.gemiddeld 0 voor elke waarde van X 2.onafhankelijk voor verschillende personen 3.zelfde standaardafwijking bij elke X waarde: s (sigma) 4.normaal verdeeld bij elke X waarde 3 8 uren tv onveilig uren tv onveilig 8

Waarom voorwaarde “ e i gemiddeld 0 voor elke X -waarde”? Dan is relatie tussen Y en X lineair leeftijd inkomen 35 Voorbeeld waarbij dat niet het geval is. 18 Bij leeftijd=18: alle punten onder de lijn dus alle Bij leeftijd=35: alle punten boven de lijn dus alle Aan voorwaarde 1 is boven niet voldaan want relatie is niet lineair Aan voorwaarde 2 is boven niet voldaan want … 9

Waarom kiest men vaak voor een lineair model? interpretatie eenvoudig robuust: andere steekproef, bijna zelfde resultaten in sociale wetenschappen vooral globale conlusies handige basis voor allerlei niet lineaire modellen 10

Schatten van b 0 en b 1 via "kleinste kwadraten" (OLS=ordinary least squares) Regressielijn zo kiezen dat zo dicht mogelijk bij 0 ligt maat voor spreiding van punten rond regressielijn “gemiddelde” fout van model (spss: std. error of the estimate) “gemiddelde” afstand van punten tot de regressielijn "hoe kleiner hoe fijner" verwachte / voorspelde Y waarde van persoon i 11

Hoe goed past het model bij de data? observatie voorspelling gemiddelde Totale variatie van Y (total sum of squares, SSY) bestaat uit: onverklaard deel (residual sum of squares, RSS) door model verklaard deel (sum of squares regression, SSR) Verhouding SSR / SSY noemt men "proportie verklaarde variantie“ of "determinatie coëfficiënt" 12

Proportie verklaarde variantie heet ook R-kwadraat, R-square, R 2 Minimale en maximale waarde van proportie verklaarde variantie geen invloed van X op Y proportie = 0 want perfecte relatie van X op Y proportie = 1 want 13

Familie van de proportie verklaarde variantie: (Pearson) correlatie r Maat voor lineaire samenhang tussen 2 variabelen r = 0 r = 0.7 r = -0.7 r = 0.9r = -0.9 r = 0r = 0.9 r = 1 r = -1 r 2 (X,Y) = proportie verklaarde variantie = R 2 r (X,Y) = r ( X+7, Y-8 ) =r ( 3X+7, 0.2Y-8 ) belangrijke eigenschap van r en dus ook van R 2 14

Is er echt invloed van X op Y of is dit steekproeftoeval? We doen alsof er in werkelijk geen invloed van leeftijd is: Als dat klopt volgt een t verdeling met n-2 vrijheidsgraden (df) standaard error van : geschatte variatie in waarden van oneindig veel steekproeven leeftijd onveilig

Gebruik van de t verdeling om te toetsen H 0 : b 1 = 0 populatie volgens H 0 : b 1 = 0 - trek oneindig veel steekproeven (n=9) - bereken voor elke steekproef - maak histogram van alle t waarden t verdeling met df = 7 t Stel voor jouw steekproef is t = 1.5 Bereken met spss de Sig(nificantie) van t : kans dat t > kans dat t < -1.5 Als Significantie < 0.05 dan verwerp H 0 ten gunste van H 1 : b 1 ≠ 0 Toets recept 16

regression dependent onveilig / enter leeftijd - “gemiddelde” fout van model - “gemiddelde” afstand tot regr. lijn RSS SSR SSY = RSS + SSR R-square = RSS / SSY std.error van significantie (2-zijdig!) proportie verklaarde variantie 17