Inferentie voor regressie

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Toetsen van verschillen tussen twee of meer groepen
Inleiding tot inferentie
Hoe teken je een goede grafiek: bovenbouw
Natuurlijke Werkloosheid en de Phillipscurve
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
variabelen vaststellen
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Correlatietoetsen Toetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen. Vb. afhankelijkheid.
N = geschatte aantal M = eerste gemerkte vangst C = totaal tweede vangst R = aantal gemerkte exemplaren in tweede vangst.
havo A Samenvatting Hoofdstuk 8
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Statistiek ?! … Ronald Buyl - BISI.
vwo A Samenvatting Hoofdstuk 13
vwo C Samenvatting Hoofdstuk 14
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor kruistabellen
Schatter voor covariantie
Eenzijdige Betrouwbaarheidsgrens
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
variabelen vaststellen
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Statistiek voor Historici
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
havo/vwo D Samenvatting Hoofdstuk 4
H1 Experimenteel onderzoek
H4 Differentiëren.
De steekproefuitkomsten generaliseren naar de populatie
Hoorcollege 3 Samenhang tussen variabelen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Samenvatting.
FOKKE en SUKKE helpen bij het veldwerk. Gebruik van een statistisch pakket SPSS Opslaan en bewerken data –selecteren –wegen –hercoderen –Ontwerpen van.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Wat zegt een steekproef?
Standaard normaalverdeling
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Inferentie voor regressie Hoofdstuk 10 Inferentie voor regressie

Beschrijvende hulpmiddelen van H2 voorafgaand aan deze analyses In H2 : kleinste kwadraten regressielijn: y = a + bx a constante b helling Nu weten we : op basis van steekproef schatting maken over populatie : Bv. Op basis van x schatten we µ

Zelfde principe voor regressielijn : a + bx Wordt : b0 + b1x Schatter van : 0 + 1 x Waarbij : Constante b0 van de aangepaste lijn (data) een schatter is van de constante 0 van de populatielijn Helling b1van de aangepaste lijn een schatter is van de helling 1 van de populatielijn

Enkelvoudige lineaire regressie : 2 kwantitatieve variabelen : X is een verklarende variabele (OV) Y is een te verklaren variabele (AV) Meervoudige lineaire regressie : Meer dan 2 kwantitatieve variabelen waarbij Y is een te verklaren variabele Meerdere verklarende variabelen  Volgend jaar

10. 1. Enkelvoudige lineaire regressie A 10.1. Enkelvoudige lineaire regressie A. Statistisch model voor lineaire regressie Bij t-testen hebben we gezien x1 (bv. experimentele gr.) en x2 (bv. controlegr)  Voorspellers van µ1 en µ2

Bij lineaire regressie niet twee maar veel meer veranderingen in de vele verwachtingen µy bij veranderingen in x Deze verwachtingen µy liggen bij LINEAIRE regressie allen op een rechte lijn als we ze uitzetten tegenover x De regressielijn van de populatie is : µy = 0 + 1 x

B. Gegevens voor enkelvoudige lineaire regressie Uit de data : We hebben x en y Voor elke waarde van x zal de te verklaren variabele y variëren volgens een normaalverdeling en een vaste standaardafwijking  op basis waarvan we µy krijgen Zodat µy = 0 + 1 x

WAARNEMING = AANPASSING + RESIDU AANPASSING is de theoretische regressielijn gedefinieerd door 0 + 1 x RESIDU zijn de afwijkingen, de ruis, voorgesteld door Epsilon () die maken dat de waargenomen x,y waarden niet op een rechte lijn liggen yi = 0 + 1 xi + i De afwijkingen i worden verondersteld onafhankelijk te zijn met verwachting 0 en st.dev. 

C. Schatting van de regressieparameters Niet rekenen, enkel met SPSS Regression : dependent – independent Unstandardized coëff : constant = b0 verklarende = b1

D. Betrouwbaarheidsintervallen en significantietoetsen Ook uit computeroutput Bij Unstandardized coëff : constant = b0 verklarende = b1 steeds ook standaard error en 95% betrouwbaarheidsinterval voor b0 en voor b1

H0 : 0 = 0 Het is in µy = 0 + 1 x de verwachte reactie van y als x gelijk is aan 0 Dit is meestal NIET interessant, dus t-waarde die in de output hierbij hoort is meestal niet relevant H0 : 1 = 0 Dan houden we in µy = 0 + 1 x enkel µy = 0 over µy = 0 betekent dat de verwachting van y niet varieert met x, er is geen lineaire samenhang tussen x en y,  y kan niet voorspeld worden

Ha : 1  0 (dit is het tweezijdig alternatief) Wil zeggen : er is geen samenhang tussen x en y Ha : 1  0 (dit is het tweezijdig alternatief) Ha : 1 < 0 of 1 > 0 (dit is het eenzijdig alternatief) = negatief of positief verband

Vervolgens kijken in Tabel E Opnieuw toetsen met behulp van t-waarde met (n-2) vrijheidsgraden b1 t = ___________ uit output halen en berekenen SEb1 Vervolgens kijken in Tabel E SE : standaardfout t-waarde in output aflezen + p waarde

Voorbeeld : gemiddelde lengte naar leeftijd leeftijd in maanden lengte in cm 18 76.1 19 77.0 20 78.1 21 78.2 22 78.8 23 79.7 24 79.9 25 81.1 26 81.2 27 81.8 28 82.8 29 83.5

Regression : Coefficients t Sig. Model B Std. Error Beta 1 (Constant) 64,928 ,508 127,709 ,000 LEEFTIJD ,635 ,021 ,994 29,665 ,000 a Dependent Variable: LENGTE

E. Inferentie voor correlatie sterkte en richting van lineaire samenhang GEEN verklarende – te verklaren variabelen Steekproefcorrelatie r en populatiecorrelatie  (rho) x en y moeten gezamenlijk normaal zijn

Ha :  < 0 (negatieve correlatie) tweezijdige toetsing Ha :  < 0 (negatieve correlatie) of Ha :  > 0 (positieve correlatie) eenzijdige toetsing

r n - 2 t = 1 – r2 en in Tabel D met n – 2 vrijheidsgraden Via computeroutput bivariate correlatie : geeft de correlatiecoëfficiënt en p-waarde = tweezijdige toetsing

Verband tussen correlatie en regressie Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie

sy b1 = r sx => De correlatie is gelijk aan 0 als de helling 0 is en omgekeerd