Inferentie voor regressie Hoofdstuk 10 Inferentie voor regressie
Beschrijvende hulpmiddelen van H2 voorafgaand aan deze analyses In H2 : kleinste kwadraten regressielijn: y = a + bx a constante b helling Nu weten we : op basis van steekproef schatting maken over populatie : Bv. Op basis van x schatten we µ
Zelfde principe voor regressielijn : a + bx Wordt : b0 + b1x Schatter van : 0 + 1 x Waarbij : Constante b0 van de aangepaste lijn (data) een schatter is van de constante 0 van de populatielijn Helling b1van de aangepaste lijn een schatter is van de helling 1 van de populatielijn
Enkelvoudige lineaire regressie : 2 kwantitatieve variabelen : X is een verklarende variabele (OV) Y is een te verklaren variabele (AV) Meervoudige lineaire regressie : Meer dan 2 kwantitatieve variabelen waarbij Y is een te verklaren variabele Meerdere verklarende variabelen Volgend jaar
10. 1. Enkelvoudige lineaire regressie A 10.1. Enkelvoudige lineaire regressie A. Statistisch model voor lineaire regressie Bij t-testen hebben we gezien x1 (bv. experimentele gr.) en x2 (bv. controlegr) Voorspellers van µ1 en µ2
Bij lineaire regressie niet twee maar veel meer veranderingen in de vele verwachtingen µy bij veranderingen in x Deze verwachtingen µy liggen bij LINEAIRE regressie allen op een rechte lijn als we ze uitzetten tegenover x De regressielijn van de populatie is : µy = 0 + 1 x
B. Gegevens voor enkelvoudige lineaire regressie Uit de data : We hebben x en y Voor elke waarde van x zal de te verklaren variabele y variëren volgens een normaalverdeling en een vaste standaardafwijking op basis waarvan we µy krijgen Zodat µy = 0 + 1 x
WAARNEMING = AANPASSING + RESIDU AANPASSING is de theoretische regressielijn gedefinieerd door 0 + 1 x RESIDU zijn de afwijkingen, de ruis, voorgesteld door Epsilon () die maken dat de waargenomen x,y waarden niet op een rechte lijn liggen yi = 0 + 1 xi + i De afwijkingen i worden verondersteld onafhankelijk te zijn met verwachting 0 en st.dev.
C. Schatting van de regressieparameters Niet rekenen, enkel met SPSS Regression : dependent – independent Unstandardized coëff : constant = b0 verklarende = b1
D. Betrouwbaarheidsintervallen en significantietoetsen Ook uit computeroutput Bij Unstandardized coëff : constant = b0 verklarende = b1 steeds ook standaard error en 95% betrouwbaarheidsinterval voor b0 en voor b1
H0 : 0 = 0 Het is in µy = 0 + 1 x de verwachte reactie van y als x gelijk is aan 0 Dit is meestal NIET interessant, dus t-waarde die in de output hierbij hoort is meestal niet relevant H0 : 1 = 0 Dan houden we in µy = 0 + 1 x enkel µy = 0 over µy = 0 betekent dat de verwachting van y niet varieert met x, er is geen lineaire samenhang tussen x en y, y kan niet voorspeld worden
Ha : 1 0 (dit is het tweezijdig alternatief) Wil zeggen : er is geen samenhang tussen x en y Ha : 1 0 (dit is het tweezijdig alternatief) Ha : 1 < 0 of 1 > 0 (dit is het eenzijdig alternatief) = negatief of positief verband
Vervolgens kijken in Tabel E Opnieuw toetsen met behulp van t-waarde met (n-2) vrijheidsgraden b1 t = ___________ uit output halen en berekenen SEb1 Vervolgens kijken in Tabel E SE : standaardfout t-waarde in output aflezen + p waarde
Voorbeeld : gemiddelde lengte naar leeftijd leeftijd in maanden lengte in cm 18 76.1 19 77.0 20 78.1 21 78.2 22 78.8 23 79.7 24 79.9 25 81.1 26 81.2 27 81.8 28 82.8 29 83.5
Regression : Coefficients t Sig. Model B Std. Error Beta 1 (Constant) 64,928 ,508 127,709 ,000 LEEFTIJD ,635 ,021 ,994 29,665 ,000 a Dependent Variable: LENGTE
E. Inferentie voor correlatie sterkte en richting van lineaire samenhang GEEN verklarende – te verklaren variabelen Steekproefcorrelatie r en populatiecorrelatie (rho) x en y moeten gezamenlijk normaal zijn
Ha : < 0 (negatieve correlatie) tweezijdige toetsing Ha : < 0 (negatieve correlatie) of Ha : > 0 (positieve correlatie) eenzijdige toetsing
r n - 2 t = 1 – r2 en in Tabel D met n – 2 vrijheidsgraden Via computeroutput bivariate correlatie : geeft de correlatiecoëfficiënt en p-waarde = tweezijdige toetsing
Verband tussen correlatie en regressie Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie
sy b1 = r sx => De correlatie is gelijk aan 0 als de helling 0 is en omgekeerd