Methodologie & Statistiek I Verband tussen twee variabelen 3.2 miscellaneous
U kunt deze presentatie ook op uw eigen PC afspelen! Gebruikmaken van internet: http://www.unimaas.nl/~stat Education Health sciences Presentations of lectures “op dit moment ……. beschikbaar Opening --- Hoofdstuk 3 (Verband tussen …) Powerpointviewer downloaden”
Deze diapresentatie werd vervaardigd door Michel Janssen van de Capaciteitsgroep Methodologie en Statistiek. De presentatie mag alleen worden gecopieerd voor eigen gebruik door studenten en medewerkers van de Universiteit Limburg in Maastricht. Met eventuele op- en aanmerkingen kunt u terecht bij: Universiteit Maastricht Capaciteitsgroep M&S Michel Janssen Postbus 616 6200 MD Maastricht michel.janssen@stat.unimaas.nl
Methodologie & Statistiek I Verband tussen twee variabelen 3.2 miscellaneous 22 januari 2001
schijncorrelatie spurieuze correlatie
CIJFERS WEZEN OP EEN SIGNIFICANT POSITIEF VERBAND TUSSEN: Aantal ooievaarsnesten en aantal geboorten in een bepaalde streek over een aantal jaren Aantal jonge politie-agenten en aantal ongehuwde moeders in Londen over een aantal jaren Aantal brandweerlieden en de totale waarde van de gefikte objecten in een regio over een aantal jaren Kwaliteit handschrift en maat schoenen van 50 kinderen
gevaar van extrapolatie
In 51 regio’s werd gekeken naar het aantal ziekenhuisbedden per 1000 inwoners (=BED) en het aantal Ziekenfonds-opnamen per 1000 Inwoners (ZF_OPN). Er wordt een puntenwolk gemaakt van BED tegen ZF_OPN
De regressie-lijn wordt berekend: ZF_OPN = 37.9 + 13.1BED Hoeveel ZF_OPN mogen worden verwacht in een regio met BED = 5 ????? 103.40
De regressie-lijn wordt berekend: ZF_OPN = 37.9 + 13.1BED Hoeveel ZF_OPN mogen worden verwacht in een regio met BED = 0 ????? COMMENTAAR??? 37.9
invloed van uitbijters invloedrijke punten
steekproef & populatie
Populatie A (X en Y) steekproeven van n stuks: r, b0 en b1 ……… Kijken naar de verdeling van r (schatter van r) b0 (schatter van b0) b1 (schatter van b1)
rA > rB ? Populatie A (X en Y) steekproef: rA= 0.80 Populatie B (X en Y) steekproef: rB= 0.50 Samenhang X en Y in populatie: rA en rB ? rA > rB
rA > rB ? ? Populatie A (X en Y) steekproef: rA= 0.80 Populatie B (X en Y) steekproef: rB= 0.50 Samenhang X en Y in populatie: rA en rB ? rA > rB ? Zelfde antwoord als na= 10 en nb=10000
correlatiecoefficient hellingshoek & correlatiecoefficient
teken van b1 en r
sd(x) is altijd positief sd(y) is altijd positief Dus: ri-coeff sd-lijn is altijd POSITIEF?????
richtings-coefficient sd-lijn is positief correlatiecoefficient is negatief ri-coeff regressielijn= r * ri-coeff sd-lijn Dus: ri-coeff regressielijn is NEGATIEF ??????
Bereken r uit r2 r is positief of negatief ????
teken van correlatiecoefficient is teken van b1 !!!!! regressielijn Y= b0 + b1X teken van correlatiecoefficient is teken van b1 !!!!! bekijk altijd plaatje van de puntenwolk!
Amerikaanse verkiezingen
Scatterplot van uitgebrachte stemmen 67 kiesdistricten van Florida op Gore en Buchanan in de 67 kiesdistricten van Florida
Palmbeach…………
lezen van SPSS-uitvoer
Model Model R R Square Adjusted Std Error of the Estimate 1 0.913 0.833 0.830 23.5341 Predictors: (Constant), Gore_TH
ANOVA Model Sum of Squares df Mean Square F Sig. RegressionResidual Total 179620.0 36000.6 215620.6 1 65 66 553.9 324.31 0.000 Predictors: (Constant), Gore_TH Dependent Variable: Bush_TH
Coefficients Dependent Variable: Bush_TH Model Unstandardized Std. Error Beta t Sig. Constant Gore_TH 13.220 0.696 3.329 0.039 0.913 3.971 18.01 0.000 Dependent Variable: Bush_TH
samenhangen SPSS-uitvoer
ANOVA r2 var(y) Model Sum of Squares df Mean Square F Sig. RegressionResidual Total 179620.0 36000.6 215620.6 1 65 66 553.9 324.31 0.000 r2 var(y)
ANOVA r2 = 179620.0/215620.6= 0.83 var(y) = 215620.6/66= 3266.98 Model Sum of Squares df Mean Square F Sig. RegressionResidual Total 179620.0 36000.6 215620.6 1 65 66 553.9 324.31 0.000 r2 = 179620.0/215620.6= 0.83 var(y) = 215620.6/66= 3266.98
Voor de echte puzzelaars: Bereken uit de totale regressie-uitvoer de variantie van X
Voor de echte puzzelaars: Bereken uit de totale regressie-uitvoer de variantie van X b1= r * sd(y) / sd(x)
zie en huiver... Het leek ons interessant de scores van de eerste toets (januari) te vergelijken met de scores van de tweede toets (mei) alle eerste jaars (jaargang 1999) zie en huiver...
(listwise deletion) 6 154 139 14 Commentaar?
Eerste toets Tweede toets lager dan 5.0 groter/gelijk 5.0 gemiddelde 34 313 7.49 163 171 5.00 Correlatie-coefficient 0.30 Regressie-lijn: MS12= 2.91 + 0.27*MS11 Commentaar?