Statistiek voor Historici Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen College 7
Zevende college: Trendlijnen aanbrengen in Excel-grafiek Voorbeeld Hudson pagina 133 Associatie en correlatie NB Volgende week géén college NB Powerpoints staan online bij ‘theorie’
Voor doctoraalstudenten geldt: Drs: 2,9 ects BA: 4 ects Voor doctoraalstudenten geldt: Hoofdstuk 7 vervalt Eén tentamenvraag minder óf: 1,1 ects in de vrije keuzeruimte
Excel: trendlijnen Met de rechtermuisknop op de data-series in de grafiek gaan staan – ‘Add trendline’ Lineair, niet-lineair (exponentieel, logaritmisch, polynoom, moving average, etc) Options: ‘display equation on chart’ Let op: moving average wordt niet juist geplot door Excel.
Associatie en correlatie Is er samenhang tussen twee reeksen variabelen? Beïnvloeden zij elkaar of staan zij allebei onder invloed van een derde variabele? De waarde van de ‘afhankelijke variabele’ wordt veroorzaakt door een ‘onafhankelijke variabele’
Associatie en correlatie Het bestaan van het verband moet op kwalitatieve gronden worden beargumenteerd. Only if we can think of sound reasons why there might be a relationship between two or more variables should we indulge in the statistical identification and measurement of that relationship. (Hudson p. 138)
Associatie Bij nominale en ordinale data spreken wij van associatie (geeft aan óf er een causaal verband is). Hier gebruiken we Chi-kwadraat of de contingentie coëfficiënt Rangorde-correlatie-coëfficiënt van Spearman
Correlatie Bij interval- en ratio-data kunnen we tevens onderzoeken hoe groot de samenhang is, dit noemen we correlatie. Voor correlatie correlatie-coëfficiënt (Pearson correlatie-coëfficiënt) Het regressiemodel brengt het gevonden verband in kaart.
Associatie Chi-kwadraat (a) Berekenen: som van (O-E)2/E voor elke cel (b) Interpreteren: kans dat het verband niet toevallig is. - drempelwaarde hangt af van de dimensies van de tabel - staan de uitkomsten in 2 x 2 tabel (aantal vrijheidsgraden=1): drempelwaarde is 6,6 bij 99% betrouwbaarheid - dit kun je opzoeken in een tabel Excel: functie ChiInv(kans; df)
Kritische waarden Chi-kwadraat Degrees of Freedom (n-1)*(k-1) Betrouwbaarheid 99% (kans 0,01) Betrouwbaarheid 95% (kans 0,05) 1 6,6 [CHIINV(0,01;1)] 3,8 2 9,2 6,0 3 11,3 7,8 4 13,1 9,5
Associatie SPEARMAN rangorde correlatie coëff. Waarde tussen –1 en 1 Geeft aan of de geobserveerde samenhang in de rangordes van twee variabelen statistisch significant is (dwz waarschijnlijk niet door het toeval komt) Excel: functies RANK (..) en PEARSON(..)
Correlatie Pearson correlatie-coëfficiënt 0 < R < 1 positief verband bij R > ca. 0,7 -1 < R < 0 negatief verband bij R < ca. –0,7 NB afh/onafh niet te zien(!) PEARSON(array1; array2) PEARSON(B3:B13; A3:A13)
Correlatie Determinatie coëfficiënt = R2 (Coëfficiënt of determination) geeft ‘percentage verklaard’ aan grenswaarde 0,5 (0,7^2=0,49) kwadraat van Pearson cor.coëff. RSQ(B3:B13;A3:A13)
Regressie De regressie-lijn is de best-passende lijn door een puntenwolk. (scatter diagram) Punten in beeld brengen in een X-Y grafiek
Regressielijn
Andere aandachtspunten: ‘Lagged results’ Autocorrelatie Multicollineariteit Non-random error
Excel functies Correl (..), Pearson (..), RSQ(..), RANK(..) Let op: voor het berekenen van trendlijnen (bij tijdreeksanalyse, een lineaire trendlijn wordt net zo berekend als een regressielijn): Trend(..) : levert trendwaarden op NB dit is een array-functie! Lineest (..), slope (..), intercept(..) leveren de parameters van de trendlijn op
Volgende week geen college