Statistiek voor Historici Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen College 8
Achtste college: Chikwadraat en correlatie revisited Steekproeven en kansberekening
Voor doctoraalstudenten geldt: Drs: 2,9 ects BA: 4 ects Voor doctoraalstudenten geldt: Hoofdstuk 7 (steekproeven) vervalt Eén tentamenvraag minder óf: 1,1 ects in de vrije keuzeruimte
Chi-kwadraat Ken de formule (observed minus expected in het kwadraat gedeeld door expected, de som daarvan) Begrijp het systeem van de drempelwaarde (afhankelijk van de vrijheidsgraden: DF=(kolommen – 1)*(rijen – 1)
Correlatie coëfficiënt Berekent de mate van (beredeneerde) samenhang tussen twee variabelen Tussen 0 en 1 (of tussen 0 en –1) Zie voorbeelden in boek Hudson
Rangcorrelatie Instrument om bij ordinale variabelen een associatie of correlatie te ontdekken Spearman’s rangcorrelatiecoëfficiënt berekent een correlatiecoëfficiënt op basis van de rangordes (te berekenen met de functie RANK) Voorbeeld in Excel
Regressiemodel Regressielijn door puntenwolk Verschil met trendlijn: een trend is een aspect van de tijdreeksanalyse, geen causaal verband Methodologie is overeenkomstig
Excel functies Correl (..), Pearson (..), RSQ(..), RANK(..) Let op: voor het berekenen van trendlijnen (bij tijdreeksanalyse)(een lineaire trendlijn wordt net zo berekend als een regressielijn): Trend(..): levert trendwaarden op Lineest (..) levert de parameters van de trendlijn op NB zijn een array-functies! Slope (..), intercept(..) leveren de parameters van de regressielijn op.
Steekproeven Het gaat om een representatief en groot genoeg deel van de populatie Te gebruiken wanneer de populatie te groot is om in zijn geheel te bestuderen
Steekproeven Chapter 7: vooral aandacht voor het trekken van goede steekproeven § 7.10 hoeft niet te worden bestudeerd!
Steekproeven Een steekproef moet a-select worden getrokken (random sample=aselecte trekking) Er zijn twee maten om het succes van de steekproef te meten: Betrouwbaarheid Nauwkeurigheid
Steekproeven Voorbeelden: - de analyse van vijftig inwoners van Amsterdam in 1800 (om iets te zeggen over de hele bevolking van de stad) telefonische interviews over het voorgenomen stemgedrag van bijv. 1000 Nederlanders aan de vooravond van de verkiezingen Zie ook alle voorbeelden in het boek
Steekproeven Voor betrouwbaarheid (confidence) van voorspellingen over de populatie en de nauwkeurigheid (accuracy) waarmee deze worden gedaan, geldt: ‘Vage uitspraken zijn eerder waar!’ m.a.w. ‘Hoe preciezer je prognose, hoe groter de kans dat je naast het waarde voor de gehele populatie zit!’ Onderzocht aan de hand van de normaalverdeling.
Centrale limietstelling: “sampling distribution is a normal distribution”
Steekproeven Betrouwbaarheid= Hoe goed (representatief) is onze steekproef als we hem vergelijken met andere (mogelijke) steekproeven? Nauwkeurigheid= hoe precies benaderen de uitspraken die we op basis van onze steekproef doen de werkelijke populatiekenmerken?
Steekproeven Bij een betrouwbaarheidsniveau van [bijvoorbeeld] 95 % of 99 %: De kans is 95 % of 99 % dat het gemiddelde dat we berekenen op basis van onze steekproef, binnen een redelijke marge in de buurt van het populatiegemiddelde ligt.
Steekproeven Wat is een redelijke marge ? Bij 95% hoort een z-waarde, die het interval bepaalt: z=1,96 (komt uit een tabel).
Steekproeven Bij een nauwkeurigheid met een maximale fout van [bijvoorbeeld] 5 % of 10%: We accepteren een foutmarge van 5% of 10 % bij de berekening van een gemiddelde op basis van onze steekproef, ten op zichte van het (werkelijke) populatiegemiddelde.
“The historical sample”
Volgend week Bekijk de inleveropdrachten: gelegenheid tot het stellen van vragen. Chapter 8: Cliometrics