Beschrijvende en inferentiële statistiek College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geen tentamenstof)
Vandaag Oude tentamenvragen Chi-square toets
Kritieke t-waarde?
Vandaag Chi-square toets
Inferentiële statistiek: overzicht Aantal variabelen Soort variabele(n) Betrouwbaarheidsinterval Hypothesetoets 1 Categorisch Kwantitatief 2 (of meer) Kwantitatief en 2 onafhankelijke groepen Kwantitatief en 2 afhankelijke groepen idem. - chi-kwadraat Kwantitatief of combinatie correlatie en regressie
Chi-square toets Met een chi-square toets kun je twee of meer categorische variabelen vergelijken Categorische variabele: variabele die uit verschillende categorieën bestaat
Vorige keer We keken of het hebben van een kat invloed heeft op geluk. Soort variabelen? Categorisch (wel/geen kat) en continu (geluk)
Vandaag Twee categorische variabelen vergelijken
Voorbeeld vergelijken categorische variabelen Een onderzoeker wilt weten of flirtgedrag afhankelijk is van opleidingsjaar. Zou er verschil bestaan in het flirtgedrag tussen eerste-, tweede- en derdejaars? Maw: bestaat er een associatie tussen flirtgedrag en opleidingsjaar? opleidingsjaar flirtgedrag
Opleidingsjaar: eerste-, tweede-, derdejaars Flirtgedrag: nooit, zelden, af en toe, vaak, heel vaak
H0: opleidingsjaar heeft geen invloed op flirtgedrag Ha: hoe hoger het opleidingsjaar, hoe meer flirtgedrag Of: H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie) Ha: flirtgedrag en opleidingsjaar zijn afhankelijk van elkaar (er bestaat een associatie)
Chi-square test Test van onafhankelijkheid: - H0 : variabelen zijn onafhankelijk - Ha : variabelen zijn afhankelijk Doel test: als de variabelen onafhankelijk zijn, hoe groot is dan de kans dat we vinden wat we vinden?
Om te zien of er wel of geen associatie is vergelijk je de: Observed counts: de waardes die je vindt in je steekproef Expected counts: de waardes die je zou verwachten als de nulhypothese waar zou zijn H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie)
Kruistabel met observed counts
Kruistabel met expected count 765.5 Expected count = (rij totaal x kolom totaal) / totaal aantal respondenten Expected count eerstejaars die nooit flirten = (3534 x 12211) / 56373 = 765.5
Kruistabel met expected counts
Observed en expected counts
Waarom? Waarom observed en expected counts bekijken? Als de observed counts erg afwijken van de expected counts dan zou er een associatie kunnen bestaan tussen flirtgedrag en opleidingsjaar. Associatie significant? Chi-square test.
Chi-square De chi-square statistic geeft aan hoe veel de observed counts van de expected counts afwijken. In SPSS vind ik dat de chi-square 26978 is. Hoe hoger de chi-square, hoe groter de kans dat er sprake is van een significante associatie
Observed en expected counts
Hoe weet je of de chi-square significant is? Je rekent eerst de degrees of freedom (df) uit: df = (rij – 1 ) x (kolom – 1) (3 – 1) x (5 – 1) = 8
Degrees of freedom Vrijheidsgraden in chi-square toets: het minimaal aantal cellen waarvan je de uitkomst moet kennen om de overige cellen te kunnen berekenen.
df = (rij – 1 ) x (kolom – 1) Df = (3 – 1) x (5 – 1) = 8 We moeten dus van 8 cellen de waardes weten willen we de andere cellen kunnen berekenen
Chi-square significant? Tabel C (p. 736) In die tabel zie je welke waarde de chi-square minimaal aan moet nemen wil deze significant zijn (de kritieke waarde).
Met df = 8 moet de chi-square minimaal 15. 51 zijn (als je met α = 0 Met df = 8 moet de chi-square minimaal 15.51 zijn (als je met α = 0.05 toetst) Onze chi-square is 26978 en dus significant
Dus chi-square De chi-square statistic geeft aan hoeveel de observed counts van de expected counts afwijken. Als deze significant afwijken, dan bestaat er een associatie tussen de twee variabelen. Want: dat wat je vindt in je steekproef (observed counts) is anders dan wat je op basis van de nulhypothese had verwacht (expected counts). Daardoor kun je de nulhypothese verwerpen als je een significante chi-square vindt.
Onze nulhypothese zei dat opleidingsjaar en flirtgedrag onafhankelijk van elkaar waren. Dat ze dus niks met elkaar te maken zouden hebben. Echter significante chi-square, dus nulhypothese verwerpen.
In SPSS Assumptie chi-square toets: iedere cel moet een expected value hebben van minimaal 5. Zo niet, dan is je steekproef te klein.
Conclusie voorbeeld Als flirtgedrag onafhankelijk is van opleidingsjaar, dan is het erg onwaarschijnlijk dat we een chi-square van 26978 vinden (kans namelijk kleiner dan 5%). Het flirtgedrag is inderdaad afhankelijk van het opleidingsjaar. Eerste- en tweedejaars flirten vaker dan derdejaars (dat zagen we in de tabel met de observed counts). Er bestaat dus een significante associatie tussen flirtgedrag en opleidingsjaar.
Eigenschappen chi-square Chi-square is altijd positief getal Hoe hoger de chi-square, hoe groter het bewijs tegen H0 : onafhankelijkheid De chi-square is een goodness-of-fit statistic: het geeft aan hoe goed de expected values (de H0) de observed values hebben voorspeld De laagst mogelijke waarde van chi-sqaure is 0, in dat geval zijn de observed counts en de expected counts precies gelijk.
Tabel C Hoe groter het verschil tussen de observed values en de expected values, hoe meer bewijs we hebben tegen H0. Daarom kijk je alleen naar de rechterstaart.
Homogeniteit De chi-square test wordt vaak “test of homogeneity” genoemd, omdat je wilt weten of de expected counts en observed counts homogeen (hetzelfde) zijn Als ze homogeen zijn dan zijn de variabelen waar je op getest hebt onafhankelijk van elkaar
Associatie Met een chi-square toets weet je of er een statistisch significante associatie is, je weet echter nog niet hoe sterk deze associatie is. Een hoge chi-square betekent niet direct een sterke associatie! Waarom? Omdat grotere steekproeven ook grotere chi-squares hebben.
Verschillende manieren om te zien hoe sterk de associatie is: Kruistabel percentages Adjusted residuals Correlatie (kan alleen bij ordinale variabelen, niet bij categorische variabelen)
Eerste manier om sterkte associatie te zien: kruistabel percentages A. Perfecte associatie Republican Democrat Total Men 100% Women 46% 54% B. Gemiddelde associatie 70% 30% 48% 52% C. Geen associatie 40% 60%
Is hier sprake van een sterke associatie? Er is geen verschil tussen mannen en vrouwen in wat ze stemmen. SP VVD Totaal Mannen 65% 35% 100% Vrouwen
Tweede manier om sterkte associatie te zien: adjusted residuals Met de adjusted residuals vinden we welke cellen “verantwoordelijk” zijn voor de associatie Adjusted residual: hoeveel standaardfouten de observed count van de expected count afwijkt
Adjusted residuals Residual: verschil tussen de observed count en de expected count, dus observed count – expected count. Standardized residual: residual / se Waarom zou je de gestandaardiseerde residual (ook wel adjusted residual genoemd) willen weten? Omdat je dan weet hoeveel standaardfouten de observed count van de expected count afwijkt en je daarmee kunt interpreteren hoe sterk de associatie in die cel is. Als de adjusted residuals groter zijn dan 3 of -3 dan is er een associatie in die cel.
Dus alleen bij de democraten is er een verschil tussen stemgedrag van mannen en vrouwen. Bij de vrouwen werd er 4 se’s meer op democraten gestemd dan verwacht. En bij mannen 4 se’s minder dan verwacht. Stemgedrag is dus afhankelijk van geslacht, ook al zien we alleen een effect bij de democraten.
Derde manier om sterkte associatie te zien: correlatie
Dus: Is er een associatie? – chi-square test Waar is de associatie? – (1e manier) procenten, maar beter nog (2e manier): adjusted residuals (ook wel standardized residuals genoemd) Hoe sterk is de associatie? – correlatie (alleen bij ordinale variabelen!)
Kruistabel met observed counts Marginale distributies
Kruistabel met observed counts Conditionele distributie voor eerstejaars
Kruistabel met observed counts Joint distribution: gezamelijke verdeling
Bij expected counts van de totalen is de conditionele verdeling gelijk aan de geobserveerde marginale distributie, want de conditionele verdeling wordt gemaakt o.b.v. de marginale verdeling
Chi-Square verdeling
Chi-square verdeling Test is gebaseerd op de steekproevenverdeling van de statistic. Positief. Right-skewed. Afhankelijk van degrees of freedom. Hoe meer degrees of freedom, hoe meer bell-shaped (klokvormig) de verdeling.
Tabel C
Oefening
Op een rijtje Met de chi-square test toets je of twee categorische variabelen onafhankelijk zijn van elkaar (je kijkt of je nulhypothese waar zou kunnen zijn). De chi-square waarde geeft aan hoeveel de observed counts van de expected counts afwijken. De chi-square is altijd een positief getal en hoe hoger de chi-square, hoe groter de kans dat deze significant is. Bij een significante chi-square verwerpen we de nulhypothese en zijn de variabelen dus niet onafhankelijk, maar afhankelijk. Waardoor er associatie is zie je in de kruistabel: adjusted residuals. Hoe sterk de associatie is zie je (in geval van ordinale variabelen) met de correlatie.
Relative risk Inkomen en opleidingsniveau Wat is de relative risk op lager dan gemiddeld inkomen, wanneer we < high school met college vergelijken? Proportie < high school en < gem inkomen: 222/437=0.508 Proportie college en < gem inkomen: 124/789=0.157 Relative risk: 0.508/0.157 = 3.236 Inkomen < gemiddeld gemiddeld > gemiddeld Totaal < High school 222 193 22 437 High school 578 893 264 1735 College 124 336 329 789
Vraag 1 Met de chi-square test toets je of continue variabelen onafhankelijk zijn van elkaar. Goed Fout
Vraag 2 De chi-square waarde kan zowel positief als negatief zijn. Goed Fout
Vraag 3 We vonden een p-waarde van 0.03. Het juiste om te doen is de nulhypothese verwerpen. Goed Fout
Vraag 4 Als we de nulhypothese verwerpen, dan betekent dit dat de variabelen afhankelijk zijn van elkaar. Goed Fout
Vraag 5 De chi-square geeft aan hoe sterk de associatie is tussen de variabelen. Goed Fout
Vraag 6 De adjusted residuals zijn de gestandaardiseerde residuals. Dus het verschil tussen de observed count en de expected count gedeeld door de standaarfout. Goed Fout
Hoe in SPSS? Analyze – Descriptive Statistics – Crosstabs. Variabele in row en variabele in colom (maakt niet uit welke waar). Bij statistics chi-square aanvinken. Bij cells observed, expected en adjusted standardized aanvinken.