Beschrijvende en inferentiële statistiek

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

KWALITEITSZORG november 2012
De arbeidszorgmedewerker in Vlaanderen in beeld - enkele cijfers Globaal beeld van 'de arbeidszorgmedewerker' 2012 (algemene cijfers, profiel, context)
‘SMS’ Studeren met Succes deel 1
HC2MFE Meten van verschillen
Beschrijvende en inferentiële statistiek
Wat was toen het grootste het grootste probleem van de van de FOD?
Toetsen van verschillen tussen twee of meer groepen
Paulus' eerste brief aan Korinthe (20) 23 januari 2013 Bodegraven.
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
Beter afspelen.
BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
1 - RA patiënten – Februari 2009 REUMATOÏDE ARTRITIS KENNIS – OPVOLGING – PERSOONLIJKE EVALUATIE Patiëntenonderzoek Initiatief van met de steun van nv.
1 COVER: Selecteer het grijze vlak hiernaast met rechtsklik & kies ‘change picture’ voor een ander beeld of verwijder deze slide & kies in de menubalk.
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Toepassingen op regressie
STAPPENPLAN GRAMMATICUS.
Ronde (Sport & Spel) Quiz Night !
Een Concert van het Nederlands Philharmonisch Orkest LES 4 1.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Beschrijvende en inferentiële statistiek
Een optimale benutting van vierkante meters Breda, 6 juni 2007.
Kb.1 Ik leer op een goede manier optellen en aftrekken
Tevredenheids- enquête 2012 P. Grouwels Inleiding Mogelijke antwoorden: Zeer goed: 4 sterren ****: volledig tevreden; Goed: 3 sterren ***:
9 januari 2013 Bodegraven 1. 1Korinthe 11 1 Wordt mijn navolgers, gelijk ook ik Christus navolg. 2.
Beschrijvende en inferentiële statistiek
Nooit meer onnodig groen? Luuk Misdom, IT&T
toetsen voor het verband tussen variabelen met gelijk meetniveau
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Elke 7 seconden een nieuw getal
Regelmaat in getallen … … …
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
1 introductie 3'46” …………… normaal hart hond 1'41” ……..
Non-parametrische technieken
Inferentie voor kruistabellen
Oefeningen F-toetsen ANOVA.
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
1 7 nov Rijnsburg 7 nov Rijnsburg. 2 Hebreeën 7 15 En nog veel duidelijker wordt het, als naar het evenbeeld van Melchisedek een andere priester.
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
1. 33 GERECHTIGHEID GODS 21 Thans is echter buiten de wet om GERECHTIGHEID GODS openbaar geworden, waarvan de wet en de profeten getuigen, 34.
Seminarie 1: Pythagoreïsche drietallen
Inkomen les t/m 75 plus Zelftest Kennisvragen.
Ben Bruidegom 1 Sequentiële schakelingen Toestand uitgang bepaald door:  ingangen;  vorige toestand uitgang.
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
Statistiekbegrippen en hoe je ze berekent!!
Hoe gaat dit spel te werk?! Klik op het antwoord dat juist is. Klik op de pijl om door te gaan!
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 3.
Fractale en Wavelet Beeldcompressie
STIMULANS KWALITEITSZORG juni 2014.
In opdracht van NOC*NSF
Centrummaten en Boxplot
Hoorcollege 3 Samenhang tussen variabelen
Waar gaat het nou toch om?!
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
13 november 2014 Bodegraven 1. 2 de vorige keer: 1Kor.15:29-34 indien er geen doden opgewekt worden...  vs 29: waarom dopen?  vs.30-32: waarom doodsgevaren.
1 Week /03/ is gestart in mineur De voorspellingen van alle groten der aarden dat de beurzen zouden stijgen is omgekeerd uitgedraaid.
welke hoef je niet te leren?
Openbaar je talent Service public, talent particulier.
23 mei 2013 Bodegraven vanaf hoofdstuk 6: hoofdst.1: de wijsheid van de wereld hoofdst.2: de wijsheid van God hoofdst.3: Gods akker en Gods bouwwerk.
Toetsen van verschillen tussen twee of meer groepen
Transcript van de presentatie:

Beschrijvende en inferentiële statistiek College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geen tentamenstof)

Vandaag Oude tentamenvragen Chi-square toets

Kritieke t-waarde?

Vandaag Chi-square toets

Inferentiële statistiek: overzicht Aantal variabelen Soort variabele(n) Betrouwbaarheidsinterval Hypothesetoets 1 Categorisch Kwantitatief 2 (of meer) Kwantitatief en 2 onafhankelijke groepen Kwantitatief en 2 afhankelijke groepen idem. - chi-kwadraat Kwantitatief of combinatie correlatie en regressie

Chi-square toets Met een chi-square toets kun je twee of meer categorische variabelen vergelijken Categorische variabele: variabele die uit verschillende categorieën bestaat

Vorige keer We keken of het hebben van een kat invloed heeft op geluk. Soort variabelen? Categorisch (wel/geen kat) en continu (geluk)

Vandaag Twee categorische variabelen vergelijken

Voorbeeld vergelijken categorische variabelen Een onderzoeker wilt weten of flirtgedrag afhankelijk is van opleidingsjaar. Zou er verschil bestaan in het flirtgedrag tussen eerste-, tweede- en derdejaars? Maw: bestaat er een associatie tussen flirtgedrag en opleidingsjaar? opleidingsjaar flirtgedrag

Opleidingsjaar: eerste-, tweede-, derdejaars Flirtgedrag: nooit, zelden, af en toe, vaak, heel vaak

H0: opleidingsjaar heeft geen invloed op flirtgedrag Ha: hoe hoger het opleidingsjaar, hoe meer flirtgedrag Of: H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie) Ha: flirtgedrag en opleidingsjaar zijn afhankelijk van elkaar (er bestaat een associatie)

Chi-square test Test van onafhankelijkheid: - H0 : variabelen zijn onafhankelijk - Ha : variabelen zijn afhankelijk Doel test: als de variabelen onafhankelijk zijn, hoe groot is dan de kans dat we vinden wat we vinden?

Om te zien of er wel of geen associatie is vergelijk je de: Observed counts: de waardes die je vindt in je steekproef Expected counts: de waardes die je zou verwachten als de nulhypothese waar zou zijn H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie)

Kruistabel met observed counts

Kruistabel met expected count 765.5 Expected count = (rij totaal x kolom totaal) / totaal aantal respondenten Expected count eerstejaars die nooit flirten = (3534 x 12211) / 56373 = 765.5

Kruistabel met expected counts

Observed en expected counts

Waarom? Waarom observed en expected counts bekijken? Als de observed counts erg afwijken van de expected counts dan zou er een associatie kunnen bestaan tussen flirtgedrag en opleidingsjaar. Associatie significant? Chi-square test.

Chi-square De chi-square statistic geeft aan hoe veel de observed counts van de expected counts afwijken. In SPSS vind ik dat de chi-square 26978 is. Hoe hoger de chi-square, hoe groter de kans dat er sprake is van een significante associatie

Observed en expected counts

Hoe weet je of de chi-square significant is? Je rekent eerst de degrees of freedom (df) uit: df = (rij – 1 ) x (kolom – 1) (3 – 1) x (5 – 1) = 8

Degrees of freedom Vrijheidsgraden in chi-square toets: het minimaal aantal cellen waarvan je de uitkomst moet kennen om de overige cellen te kunnen berekenen.

df = (rij – 1 ) x (kolom – 1) Df = (3 – 1) x (5 – 1) = 8 We moeten dus van 8 cellen de waardes weten willen we de andere cellen kunnen berekenen

Chi-square significant? Tabel C (p. 736) In die tabel zie je welke waarde de chi-square minimaal aan moet nemen wil deze significant zijn (de kritieke waarde).

Met df = 8 moet de chi-square minimaal 15. 51 zijn (als je met α = 0 Met df = 8 moet de chi-square minimaal 15.51 zijn (als je met α = 0.05 toetst) Onze chi-square is 26978 en dus significant

Dus chi-square De chi-square statistic geeft aan hoeveel de observed counts van de expected counts afwijken. Als deze significant afwijken, dan bestaat er een associatie tussen de twee variabelen. Want: dat wat je vindt in je steekproef (observed counts) is anders dan wat je op basis van de nulhypothese had verwacht (expected counts). Daardoor kun je de nulhypothese verwerpen als je een significante chi-square vindt.

Onze nulhypothese zei dat opleidingsjaar en flirtgedrag onafhankelijk van elkaar waren. Dat ze dus niks met elkaar te maken zouden hebben. Echter significante chi-square, dus nulhypothese verwerpen.

In SPSS Assumptie chi-square toets: iedere cel moet een expected value hebben van minimaal 5. Zo niet, dan is je steekproef te klein.

Conclusie voorbeeld Als flirtgedrag onafhankelijk is van opleidingsjaar, dan is het erg onwaarschijnlijk dat we een chi-square van 26978 vinden (kans namelijk kleiner dan 5%). Het flirtgedrag is inderdaad afhankelijk van het opleidingsjaar. Eerste- en tweedejaars flirten vaker dan derdejaars (dat zagen we in de tabel met de observed counts). Er bestaat dus een significante associatie tussen flirtgedrag en opleidingsjaar.

Eigenschappen chi-square Chi-square is altijd positief getal Hoe hoger de chi-square, hoe groter het bewijs tegen H0 : onafhankelijkheid De chi-square is een goodness-of-fit statistic: het geeft aan hoe goed de expected values (de H0) de observed values hebben voorspeld De laagst mogelijke waarde van chi-sqaure is 0, in dat geval zijn de observed counts en de expected counts precies gelijk.

Tabel C Hoe groter het verschil tussen de observed values en de expected values, hoe meer bewijs we hebben tegen H0. Daarom kijk je alleen naar de rechterstaart.

Homogeniteit De chi-square test wordt vaak “test of homogeneity” genoemd, omdat je wilt weten of de expected counts en observed counts homogeen (hetzelfde) zijn Als ze homogeen zijn dan zijn de variabelen waar je op getest hebt onafhankelijk van elkaar

Associatie Met een chi-square toets weet je of er een statistisch significante associatie is, je weet echter nog niet hoe sterk deze associatie is. Een hoge chi-square betekent niet direct een sterke associatie! Waarom? Omdat grotere steekproeven ook grotere chi-squares hebben.

Verschillende manieren om te zien hoe sterk de associatie is: Kruistabel percentages Adjusted residuals Correlatie (kan alleen bij ordinale variabelen, niet bij categorische variabelen)

Eerste manier om sterkte associatie te zien: kruistabel percentages A. Perfecte associatie Republican Democrat Total Men 100% Women 46% 54% B. Gemiddelde associatie 70% 30% 48% 52% C. Geen associatie 40% 60%

Is hier sprake van een sterke associatie? Er is geen verschil tussen mannen en vrouwen in wat ze stemmen. SP VVD Totaal Mannen 65% 35% 100% Vrouwen

Tweede manier om sterkte associatie te zien: adjusted residuals Met de adjusted residuals vinden we welke cellen “verantwoordelijk” zijn voor de associatie Adjusted residual: hoeveel standaardfouten de observed count van de expected count afwijkt

Adjusted residuals Residual: verschil tussen de observed count en de expected count, dus observed count – expected count. Standardized residual: residual / se Waarom zou je de gestandaardiseerde residual (ook wel adjusted residual genoemd) willen weten? Omdat je dan weet hoeveel standaardfouten de observed count van de expected count afwijkt en je daarmee kunt interpreteren hoe sterk de associatie in die cel is. Als de adjusted residuals groter zijn dan 3 of -3 dan is er een associatie in die cel.

Dus alleen bij de democraten is er een verschil tussen stemgedrag van mannen en vrouwen. Bij de vrouwen werd er 4 se’s meer op democraten gestemd dan verwacht. En bij mannen 4 se’s minder dan verwacht. Stemgedrag is dus afhankelijk van geslacht, ook al zien we alleen een effect bij de democraten.

Derde manier om sterkte associatie te zien: correlatie

Dus: Is er een associatie? – chi-square test Waar is de associatie? – (1e manier) procenten, maar beter nog (2e manier): adjusted residuals (ook wel standardized residuals genoemd) Hoe sterk is de associatie? – correlatie (alleen bij ordinale variabelen!)

Kruistabel met observed counts Marginale distributies

Kruistabel met observed counts Conditionele distributie voor eerstejaars

Kruistabel met observed counts Joint distribution: gezamelijke verdeling

Bij expected counts van de totalen is de conditionele verdeling gelijk aan de geobserveerde marginale distributie, want de conditionele verdeling wordt gemaakt o.b.v. de marginale verdeling

Chi-Square verdeling

Chi-square verdeling Test is gebaseerd op de steekproevenverdeling van de statistic. Positief. Right-skewed. Afhankelijk van degrees of freedom. Hoe meer degrees of freedom, hoe meer bell-shaped (klokvormig) de verdeling.

Tabel C

Oefening

Op een rijtje Met de chi-square test toets je of twee categorische variabelen onafhankelijk zijn van elkaar (je kijkt of je nulhypothese waar zou kunnen zijn). De chi-square waarde geeft aan hoeveel de observed counts van de expected counts afwijken. De chi-square is altijd een positief getal en hoe hoger de chi-square, hoe groter de kans dat deze significant is. Bij een significante chi-square verwerpen we de nulhypothese en zijn de variabelen dus niet onafhankelijk, maar afhankelijk. Waardoor er associatie is zie je in de kruistabel: adjusted residuals. Hoe sterk de associatie is zie je (in geval van ordinale variabelen) met de correlatie.

Relative risk Inkomen en opleidingsniveau Wat is de relative risk op lager dan gemiddeld inkomen, wanneer we < high school met college vergelijken? Proportie < high school en < gem inkomen: 222/437=0.508 Proportie college en < gem inkomen: 124/789=0.157 Relative risk: 0.508/0.157 = 3.236 Inkomen < gemiddeld gemiddeld > gemiddeld Totaal < High school 222 193 22 437 High school 578 893 264 1735 College 124 336 329 789

Vraag 1 Met de chi-square test toets je of continue variabelen onafhankelijk zijn van elkaar. Goed Fout

Vraag 2 De chi-square waarde kan zowel positief als negatief zijn. Goed Fout

Vraag 3 We vonden een p-waarde van 0.03. Het juiste om te doen is de nulhypothese verwerpen. Goed Fout

Vraag 4 Als we de nulhypothese verwerpen, dan betekent dit dat de variabelen afhankelijk zijn van elkaar. Goed Fout

Vraag 5 De chi-square geeft aan hoe sterk de associatie is tussen de variabelen. Goed Fout

Vraag 6 De adjusted residuals zijn de gestandaardiseerde residuals. Dus het verschil tussen de observed count en de expected count gedeeld door de standaarfout. Goed Fout

Hoe in SPSS? Analyze – Descriptive Statistics – Crosstabs. Variabele in row en variabele in colom (maakt niet uit welke waar). Bij statistics chi-square aanvinken. Bij cells observed, expected en adjusted standardized aanvinken.