Methodologie & Statistiek I Toetsen van proporties 7.1
U kunt deze presentatie ook op uw eigen PC afspelen! Gebruikmaken van internet: http://www.stateduc.unimaas.nl Education Health sciences Presentations of lectures “op dit moment ……. beschikbaar Opening --- Hoofdstuk 5 (Principes van …) Powerpointviewer downloaden”
Deze diapresentatie werd vervaardigd door Tjaart Imbos & Michel Janssen van de Capaciteitsgroep Methodologie en Statistiek. De presentatie mag alleen worden gecopieerd voor eigen gebruik door studenten en medewerkers van de Universiteit Limburg in Maastricht. Met eventuele op- en aanmerkingen kunt u terecht bij: Universiteit Maastricht Capaciteitsgroep M&S Tjaart Imbos Postbus 616 6200 MD Maastricht tjaart.imbos@stat.unimaas.nl
Methodologie & Statistiek I Toetsen van proporties 7.1
Tot nu toe gebruikte toetsen: z-toets en t-toets. De toetsingsgrootheid was z-verdeeld of t-verdeeld Beide verdelingen zijn continue verdelingen: alle z-waarden (of t-waarden) zijn mogelijk Enkele situaties onderscheiden: een steekproef twee gepaarde steekproeven twee onafhankelijke steekproeven
De interesse ging steeds uit naar het gemiddelde. Ook in de definities van H0 en HA Andere interesses: Het aantal meisjes in een gezin van vier kinderen Het aantal goede antwoorden op een MC-toets Het aantal met succes uitgevoerde operaties Het aantal …… Er is in populatie en steekproef steeds sprake van twee mogelijke uitkomsten: jongen - meisje goed - fout geslaagd - mislukt
Er is sprake van het aantal ‘successen’ in een steekproef van bepaalde omvang uit een populatie die bestaat uit ‘successen’ en ‘defecten’ in een bepaalde, vaste, verhouding. Vaak worden successen gecodeerd met 1 en defecten met 0
Ook voor deze variabele (het aantal successen in een steekproef) is er een goed omschreven kansverdeling: de BINOMIALE verdeling Goed getabelleerd, SPSS en voor niet al te grote steekproefomvang ook zelf te berekenen Voorbeeld: Een meerkeuze toets die bestaat uit vijf vragen met telkens drie mogelijke antwoorden. Hoe groot is de kans dat iemand die gokt alle vragen (=5) goed beantwoordt?
Het model, als sprake is van gokken: Populatie met 1/3 goede antwoorden en 2/3 foute antwoorden. Uit die populatie worden ‘alle’ steekproeven van omvang 5 getrokken. Als je goede antwoorden zou coderen met 0 en foute antwoorden met 1, zou je ook nu kunnen spreken over gemiddelde en stdev van steekproef en populatie. Nu geinteresseerd in aantal goede antwoorden Algemeen: aantal successen
n= 5 omvang steekproef p= 1/3 kans op succes in populatie (1-p)= 2/3 kans op defect in populatie Kans op 5 goed in steekproef van 5: P(GGGGG)= (1/3)5= 1/243= 0.00411 De kans dat iemand op zo’n MC-toets vijf antwoorden goed gokt is 0.411% De kans op 4 keer goed gokken? P(GGGGF)= (1/3)4(2/3)1= 2/243= 0.00822 En P(GFGGG)?? Er zijn 5 rangschikkingen van 4G en 1F P(4 goed en 1 fout)= 5*0.00822 = 0.0411
som?? Zo kan de kans worden uitgerekend op 0, 1, 2, 3, 4 en 5 goede antwoorden P(x=0)= 0.1317 P(x=1)= 0.3292 P(x=2)= 0.3292 P(x=3)= 0.1646 P(x=4)= 0.0412 P(x=5)= 0.0041 som?? Beschikbare formule: formule 7.5 boek
n!= (n)(n-1)(n-2)(n-3)…(3)(2)(1) 5!= 5x4x3x2x1= 120 Let op!
Tabellenboek: Cumulatieve tabel P(X kleiner of gelijk x) Zie tabel in boek n x p=1/3 5 0 132 1 461 2 790 3 955 4 996 5 1 P(X<3) = 0.955 P(x=2) = P(x<2)-P(x<1)= 0.790-0.461= 0.329
Met CDF van SPSS
Binomiale verdeling: n= 5 en p= 1/3 P(x=0)= 0.1317 P(x=1)= 0.3292 P(x=2)= 0.3292 P(x=3)= 0.1646 P(x=4)= 0.0412 P(x=5)= 0.0041
VOORBEELD: Een leraar geeft een MC-toets die uit 5 vragen met elk drie mogelijke antwoorden bestaat. Hij verdenkt Piet er van dat die bij alle vragen puur gokt. In zo’n situatie verwacht hij 5/3 goede antwoorden van Piet. Intuitief neemt hij aan dat zijn verdenking NIET terecht is als Piet 4 of 5 goede antwoorden produceert. Hoe groot is de kans dat hij zijn verdenking ten onrechte inslikt?
Er is sprake van ten onrechte inslikken als: Piet wel gokt (p= 1/3) en er sprake is van 4 of 5 goede antwoorden. We zagen eerder de binomiale verdeling met n=5 en p= 1/3: n x p=1/3 5 0 132 1 461 2 790 3 955 4 996 5 1 De kans op 4 of 5 goede antwoorden bij p= 1/3 is gelijk aan 1- P(x<3)= 1- 0.955= 0.045
Een meer formele aanpak van dit toetsingsprobleem…. H0: p = 1/3 en HA: p > 1/3 a = 0.05 Toetsingsgrootheid: (aantal goede antwoorden) is binomiaal verdeeld met n=5 en p= 1/3 De kritieke waarde ligt bij het 95ste percentiel Kritieke gebied 3, 4 en 5 4 en 5 n x p=1/3 5 0 132 1 461 2 790 3 955 4 996 5 1 of ???
De binomiale verdeling heeft twee parameters: de steekproefgrootte (=n) en de kans op succes (=p) de verwachtingswaarde m = n x p de variantie s2 = n x p x (1- p) Onder bepaalde voorwaarden kan de binomiale verdeling worden benaderd door de normale verdeling met dezelfde m en s: n > 20 en np > 5 en n(1- p) > 5
Bij dat benaderen doet zich een probleem voor: de binomiale verdeling is een discrete verdeling de normale verdeling is een continue verdeling. De waarde ‘4’ uit een binomiale verdeling komt overeen met het gebied 3.5 tot 4.5 van de normale verdeling. De waarden 3 en groter van de binomiale verdeling komen overeen met de waarden > 2.5 van de normale verdeling De waarden kleiner dan 6 van de binomiale verdeling komen overeen met de waarden < 5.5 van de normale verdeling
continuiteitscorrectie Bij dat benaderen doet zich een probleem voor: de binomiale verdeling is een discrete verdeling de normale verdeling is een continue verdeling. De waarde ‘4’ uit een binomiale verdeling komt overeen met het gebied 3.5 tot 4.5 van de normale verdeling. continuiteitscorrectie De waarden 3 en groter van de binomiale verdeling komen overeen met de waarden > 2.5 van de normale verdeling De waarden kleiner dan 6 van de binomiale verdeling komen overeen met de waarden < 5.5 van de normale verdeling
Tot nu toe het aantal successen (X) als toetsingsgrotheid gebruikt. Vaak wordt ook de proportie successen (P) gebruikt. Die is gelijk aan: (aantal successen)/n Vergelijk de situatie bij Steekproefgemiddelde en Steekproefsom P(P=p) = P(P=x/n) = P(X=x) P heeft een getransformeerde BV ? m(P) = m(X)/n = p ? s2(P) = s2(X)/n = p(1-p)/n
p is voor elke herhaling hetzelfde Binomiaal experiment…… Er is een populatie die slechts 2 uitkomsten kent (geslaagd-mislukt, kop-munt, jongen-meisje, ….. Er zijn n herhalingen (5 toetsvragen, 10 gezinnen, 7 worpen met munt, … P(succes)= p P(mislukking)= 1- p p is voor elke herhaling hetzelfde De binomiale toevalsvariabele (random variable) R Is de som van het aantal successen in n herhalingen
Terug in de tijd……… Bij het toetsen van gemiddelde kwamen twee soorten fouten aan de orde: fout van de eerste soort (a) fout van de tweede soort (b)
Deel van verdeling onder H0 in kritieke gebied Deel van verdeling onder HA in acceptatie gebied
Iemand wil met behulp van een steekproef van 10 stuks toetsen of de fractie successen in de populatie gelijk is aan 0.70 (onder H0 geldt p= 0.70) Hij definieert de alternatieve hypothese (p= 0.20) en gebruikt een a van 5%. Bepaal kritieke waarde en kritieke gebied.
p = 0.7 kritieke gebied ligt links/rechts ????
Linker-overschrijdingskans van 5: 0.150 p = 0.7 Linker-overschrijdingskans van 5: 0.150 Linker-overschrijdingskans van 4: 0.047 Linker-overschrijdingskans van 3: 0.011 Kritieke waarde?? Kritieke gebied?? bij a = 5%
p = 0.7 Hoe groot is, onder HA, de kans op 5 of meer successen in een steekproef van 10????
De kans op 5 of meer successen is dus 0.033 hoe groot is b? hoe groot is de ‘power’?
b-fout In dat geval wordt de H0 ten onrechte niet verworpen: fout van de tweede soort b-fout
oplossen met de tabel (zie boek) Het probleem nog eens. oplossen met de tabel (zie boek) n x p= 0.2 p= 0.7 10 0 107 000 1 376 000 2 678 002 3 879 011 4 967 047 5 994 150 6 999 350 7 1 617 8 1 851 9 1 972 10 1 1
succes !