Eenzijdige Betrouwbaarheidsgrens Herhaling: hoe kan een eenzijdige grens gevonden worden m.b.v. Statistisch Compendium? Gevraagd: rechtseenzijdige 95% betrouwbaarheidsgrens. Antwoord: = 0.05. Pas formule toe, gebruik rechter-grens, maar met i.p.v. /2, dus deze is De variantie van een normaal verdeelde variabele bedraagt 9. Om mu te schatten wordt een steekproef genomen. Hoe groot moet de steekproefomvang n zijn om met 95% kans voor xgem een afwijking tov mu van hoogstens 0.5 te vinden. Opl: Het tweezijdig 100*(1- )% b.i. voor 2 is nu (zie compendium):
Steekproefomvang Een betrouwbaarheidsinterval wordt smaller naarmate de steekproefomvang (sample size) groter wordt. Stel we willen dat de breedte van het (95%) b.i. maximaal 2B is. De vraag: hoe groot moet de steekproef zijn om dit te garanderen? Als voorbeeld hoe je dit probleem aanpakt kijken we naar een b.i. voor in één steekproef wanneer de variantie onbekend is: De breedte van dit interval is Helaas, S weten we van tevoren niet. Maar, we kunnen wel eerst een kleine ‘pilotstudy’ doen: we nemen n = 10 en schatten S, de steekproefstandaard-deviatie. Nu vereisen we We zijn er bijna: we pluggen de geschatte waarde S en vervolgens verhogen we systematisch n totdat aan de ongelijkheid wordt voldaan.
n=500 is dus voldoende in dit geval Steekproefomvang Grafisch µ De variantie van een normaal verdeelde variabele bedraagt 9. Om mu te schatten wordt een steekproef genomen. Hoe groot moet de steekproefomvang n zijn om met 95% kans voor xgem een afwijking tov mu van hoogstens 0.5 te vinden. Opl: n=500 is dus voldoende in dit geval
Hypothese opstellen De nulhypothese: H0. De nulhypothese geeft over het algemeen de situatie weer: geen effect, de waarde van de parameter is zoals we die verwachten, er is geen verschil. Voorbeelden: 1. Laat 1 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een medicijn en 2 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een ander medicijn. Dan, H0: 1 = 2. 2. Casino (zie week 5): Casino belazert de boel niet, kans op nul is 1/37. Dan, H0: p = 1/37. Altenatieve hypothese: H1. Dat wat je wilt aantonen: er is een effect, er is een verschil. Als je niet geïnteresseerd bent in de richting van het effect dan zal je altijd tweezijdig toetsen. H1 is dan simpelweg de ontkenning van H0.
Hypothese opstellen, vervolg H1: Dat wat je wilt aantonen: er is een effect, er is een verschil. Als je niet geïnteresseerd bent in de richting van het effect dan zal je altijd tweezijdig toetsen. H1 is dan simpelweg de ontkenning van H0. (ongelijkheid) Ongelijkheid kan betekenen > of < . Soms is men echter alleen geïnteresseerd in een van de twee mogelijke richtingen. Dan is H1 eenzijdig en in de richting van de interesse. Voorbeelden Laat 1 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een medicijn en 2 de gemiddelde bloeddruk-verlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een ander medicijn. Dan, H0: 1 = 2 en H1: 1 2. Echter als het 2e medicijn een placebo is, dan zal men alleen willen weten of 1 beter werkt: H1: 1 > 2. 2.Casino: men wil weten of het casino de boel belazert. Dat is alleen het geval als p > 1/37, dus H1: p > 1/37.
Hypothese (niet) verwerpen Uiteindelijk zullen we de nulhypothese verwerpen (reject) of niet. Wat kunnen we concluderen bij verwerpen? Dat met (1 - )*100% zekerheid we kunnen stellen dat de alternatieve hypothese H1 waar is. ‘Er is een effect’ Dit is een sterke uitspraak. Wat kunnen we zeggen als H0 niet verworpen wordt? We kunnen stellen dat er niet genoeg bewijs in de data is om H0 te verwerpen ten faveure van H1. Let wel: hiermee weten we niet zeker of H0 waar is. Het kan ook zijn dat we niet genoeg data hebben om H1 te onder-steunen. Dit is een zwakke uitspraak. Het aantonen van ‘geen effect’ (H0) is dus veel moeilijker dan het aantonen van een effect.
Toetsen, stapsgewijs Doorloop stappen van het toetsen (testing). 1. Wat is de interesseparameter (, 2, p)? Wat zijn de veronderstellingen (normale verdeling ja/nee?) 2. Opstellen hypothesen. Eenzijdig of tweezijdig? 3. Welke situatie: bekende variantie. onbekende variantie: gelijk veronderstellen of niet? 4. Hoe gaan we toetsen? a) M.b.v. de computer: p-waarden b) Opstellen betrouwbaarheidsinterval c) Bereken toetsingsgrootheid, vergelijk met tabel 5. Nulhypothese verwerpen als a) p-waarde kleiner of gelijk aan b) waarde van parameter onder nulhypothese valt buiten (1 - )*100% betrouwbaarheidsinterval c) Toetsingsgrootheid in kritieke gebied valt. Opmerking: t-toetsen zijn robuust m.b.t. normaliteitsvoorwaarden Voorbeeld: Scholieren onderzoek dataset scholier.sav de score bij MAVO/HAVO leerlingen blijkt te zijn xgem=5.9038, s=0.7144, n=21 Toets of het gemiddelde cijfer hoger is dan 5.5 hypothesen H0: = 5.5 H1: > 5.5 Toetsingsgrootheid onder H0: U ~ t20 Beslissingscriterium: verwerp als u> t20, 0.05 u>1.725 Beslissing: u=(5.9038-5.5)/0.1556=2.59 dus H0 verwerpen alternatief p-value=P(U>2.59| H0 ) < 0.01
t-verdeling t-verdeling
Toetsen van hypothesen, voorbeeld Voorbeeld: Dit zijn de gemeten (gemiddelde) januaritemperaturen in West Europa de afgelopen 20 jaar. Data: 3.9, 2.3, 4.0, 4.5, 1.5, 2.2, 1.7, 3.6, 6.1, 1.2, 5.3, 3.3, -0.6, 5.2, 0.2, 0.9, 2.6, 2.2, 3.4, 2.8 Veronderstel is onbekend
t-toets 1. Interesseparameter: , normaliteit is gecontroleerd 2. Hypothese: H0: = 2 H1: > 2 3. Situatie: Variantie onbekend, één streekproef. 4. Toetsingsgrootheid: onder H0: T ~ t19 Waargenomen: Waargenomen toetsingsgrootheid: 5. Beslissing: Verwerp H0 als t “onwaarschijnlijk groot” als dus als t > 1.729. Dit is het kritieke gebied of verwerpingsgebied (rejection area). Dus conclusie: verwerp H0
Toetsen m.b.v. toetsingsgrootheid De t-toets Bepaal situatie. Interesseparameter: Normale verdeling redelijk (plots: week 4). Toetsingsprobleem H0: = 0 a. H1: 0 b. H1: > 0 c. H1: < 0 3. Hier: steekproef met µ en 2 onbekend: t-toets (als variantie bekend is: Z-toets) 4. We gaan een toetsingsgrootheid (test statistic) gebruiken. onder H0: T ~ tn-1 5. Beslissingscriterium Verwerp H0 bij significantie niveau als a. of als b. c. Opmerking: t-toetsen zijn robuust m.b.t. normaliteitsvoorwaarden Voorbeeld: Scholieren onderzoek dataset scholier.sav de score bij MAVO/HAVO leerlingen blijkt te zijn xgem=5.9038, s=0.7144, n=21 Toets of het gemiddelde cijfer hoger is dan 5.5 hypothesen H0: = 5.5 H1: > 5.5 Toetsingsgrootheid onder H0: U ~ t20 Beslissingscriterium: verwerp als u> t20, 0.05 u>1.725 Beslissing: u=(5.9038-5.5)/0.1556=2.59 dus H0 verwerpen alternatief p-value=P(U>2.59| H0 ) < 0.01
Samenvatting toetsen voor µ Belangrijkste vraag: welke toets heb ik nodig in welke situatie? Ga het volgende na: Wordt er gevraagd om een eenzijdige toets of een tweezijdige toets? Eenzijdig: links of rechts, gebruik i.p.v. /2 in formules. Hebben we te maken met gepaarde waarnemingen (dus steeds twee waarnemingen op hetzelfde object/individu) of niet? Zijn de varianties bekend en gegeven? Gebruik dan de z -waarden (percentagepunten) Zijn de varianties onbekend, gebruik dan de t – waarden met het juiste aantal vrijheidsgraden. Worden de variantie gelijk verondersteld of niet?
p-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen waarde wanneer de nulhypothese zou gelden Tweezijdig: Eenzijdig: als H1: > 0 dan P(T > t), als H1: < 0 dan P(T < t). Ook wel als definitie: het kleinste significantieniveau ( ) dat nog leidt tot verwerping.
Toetsen, betrouwbaarheidsintervallen en p-waarden: equivalentie Laat de interesseparameter zijn. De volgende uitspraken zijn equivalent: H0: = 0 wordt verworpen ten gunste van H1: 0 omdat: > 0 omdat: p-waarde van de tweezijdige toets kleiner is dan . 0 buiten het tweezijdig 1- b.i. van ligt. de toetsingsgrootheid in het kritieke gebied voor significantieniveau valt. Opmerkingen betr. interval heeft vaak de voorkeur boven een toets omdat het een collectie van plausibele waarden oplevert (waarden die niet worden verworpen) Paketten leveren vaak alleen betr. Intervallen Verschil statistische en practische significantie verband en verband en steekproefomvang verband beta en 0-1 tweezijdig eenzijdig p-waarde van de eenzijdige toets kleiner is dan . 0 groter is dan het rechtseenzijdige 1- betrouwbaarheidsgrens voor de toetsingsgrootheid groter is dan de eenzijdige kritieke grens voor significantieniveau .
Toetsen, fracties voorbeeld Van een bepaald casino vermoedt de kansspel-commissie dat ze de boel belazeren. Hun roulettetafel zou niet zuiver zijn en de kans op ‘0’ zou groter zijn dan 1/37, waardoor klanten meer kans hebben hun inzet te verliezen. Daarom wordt de tafel 2000 keer getest, waarvan 90 keer een ‘0’ valt. We willen nu weten of de ware ‘succeskans’(=kans op ‘0’) te groot is. Week 5 behandelt de manier om dit te doen mbv betrouwbaar-heidsintervallen. Nu doen we ook een toets. 1. Interesseparameter: p. Veronderstelling: normale benadering voor binomiaal mag gebruikt worden. Opstellen hypothesen: H0: p = 1/37, H1: p > 1/37 Eenzijdig dus! 3.Situatie: toets op fractie, variantie: p’(1-p’)/n met p’ schatter voor ‘succeskans’ p: x/n = 90/2000, waarbij x het aantal ‘0’ en in n experimenten is. Opmerking: t-toetsen zijn robuust m.b.t. normaliteitsvoorwaarden Voorbeeld: Scholieren onderzoek dataset scholier.sav de score bij MAVO/HAVO leerlingen blijkt te zijn xgem=5.9038, s=0.7144, n=21 Toets of het gemiddelde cijfer hoger is dan 5.5 hypothesen H0: = 5.5 H1: > 5.5 Toetsingsgrootheid onder H0: U ~ t20 Beslissingscriterium: verwerp als u> t20, 0.05 u>1.725 Beslissing: u=(5.9038-5.5)/0.1556=2.59 dus H0 verwerpen alternatief p-value=P(U>2.59| H0 ) < 0.01
Toetsen, fracties voorbeeld, vervolg 4. Hoe gaan we toetsen? Ter illustratie methoden a) en c): M.b.v. de computer: p-waarden c) Bereken toetsingsgrootheid, vergelijk met tabel z = 4.95. Kritieke grens bij = 0.01: z0.01 = 2.33. 5.Nulhypothese verwerpen als a) p-waarde kleiner of gelijk aan 0.01 p-waarde < 0.0001, dus verwerpen. c) Toetsingsgrootheid in kritieke gebied valt. z = 3.88 > 2.33, dus verwerpen. Opmerking: t-toetsen zijn robuust m.b.t. normaliteitsvoorwaarden Voorbeeld: Scholieren onderzoek dataset scholier.sav de score bij MAVO/HAVO leerlingen blijkt te zijn xgem=5.9038, s=0.7144, n=21 Toets of het gemiddelde cijfer hoger is dan 5.5 hypothesen H0: = 5.5 H1: > 5.5 Toetsingsgrootheid onder H0: U ~ t20 Beslissingscriterium: verwerp als u> t20, 0.05 u>1.725 Beslissing: u=(5.9038-5.5)/0.1556=2.59 dus H0 verwerpen alternatief p-value=P(U>2.59| H0 ) < 0.01
Toetsen m.b.v. computer Toetsen in de praktijk gebeurt vrijwel altijd met de computer. Installatie Statgraphics: Public Folders Open data set: Heart.sf (deze staat in de Statgraphics directory (onder ‘Program Files’) onder de subdirectory ‘data’) Verwijder controle data, kies ‘compare’ -> ‘two samples’ -> ‘two-sample comparison’ -> vul in ‘time = 4’ bij select -> klik gele button (‘tabular options’) in uitvoer -> vink aan ‘comparisons of means’ Zelfde stappenplan. Interesseparameter: .= ax23 - bwwg Normale verdeling wordt verondersteld H0: = 0 (beide middelen zijn even effectief) H1: 0 (er is verschil) Variantie onbekend, maar gelijk verondersteld. Toets m.b.v. p-waarden en evt. betrouwbaarheid-sinterval voor . Tweezijdige toets: p-waarde = 0.0066, dus verwerpen voor elke 0.0066. 95% betrouw-baarheidsinterval: [-11.0871,-2.16294] Hier ligt ‘0’ niet in, dus verwerpen.