Afhankelijkheidstabellen Afhankelijkheidstabellen (contingency tables) worden gebruikt om te toetsen of er een verband is tussen twee classificaties. De nulhypothese is hierbij dat er geen verband is. Voorbeeld Een drietal operatietechnieken wordt toegepast op hetzelfde probleem. De geopereerde patiënten worden lange tijd geobserveerd en men scoort of de operatie succesvol was of niet. Men wil weten of er een verband is tussen succeskans en de gebruikte operatietechniek. De tabel ziet er alsvolgt uit: Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40
Afhankelijkheidstabellen Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 Noem pij de kans dat een willekeurige patiënt in cel (i,j) valt. De nulhypothese is dat deze kans geschreven kan worden als het product van twee kansen (onafhankelijkheid!): pij = uivj, waarbij uj de kans is dat de patiënt valt onder rijklasse i (‘ja’ of ‘nee’ in dit voorbeeld) en vj de kans is dat de patiënt valt onder kolomklasse j (1,2 of 3 in dit voorbeeld). Hoeveel patiënten verwachten we in cell (ja,1) als de nulhypothese geldt? We schatten uja = 24/40 en v1= 19/40. We verwachten dus 40*(24/40)*(19/40) = 456/40 = 11.4. Dit noemen we E11.
Afhankelijkheidstabellen De toetsingsgrootheid is: waarbij r het aantal rijen is en k het aantal kolom-men en de verwachte frequentie als H0 zou gelden Eij is en de geobserveerde frequentie Oij. Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 E11= 11.4, E21 = 7.6, E12 = 6.6, E22 = 4.4, E13= 6, E23 = 4. Verwerp de nulhypothese als dus verwerp H0 niet; we kunnen geen verschil tussen de succeskansen aantonen.
Afhankelijkheidstabellen met StatGraphics De toetsingsgrootheid is: Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 Voer de tabel de datasheet in. Dan: ‘Describe’, ‘Categorical Data’, ‘Contingency Tables. Vervolgens drie kolommen selecteren en ‘ok’. Uitvoer: p-value linksonder. Window vergroten en verkleinen door dubbelklikken. p-waarde = 0.32, niet verdubbelen, want toets is altijd eenzijdig. Nulhypothese wordt dus niet verworpen (zie ook ‘StatAdvisor’)
Verdelingsvrije toetsen Als de data normaal verdeeld zijn, kunnen we een z-toets of t-toets gebruiken wanneer de interesseparame-ter is. Maar wat als dit de normal probability plot is: Of dit:
Verdelingsvrije toetsen Ook de bijbehorende Boxplots duiden niet op normaliteit: scheef in het eertse geval en veel meer ‘uitschieters’ dan verwacht in het tweede geval:
Verdelingsvrije toetsen Als de data duidelijk niet normaal verdeeld zijn hebben we een alternatief nodig om toch te kunnen toetsen. Dit alternatief bestaat: verdelingvrije toets ook wel genaamd niet-parametrische toets of rangtoets. Kracht van deze toetsen: ze gelden altijd, wat de kansverdeling van de data ook is. Nadeel: het onderscheidingsvermogen (power) van deze toetsen is iets minder groot dan toetsen gebaseerd op de normale verdeling als de data wel echt normaal verdeeld zijn. Twee ongepaarde steekproeven, toets H0 : 1 = 2 met de Wilcoxon rangsomtoets (Wilcoxon rank sum test). Eén steekproef (toets H0 : = 0) of twee steek-proeven gepaard (toets H0 : d = 0, met d = 1 -2 ): gebruik Wilcoxon ranktekentoets (Wilcoxon signed-rank test).
Toetsen, stapsgewijs (herhaling week 5) Doorloop stappen van het toetsen (testing). 1. Wat is de interesseparameter (, 2, p)? Wat zijn de veronderstellingen (normale verdeling ja/nee?) 2. Opstellen hypothesen. Eenzijdig of tweezijdig? 3. Welke situatie: bekende variantie. onbekende variantie: gelijk veronderstellen of niet? 4. Hoe gaan we toetsen? a) M.b.v. de computer: p-waarden b) Opstellen betrouwbaarheidsinterval c) Bereken toetsingsgrootheid, vergelijk met tabel 5. Nulhypothese verwerpen als a) p-waarde kleiner of gelijk aan b) waarde van parameter onder nulhypothese valt buiten (1 - )*100% betrouwbaarheidsinterval c) Toetsingsgrootheid in kritieke gebied valt. Opmerking: t-toetsen zijn robuust m.b.t. normaliteitsvoorwaarden Voorbeeld: Scholieren onderzoek dataset scholier.sav de score bij MAVO/HAVO leerlingen blijkt te zijn xgem=5.9038, s=0.7144, n=21 Toets of het gemiddelde cijfer hoger is dan 5.5 hypothesen H0: = 5.5 H1: > 5.5 Toetsingsgrootheid onder H0: U ~ t20 Beslissingscriterium: verwerp als u> t20, 0.05 u>1.725 Beslissing: u=(5.9038-5.5)/0.1556=2.59 dus H0 verwerpen alternatief p-value=P(U>2.59| H0 ) < 0.01
Wilcoxon rangsomtoets Interesseparameter: = 1 - 2 H0 : = 0 (oftewel 1 = 2). Alternatief kan eenzijdig of tweezijdig zijn. Situatie: varianties bekend of onbekend maakt niet uit. Normale verdeling kan niet worden aangenomen. In dit geval zullen we of p-waarde (computer) of de toets doen m.b.v. een toetsingsgrootheid. Dus geen betrouwbaarheidsinterval. H0 verwerpen als p-waarde kleiner of gelijk aan of toetsingsgrootheid valt in kritieke gebied.
Wilcoxon rangsomtoets Toetsen m.b.v. toetsingsgrootheid 1: Rangnummer de waarneming van klein naar groot. Gelijke waarnemingen geef je een gemiddeld rangnummer (dus als bijv. de 4e, 5e en 6e kleinste waarnemingen gelijk zijn dan krijgen ze allemaal rangnummer (4+5+6) / 3 = 5. 2: Toetsingsgrootheid W: som van de rangnummers van de kleinste steekproef, 34.5 in het voorbeeld. 3: Stel het kritieke gebied op m.b.v. Tabel 10.19 uit het Stat. Comp. en het gegeven onbetrouwbaar-heidsniveau .
Wilcoxon rangsomtoets In de tabel zijn alleen de linkerkritieke grenzen (WL) gegeven; voor de rechtergrens WR geldt: WR = n(m + n + 1) – WL, waarbij n de kleinste steekproef is. Welke grenzen je nodig hebt, hangt weer af van de alternatieve hypothese. Noem de kleinste steekproef, steekproef ‘1’ en de andere ‘2’. Dan als H1: 1 < 2 , gebruik alleen linkergrens (want alleen een kleine waarde van de toetsings-grootheid, hetgeen de som van rangnummers van de kleinste steekproef is, wijzen in de richting van H1) b) H1: 1 > 2 , gebruik alleen rechtergrens c) H1: 1 2 , gebruik allebei. Dus kritieke gebied in het voorbeeld (n = 5 en m = 6) voor = 0.05: zoek op eenzijdig = 0.05. WL = 20: verwerp H0 als W 20 b)WR = n(m + n + 1) – WL = 5*12 – 20 = 40. {W 40} c)zoek op tweezijdig = 0.05. WL = 18, WR = 42. Dus verwerp H0 als W 18 of W 42. Kritiek gebied: {W 18} {W 42}
Wilcoxon rangsomtoets 4: Vergelijk toetsingsgrootheid met kritieke gebied. Stel dat we hier eenzijdig zouden toetsen (de eerste prothese is een nieuw ontwerp): H1: 1 > 2 , want je zou willen aantonen dat het nieuwe ontwerp langer mee gaat dan het oude ontwerp. Kritieke gebied: {W 40}, W = 34.5 in het voorbeeld, dus verwerp H0 niet: we kunnen niet met grote zekerheid zeggen dat de nieuwe prothese beter is. Als de steekproeven groot zijn dan volgt W bij benadering een normale verdeling. Bereken dan Dit is standaardnormaal verdeeld, dus gebruik het kritieke gebied voor de z-toets (Stat. Comp. pag. 42)
Wilcoxon rangtekentoets Situatie: Eén steekproef: toets H0 : = 0 of Twee steekproeven gepaard (waarnemingen zijn gedaan op hetzelfde object) Toets H0 : d = 0, met d = 1 -2 In beide gevallen maken we eerst één steekproef waarvan het gemiddelde als H0 geldt ongeveer ‘0’ zou moeten zijn. Trek simpelweg de gespecificeerde 0 van elk gegeven af. Dit zijn de gemeten (gemiddelde) januaritemperaturen in West Europa de afgelopen 20 jaar. Data: 3.9, 2.3, 4.0, 4.5, 1.5, 2.2, 1.7, 3.6, 6.1, 1.2, 5.3, 3.3, -0.6, 5.2, 0.2, 0.9, 2.6, 2.2, 3.4, 2.8 Hypothese: H0: = 2. Dus steekproef waarop we de toets gaan uitvoeren: Data:1.9, 0.3, 2.0, 2.5, -0.5, 0.2, -0.3, 1.6, 4.1, -0.8, 3.3, 1.3, -2.6, 3.2, -1.8, -1.1, 0.6, 0.2, 1.4, 0.8 b) Bereken paarsgewijze verschillen. Verschildata vor-men nu de steekproef waarop we de toets gaan doen.
Wilcoxon rangtekentoets Data: Alvorens een nieuw biertje op de markt te brengen, wil de betreffende bierbrouwer weten of dit nieuwe bier door de doelgroep gewaardeerd zal worden in vergelijking met het bestaande bier van die brouwer. Daarom wordt een smaakpanel van 15 personen samengesteld. Elke persoon geeft een cijfer aan het nieuwe bier en het oude bier (de test gebeurt blind, zodat de personen niet weten welk bier ze proeven). De nulhypothese is H0 : d = 0, met d = nieuw -bestaand en het alternatief is H1 : d > 0, want dan zou het nieuwe bier lekkerder zijn dan het bestaand en gaat de brouwer snel over tot introductie!
Wilcoxon rangtekentoets Data en rangen: Toetsingsgrootheid: W+ som van de rangnummers behorende bij de positieve waarnemingen. Tel de rangnummers behorende bij ‘0’ voor de helft mee! Bij gelijke waarnemingen: middel de rangnummers. In het voorbeeld: W+ = 99. Voer toets uit m.b.v. tabel 10.20, statistisch compendium.
Wilcoxon rangtekentoets In het voorbeeld: W+ = 99. Voer toets uit m.b.v. tabel 10.20, statistisch compen-dium. Voorbeeld De alternatieve hypothese was H1 : d > 0, dus rechtseenzijdig toetsen bij = 0.05. Zoek linkerkritieke waarde WL op bij eenzijdige = 0.05 en n = 15. Deze is gelijk aan 30. Rechterkritieke waarde WR = n(n+1) / 2 – WL = 120 – 30 = 90. Er geldt: W+ = 99 > WR = 90, dus H0: d = 0 verwer-pen: het nieuwe bier is significant lekkerder dan het bestaande. Ter illustratie: benadering mbv normale verdeling. Dus de p-waarde is bij benadering 0.015: verwerpen.
Statgraphics De verdelingsvrije toetsen kunnen ook m.b.v. statgraphics of de meeste andere statistische software worden uitgevoerd. Statgraphics voert de Wilcoxon toetsen uit wanneer je vraagt om een ‘comparison of medians’. De mediaan is gelijk aan de verwachtingswaarde als de verdeling symmetrisch is. Stappen: ‘Compare’ -> ‘two samples’ -> ‘paired-sample comparison’ of ‘two-sample comparison’ . Vul kolommen in. Output verschijnt, maar er is nog geen toets gedaan. Om dat te doen: klik gele vakje (‘tabular options’) en vink ‘hypothesis testing’of ‘comparison of medians’ aan. Let op: net als bij de t-toets geeft Statgraphics weer tweezijdige p-waarden terug. Hieruit kan een eenzijdige p-waarde worden berekend (zie week 7).
Statgraphics, voorbeeld Statgraphics heeft slechts deze data nodig en berekent vervolgens zelf de verschillen, rangen en de waarde van de toetsingsgrootheid. Deze waarde wordt meteen gegeven in gestandaardiseerde vorm met daarbij een tweezijdige p-waarde. Hier: p-waarde tweezijdig = 0.034, dus gezochte p-waarde: 0.034 / 2 = 0.017. Verwerp H0. De p-waarde wijkt iets af van zelf berekende p-waarde, want SG voert een kleine correctie uit.