De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 Wat is een p-waarde? De kans dat de toetsings- grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar- genomen.

Verwante presentaties


Presentatie over: "1 Wat is een p-waarde? De kans dat de toetsings- grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar- genomen."— Transcript van de presentatie:

1 1 Wat is een p-waarde? De kans dat de toetsings- grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar- genomen waarde wanneer de nulhypothese zou gelden. Dus bij een t-toets, stel t is de waargenomen waarde van de toetsingsgrootheid. Dan Tweezijdig: Eenzijdig: als H 1 :  > 0 dan P(T > t), als H 1 :  < 0 dan P(T < t). Deze kansen kan je voor een t-toets en een  2 -toets niet berekenen m.b.v. Stat. Compendium. Je kan dat wel voor een z-toets, want de ‘hele’ verdeling staat erin. Computer geeft meestal p-waarden. Je kan de p-waarde voor t-toets en een  2 -toets wel afschatten door in de tabel met kritieke waarden die twee opeenvolgende waarden op te zoeken waartussen de toetsingsgrootheid ligt; met de bijbehorende percentages (bovenste rij) kan je de p-waarde afschatten. p-waarde

2 2 Statgraphics geeft altijd een tweezijdige p-waarde terug. Als je tweezijdig toets geldt: als p-waarde kleiner is dan  : verwerp nulhypothese, je kan concluderen dat er een verschil is. Als je eenzijdig toetst: bereken eenzijdige p-waarde uit de tweezijdige. Dus in het voorbeeld (zie week 6, ax23 vs. bwgg, waargenomen waarde van de tgh = ) : Als H 1 :  > 0 dan p-waarde = P(T > -3.18) = 1- P(T < ) = 1 - ‘tweezijdig’/2 = 1 – = Als H 1 :  < 0 dan P(T < -3.18) =‘tweezijdig’/2 = /2= Toetsen m.b.v. computer

3 3 Het statistisch compendium geeft voor de t-verdeling alleen de rechter kritieke waarden (of percentage- punten) weer. Dus t ,n-1 is dat punt waarvoor geldt P(T n-1 > t ,n-1 ) = . De linker kritieke waarde is simpelweg -t ,n-1, vanwege de symmetrie van de t- verdeling. Het statistisch compendium geeft voor de  2 -verdeling beide kritieke waarden (of percentagepunten) weer. Dus onder kolom ‘0.025’ en rij ‘9’ staat de rechter kritieke waarde bij 9 vrijheidsgraden (= 19.0), dus kans groter dan 19.0 is Onder ‘0.975’ en rij ‘9’ staat de linker kritieke waarde, 2.7; kans groter dan 2.7 is 0.975, dus kans kleiner dan 2.7 is Bij tweezijdig toetsen met een z-toets geldt in principe: H 0 verwerpen als z 0  -z  /2 of z 0  z  /2. (dus z 0 te klein, danwel z 0 te groot). Dit is echter hetzelfde als |z 0 |  z  /2 en dit wordt gebruikt in het Stat. Comp. Hetzelfde geldt voor de t-toets. Toetsen en het Statistisch Compendium

4 4 Betrouwbaarheidsinterval opstellen vinden velen ‘makkelijker’ dan toetsen m.b.v. een toetsings- grootheid. Beide is ok, mits het betrouwbaarheids- interval beschikbaar is. Veruit het belangrijkste: welke toets heb ik in welke situatie nodig? Gebruik altijd het statistisch compendium bij het toetsen. Alle toetsingsgrootheden en b.i.-en staan hierin. Interpretatie computeroutput kan getentamineerd worden. Loop voorbeeld zelf door. Begrijp p-waarden. Statistische significantie betekent niet altijd prak- tische relevantie! Met zeer grote steekproeven kan een zeer klein verschil significant worden, terwijl dit ver- schil in de praktijk er niet toe doet. [Statgraphics voorbeeld: 300 data uit Normaal(0,1) en 300 uit Normaal (0.05,1)] Toetsen Praktische opmerkingen

5 5 Definities  = de type I fout = P(verwerp H 0 | H 0 waar) = P(toetsingsgrootheid in kritieke gebied | H 0 waar)  = de type II fout = P(verwerp H 0 niet | H 0 niet waar) = P(tgh in niet in kritieke gebied | H 0 niet waar) Let op: je kan  berekenen voor een gegeven kritieke gebied. Meestal gaat het andersom:  is gegeven en daarbij bepaal je het kritieke gebied. Voorbeeld:  = 0.05, interesse parameter: , variantie onbekend, dan kritieke gebied bij tweezijdig toetsen voor tgh is Hoe kunnen we  berekenen voor een gegeven kritiek gebied? Daartoe moeten we ‘H 0 niet waar’ vastleggen. M.a.w. we moeten vastleggen welke waarde ongelijk aan de waarde onder H 0 (bijv.  = 0) de interesse- parameter dan wel aanneemt. Type I fout en type II fout

6 6  = de type I fout = P(verwerp H 0 | H 0 waar) = P(toetsingsgrootheid in kritieke gebied | H 0 waar)  = de type II fout = P(verwerp H 0 niet | H 0 niet waar) = P(tgh in niet in kritieke gebied | H 0 niet waar) Het onderscheidingsvermogen (power) van een toets is 1-  = P(H 0 verwerpen | H 0 niet waar). Voorbeeld. De kansspelcommissie die het casino controleert kan uitrekenen wat de kans is dat H 0 : p = 1/37 verworpen wordt ten gunste van H 1 : p > 1/37, wanneer ze 2000 experimenten doen en de ware ‘succeskans’ p gelijk is aan 1/30. Uiteraard wil de commissie dat deze kans voldoende groot is. Onderscheidingsvermogen, voorbeeld

7 7 Streven: zo klein mogelijke  en zo klein mogelijke . Helaas:  neemt af als kritieke gebied kleiner wordt (‘je verwerpt H 0 minder vaak’), maar  neemt toe (‘kans op verwerpen wanneer H 0 niet waar is wordt kleiner’) Echter we kunnen bij vaste  het onderscheidings- vermogen ( 1-  ) wel verhogen door een grotere steekproef te gebruiken. De vraag is dan: hoe groot moet de steekproef zijn? In principe mogelijk om dit te berekenen met de hand voor de z-toets (opm: maar dit behoort niet tot de stof!) Twee alternatieven die in de praktijk worden gebruikt: Computer O.C. curves Type I fout en type II fout

8 8 Vaak wordt de volgende strategie gebruikt. Zet  vast, bijv. op Stel onder H 0 geldt:  = 0. Je besluit dat mocht het ware populatiegemiddelde gelijk zijn aan 1 (dus  = 1) je dit wilt constateren met 90% kans. Hoe groot moet de steekproef zijn om dit te bewerk- stelligen? Statgraphics demo: Situatie: we veronderstellen eerst dat  bekend is en gelijk aan 1. In dat geval is  dus 1 standaarddeviatie verschoven t.o.v. de nulhypothese. Ga naar ‘describe -> ‘sample size determination’ Kies ‘Normal mean’. ‘Hypothesized’ mean is de waarde van  onder de nulhypothese dus ‘0’ in dit geval. Sigma veronderstellen we gelijk aan 1. Kies nu de ‘power’, deze is 90% in dit voorbeeld en ‘difference to detect’ is de alternatieve , dus 1. Confidence level houden we gelijk op 95% en we toetsen tweezijdig ‘not equal’. Steekproefgroottebepaling

9 9 De belangrijkste informatie die SG teruggeeft is de vereiste steekproefgrootte: n = 16. Dus resumerend kunnen we, voordat we een experiment gaan doen, zeggen dat we tenminste 16 onafhankelijke metingen moeten doen als we 90% zeker willen zijn dat een verschuiving ter grootte ‘1’ t.o.v. de nulhypothese als significant wordt opgemerkt bij het uitvoeren van een toets met een betrouwbaarheidsniveau van 95%. Statgraphics geeft de volgende powercurve terug: Hiermee kunnen we voor steekproefgrootte n = 16 ook zien wat het onderscheidingsvermogen is voor verschuivingen kleiner dan ‘1’. Steekproefgroottebepaling, vervolg

10 10 Nuttig zijn ook de zgn. operating characteristic curves, OC-curves. Zie ook boek appendix A. Y-as: Kans op accepteren van H 0. X-as: Afwijking d t.o.v.  = 0 gemeten in eenheden van het aantal standaarddeviaties. Voorbeeld 1: Bij de ziekte sikkelanemie is het van belang het aantal bloedcellen te tellen met een afwijkende (sikkel)vorm in een vaste hoeveelheid bloed. Er is een nieuwe beeldverwerkingstechniek die dit doet en de vraag is of deze even veel cellen telt als een laborant onder de microscoop. Vraag : stel we vereisen dat als de nieuwe techniek een afwijking heeft van een halve standaarddeviatie t.o.v. de laborant dit met 90% kans wordt ontdekt, dus dat de nulhypothese (‘geen verschil’) wordt verwor- pen, waarbij we  = 0.05 gebruiken. Hoe groot moet de steekproef (het aantal samples dat we gaan laten testen door de laborant en de nieuwe techniek) zijn om aan deze eis te voldoen? Let op:  is nu niet gegeven, dus gepaarde t-toets. Gebruik de OC-curve (e) uit boek: n  40. OC-curves

11 11 Voor het twee steekproeven geval wordt uitgegaan van gelijke steekproeven, die dan allebei ter grootte n zijn. De verschuiving d wordt dan gemeten in eenheden van als de standaardeviaties bekend zijn (gebruik z-toets). De standaarddeviaties hoeven niet bekend te zijn, maar als ze onbekend (gebruik t-toets) zijn vereisen we wel dat ze gelijk aan elkaar zijn (  ). In dat geval specificeer je d in eenheden van 2  of vervang  door de steekproefstandaarddeviatie S. Vervolgens vind je n* met de curves en uiteindelijk n = (n* + 1) / 2. Voorbeeld 2. In studies naar kanker wordt tegen- woordig veel gebruik gemaakt van genexpressies. De mate waarin een gen tot uitdrukking komt (‘aanwezig is’) in kankerweefsel wordt vergeleken met de expressie in gezond weefsel. OC-curves voor twee steekproeven

12 12 Voorbeeld 2. (vervolg) Stel we willen 90% zeker zijn dat een tweevoudige over- of onderexpressie (d.w.z.  kanker /  gezond = 2 of  kanker /  gezond = 1/2) met een toets gebaseerd op  = 0.05 ontdekt wordt. ‘Ontdekt’ slaat hier op het verwerpen van de nulhypothese  kanker /  gezond = 1, hetgeen geen verschil betekent. De data zelf zijn niet normaal verdeeld, maar de 2 log van de data wel. Gelukkig kunnen we de nulhypothese omschrijven als:  kanker /  gezond = 1 betekent 2 log (  kanker /  gezond ) = 2 log (  kanker ) - 2 log (  gezond ) =  ’ kanker -  ’ gezond = 0. Evenzo geldt onder het gespecificeerde alternatief:  ’ kanker -  ’ gezond = 1 danwel  ’ kanker -  ’ gezond = -1. We hebben een kleine pilotstudy gedaan (ter grootte n pilot = 5) waaruit we schatten  met S = Er geldt dus: d = 1 / (2*0.62) = Aflezen in grafiek (e) uit boek geeft n*  21, dus n  (21+1)/2 = 11. OC-curves voor twee steekproeven, voorbeeld

13 13 Doel van aanpassingstoets (goodness-of-fit test): toets de nulhypothese H 0 : data volgen een bepaalde gespecificeerde kansverdeling (bijv. binomiaal, normaal, Poisson, etc.) tegen het alternatief dat ze dit niet doen. Stap 1: Schat onbekende parameter(s) van de kansverdeling. Stap 2: Classificeer de uitkomsten volgens het model (de aangenomen kansverdeling). Bij een discrete verdeling zijn dit meestal opeenvolgende uitkomsten. Bij continue verdelingen kiezen we vaak k = 8 intervallen waarvoor de kans om in dit interval terecht te komen 1/8 is. Stap 3: Per klasse bereken je de verwachte frequentie als H 0 zou gelden (E i ) en de geobserveerde frequentie (O i ). Stap 4: Voeg een klasse waarvoor de verwachte frequentie kleiner is dan 3 samen met de vorige klasse (of volgende, als het de eerste is) Aanpassingstoets

14 14 Stap 5: Bereken de toetsingsgrootheid Stap 6: Bereken # vrijheidsgraden: k – p – 1, waarbij k het aantal klassen is (evt. na samenvoeging) en p het aantal geschatte parameters (bijv. 2 bij normale verdeling, 1 bij Poissonverdeling) Stap 7: Verwerp H 0 als Opmerking: alleen grote waarden van de toetsings- grootheid leiden tot verwerpen H 0 ! Kleine waarden wijzen juist in de richting van H 0 (want de waargenomen frequenties liggen dan dichtbij verwachte frequenties) Voorbeelden: lees zelf ‘Example 9-12 en 9-13’ (3e ed. of ‘Example 8-18 en 8-19’ (2e ed.) Aanpassingstoets, vervolg

15 15 Afhankelijkheidstabellen Afhankelijkheidstabellen (contingency tables) worden gebruikt om te toetsen of er een verband is tussen twee classificaties. De nulhypothese is hierbij dat er geen verband is. Voorbeeld Een drietal operatietechnieken wordt toegepast op hetzelfde probleem. De geopereerde patiënten worden lange tijd geobserveerd en men scoort of de operatie succesvol was of niet. Men wil weten of er een verband is tussen succeskans en de gebruikte operatietechniek. De tabel ziet er alsvolgt uit: Operatietechniek Succes 1 2 3Tot. ja nee Tot

16 16 Afhankelijkheidstabellen Operatietechniek Succes 1 2 3Tot. ja nee Tot Noem p ij de kans dat een willekeurige patiënt in cel (i,j) valt. De nulhypothese is dat deze kans geschreven kan worden als het product van twee kansen (onafhankelijkheid!): p ij = u i v j, waarbij u j de kans is dat de patiënt valt onder rijklasse i (‘ja’ of ‘nee’ in dit voorbeeld) en v j de kans is dat de patiënt valt onder kolomklasse j (1,2 of 3 in dit voorbeeld). Hoeveel patiënten verwachten we in cell (ja,1) als de nulhypothese geldt? We schatten u ja = 24/40 en v 1 = 19/40. We verwachten dus 40*(24/40)*(19/40) = 456/40 = Dit noemen we E 11.

17 17 Afhankelijkheidstabellen De toetsingsgrootheid is: waarbij r het aantal rijen is en k het aantal kolom- men en de verwachte frequentie als H 0 zou gelden E ij is en de geobserveerde frequentie O ij. Operatietechniek Succes 1 2 3Tot. ja nee Tot E 11 = 11.4, E 21 = 7.6, E 12 = 6.6, E 22 = 4.4, E 13 = 6, E 23 = 4. Verwerp de nulhypothese als dus verwerp H 0 niet; we kunnen geen verschil tussen de succeskansen aantonen.


Download ppt "1 Wat is een p-waarde? De kans dat de toetsings- grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar- genomen."

Verwante presentaties


Ads door Google