P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

p-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen waarde wanneer de nulhypothese zou gelden. Dus bij een t-toets, stel t is de waargenomen waarde van de toetsingsgrootheid. Dan Tweezijdig: Eenzijdig: als H1:  > 0 dan P(T > t), als H1:  < 0 dan P(T < t). Deze kansen kan je voor een t-toets en een 2-toets niet berekenen m.b.v. Stat. Compendium. Je kan dat wel voor een z-toets, want de ‘hele’ verdeling staat erin. Computer geeft meestal p-waarden. Je kan de p-waarde voor t-toets en een 2-toets wel afschatten door in de tabel met kritieke waarden die twee opeenvolgende waarden op te zoeken waartussen de toetsingsgrootheid ligt; met de bijbehorende percentages (bovenste rij) kan je de p-waarde afschatten.

Toetsen m.b.v. computer Statgraphics geeft altijd een tweezijdige p-waarde terug. Als je tweezijdig toets geldt: als p-waarde kleiner is dan  : verwerp nulhypothese, je kan concluderen dat er een verschil is. Als je eenzijdig toetst: bereken eenzijdige p-waarde uit de tweezijdige. Dus in het voorbeeld (zie week 6, ax23 vs. bwgg, waargenomen waarde van de tgh = ) : Als H1:  > 0 dan p-waarde = P(T > -3.18) = 1- P(T < ) = 1 -‘tweezijdig’/2 = 1 – = Als H1:  < 0 dan P(T < -3.18) =‘tweezijdig’/2 = /2=

Toetsen en het Statistisch Compendium
Het statistisch compendium geeft voor de t-verdeling alleen de rechter kritieke waarden (of percentagepunten) weer. Dus t,n-1 is dat punt waarvoor geldt P(Tn-1 > t,n-1) =  . De linker kritieke waarde is simpelweg -t,n-1 , vanwege de symmetrie van de t-verdeling. Het statistisch compendium geeft voor de 2-verdeling beide kritieke waarden (of percentagepunten) weer. Dus onder kolom ‘0.025’ en rij ‘9’ staat de rechter kritieke waarde bij 9 vrijheidsgraden (= 19.0), dus kans groter dan 19.0 is Onder ‘0.975’ en rij ‘9’ staat de linker kritieke waarde, 2.7; kans groter dan 2.7 is 0.975, dus kans kleiner dan 2.7 is Bij tweezijdig toetsen met een z-toets geldt in principe: H0 verwerpen als z0  -z/2 of z0  z/2. (dus z0 te klein, danwel z0 te groot). Dit is echter hetzelfde als |z0|  z/2 en dit wordt gebruikt in het Stat. Comp. Hetzelfde geldt voor de t-toets.

Toetsen Praktische opmerkingen
Betrouwbaarheidsinterval opstellen vinden velen ‘makkelijker’ dan toetsen m.b.v. een toetsings-grootheid. Beide is ok, mits het betrouwbaarheids-interval beschikbaar is. Veruit het belangrijkste: welke toets heb ik in welke situatie nodig? Gebruik altijd het statistisch compendium bij het toetsen. Alle toetsingsgrootheden en b.i.-en staan hierin. Interpretatie computeroutput kan getentamineerd worden. Loop voorbeeld zelf door. Begrijp p-waarden. Statistische significantie betekent niet altijd prak-tische relevantie! Met zeer grote steekproeven kan een zeer klein verschil significant worden, terwijl dit ver-schil in de praktijk er niet toe doet. [Statgraphics voorbeeld: 300 data uit Normaal(0,1) en 300 uit Normaal (0.05,1)]

Type I fout en type II fout
Definities = de type I fout = P(verwerp H0 | H0 waar) = P(toetsingsgrootheid in kritieke gebied | H0 waar) = de type II fout = P(verwerp H0 niet | H0 niet waar) = P(tgh in niet in kritieke gebied | H0 niet waar) Let op: je kan  berekenen voor een gegeven kritieke gebied. Meestal gaat het andersom:  is gegeven en daarbij bepaal je het kritieke gebied. Voorbeeld:  = 0.05, interesse parameter:  , variantie onbekend, dan kritieke gebied bij tweezijdig toetsen voor tgh is Hoe kunnen we  berekenen voor een gegeven kritiek gebied? Daartoe moeten we ‘H0 niet waar’ vastleggen. M.a.w. we moeten vastleggen welke waarde ongelijk aan de waarde onder H0 (bijv.  = 0) de interesse-parameter dan wel aanneemt.

Onderscheidingsvermogen, voorbeeld
= de type I fout = P(verwerp H0 | H0 waar) = P(toetsingsgrootheid in kritieke gebied | H0 waar)  = de type II fout = P(verwerp H0 niet | H0 niet waar) = P(tgh in niet in kritieke gebied | H0 niet waar) Het onderscheidingsvermogen (power) van een toets is 1- = P(H0 verwerpen | H0 niet waar). Voorbeeld. De kansspelcommissie die het casino controleert kan uitrekenen wat de kans is dat H0 : p = 1/37 verworpen wordt ten gunste van H1 : p > 1/37, wanneer ze 2000 experimenten doen en de ware ‘succeskans’ p gelijk is aan 1/30. Uiteraard wil de commissie dat deze kans voldoende groot is.

Type I fout en type II fout
Streven: zo klein mogelijke  en zo klein mogelijke . Helaas:  neemt af als kritieke gebied kleiner wordt (‘je verwerpt H0 minder vaak’), maar  neemt toe (‘kans op verwerpen wanneer H0 niet waar is wordt kleiner’) Echter we kunnen bij vaste  het onderscheidings-vermogen ( 1- ) wel verhogen door een grotere steekproef te gebruiken. De vraag is dan: hoe groot moet de steekproef zijn? In principe mogelijk om dit te berekenen met de hand voor de z-toets (opm: maar dit behoort niet tot de stof!) Twee alternatieven die in de praktijk worden gebruikt: Computer O.C. curves

Steekproefgroottebepaling
Vaak wordt de volgende strategie gebruikt. Zet  vast, bijv. op Stel onder H0 geldt:  = 0. Je besluit dat mocht het ware populatiegemiddelde gelijk zijn aan 1 (dus  = 1) je dit wilt constateren met 90% kans. Hoe groot moet de steekproef zijn om dit te bewerk-stelligen? Statgraphics demo: Situatie: we veronderstellen eerst dat  bekend is en gelijk aan 1. In dat geval is  dus 1 standaarddeviatie verschoven t.o.v. de nulhypothese. Ga naar ‘describe -> ‘sample size determination’ Kies ‘Normal mean’. ‘Hypothesized’ mean is de waarde van  onder de nulhypothese dus ‘0’ in dit geval. Sigma veronderstellen we gelijk aan 1. Kies nu de ‘power’, deze is 90% in dit voorbeeld en ‘difference to detect’ is de alternatieve , dus 1. Confidence level houden we gelijk op 95% en we toetsen tweezijdig ‘not equal’.

Steekproefgroottebepaling, vervolg
De belangrijkste informatie die SG teruggeeft is de vereiste steekproefgrootte: n = 16. Dus resumerend kunnen we, voordat we een experiment gaan doen, zeggen dat we tenminste 16 onafhankelijke metingen moeten doen als we 90% zeker willen zijn dat een verschuiving ter grootte ‘1’ t.o.v. de nulhypothese als significant wordt opgemerkt bij het uitvoeren van een toets met een betrouwbaarheidsniveau van 95%. Statgraphics geeft de volgende powercurve terug: Hiermee kunnen we voor steekproefgrootte n = 16 ook zien wat het onderscheidingsvermogen is voor verschuivingen kleiner dan ‘1’.

OC-curves Nuttig zijn ook de zgn. operating characteristic curves, OC-curves. Zie ook boek appendix A. Y-as: Kans op accepteren van H0. X-as: Afwijking d t.o.v.  = 0 gemeten in eenheden van het aantal standaarddeviaties. Voorbeeld 1: Bij de ziekte sikkelanemie is het van belang het aantal bloedcellen te tellen met een afwijkende (sikkel)vorm in een vaste hoeveelheid bloed. Er is een nieuwe beeldverwerkingstechniek die dit doet en de vraag is of deze even veel cellen telt als een laborant onder de microscoop. Vraag : stel we vereisen dat als de nieuwe techniek een afwijking heeft van een halve standaarddeviatie t.o.v. de laborant dit met 90% kans wordt ontdekt, dus dat de nulhypothese (‘geen verschil’) wordt verwor-pen, waarbij we  = 0.05 gebruiken. Hoe groot moet de steekproef (het aantal samples dat we gaan laten testen door de laborant en de nieuwe techniek) zijn om aan deze eis te voldoen? Let op:  is nu niet gegeven, dus gepaarde t-toets. Gebruik de OC-curve (e) uit boek: n  40.

OC-curves voor twee steekproeven
Voor het twee steekproeven geval wordt uitgegaan van gelijke steekproeven, die dan allebei ter grootte n zijn. De verschuiving d wordt dan gemeten in eenheden van als de standaardeviaties bekend zijn (gebruik z-toets). De standaarddeviaties hoeven niet bekend te zijn, maar als ze onbekend (gebruik t-toets) zijn vereisen we wel dat ze gelijk aan elkaar zijn (). In dat geval specificeer je d in eenheden van 2 of vervang  door de steekproefstandaarddeviatie S. Vervolgens vind je n* met de curves en uiteindelijk n = (n* + 1) / 2. Voorbeeld 2. In studies naar kanker wordt tegen-woordig veel gebruik gemaakt van genexpressies. De mate waarin een gen tot uitdrukking komt (‘aanwezig is’) in kankerweefsel wordt vergeleken met de expressie in gezond weefsel.

OC-curves voor twee steekproeven, voorbeeld
Voorbeeld 2. (vervolg) Stel we willen 90% zeker zijn dat een tweevoudige over- of onderexpressie (d.w.z. kanker / gezond = 2 of kanker / gezond = 1/2) met een toets gebaseerd op  = 0.05 ontdekt wordt. ‘Ontdekt’ slaat hier op het verwerpen van de nulhypothese kanker / gezond = 1, hetgeen geen verschil betekent. De data zelf zijn niet normaal verdeeld, maar de 2log van de data wel. Gelukkig kunnen we de nulhypothese omschrijven als: kanker / gezond = 1 betekent 2log (kanker / gezond ) = 2log (kanker) - 2log ( gezond) = ’kanker - ’gezond = 0. Evenzo geldt onder het gespecificeerde alternatief: ’kanker - ’gezond = 1 danwel ’kanker - ’gezond = -1. We hebben een kleine pilotstudy gedaan (ter grootte npilot = 5) waaruit we schatten  met S = Er geldt dus: d = 1 / (2*0.62) = Aflezen in grafiek (e) uit boek geeft n*  21, dus n  (21+1)/2 = 11.

Aanpassingstoets Doel van aanpassingstoets (goodness-of-fit test): toets de nulhypothese H0: data volgen een bepaalde gespecificeerde kansverdeling (bijv. binomiaal, normaal, Poisson, etc.) tegen het alternatief dat ze dit niet doen. Stap 1: Schat onbekende parameter(s) van de kansverdeling. Stap 2: Classificeer de uitkomsten volgens het model (de aangenomen kansverdeling). Bij een discrete verdeling zijn dit meestal opeenvolgende uitkomsten. Bij continue verdelingen kiezen we vaak k = 8 intervallen waarvoor de kans om in dit interval terecht te komen 1/8 is. Stap 3: Per klasse bereken je de verwachte frequentie als H0 zou gelden (Ei) en de geobserveerde frequentie (Oi). Stap 4: Voeg een klasse waarvoor de verwachte frequentie kleiner is dan 3 samen met de vorige klasse (of volgende, als het de eerste is)

Aanpassingstoets, vervolg
Stap 5: Bereken de toetsingsgrootheid Stap 6: Bereken # vrijheidsgraden: k – p – 1, waarbij k het aantal klassen is (evt. na samenvoeging) en p het aantal geschatte parameters (bijv. 2 bij normale verdeling, 1 bij Poissonverdeling) Stap 7: Verwerp H0 als Opmerking: alleen grote waarden van de toetsings-grootheid leiden tot verwerpen H0! Kleine waarden wijzen juist in de richting van H0 (want de waargenomen frequenties liggen dan dichtbij verwachte frequenties) Voorbeelden: lees zelf ‘Example 9-12 en 9-13’ (3e ed. of ‘Example 8-18 en 8-19’ (2e ed.)

Afhankelijkheidstabellen
Afhankelijkheidstabellen (contingency tables) worden gebruikt om te toetsen of er een verband is tussen twee classificaties. De nulhypothese is hierbij dat er geen verband is. Voorbeeld Een drietal operatietechnieken wordt toegepast op hetzelfde probleem. De geopereerde patiënten worden lange tijd geobserveerd en men scoort of de operatie succesvol was of niet. Men wil weten of er een verband is tussen succeskans en de gebruikte operatietechniek. De tabel ziet er alsvolgt uit: Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40

Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 Noem pij de kans dat een willekeurige patiënt in cel (i,j) valt. De nulhypothese is dat deze kans geschreven kan worden als het product van twee kansen (onafhankelijkheid!): pij = uivj, waarbij uj de kans is dat de patiënt valt onder rijklasse i (‘ja’ of ‘nee’ in dit voorbeeld) en vj de kans is dat de patiënt valt onder kolomklasse j (1,2 of 3 in dit voorbeeld). Hoeveel patiënten verwachten we in cell (ja,1) als de nulhypothese geldt? We schatten uja = 24/40 en v1= 19/40. We verwachten dus 40*(24/40)*(19/40) = 456/40 = 11.4. Dit noemen we E11.

De toetsingsgrootheid is: waarbij r het aantal rijen is en k het aantal kolom-men en de verwachte frequentie als H0 zou gelden Eij is en de geobserveerde frequentie Oij. Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 E11= 11.4, E21 = 7.6, E12 = 6.6, E22 = 4.4, E13= 6, E23 = 4. Verwerp de nulhypothese als dus verwerp H0 niet; we kunnen geen verschil tussen de succeskansen aantonen.

P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

Verwante presentaties

Presentatie over: "P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

Verwante presentaties

Presentatie over: "P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback