P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
HC2MFE Meten van verschillen
Toetsen van verschillen tussen twee of meer groepen
Aflezen van analoge en digitale meetinstrumenten
De omvang van een steekproef bepalen
Inleiding tot inferentie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H 15: Samengestelde interest
vwo A/C Samenvatting Hoofdstuk 6
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Correlatietoetsen Toetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen. Vb. afhankelijkheid.
Samenvatting H29 Parabolen
Leer de namen van de noten 2
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Gegevensverwerving en verwerking
Meervoudige lineaire regressie
Inferentie voor regressie
Inferentie voor kruistabellen
Afhankelijkheidstabellen
Schatter voor covariantie
Eenzijdige Betrouwbaarheidsgrens
Continue kansverdelingen
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Een fundamentele inleiding in de inductieve statistiek
Beslisbomen Robert de Hoog College Beslissingsondersteuning 26 september 2002.
Schuifmaat.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
variabelen vaststellen
Populatiegemiddelden: recap
1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Toetsen van proporties 7.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
ribwis1 Toegepaste wiskunde – Exponentiele functies Lesweek 6
ribwis1 Toegepaste wiskunde Lesweek 3
ribwis1 Toegepaste wiskunde – Exponentiele functies Lesweek 5
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Toegepaste mechanica voor studenten differentiatie Constructie
havo/vwo D Samenvatting Hoofdstuk 4
Tweedegraadsfuncties
H4 Differentiëren.
H2 Lineaire Verbanden.
De steekproefuitkomsten generaliseren naar de populatie
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
Hoeveelheidsaanpassing II
Basisvaardigheden: Metingen en diagrammen
Hoe en waar wordt de keuze voor de nieuwe auto bepaald? AutoRai 2005 Amsterdam, 10 februari 2005 Anne Hoff Research Director Interview-NSS.
Centrummaten en Boxplot
Baarde en de goede Hoofdstuk 11: Data-analyse
28 mei Symposium Statistical Auditing Slide 1 Steekproefmethoden bij EU audits Paul van Batenburg.
Docentinstructie: Het is aan te bevelen de eerste dia’s klassikaal te tonen en met uitleg te bespreken. Als na zes dia’s een korte demo van Celsius/Fahrenheit.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Wat zegt een steekproef?
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
De omvang van een steekproef bepalen
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

p-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen waarde wanneer de nulhypothese zou gelden. Dus bij een t-toets, stel t is de waargenomen waarde van de toetsingsgrootheid. Dan Tweezijdig: Eenzijdig: als H1:  > 0 dan P(T > t), als H1:  < 0 dan P(T < t). Deze kansen kan je voor een t-toets en een 2-toets niet berekenen m.b.v. Stat. Compendium. Je kan dat wel voor een z-toets, want de ‘hele’ verdeling staat erin. Computer geeft meestal p-waarden. Je kan de p-waarde voor t-toets en een 2-toets wel afschatten door in de tabel met kritieke waarden die twee opeenvolgende waarden op te zoeken waartussen de toetsingsgrootheid ligt; met de bijbehorende percentages (bovenste rij) kan je de p-waarde afschatten.

Toetsen m.b.v. computer Statgraphics geeft altijd een tweezijdige p-waarde terug. Als je tweezijdig toets geldt: als p-waarde kleiner is dan  : verwerp nulhypothese, je kan concluderen dat er een verschil is. Als je eenzijdig toetst: bereken eenzijdige p-waarde uit de tweezijdige. Dus in het voorbeeld (zie week 6, ax23 vs. bwgg, waargenomen waarde van de tgh = -3.18 ) : Als H1:  > 0 dan p-waarde = P(T > -3.18) = 1- P(T < -3.18 ) = 1 -‘tweezijdig’/2 = 1 – 0.0033 = 0.9967. Als H1:  < 0 dan P(T < -3.18) =‘tweezijdig’/2 = 0.0066/2=0.0033.

Toetsen en het Statistisch Compendium Het statistisch compendium geeft voor de t-verdeling alleen de rechter kritieke waarden (of percentage- punten) weer. Dus t,n-1 is dat punt waarvoor geldt P(Tn-1 > t,n-1) =  . De linker kritieke waarde is simpelweg -t,n-1 , vanwege de symmetrie van de t-verdeling. Het statistisch compendium geeft voor de 2-verdeling beide kritieke waarden (of percentagepunten) weer. Dus onder kolom ‘0.025’ en rij ‘9’ staat de rechter kritieke waarde bij 9 vrijheidsgraden (= 19.0), dus kans groter dan 19.0 is 0.025. Onder ‘0.975’ en rij ‘9’ staat de linker kritieke waarde, 2.7; kans groter dan 2.7 is 0.975, dus kans kleiner dan 2.7 is 0.025. Bij tweezijdig toetsen met een z-toets geldt in principe: H0 verwerpen als z0  -z/2 of z0  z/2. (dus z0 te klein, danwel z0 te groot). Dit is echter hetzelfde als |z0|  z/2 en dit wordt gebruikt in het Stat. Comp. Hetzelfde geldt voor de t-toets.

Toetsen Praktische opmerkingen Betrouwbaarheidsinterval opstellen vinden velen ‘makkelijker’ dan toetsen m.b.v. een toetsings-grootheid. Beide is ok, mits het betrouwbaarheids-interval beschikbaar is. Veruit het belangrijkste: welke toets heb ik in welke situatie nodig? Gebruik altijd het statistisch compendium bij het toetsen. Alle toetsingsgrootheden en b.i.-en staan hierin. Interpretatie computeroutput kan getentamineerd worden. Loop voorbeeld zelf door. Begrijp p-waarden. Statistische significantie betekent niet altijd prak-tische relevantie! Met zeer grote steekproeven kan een zeer klein verschil significant worden, terwijl dit ver-schil in de praktijk er niet toe doet. [Statgraphics voorbeeld: 300 data uit Normaal(0,1) en 300 uit Normaal (0.05,1)]

Type I fout en type II fout Definities = de type I fout = P(verwerp H0 | H0 waar) = P(toetsingsgrootheid in kritieke gebied | H0 waar) = de type II fout = P(verwerp H0 niet | H0 niet waar) = P(tgh in niet in kritieke gebied | H0 niet waar) Let op: je kan  berekenen voor een gegeven kritieke gebied. Meestal gaat het andersom:  is gegeven en daarbij bepaal je het kritieke gebied. Voorbeeld:  = 0.05, interesse parameter:  , variantie onbekend, dan kritieke gebied bij tweezijdig toetsen voor tgh is Hoe kunnen we  berekenen voor een gegeven kritiek gebied? Daartoe moeten we ‘H0 niet waar’ vastleggen. M.a.w. we moeten vastleggen welke waarde ongelijk aan de waarde onder H0 (bijv.  = 0) de interesse-parameter dan wel aanneemt.

Onderscheidingsvermogen, voorbeeld = de type I fout = P(verwerp H0 | H0 waar) = P(toetsingsgrootheid in kritieke gebied | H0 waar)  = de type II fout = P(verwerp H0 niet | H0 niet waar) = P(tgh in niet in kritieke gebied | H0 niet waar) Het onderscheidingsvermogen (power) van een toets is 1- = P(H0 verwerpen | H0 niet waar). Voorbeeld. De kansspelcommissie die het casino controleert kan uitrekenen wat de kans is dat H0 : p = 1/37 verworpen wordt ten gunste van H1 : p > 1/37, wanneer ze 2000 experimenten doen en de ware ‘succeskans’ p gelijk is aan 1/30. Uiteraard wil de commissie dat deze kans voldoende groot is.

Type I fout en type II fout Streven: zo klein mogelijke  en zo klein mogelijke . Helaas:  neemt af als kritieke gebied kleiner wordt (‘je verwerpt H0 minder vaak’), maar  neemt toe (‘kans op verwerpen wanneer H0 niet waar is wordt kleiner’) Echter we kunnen bij vaste  het onderscheidings-vermogen ( 1- ) wel verhogen door een grotere steekproef te gebruiken. De vraag is dan: hoe groot moet de steekproef zijn? In principe mogelijk om dit te berekenen met de hand voor de z-toets (opm: maar dit behoort niet tot de stof!) Twee alternatieven die in de praktijk worden gebruikt: Computer O.C. curves

Steekproefgroottebepaling Vaak wordt de volgende strategie gebruikt. Zet  vast, bijv. op 0.05. Stel onder H0 geldt:  = 0. Je besluit dat mocht het ware populatiegemiddelde gelijk zijn aan 1 (dus  = 1) je dit wilt constateren met 90% kans. Hoe groot moet de steekproef zijn om dit te bewerk-stelligen? Statgraphics demo: Situatie: we veronderstellen eerst dat  bekend is en gelijk aan 1. In dat geval is  dus 1 standaarddeviatie verschoven t.o.v. de nulhypothese. Ga naar ‘describe -> ‘sample size determination’ Kies ‘Normal mean’. ‘Hypothesized’ mean is de waarde van  onder de nulhypothese dus ‘0’ in dit geval. Sigma veronderstellen we gelijk aan 1. Kies nu de ‘power’, deze is 90% in dit voorbeeld en ‘difference to detect’ is de alternatieve , dus 1. Confidence level houden we gelijk op 95% en we toetsen tweezijdig ‘not equal’.

Steekproefgroottebepaling, vervolg De belangrijkste informatie die SG teruggeeft is de vereiste steekproefgrootte: n = 16. Dus resumerend kunnen we, voordat we een experiment gaan doen, zeggen dat we tenminste 16 onafhankelijke metingen moeten doen als we 90% zeker willen zijn dat een verschuiving ter grootte ‘1’ t.o.v. de nulhypothese als significant wordt opgemerkt bij het uitvoeren van een toets met een betrouwbaarheidsniveau van 95%. Statgraphics geeft de volgende powercurve terug: Hiermee kunnen we voor steekproefgrootte n = 16 ook zien wat het onderscheidingsvermogen is voor verschuivingen kleiner dan ‘1’.

OC-curves Nuttig zijn ook de zgn. operating characteristic curves, OC-curves. Zie ook boek appendix A. Y-as: Kans op accepteren van H0. X-as: Afwijking d t.o.v.  = 0 gemeten in eenheden van het aantal standaarddeviaties. Voorbeeld 1: Bij de ziekte sikkelanemie is het van belang het aantal bloedcellen te tellen met een afwijkende (sikkel)vorm in een vaste hoeveelheid bloed. Er is een nieuwe beeldverwerkingstechniek die dit doet en de vraag is of deze even veel cellen telt als een laborant onder de microscoop. Vraag : stel we vereisen dat als de nieuwe techniek een afwijking heeft van een halve standaarddeviatie t.o.v. de laborant dit met 90% kans wordt ontdekt, dus dat de nulhypothese (‘geen verschil’) wordt verwor-pen, waarbij we  = 0.05 gebruiken. Hoe groot moet de steekproef (het aantal samples dat we gaan laten testen door de laborant en de nieuwe techniek) zijn om aan deze eis te voldoen? Let op:  is nu niet gegeven, dus gepaarde t-toets. Gebruik de OC-curve (e) uit boek: n  40.

OC-curves voor twee steekproeven Voor het twee steekproeven geval wordt uitgegaan van gelijke steekproeven, die dan allebei ter grootte n zijn. De verschuiving d wordt dan gemeten in eenheden van als de standaardeviaties bekend zijn (gebruik z-toets). De standaarddeviaties hoeven niet bekend te zijn, maar als ze onbekend (gebruik t-toets) zijn vereisen we wel dat ze gelijk aan elkaar zijn (). In dat geval specificeer je d in eenheden van 2 of vervang  door de steekproefstandaarddeviatie S. Vervolgens vind je n* met de curves en uiteindelijk n = (n* + 1) / 2. Voorbeeld 2. In studies naar kanker wordt tegen-woordig veel gebruik gemaakt van genexpressies. De mate waarin een gen tot uitdrukking komt (‘aanwezig is’) in kankerweefsel wordt vergeleken met de expressie in gezond weefsel.

OC-curves voor twee steekproeven, voorbeeld Voorbeeld 2. (vervolg) Stel we willen 90% zeker zijn dat een tweevoudige over- of onderexpressie (d.w.z. kanker / gezond = 2 of kanker / gezond = 1/2) met een toets gebaseerd op  = 0.05 ontdekt wordt. ‘Ontdekt’ slaat hier op het verwerpen van de nulhypothese kanker / gezond = 1, hetgeen geen verschil betekent. De data zelf zijn niet normaal verdeeld, maar de 2log van de data wel. Gelukkig kunnen we de nulhypothese omschrijven als: kanker / gezond = 1 betekent 2log (kanker / gezond ) = 2log (kanker) - 2log ( gezond) = ’kanker - ’gezond = 0. Evenzo geldt onder het gespecificeerde alternatief: ’kanker - ’gezond = 1 danwel ’kanker - ’gezond = -1. We hebben een kleine pilotstudy gedaan (ter grootte npilot = 5) waaruit we schatten  met S = 0.62 . Er geldt dus: d = 1 / (2*0.62) = 0.81. Aflezen in grafiek (e) uit boek geeft n*  21, dus n  (21+1)/2 = 11.

Aanpassingstoets Doel van aanpassingstoets (goodness-of-fit test): toets de nulhypothese H0: data volgen een bepaalde gespecificeerde kansverdeling (bijv. binomiaal, normaal, Poisson, etc.) tegen het alternatief dat ze dit niet doen. Stap 1: Schat onbekende parameter(s) van de kansverdeling. Stap 2: Classificeer de uitkomsten volgens het model (de aangenomen kansverdeling). Bij een discrete verdeling zijn dit meestal opeenvolgende uitkomsten. Bij continue verdelingen kiezen we vaak k = 8 intervallen waarvoor de kans om in dit interval terecht te komen 1/8 is. Stap 3: Per klasse bereken je de verwachte frequentie als H0 zou gelden (Ei) en de geobserveerde frequentie (Oi). Stap 4: Voeg een klasse waarvoor de verwachte frequentie kleiner is dan 3 samen met de vorige klasse (of volgende, als het de eerste is)

Aanpassingstoets, vervolg Stap 5: Bereken de toetsingsgrootheid Stap 6: Bereken # vrijheidsgraden: k – p – 1, waarbij k het aantal klassen is (evt. na samenvoeging) en p het aantal geschatte parameters (bijv. 2 bij normale verdeling, 1 bij Poissonverdeling) Stap 7: Verwerp H0 als Opmerking: alleen grote waarden van de toetsings-grootheid leiden tot verwerpen H0! Kleine waarden wijzen juist in de richting van H0 (want de waargenomen frequenties liggen dan dichtbij verwachte frequenties) Voorbeelden: lees zelf ‘Example 9-12 en 9-13’ (3e ed. of ‘Example 8-18 en 8-19’ (2e ed.)

Afhankelijkheidstabellen Afhankelijkheidstabellen (contingency tables) worden gebruikt om te toetsen of er een verband is tussen twee classificaties. De nulhypothese is hierbij dat er geen verband is. Voorbeeld Een drietal operatietechnieken wordt toegepast op hetzelfde probleem. De geopereerde patiënten worden lange tijd geobserveerd en men scoort of de operatie succesvol was of niet. Men wil weten of er een verband is tussen succeskans en de gebruikte operatietechniek. De tabel ziet er alsvolgt uit: Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40

Afhankelijkheidstabellen Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 Noem pij de kans dat een willekeurige patiënt in cel (i,j) valt. De nulhypothese is dat deze kans geschreven kan worden als het product van twee kansen (onafhankelijkheid!): pij = uivj, waarbij uj de kans is dat de patiënt valt onder rijklasse i (‘ja’ of ‘nee’ in dit voorbeeld) en vj de kans is dat de patiënt valt onder kolomklasse j (1,2 of 3 in dit voorbeeld). Hoeveel patiënten verwachten we in cell (ja,1) als de nulhypothese geldt? We schatten uja = 24/40 en v1= 19/40. We verwachten dus 40*(24/40)*(19/40) = 456/40 = 11.4. Dit noemen we E11.

Afhankelijkheidstabellen De toetsingsgrootheid is: waarbij r het aantal rijen is en k het aantal kolom-men en de verwachte frequentie als H0 zou gelden Eij is en de geobserveerde frequentie Oij. Operatietechniek Succes 1 2 3 Tot. ja 10 6 8 24 nee 9 5 16 19 11 40 E11= 11.4, E21 = 7.6, E12 = 6.6, E22 = 4.4, E13= 6, E23 = 4. Verwerp de nulhypothese als dus verwerp H0 niet; we kunnen geen verschil tussen de succeskansen aantonen.