Methodologie & Statistiek I Principes van statistisch toetsen 5.1.

Slides:

Advertisements

Verwante presentaties

Statistische uitspraken over onbekende populatiegemiddelden

Advertisements

KWALITEITSZORG november 2012

HC2MFE Meten van verschillen

Onderscheidingsvermogen van hypothesetoetsen toegepast op de z-toets

Toetsen van verschillen tussen twee of meer groepen

Presentatie cliëntenonderzoek. Algemeen Gehouden in december 2013 (doorlopend tot eind januari) DoelgroepVerzondenOntvangen% LG wonen en dagbesteding.

De omvang van een steekproef bepalen

Inleiding tot inferentie

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.

November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.

H 14: Enkelvoudige interest

Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Beschrijvende en inferentiële statistiek

Haal meer uit je Hersenen masterclass wiskunde

N = geschatte aantal M = eerste gemerkte vangst C = totaal tweede vangst R = aantal gemerkte exemplaren in tweede vangst.

Tevredenheidsonderzoek 2007

Beschrijvende en inferentiële statistiek

P-waarde versus betrouwbaarheidsinterval

Statistiek II Hoofdstuk 4: Toetsen voor één populatie

Statistiek II Hoofdstuk 3: Betrouwbaarheidsintervallen en hypothesetoetsing Vanhoomissen & Valkeneers, hoofdstuk 3.

toetsen voor het verband tussen variabelen met gelijk meetniveau

Elke 7 seconden een nieuw getal

vwo A Samenvatting Hoofdstuk 15

vwo C Samenvatting Hoofdstuk 14

Hypothese toetsen We hebben de volgende situatie.

MEDISCHE STATISTIEK OEFENINGEN

Inferentie voor regressie

Inferentie voor kruistabellen

P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

Afhankelijkheidstabellen

Schatter voor covariantie

Metingen met spreiding

Eenzijdige Betrouwbaarheidsgrens

Help! Statistiek! Doorlopende serie laagdrempelige lezingen,

Een fundamentele inleiding in de inductieve statistiek

H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.

Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.

In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,

Populatiegemiddelden: recap

Foto 65 – wegenis + parking + rechts G01 Foto 66 – G01.

Methodologie & Statistiek I Verband tussen twee variabelen 3.2

Methodologie & Statistiek I Verband tussen twee variabelen 3.1.

Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.

Methodologie & Statistiek I

Methodologie & Statistiek I Toetsen van proporties 7.1.

U kunt deze presentatie ook op uw eigen PC afspelen! Gebruikmaken van internet:  Education  Health sciences  Presentations.

Deze diapresentatie werd vervaardigd door de Capaciteitsgroep Methodologie en Statistiek. De presentatie mag alleen worden gecopieerd voor eigen gebruik.

Inkomen les t/m 75 plus Zelftest Kennisvragen.

havo/vwo D Samenvatting Hoofdstuk 4

SAMENWERKING WO EN HBO BIJ AANSLUITINGSONDERZOEK V0-HO Rob Andeweg DAIR 7 en 8 november 2007.

EFS Seminar Discriminatie van pensioen- en beleggingsfondsen

Deel 2. Hoofdrekenend aftrekken

Statistiekbegrippen en hoe je ze berekent!!

Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.

STIMULANS KWALITEITSZORG juni 2014.

Basisvaardigheden: Metingen en diagrammen

De financiële functie: Integrale bedrijfsanalyse©

Hoe en waar wordt de keuze voor de nieuwe auto bepaald? AutoRai 2005 Amsterdam, 10 februari 2005 Anne Hoff Research Director Interview-NSS.

Centrummaten en Boxplot

Baarde en de goede Hoofdstuk 11: Data-analyse

Het doel en de grondbeginselen van statistiek in klinische onderzoeken

Wat zegt een steekproef?

Betrouwbaarheidsinterval

Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.

Open online aansluitingsmodules statistiek

Toetsen van verschillen tussen twee of meer groepen

Transcript van de presentatie:

Methodologie & Statistiek I Principes van statistisch toetsen 5.1

U kunt deze presentatie ook op uw eigen PC afspelen! Gebruikmaken van internet: http://www.unimaas.nl/~stat Education Health sciences Presentations of lectures “op dit moment ……. beschikbaar Opening --- Hoofdstuk 5 (Principes van …) Powerpointviewer downloaden”

Deze diapresentatie werd vervaardigd door Michel Janssen van de Capaciteitsgroep Methodologie en Statistiek. De presentatie mag alleen worden gecopieerd voor eigen gebruik door studenten en medewerkers van de Universiteit Limburg in Maastricht. Met eventuele open aanmerkingen kunt u terecht bij: Universiteit Maastricht Capaciteitsgroep M&S Tjaart Imbos Postbus 616 6200 MD Maastricht tjaart.imbos@stat.unimaas.nl

Methodologie & Statistiek I Principes van statistisch toetsen 5.1 21 januari 2002

Principes van statistisch toetsen Noodzakelijk voor een goed begrip van andere statistische onderwerpen

Statistische toetsing z-toets t-toets Nulhypothese Alternatieve hypothese p-waarde Significantie-niveau Kritiek gebied Kritieke waarde Verwerpingsgebied Acceptatiegebied Type I fout (a) Type II fout (b) Onderscheidend vermogen Kernbegrippen

Veronderstelde voorkennis Standaardiseren (hoofdstuk 2 & 4) Normale verdeling (hoofdstuk 4) Gedrag van gemiddelden (hoofdstuk 4) Verdeling van steekproefgemiddelden (hoofdstuk 4)

Bedoeling van verklarende statistiek: op grond van steekproefgrootheid uitspraak doen omtrent populatieparameter steekproefgrootheid <>populatieparameter fractie gemiddelde standaarddeviatie correlatiecoefficient regressie-coefficient etc.

centrale limietstelling Als uit een willekeurige populatie met m en s2, steekproeven van omvang n worden getrokken, dan is de verdeling van steekproefgemiddelden bij benadering normaal verdeeld met gemiddelde= m en variantie= s2 /n de benadering wordt beter bij toenemende n!

voorbeeld Gegeven: Van 25 personen werd een reactie-tijd gemeten: de gemiddelde, gemeten, waarde = 4.26 Uit de literatuur is bekend dat dit soort reactietijden normaliter exponentieel verdeeld zijn met m=3 Opm: Bij een exponentiele verdeling geldt m=s Gevraagd: Is de steekproef afkomstig uit de genoemde populatie?

als.... de steekproef afkomstig is uit de genoemde populatie met m= s= 3

als.... dan... de steekproef afkomstig is uit de genoemde populatie met m= s= 3 dan... is het gevonden gemiddelde (= 4.26) een exemplaar uit de verdeling van gemiddelden van steekproeven met n= 25

als.... dan... en die verdeling is bekend!!!!!! de steekproef afkomstig is uit de genoemde populatie met m= s= 3 dan... is het gevonden gemiddelde (= 4.26) een exemplaar uit de verdeling van gemiddelden van steekproeven met n= 25 en die verdeling is bekend!!!!!!

gemiddelden van steekproeven (n=25) uit een willekeurige populatie met m= s=3 (s2= 9) vormen bij benadering een normale verdeling met m= 3 en s2= 9/25 dus s= 3/5 blijft de vraag hoe waarschijnlijk de gevonden waarde (=4.26) is m= 3 s= 0.6

CONCLUSIE??? X-gemiddeld is normaal verdeeld: m= 3 en s= 3/5= 0.6 P(X-gemiddeld>4.26)= 100 - P(X-gemiddeld<4.26) 100 - P(z<(4.26 - 3)/0.6)= 100 - P(z<2.1)= 100 - 98.21= 1.79% CONCLUSIE???

redenering andersom Gegeven: Steekproef van 25 stuks met gemiddelde= 4.26 Gevraagd: Welke waarden van m (bij een s=3) zijn aannemelijk …. kunnen dit gemiddelde opleveren? 10 ? 1? 7?

X-gemiddeld is normaal verdeeld: m= 10 en s= 3/5= 0.6 P(X-gemiddeld<4.26)= P(z<(4.26 - 10)/0.6)= P(z< - 9.57)= 0.0000 m=10 komt dus niet in aanmerking!! We gaan op zoek naar de kleinste en de grootste waarden van m die een steekproefgemiddelde van 4.26 kunnen opleveren

3.08 5.44

3.08 95% 5.44

? Zo kan ook het 90% betrouwbaarheidsinterval worden berekend en het 99% betrouwbaarheids interval en het …….. Welk bi-interval is breder: het 90% of het 99% ? Het 95% betrouwbaarheids-interval is een waardenbereik dat met een waarschijnlijkheid van 95% de waarde m bevat

? eerder gebruikt voorbeeld Gegeven: Van 25 personen werd een reactie-tijd gemeten: de gemiddelde, gemeten, waarde = 4.26 Uit de literatuur is bekend dat dit soort reactietijden normaliter exponentieel verdeeld zijn met m=3 Opm: Bij een exponentiele verdeling geldt m=s Gevraagd: Is de steekproef afkomstig uit de genoemde populatie?

bepaal het 95% betrouwbaarheidsinterval

? Het 95% betrouwbaarheidsinterval bevat de waarden 3.08 …… 5.44 De waarde van m (=3) maakt geen deel uit van dit interval. Het is dus niet waarschijnlijk dat de beschouwde steekproef afkomstig is uit de genoemde populatie Hoe groot is de kans dat deze uitspraak fout is? Anders gezegd: Hoe groot is de kans dat m wel in het interval ligt? ?

2 BENADERINGEN GEZIEN A uitgaande van een bepaalde m (en s) de verdeling van X-gemiddelden berekend en vervolgens gekeken hoe extreem het steekproefgemiddelde in die verdeling is. B uitgaande van het steekproefgemiddelde een betrouwbaarheidsinterval bepaald en gekeken of m in dit gebied ligt.

Er is een praktisch probleem! meestal is s van de populatie niet bekend “behelpen” met de standaarddeviatie (=s) van de steekproef: s is schatter van s! s kan als gevolg van het toeval kleiner of groter zijn dan s. Extra onzekerheid wordt geintroduceerd. daarom… voor X-gemiddeld niet de normale verdeling, maar de t-verdeling gebruiken

normale verdeling vs t-verdeling met 3 df 95

normale verdeling vs t-verdeling met 25 df 95

95% betrouwbaarheidsinterval z-interval t-interval

betrouwbaarheidsinterval ? betrouwbaarheidsinterval op basis van s: z-interval op basis van s: t-interval z-interval smaller/breder dan t-interval? middelpunt z-interval? middelpunt t-interval? z-interval is constant qua breedte t-interval ook constant ?

Een docent registreerde jarenlang de resultaten die studenten scoorden op een bepaalde toets. Hij berekende: m= 72 en s= 12. De docent beweert dat de huidige lichting van 36 studenten (met een gemiddelde van 75.2) niet tot de beschreven populatie behoort, maar tot een populatie met m  72. Dus m<72 of m> 72. Met zekerheid valt niets te zeggen over die bewering! Gebruik een onbetrouwbaarheid van 5%.

De docent heeft gelijk: m  72: alternatieve hypothese De docent heeft ongelijk: m = 72: nulhypothese De nulhypothese (H0) is juist totdat hij niet langer houdbaar is en wordt verworpen ten gunste van de alternatieve hypothese (H1 of HA) Als: H0 juist is (m= 72 met s= 12) Dan: is het steekproefgemiddelde een exemplaar uit de NV(72, 12/6) 95%-bi: ?????????????

CONCLUSIE ????? De docent heeft gelijk: m  72: alternatieve hypothese De docent heeft ongelijk: m = 72: nulhypothese De nulhypothese (H0) is juist totdat hij niet langer houdbaar is en wordt verworpen ten gunste van de alternatieve hypothese (H1 of HA) Als: H0 juist is (m= 72 met s= 12) Dan: is het steekproefgemiddelde een exemplaar uit de NV(72, 12/6) 95%-bi: 71.28 … (75.2) … 79.12 CONCLUSIE ?????

De alternatieve hypothese is tweezijdig (het verwerpingsgebied is tweezijdig) Men spreekt van tweezijdig toetsen. In zo’n geval wordt aan beide zijden de helft van a gebruikt Uitgangspunt was het steekproefgemiddelde

Het probleem kan ook op een andere manier worden aangepakt… Daarbij wordt niet uitgegaan van het gevonden steekproef gemiddelde maar van het veronderstelde (= nulhypothese) populatiegemiddelde. Kies weer voor a = 5%

De verdeling van de gemiddelden van steekproeven met n= 36 uit een populatie met m = 72 en s = 12 ?

De verdeling van de gemiddelden van steekproeven met n= 36 uit een populatie met m = 72 en s = 12 ? Normale verdeling met m = 72 en s = 12/6= 2

KW-L= 68.08 KW_R= 75.92

conclusie??? 75.2 KW-L= 68.08 KW_R= 75.92

Dit was twee-zijdig toetsen via betrouwbaarheidsinterval via kritieke gebied Nu eenzijdig toetsen alleen via kritieke gebied

Het probleem luidde…. Een docent registreerde jarenlang de resultaten die studenten scoorden op een bepaalde toets. Hij berekende: m= 72 en s= 12. De docent beweert dat de huidige lichting van 36 studenten (met een gemiddelde van 75.2) niet tot de beschreven populatie behoort, maar tot een populatie met m  72. Dus m<72 of m> 72.

Het nieuwe probleem luidt Een docent registreerde jarenlang de resultaten die studenten scoorden op een bepaalde toets. Hij berekende: m= 72 en s= 12. De docent beweert dat de huidige lichting van 36 studenten (met een gemiddelde van 75.2) beter is dan de studenten uit de populatie met m= 72. M.a.w. de steekproef is getrokken uit een populatie met m > 72

De alternatieve hypothese is eenzijdig (het verwerpingsgebied is eenzijdig) (het kritieke gebied ligt aan een kant) Men spreekt van eenzijdig toetsen. In zo’n geval wordt de hele a aan een zijde gebruikt. In dit geval is sprake van rechtseenzijdig toetsen omdat de waarden van m onder HA rechts van m0 liggen

Ook hier vormt de bewering van de docent de alternatieve hypothese: HA: m > 72 Hieruit wordt de nulhypothese afgeleid: H0 : m < 72 (samengestelde nulhypothese) Bij het toetsen kan maar EEN waarde voor m0 worden gebruikt. Welke ?????

Ook hier vormt de bewering van de docent de alternatieve hypothese: HA: m > 72 Hieruit wordt de nulhypothese afgeleid: H0 : m < 72 (samengestelde nulhypothese) Bij het toetsen kan maar EEN waarde voor m0 worden gebruikt. De waarde die het dichtst bij mA ligt. dus: m0 = 72

? Bereken de kritieke waarde

De kritieke waarde (kw) is gelijk aan:

De kritieke waarde (kw) is gelijk aan: conclusie?

De docent vond een steekproefwaarde (gemiddelde van 36 studs) van 75.2. Deze waarde ligt niet in het verwerpingsgebied Bij een a van 5% moet H0 dus niet worden verworpen Wat zou de conclusie zijn geweest van een onderzoeker die werkte met a = 10%

? gelet op de steekproefgegevens wordt met een vooraf gekozen risico a H0 verworpen of niet verworpen. Ook als H0 juist is zou het gevonden resultaat in de steekproef kunnen leiden tot verwerping van H0 Hoe groot was dat risico in het voorbeeld? ? Waarom dat risico dan niet heel klein gekozen?

correct

correct fout type I

correct fout type II correct fout type I

correct b correct a

H0 niet verwerpen H0 verwerpen

Deel van verdeling onder H0 in kritieke gebied Deel van verdeling onder HA in acceptatie gebied

FOUT ! Deel van verdeling onder H0 in kritieke gebied Deel van verdeling onder HA in acceptatie gebied

? wanneer wordt gekozen voor een kleinere a, wordt b groter! hoe kan bij gelijkblijvende a, b worden verkleind ?

Deel van verdeling onder H0 in kritieke gebied Deel van verdeling onder HA in acceptatie gebied

een eerder gebruikt voorbeeld... De kritieke waarde (kw) is gelijk aan: 75.29 Bereken b en 1-b als HA gelijk is aan 77 Z= -0.855 >> b= 19.63% >> 1-b= 80.37%

in woorden... Z= -0.855 >> b= 19.63% >> 1-b= 80.37% Als de werkelijke m gelijk is aan 77 zal een steekproef uit die populatie met een kans van 80.37% leiden tot verwerping van H0 deze kans is voor elke waarde van HA uit te rekenen….

mA z b 1-b 1.645 95.00 5.00 1.145 87.39 12.61 0.645 74.05 25.95 0.145 55.77 44.23 -0.355 36.63 63.37 -0.855 19.63 80.37 -1.355 8.77 91.23 -1.855 3.18 96.82 -2.355 0.925 99.075 -2.855 0.215 99.785 -3.355 0.004 99.996 In een grafiek mA uitzetten tegen 1-b: powerfunctie

hoe stijler de helling, hoe ‘scherper’ de toets hoe is deze helling te beinvloeden????

Overzicht van het toetsen tot nu toe: twee-zijdig m.b.v. betrouwbaarheidsinterval m.b.v. kritieke gebied een-zijdig m.b.v kritieke gebied

Overzicht van het toetsen tot nu toe: twee-zijdig m.b.v. betrouwbaarheidsinterval m.b.v. kritieke gebied een-zijdig m.b.v kritieke gebied In plaats van te kijken naar kritieke waarde kun je ook kijken naar de p-waarde van de toetsingsgrootheid

1. maak gebruik van het kritieke waarde/gebied construeer nulhypothese (eenzijdig/tweezijdig?) bepaal ombetrouwbaarheid a kies een toetsingsgrootheid T (gemiddelde? Omvang steekproef) d. bepaal de verdeling van T e. bereken kritieke gebied f. bereken toetsingsgrootheid T* in de steekproef g. trek conclusie: T* ligt in het kritieke gebied (= verwerpen) of niet (= niet verwerpen)

2. Bepaal de p-waarde van de toetsingsgrootheid construeer nulhypothese (eenzijdig/tweezijdig?) bepaal ombetrouwbaarheid a kies een toetsingsgrootheid T (gemiddelde? Omvang steekproef) d. Bepaal de verdeling van T e. bereken toetsingsgrootheid T* in de steekproef f. bepaal de overschrijdingskans p van T* g. trek conclusie: p < a: (= verwerpen) p > a: (= niet verwerpen)

De twee manieren gedemonstreerd m.b.v. een eerder gebruikt voorbeeld Een docent registreerde jarenlang de resultaten die studenten scoorden op een bepaalde toets. Hij berekende: m= 72 en s= 12. De docent beweert dat de huidige lichting van 36 studenten (met een gemiddelde van 75.2) beter is dan de studenten uit de populatie met m= 72. M.a.w. de steekproef is getrokken uit een populatie met m > 72

1. Toetsen m.b.v. kritieke gebied Nulhypothese: m = 72: rechtseenzijdig Onbetrouwbaarheid: a= 5% Toetsingsgrootheid T: gemiddelden van steekproef van 36 stuks Verdeling van T: NV(72, 2) Kritieke gebied: 75.29 en groter Bereken T*: 75.2 Trek conclusie: T* niet in verwerpings- bied: H0 niet verwerpen

2. Toetsen m.b.v. p-waarde Nulhypothese: m = 72: rechtseenzijdig Onbetrouwbaarheid: a= 5% Toetsingsgrootheid T: gemiddelden van steekproef van 36 stuks Verdeling van T: NV(72, 2) Bereken T*: 75.2 (>> z= 1.6) Bepaal overschrijdingskans: 5.48% Trek conclusie: p-waarde van T* is groter dan a: H0 niet verwerpen

SAMENVATTING Twee toetsen voor een gemiddelde: z-toets (s) en t-toets (s) Betrouwbaarheidsintervallen (z en t) Toetsen: beslissen in onzekerheid eenzijdig <–>tweezijdig BI <–> kritieke gebied kritieke gebied <–> p-waarde 4. Fout van de eerste soort: a-fout Fout van de tweede soort: b-fout Hoofdstuk 5: sleutelhoofdstuk Hoofdstuk 6: toetsen voor twee gemiddelden: z-toets en t-toets

succes !