Statistiek II Hoofdstuk 3: Betrouwbaarheidsintervallen en hypothesetoetsing Vanhoomissen & Valkeneers, hoofdstuk 3.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

KWALITEITSZORG november 2012
BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
‘SMS’ Studeren met Succes deel 1
HC2MFE Meten van verschillen
Onderscheidingsvermogen van hypothesetoetsen toegepast op de z-toets
Toetsen van verschillen tussen twee of meer groepen
Paulus' eerste brief aan Korinthe (20) 23 januari 2013 Bodegraven.
Inleiding tot inferentie
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Beschrijvende en inferentiële statistiek
Kb.1 Ik leer op een goede manier optellen en aftrekken
Beschrijvende en inferentiële statistiek
Nooit meer onnodig groen? Luuk Misdom, IT&T
P-waarde versus betrouwbaarheidsinterval
Statistiek II Hoofdstuk 5: Toetsen voor twee populaties
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
Statistiek 2 Hoofdstuk 2: Kansverdelingen en kansberekening
toetsen voor het verband tussen variabelen met gelijk meetniveau
Elke 7 seconden een nieuw getal
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
Hypothese toetsen We hebben de volgende situatie.
De grafiek van een lineair verband is ALTIJD een rechte lijn.
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
1 introductie 3'46” …………… normaal hart hond 1'41” ……..
Inferentie voor regressie
Oefeningen F-toetsen ANOVA.
P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.
Schatter voor covariantie
Eenzijdige Betrouwbaarheidsgrens
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Een fundamentele inleiding in de inductieve statistiek
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Populatiegemiddelden: recap
1 7 nov Rijnsburg 7 nov Rijnsburg. 2 Hebreeën 7 15 En nog veel duidelijker wordt het, als naar het evenbeeld van Melchisedek een andere priester.
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
havo/vwo D Samenvatting Hoofdstuk 4
Statistiekbegrippen en hoe je ze berekent!!
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
STIMULANS KWALITEITSZORG juni 2014.
Basisvaardigheden: Metingen en diagrammen
Centrummaten en Boxplot
Hoorcollege 3 Samenhang tussen variabelen
Waar gaat het nou toch om?!
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
Baarde en de goede Hoofdstuk 11: Data-analyse
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Wat zegt een steekproef?
Toetsen van verschillen tussen twee of meer groepen
Transcript van de presentatie:

Statistiek II Hoofdstuk 3: Betrouwbaarheidsintervallen en hypothesetoetsing Vanhoomissen & Valkeneers, hoofdstuk 3

Previously on Statistiek II In wetenschappelijk onderzoek vertrekken we vanuit een onderzoeksvraag waaruit wordt afgeleid wat de populatie is en wat de onderzoekseenheden zijn. Om die vraag te beantwoorden verzamelen we data in de vorm van steekproeven omdat de hele populatie vaak moeilijk te onderzoeken is. Die steekproeven worden volgens bepaalde regels getrokken. Om via de verzamelde data de onderzoeksvraag te beantwoorden hebben we kansberekeningen nodig: kansen stellen ons in staat om te beslissen of een observatie heel uitzonderlijk is of eerder heel gewoon. Om kansen te berekenen maken we gebruik van kansverdelingen: theoretische verdelingen van mogelijke waarden en bijhorende kansen van een variabele. In de psychologie wordt de normale verdeling vaak gebruikt, aangezien veel kenmerken van mensen als normaal verdeeld in de populatie worden beschouwd. Omdat voor elk kenmerk een normale verdeling met een ander gemiddelde en standaarddeviatie geldt, is het onmogelijk om voor elke verdeling de exacte kansen te kennen. Daarom herleiden we die normale verdeling naar een standaardnormale verdeling door z-scores te berekenen. Daarna kunnen we de kansen van de z-scores aflezen uit een tabel. Een specifieke kansverdeling is de steekproevenverdeling van het gemiddelde, waarmee we kunnen uitrekenen hoe groot de kans is om een bepaald gemiddelde te observeren.

Vandaag Betrouwbaarheidsintervallen en hypothesetoetsing zoals in: “Antwerpse studentes kruipen vaker ladderzat op publieke standbeelden dan Gentse studentes?” – klopt dit of niet?

Betrouwbaarheidsintervallen Belangrijk doel in de statistiek: op basis van steekproefgegevens conclusies trekken over populatie waaruit steekproef afkomstig is Soorten vragen: 1. Intervalestimatie “Hoe hard fuiven psychologiestudenten gemiddeld?” >> betrouwbaarheidsinterval nodig 2. Hypothesetoetsing “Psychologiestudenten fuiven harder dan de gemiddelde student”

Betrouwbaarheidsintervallen >> schatting van een populatieparameter op basis van steekproefgrootheid: betrouwbaarheidsinterval Twee mogelijkheden: 1. We gebruiken het gemiddelde berekend in de steekproef als een schatting voor het gemiddelde in de populatie = PUNTSCHATTING (nadeel: onzekerheid over juistheid) 2. We bakenen een gebied (= interval) af waarvan we met een bepaalde zekerheid (bv. 95%) weten dat het populatiegemiddelde daarbinnen ligt = INTERVALSCHATTING

Betrouwbaarheidsintervallen Hoe bakenen we dat interval af (vb. 95%)? Met Z-transformatie van steekproevenverdeling van gemiddelde! Uit kenmerken van standaardnormale verdeling weten we dat 95% van de z scores ligt tussen -1.96 en +1.96 95% -1.96 1.96

Betrouwbaarheidsintervallen We weten dus met 95% zekerheid dat ligt tussen -1.96 en +1.96 of we weten met 95% zekerheid dat Beetje herwerken, en voilà: = 95% betrouwbaarheidsinterval

Betrouwbaarheidsintervallen Van een steekproef (N = 121) is het gemiddelde = 101 en de standaarddeviatie = 14. Wat is het 95% betrouwbaarheidsinterval voor het gemiddelde (BI)? opm. N > 30 dus steekproevenverdeling is normaal verdeeld N > 100 dus we mogen s gebruiken als we σ niet kennen

Betrouwbaarheidsintervallen Zelfde oefening, maar nu het 99% betrouwbaarheidsinterval. Van een steekproef (N = 121) is het gemiddelde = 101 en de standaarddeviatie = 14. Uit kenmerken van standaardnormale verdeling weten we dat 99% van de z scores ligt tussen -2.58 en +2.58

Betrouwbaarheidsintervallen 95% 99%

Betrouwbaarheidsintervallen Algemene formule (1-α)%-betrouwbaarheidsinterval Z = positieve z waarde waarvoor geldt dat Pd (z) = α Voor α = 0.01 zijn de z waarden -2.58 en +2.58 (1-0.01)% = 99% BI Voor α = 0.05 zijn de z waarden -1.96 en +1.96 (1-0.05)% = 95% BI dus bij een kleinere α is het interval groter >> meer zekerheid, maar minder accuratesse.

Betrouwbaarheidsintervallen Ander gevolg van de algemene formule: Hoe groter de steekproef, hoe kleiner het betrouwbaarheidsinterval. Van een steekproef (N = 121) is het gemiddelde = 101 en de standaarddeviatie = 14. Wat is het 95% BI? Maar wat is het 95% BI bij n = 529?

Betrouwbaarheidsintervallen Accuraatheid van betrouwbaarheidsintervallen betrouwbaarheidsinterval is berekend op basis van steekproefgemiddelde verschilt dus van steekproef tot steekproef kan soms ver afwijken van populatiegemiddelde Een fout is dus mogelijk!

Betrouwbaarheidsintervallen In 5% van de gevallen zal ons betrouwbaarheidsinterval niet het populatiegemiddelde bevatten!

hypothesetoetsing Tweede soort vragen in inductieve statistiek: hypothesetoetsing Theorie Drummers zijn dommer dan gemiddelde personen Hypothese H1 Drummers scoren lager op IQ test dan gemiddelde personen Nulhypothese H0 Drummers scoren even hoog op IQ-test als anderen Dataverzameling IQ test Gemiddelden Toetsing Hypothese verwerpen Hypothese niet verwerpen A drummer walks into the public library and tells the librarian: "I would like to order a hamburger, French fries, and a small root beer.” The librarian asks, "Don't you know where you are? This is a library!” The drummer blushes and whispers, "Sorry.... I would like to order a hamburger, French fries, and a small root beer."

hypothesetoetsing Analogie met rechtspraak Verdict Nulhypothese H0 Theorie Een verdachte heeft een moord gepleegd Hypothese H1 De verdachte is schuldig Nulhypothese H0 De verdachte is onschuldig Bewijsmateriaal Geen alibi Motief DNA … Verdict Onschuld verwerpen Onschuld staande houden

hypothesetoetsing Dus: nulhypothese (onschuld) wordt verworpen als de kans klein is dat het bewijsmateriaal aanwezig is terwijl de nulhypothese klopt. In statistiek: Nulhypothese wordt verworpen als de kans klein is om een bepaald steekproefgemiddelde te observeren terwijl de nulhypothese klopt. Nulhypothese wordt behouden als de kans groot is om een bepaald steekproefgemiddelde te observeren terwijl de nulhypothese klopt.

Nulhypothese Theorie Hypothese Nulhypothese Dataverzameling Toetsing We toetsen de onderzoekshypothese (of alternatieve hypothese) niet direct, maar zetten de onderzoekshypothese af tegen de nulhypothese (H0). bv: drummers zijn dommer dan gemiddelde personen (IQ = 100) H1: μ1 < 100 (1 = drummers) H0: μ1 ≥ 100 Je gelooft dat H0 waar is tenzij je bewijzen (dwz. gegevens) hebt die suggereren dat dit niet zo is. In dat geval verwerp je H0 ten gunste van H1. De bewijslast voor het verwerpen van H0 ligt bij de onderzoeker.

Nulhypothese Theorie Hypothese Nulhypothese Dataverzameling Toetsing Zoek bij de onderstaande onderzoeksvragen of onderzoekshypothesen de statistische hypothesen H0 en H1 1. Voetballers zijn extraverter dan schakers. H1: μ voetballers > μ schakers H0: μ voetballers ≤ μ schakers 2. Na een faalangsttraining voelen kinderen zich minder angstig voor een toets dan voor de training H1: μ angst voor > μ angst na H0: μ angst voor ≤ μ angst na

Nulhypothese Theorie Hypothese Nulhypothese Dataverzameling Toetsing 3. Jongens en meisjes besteden niet even veel tijd aan hun huiswerk H1: μ tijd jongens ≠ μ tijd meisjes H0: μ tijd jongens = μ tijd meisjes 4. De gemiddelde score op uiterlijke beoordeling bij psychologiestudenten is hoger dan 50 H1: µ uiterlijk > 50 H0: μ uiterlijk ≤ 50

Hypothesetoetsing H1: μ1 < 100 (1 = drummers) H0: μ1 ≥ 100 Theorie Hypothese Nulhypothese Dataverzameling Toetsing Een onderzoeker wil de drummer-theorie toetsen en laat 36 drummers een IQ-test afleggen. Hij vindt een gemiddelde van 96 en standaarddeviatie 13. Dus: N = 36 ; X = 96 ; SX = 13 Ter herinnering: H1: μ1 < 100 (1 = drummers) H0: μ1 ≥ 100 Kan de nulhypothese verworpen worden? Scoren de drummers lager dan het gemiddelde?

Hypothesetoetsing Theorie Hypothese Nulhypothese Dataverzameling Toetsing Neen! de steekproef kan toevallig een paar minder intelligente mensen bevatten, waardoor het gemiddelde daalt. Hoe beslissen of dit toeval is of niet? >> kans berekenen op een gemiddelde van 96 of hoger bij een µ = 100 en  = 15 (toevallig exact wat we in H2 zagen!) Is die kans groot, dan is het toeval. Is die kans klein, dan nemen we aan dat het geen toeval is: drummers halen dan écht een lager IQ dan de gemiddelde persoon.

hypothesetoetsing Theorie Hypothese Nulhypothese Dataverzameling Toetsing Kansen zijn dus noodzakelijk om inductieve beslissingen te kunnen nemen => kansverdeling van steekproefgemiddelden => om te beslissen of onze steekproef uitzonderlijk is of niet We trokken een steekproef van drummers en vonden een gemiddeld IQ van 96. We weten dat het gemiddelde IQ 100 is. Hoe groot is nu de kans om een gemiddelde van 96 te vinden terwijl de populatie drummers toch niet afwijkt van de algemene populatie? Kunnen we afleiden uit de verdeling van de steekproefgemiddelden:

Hypothesetoetsing Theorie Hypothese Nulhypothese Dataverzameling Toetsing zodus: steekproef: N = 36 ; X = 96 ; SX = 13 populatie: µ = 100 en  = 15 >> kans berekenen op een gemiddelde van 96 of hoger bij een µ = 100 en  = 15 Stap1: Stap 2: P(z < -1.6) = 0.0548 Maar is dit nu een kleine of een grote kans? Waar ligt de grens?

Hypothesetoetsing Wat is een kleine en een grote kans bij hypothesetoetsing? Moeten we gelukkig niet zelf beslissen: Klassiek wordt in gedragswetenschappen 5% of 0.05 als grenswaarde gebruikt. (iets strenger is 0.01) Dit is de overschrijdingskans of α (alfa) DUS: als de gevonden kans om het geobserveerde gemiddelde te vinden kleiner is dan 0.05, dan verwerpen we H0. Sir Ronald Fisher, ernstig nadenkend over hoe groot een grote kans is.

Hypothesetoetsing terug naar het voorbeeld: >> kans berekenen op een gemiddelde van 96 of lager bij een µ = 100 en  = 15 We vonden: P(z < -1.6) = 0.0548 H0 verwerpen of niet? >> 0.0548 is groter dan 0.05, dus H0 wordt niet verworpen! >> de drummers scoren niet significant lager dan gemiddelde personen. (oftewel: drummers zijn niet dom!)

Hypothesetoetsing We weten dat gegevens in populatie normaal verdeeld zijn met µ = 70 en σ = 12. In steekproef (N = 49) vinden we een gemiddelde van 76 met standaarddeviatie 10. Wijkt de steekproef significant af van de populatie? Hoe groot is de kans op het vinden van een gemiddelde van 76 of groter in een steekproef uit een populatie met gemiddelde van 70? H1: µ > 70 H0: µ ≤ 70 Stap 1. Stap 2. P (z ≤ 3.5) = 0.9998 P (z > 3.5) = 0.0002

Hypothesetoetsing De kans op het vinden van een score van 76 of meer is 0.0002 Deze kans is ‘klein’ (nl. ≤ 0.05), dwz. het is erg onwaarschijnlijk dat je uit een populatie met een gemiddelde van 70 en σ = 12 een steekproef trekt met een gemiddelde van 76. Dus: het verschil tussen een steekproefgemiddelde van 76 en een populatiegemiddelde van 70 is groot genoeg om te besluiten dat beide gemiddelden significant van elkaar verschillen. De gegevens (M = 76) zijn te veel in strijd met H0. Dus: we verwerpen H0 “µ ≤ 70” >> de specifieke populatie waaruit de steekproef is getrokken verschilt significant van de algemene populatie

Hypothesetoetsing De variabele “hoogtevrees” is bij kinderen normaal verdeeld in de populatie met µ = 30, op een schaal van 0 – 60. We vermoeden dat kinderen van klimmers minder hoogtevrees vertonen dan andere kinderen. In steekproef (N = 130) vinden we een gemiddelde van 28 met standaarddeviatie 14. Wijkt de steekproef significant af van de populatie? H1: µ < 30 H0: µ ≥ 30 Stap 1. Stap 2. P (z ≤ 1.57) = 0.9418 P (z ≤ -1.57) = 0.06 σ is onbekend maar aangezien N > 100 mogen we s gebruiken om σ te schatten

Huiswerk Een onderzoeker onderzoekt 25 blinde kinderen die les kregen samen met kinderen zonder gezichtsbeperking. De onderzoeker is benieuwd of hun gevoel van eigenwaarde kleiner is dan dat van de kinderen in het algemeen. Alle kinderen beantwoorden een aantal vragen die hun gevoel van eigenwaarde meten. De blinde kinderen krijgen een gemiddelde score van 67 op de meting van eigenwaarde. In de populatie is het gemiddelde 69 met een standaarddeviatie van 6.12. De bestudeerde variabele is normaal verdeeld in de populatie. Welke hypotheses moet de onderzoeker formuleren? Kan de onderzoeker besluiten dat de eigenwaarde van de kinderen met gezichtsbeperking kleiner is dan die van kinderen in het algemeen?

Huiswerk Welke hypotheses moet de onderzoeker formuleren? H1: µblind < µ0 H0: μblind ≥ µ0 of H1: µblind < 69 H0: μblind ≥ 69

Huiswerk Stap1: Stap 2: P(z ≤ -1,63) = 0.0516 Kan de onderzoeker besluiten dat de eigenwaarde van de kinderen met gezichtsbeperking gelijk is aan die van kinderen in het algemeen? Stap1: Stap 2: P(z ≤ -1,63) = 0.0516 Conclusie: Resultaat is net niet significant. De eigenwaarde van blinde kinderen wijkt niet significant af van de eigenwaarde van kinderen in het algemeen.

Samengevat Om te onderzoeken of een onderzoekshypothese waar is, trekken we een steekproef, die een bepaald gemiddelde en standaarddeviatie heeft. In theorie zijn er veel verschillende steekproeven mogelijk, vandaar de steekproevenverdeling, die alle mogelijke gemiddelden weergeeft, met hun kans op voorkomen. Aan de hand van deze verdeling kunnen we besluiten of onze steekproef uitzonderlijk is (H1) of net niet (H0). Als de kans om onze steekproefgegevens te observeren kleiner is dan  (.05) - volgens de verdeling die bij H0 past - menen we dat dit uitzonderlijk is en verwerpen we H0.

Previously on Statistiek II In wetenschappelijk onderzoek vertrekken we vanuit een onderzoeksvraag waaruit wordt afgeleid wat de populatie is en wat de onderzoekseenheden zijn. Om die vraag te beantwoorden verzamelen we data in de vorm van steekproeven omdat de hele populatie vaak moeilijk te onderzoeken is. Die steekproeven worden volgens bepaalde regels getrokken. Om via de verzamelde data de onderzoeksvraag te beantwoorden hebben we kansberekeningen nodig: kansen stellen ons in staat om te beslissen of een observatie heel uitzonderlijk is of eerder heel gewoon. Om kansen te berekenen maken we gebruik van kansverdelingen: theoretische verdelingen van mogelijke waarden en bijhorende kansen van een variabele. In de psychologie wordt de normale verdeling vaak gebruikt, aangezien veel kenmerken van mensen als normaal verdeeld in de populatie worden beschouwd. Omdat voor elk kenmerk een normale verdeling met een ander gemiddelde en standaarddeviatie geldt, is het onmogelijk om voor elke verdeling de exacte kansen te kennen. Daarom herleiden we die normale verdeling naar een standaardnormale verdeling door z-scores te berekenen. Daarna kunnen we de kansen van de z-scores aflezen uit een tabel. Bij hypothesetoetsing gebruiken we de steekproevenverdeling van het gemiddelde als kansverdeling. Ook hier zetten we waarden (gemiddelden!) om naar z-scores. We kunnen dan beslissen of ons geobserveerde gemiddelde uitzonderlijk is of niet. Als het uitzonderlijk is – volgens de verdeling die bij H0 hoort – dan verwerpen we H0.

Mogelijke fouten, kritieke waarden, één- of tweezijdig toetsen Vervolg Hypothesetoetsing Mogelijke fouten, kritieke waarden, één- of tweezijdig toetsen

Hypothesetoetsing Tot nu toe getoetst: H0: µ ≥ 50 (rechtseenzijdig) H0: µ ≤ 50 (linkseenzijdig) m.a.w. toetsen of een steekproefgemiddelde groter of kleiner is dan het populatiegemiddelde, met een specifieke richting voor ogen. Maar je kan ook toetsen of een steekproefgemiddelde al dan niet gelijk is aan het populatiegemiddelde, ongeacht de richting: >> tweezijdig toetsen (= standaard situatie)

Hypothesetoetsing éénzijdig toetsen tweezijdig toetsen Maar  blijft steeds 0.05, en die wordt bij tweezijdig toetsen verdeeld over de twee richtingen; dus 0.025 langs elke kant. Dus het steekproefgemiddelde zal extremer moeten zijn om de nulhypothese te verwerpen! tweezijdig toetsen bv: H1: µ > 100 bv: H1: µ < 100 bv: H1: µ  100 0.05 0.05 0.025 0.025

Hypothesetoetsing Alternatief gedemonstreerd:

Hypothesetoetsing Tweezijdig toetsen H0: µ = 100 geen richting dwz. ligt het gemiddelde H1: µ ≠ 100 duidelijk boven of duidelijk onder 100? We weten dat gegevens in populatie normaal verdeeld zijn met µ = 100 en σ = 20. In steekproef (n = 49) vinden we een gemiddelde van 106 met standaarddeviatie 18. -> Hoe groot is de kans op het vinden van een gemiddelde dat even ver of verder afwijkt van het populatiegemiddelde 100 dan het steekproefgemiddelde 106? H0 wordt verworpen als het steekproefgemiddelde té groot of té klein is in vergelijking met 100

Hypothesetoetsing H0: µ = 100 H1: µ ≠ 100 X = 106 Stap 1. Stap 2. P (z ≥ 2.1) = 0.0179 Let op: bij tweezijdig toetsen -> 0.0179 vergelijken met 0.025 Maar: om  = 0.05 te behouden in rapportering doen we 0.0179*2 = 0.0358 en we vergelijken met 0.05.

Hypothesetoetsing Algemene beslisregels bij hypothesetoetsing: notatie: PR(ZX) = rechteroverschrijdingskans of P(Z ≥ ZX) PL(ZX) = linkeroverschrijdingskans of P(Z ≤ ZX) H1: steekproefgemiddelde is groter dan µ  H0 verwerpen als PR(ZX) <  H1: steekproefgemiddelde is kleiner dan µ  H0 verwerpen als PL(ZX) <  H1: steekproefgemiddelde is niet gelijk aan µ  als X < µ wordt H0 verworpen als 2PL(ZX) <   als X > µ wordt H0 verworpen als 2PR(ZX) < 

Eén- of tweezijdig? Eén- of tweezijdig toetsen? Keuze voor éénzijdig of tweezijdig toetsen maak je altijd vooraf: enkel bij een uitgesproken richting in de hypothese en voldoende theoretische/empirische gronden mag je éénzijdig toetsen. Dus standaard altijd tweezijdig toetsen! Een voorbeeld van verantwoord eenzijdig toetsen: een test voor articulatie bij jonge kinderen (de SPrAaK – Schaal voor de Performantie van Articulatie bij Kinderen) toonde in eerder onderzoek aan dat enige kinderen en eerstgeborenen beter articuleren dan kinderen die oudere broers of zussen hebben. De plausibele verklaring hiervoor is dat kinderen uit de eerste groep meer aandacht krijgen van de ouders bij het leren spreken. Als we nu een nieuw onderzoek met een andere test voor articulatie uitvoeren, verwachten we uiteraard hetzelfde verschil vast te stellen. We hebben dus zowel eerder onderzoek als een theorie om onze voorspelling te ondersteunen, en kunnen bijgevolg eenzijdig toetsen. Het zou immers erg onwaarschijnlijk zijn dat het effect in de tegenovergestelde richting zou gaan.

Eén- of tweezijdig? De keuze voor één- of tweezijdig toetsen kan soms bepalend zijn voor het antwoord op de vraag of de resultaten significant zijn! Populariteit van docenten statistiek is in populatie normaal verdeeld met µ = 100 en σ = 15. Onderzoekshypothese: door doorgedreven training en complete restyling kan de populariteitsscore stijgen (= eenzijdig). of: door doorgedreven training en complete restyling kan de populariteitsscore veranderen (= tweezijdig). 25 docenten worden getraind. Populariteitsscore na training in deze steekproef = 105.

Eén- of tweezijdig? 1. Rechtseenzijdig toetsen: H0: µ ≤ 100 H1: µ > 100 Pr (1.67) = 0.0475 = 0.048 Is 0.048 ≤ 0.05? -> ja, dus verwerp H0 µ ≤ 100

Eén- of tweezijdig? 2. Tweezijdig toetsen: H0: µ = 100 H1: µ ≠ 100 Pd (1.67)= Pl (-1.67) + Pr (1.67) = 0.0475 + 0.0475 = 0.095 Is 0.095 ≤ 0.05? -> neen, dus verwerp H0 µ = 100 niet

Eén- of tweezijdig? In SPSS meestal tweezijdige overschrijdingskans!

Eén- of tweezijdig? Stel: jij wil rechtseenzijdig toetsen maar SPSS geeft de tweezijdige overschrijdingskans. Dus: SPSS geeft jou Pd (1.67) = 0.095 (“sign. 2-tailed”) maar je wil eigenlijk Pr (1.67) Pd (z) = 2 x Pr (+z) dus: Pr (+z) = Pd (z) / 2 in casu: Pr (1.67) = 0.095 / 2 = 0.0475

Eén- of tweezijdig? Vuistregel: SPSS geeft 2-zijdige overschrijdingskans -> als je éénzijdige overschrijdingskans nodig hebt (omdat je links- of rechtszijdig wil toetsen): overschrijdingskans uit SPSS delen door 2 en kijken of dat getal ≤ α (bv. 0.05) -> als je tweezijdige overschrijdingskans nodig hebt (omdat je tweezijdig wil toetsen): overschrijdingskans uit SPSS gebruiken en kijken of dat getal ≤ α (bv. 0.05)

Kritieke waarden Kritieke waarden en verwerpingsgebied Tot nu toe: toetsen door de Z-waarde te berekenen en de bijhorende kans uit de tabel af te lezen. Als de kans kleiner is dan .05, verwerpen we de nulhypothese = toetsen via overschrijdingskansen Ook mogelijk: toetsen door eerst de Z-waarde behorende bij .05 te zoeken (=kritieke waarde) en daarna de berekende Z-waarde hiermee te vergelijken = toetsen via kritieke waarde

Kritieke waarden Toetsen met kritieke waarden H0: µ = 100 H1: µ ≠ 100 We weten dat gegevens in populatie normaal verdeeld zijn met µ = 100 en σ = 20. In steekproef (n = 49) vinden we een gemiddelde van 106 met standaarddeviatie 18. H0 verwerpen of niet? H0 wordt verworpen als het steekproefgemiddelde té groot of té klein is in vergelijking met 100. Kunnen we beslissen door z-waarde van het steekproefgemiddelde te vergelijken met de kritieke z-waarden bij α = .05.

Kritieke waarden Dus: welke kritieke z-waarden horen bij  = 0.05 ? zie tabel: -1.64 en +1.64 (bij éénzijdig toetsen) -1.96 en +1.96 (bij tweezijdig toetsen) Vervolgens: X omrekenen naar z-waarde: En: ZX vergelijken met Zkritiek: 1.96 < 2.1 Dus de z-waarde van het steekproefgemiddelde overschrijdt de kritieke waarde – nulhypothese kan verworpen worden.

Kritieke waarden Rechtseenzijdig toetsen Vb. H0: µ ≤ 100 H1: µ > 100 -> is het steekproefgemiddelde voldoende groter dan 100? -> is P r (z x) ≤ 0.05? ja: verwerp H0 neen: verwerp H0 niet = toetsen via overschrijdingskansen -> is z x ≥ 1.64? = toetsen via kritieke waarden Pr = .05 Z = 1.64

Kritieke waarden Linkseenzijdig toetsen Vb. H0: µ ≥ 100 H1: µ < 100 -> is het steekproefgemiddelde voldoende kleiner dan 100? -> is P l (z x) ≤ 0.05? ja: verwerp H0 neen: verwerp H0 niet = toetsen via overschrijdingskansen -> is z x ≤ -1.64? = toetsen via kritieke waarden Pr = .05 Z = -1.64

Kritieke waarden Tweezijdig toetsen Vb. H0: µ = 100 H1: µ ≠ 100 -> is het steekproefgemiddelde voldoende kleiner of groter dan 100? -> is P d (z x) ≤ 0.05? ja: verwerp H0 neen: verwerp H0 niet = toetsen via overschrijdingskansen -> is z x ≤ -1.96 of z x ≥ 1.96? = toetsen via kritieke waarden Pr = .025 Pr = .025 Z = -1.96 Z = 1.96

Kritieke waarden Overschrijdingskansen of kritieke waarden zijn dus twee methodes om hetzelfde te doen! Het “verwerpingsgebied” bestaat dan uit alle waarden die groter zijn dan bv. 1.64 (bij rechtseenzijdig toetsen) of alle waarden die kleiner zijn dan -1.64 (linkseenzijdig toetsen). Bij tweezijdig toetsen bestaat het verwerpingsgebied uit alle waarden die kleiner zijn dan -1.96 of groter dan 1.96. (telkens bij α = 0.05 !)

Onzekerheden Zijn we daar nu helemaal zeker van? >> Neen! Het blijft een kansberekening en er zijn fouten mogelijk: Beslissing H0 verwerpen H0 niet verwerpen Realiteit H0 is waar Type I-fout = α Correct aanvaarden = 1 - α H0 is niet waar Correcte verwerping = 1 - β Type II-fout = β

Onzekerheden Een onderzoeker zal NOOIT weten of de nulhypothese die hij formuleert in werkelijkheid (in populatie) waar is of niet. Daarom zal hij bij het al of niet verwerpen van H0 altijd het volgende in zijn achterhoofd moeten houden: Als hij H0 verwerpt dan houdt hij er rekening mee dat de kans dat deze beslissing fout is = α Als hij H0 niet verwerpt dan houdt hij er rekening mee dat de kans dat deze beslissing fout is = β α wordt door de onderzoeker vooraf vastgelegd (meestal 0.05) β bepalen is moeilijker; β wordt mee bepaald door oa. - α (hoe kleiner α, hoe groter β) - steekproefgrootte (hoe kleiner steekproef, hoe groter β)

Onzekerheden  = .05  .025 .025 H0 waar “verwerp H0” “aanvaard H0” H0 niet waar 

Onzekerheden  = .016  .008 .008 H0 waar “verwerp H0” “aanvaard H0” H0 niet waar 

Onzekerheden  Het heeft geen zin om α zo klein mogelijk te nemen, want dan wordt β groter.  Bij een gegeven α kan men proberen een zo groot mogelijke steekproef te trekken, want dan wordt β kleiner.

Relatie hypothesetoetsing > BI Relatie tussen hypothesetoetsing en betrouwbaarheidsintervallen. H0: µ = 98 H1: µ ≠ 98 In een steekproef (n = 121) is het gemiddelde = 101 en de standaarddeviatie = 14. We toetsen H0 met α = 0.05 Stap 1. Stap 2. P d (2.36) = 2 x P r(2.36) = 2 x 0.0091 = 0.018 Stap 3. Is 0.018 ≤ 0.05? Ja, dus we verwerpen H0

Relatie hypothesetoetsing > BI Zelfde voorbeeld, maar nu is H0: µ = 99 H0: µ = 99 H1: µ ≠ 99 In een steekproef (n = 121) is het gemiddelde = 101 en de standaarddeviatie = 14. We toetsen H0 met α = 0.05 Stap 1. Stap 2. P d (1.57) = 2 x P r(1.57) = 2 x 0.0582 = 0.1164 Stap 3. Is 0.1164 ≤ 0.05? Neen, dus we verwerpen H0 niet

Relatie hypothesetoetsing > BI Zelfde voorbeeld, 95% BI: Betekenis van 95% BI: alle tweezijdige H0 die in het BI liggen worden niet verworpen bij α = 0.05 In casu zagen we: H0: µ = 98 wordt verworpen (98 ligt niet in 95% BI) H0: µ = 99 wordt niet verworpen (99 ligt wel in 95% BI)

Effectgrootte Stel: onderzoek toont aan dat mannelijke fruitvliegjes meer alcohol drinken als hun seksuele avances genegeerd worden door vrouwtjes. Significantie: p = .035 of p = .00003 Welke p-waarde suggereert het sterkste verband? In welke situatie wordt het alcoholgebruik het sterkst bepaald door de seksuele deprivatie? >> p-waarde geeft geen indicatie van belangrijkheid van het effect. >> effectgrootte nodig

Effectgrootte Effectgrootte = indicatie van de mate waarin de onafhankelijke variabele de variatie in de afhankelijke variabele kan verklaren. Kan uitgedrukt worden in uiteenlopende grootheden (r, d, …) maar vaak wordt r gebruikt. Interpretatie: .10 < r < .30 : klein effect .30 < r < .50 : matig effect r > .50 : sterk effect Dus: Significantie: “Is er een effect van seksuele deprivatie op alcoholgebruik?” Effectgrootte: “Hoe sterk bepaalt seksuele deprivatie het alcoholgebruik?”

Parametrisch vs. non-parametrisch Volgende hoofdstukken: hypothesetoetsing met behulp van verschillende toetsen die elk hun nut hebben in specifieke omstandigheden. Twee grote groepen hierin: parametrische en non- parametrische toetsen: 1. Parametrische toetsen: gebaseerd op normaalverdeling, voorwaarden: variabelen normaal verdeeld in populatie (afhankelijke) variabelen gemeten op intervalniveau steekproeven hebben gelijke varianties * *als er meerdere steekproeven zijn

Parametrisch vs. non-parametrisch 2. Non-parametrische toetsen: geen normale verdeling vereist voordeel: breder inzetbaar wegens minder voorwaarden, ook bij nominale- en ordinale variabelen nadeel: minder snel significante resultaten Dus: voorkeur voor parametrisch toetsen, maar enkel als aan de voorwaarden voldaan is!

Samenvatting We zijn nooit helemaal zeker van de juistheid van onze conclusie na hypothesetoetsing: fouten zijn mogelijk, en belangrijk is dat we weten hoe groot de kans is op een fout. Bij hypothesetoetsing kan je overschrijdingskansen gebruiken, maar net zo goed kan je de kritieke waarden berekenen die bij de overschrijdingskansen horen. Hypotheses kunnen éénzijdig of tweezijdig getoetst worden. Eénzijdig toetsen geeft meer kans op significante resultaten, maar mag enkel toegepast worden als er een duidelijk verantwoorde richting in de hypothese zit.