Inleiding tot inferentie Hoofdstuk 6 Inleiding tot inferentie
Statistische inferentie : = op basis van steekproef uitspraken over populatie + mate van vertrouwen die men aan die conclusies mag hechten Bij gebruik van statistische inferentie : data komen van een aselecte steekproef of van een gerandomiseerd experiment
6.1. Schatten met betrouwbaarheid Steekproefgemiddelde x is een schatter van de populatieverwachting µ als de waarde = 36 : hoe betrouwbaar is deze schatting ? Grotere steekproeven steeds betere schatting steeds naast gemiddelde een indicatie van de variabiliteit nodig
A. Statistische betrouwbaarheid 68 - 95 - 99.7 regel : kans dat gemiddelde binnen een afstand van 2 standaardafwijkingen van de verwachte score van de populatie (µ) ligt is 95% µ binnen een afstand van 2 standaard-afwijkingen van x in 95% van alle steekproeven zal het interval x - 2keer stand.afw. tot x + 2keer stand.afw. de werkelijke µ bevatten
Op die manier wordt het vertrouwen uitgedrukt in de resultaten van een enkelvoudige steekproef Voorbeeld : gemiddelde van steekproef is 461 en standaardafwijking is 4,5 met 95% betrouwbaarheid ligt de onbekende verwachte score van de populatie tussen 461 - 9 = 452 461 + 9 = 470 slechts 5% van de steekproeven liggen hierbuiten
We weten echter niet of onze steekproef tot die 95% of tot die 5% zal behoren DUS : “populatiegemiddelde ligt met 95% betrouwbaarheid tussen x en y” wil eigenlijk zeggen “we hebben x en y gevonden volgens een methode die in 95% van de gevallen correcte resultaten geeft”
B. Betrouwbaarheidsintervallen Interval van getallen tussen x en y is het betrouwbaarheidsinterval voor µ Betrouwbaarheidsinterval = schatting foutmarge foutmarge toont iets van de accuraatheid die we onze schatting toekennen, gebaseerd op de variabiliteit van de schatting
Elk betrouwbaarheidsinterval : betrouwbaarheidsniveau = 95% niveau : laat zien hoeveel vertrouwen we hebben dat we met de methode µ zullen bevatten Elk betrouwbaarheidsinterval : interval (uit de data) betrouwbaarheidsniveau (kiezen, meestal > 90%) Betrouwbaarheidsniveau 95% is C=0.95 Onbekende parameter wordt (Griekse letter theta) genoemd
Een betrouwbaarheidsinterval van niveau C voor een parameter , is een interval berekend uit de steekproefdata, volgens een methode die kans C heeft om een interval op te leveren dat de werkelijke waarde van bevat.
C. Betrouwbaarheidsinterval voor een populatieverwachting Constructie van een betrouwbaarheids-interval van niveau C voor de populatieverwachting µ Populatie : N (µ, ) dan heeft de steekproefverdeling van het steekproefgemiddelde x een verdeling : steekpoef : N (µ, / n)
Om voor elk betrouwbaarheidsinterval van niveau C te weten hoeveel keer we de standaardafwijking moeten nemen kunnen we Tabel D gebruiken C p z* 50% .25 0.674 90% .05 1.645 95% .025 1.960 99% .005 2.576
Oppervlakte = C Oppervlakte = 1-C = p 2 Oppervlakte = 1-C 2 - z* 0 z*
p is de oppervlakte van de rechterstaart dus gelijk aan : aangezien er ook nog een linkerstaart is die even groot is bij betrouwbaarheidsinterval de oppervlakte tussen -z* en +z* is gelijk aan C het getal z* met rechts daarvan de kans p, wordt de bovenste p-kritieke waarde genoemd (waarbij p = (1-C)/2)
De onbekende populatieverwachting µ ligt tussen x - z* ( _) n en x + z* ( _) = betrouwbaarheidsinterval van niveau C Naarmate n groter is zal de foutmarge kleiner zijn en dus het interval korter
D. Het gedrag van betrouwbaarheidsintervallen Betrouwbaarheidsniveau kiest de gebruiker Best : grote betrouwbaarheid en kleine foutmarge Grote betrouwbaarheid = bijna altijd correcte antwoorden Kleine foutmarge = parameter is heel nauwkeurig gelokaliseerd
Voor dezelfde data : Maar voor andere data : grotere betrouwbaarheid impliceert bereidheid om grotere foutmarge te aanvaarden want : voor grotere betrouwbaarheid : grotere waarde voor z* Maar voor andere data : bij stijging van n zal de foutmarge dalen door wortel in de formule, moeten we n met 4 vermenigvuldigen om de foutmarge door 2 te laten delen (=halveren)
E. Het bepalen van de steekproefomvang op voorhand proberen om : grote betrouwbaarheid en kleine foutmarge te krijgen foutmarge = z* ( / n) nu zoeken naar welke grootte van steekproef ik moet hebben bij een gewenste foutmarge m n = [ (z* ) / m ]2
Voorbeeld : formule : n = [ (z* ) / m ]2 betrouwbaarheid 95% en resultaten tot op 0.005 nauwkeurig n = [(1.96)(0.0068) / 0.005] 2 = 7.1 ofwel 8 metingen nodig
F. Enkele waarschuwingen data uit randomisatie en enkelvoudig aselecte steekproef geldt niet voor getrapte of gestratificeerde steekproeven geldt niet voor lukraak verzamelde data aangezien x niet resistent is, spelen uitschieters een belangrijke rol verdeling moet normaal zijn zeker bij steekproeven kleiner dan 15
De standaardafwijking van de populatie moet gekend zijn, wat irrealistisch is, als n voldoende groot is kan s, de standaardafwijking van de steekproef gebruikt worden De gebruikte foutmarge geldt enkel voor aselecte steekproeven, drop-out, nonrespons, enz… zorgen voor extra fouten 95% interval wil zeggen : volgens een methode die voor 95% correcte resultaten geeft
6.2. Significantietoetsen Doel : beoordelen van data ten gunste van de een of andere bewering omtrent de populatie Voorbeeld : Kan het dat iemand die niet getraind is toch 6m25 ver springt ? Kans dat iemand dat zonder training kan is 0.001 Dus : het is heel waarschijnlijk dat die persoon wel getraind was Maar : het zou kunnen dat die persoon niet getraind is, maar die kans is zo klein dat het niet waarschijnlijk is
A. De redenering bij significantietoesten Significantietoets = procedure om data te vergelijken met hypothese Hypothese = bewering over parameters in een populatie Uitkomst van een significantietoets : uitgedrukt in termven van een kans die aangeeft hoe goed data en hypothese met elkaar overeenkomen
B. Formuleren van hypothesen Vraag : is een effect aanwezig ? Hypothese : het effect is niet aanwezig = de NULHYPOTHESE (geen effect, geen verschil, …) Significantietoets om de sterkte van het bewijs tegen de nulhypothese vast te stellen
Formuleren van hypothesen Nulhypothese is H0 voorbeeld : H0 : A = B of H0 : µ = 23 of H0 : (rho) = 0 (corr = 0) Alternatieve hypothese is Ha waarvan wij verwachten dat ze juist is voorbeeld : Ha : A > B of Ha : µ < 23 of Ha : (rho) 0 (wel een verband)
Hypothesen verwijzen altijd naar één of andere populatie : dus in populatieparameters Eenzijdig alternatief : als de richting is aangegeven Tweezijdig alternatief : als er op voorhand geen duidelijke richting is Als H0 waar is, heeft de schatter waarden dicht tegen H0 Waarden die verder van H0 zijn verwijderd vormen een bewijs tegen H0 en voor Ha
C. Overschrijdingskansen Hoe verder de waargenomen uitkomst van H0, dus hoe onwaarschijnlijker dat H0 waar is, hoe sterker de indicatie voor Ha. Significantietoets meet de kans op het krijgen van een uitkomst die even extreem is of nog extremer dan de waargenomen uitkomst = de overschrijdingskans (p) van de toets
Hoe kleiner de overschrijdingskans p, hoe sterker het bewijs tegen H0 Overschrijdingskans (p) niet zelf kunnen berekenen, wel computeroutput
D. Statistische significantie Soms op voorhand vaststellen hoeveel bewijs we zullen eisen = de beslissende waarde van de overschrijdingskans = het significantieniveau () alpha Kiezen we =0.05 dan eisen we dat in niet meer dan 5% van de gevallen H0 toch waar kan zijn
Als de overschrijdingskans kleiner dan of gelijk is aan , zeggen we dat de data statistisch significant zijn op niveau . De resultaten waren significant (p < 0.01) Indien p = 0.03, dan zijn de resultaten significant op niveau = 0.05, maar niet op niveau = 0.01.
Stappen bij een significantietoets : Formuleer H0 en Ha Specificeer het significantieniveau Doe de statistische berekeningen bv. bereken de correlatie, t-waarde, F-waarde, … Bepaal de bijhorende p-waarde, de overschrijdingskans. Is de p-waarde kleiner of gelijk aan , dan is het toetsresultaat significant op niveau
E. Toetsen voor een populatieverwachting z-toets voor een populatieverwachting H0 : µ = µ0 (µ0 is een bepaalde waarde) Ha : µ < µ0 eenzijdig : P (Z z) Ha : µ > µ0 eenzijdig : P (Z z) Ha : µ µ0 tweezijdig : 2 P (Z |z| ) omzetten in z-waarde z = ( x - µ0 ) / n en kijken in tabel A
F. Tweezijdige significantie-toetsen en betrouwbaarheidsintervallen Bij tweezijdig toetsten de p-waarde die in de tabel gevonden wordt vermenigvuldigen met 2 Computer geeft standaard tweezijdige toets Tabel geeft standaard de eenzijdige toets p-waarde (eenzijdig) maal 2 is tweezijdig p-waarde (tweezijdig) gedeeld door 2 is eenzijdig
G. Overschrijdingskansen versus vast niveau De overschrijdingskans p is het kleinste niveau waarbij de data significant zijn. Deze p-waarde wordt door de computer gegeven of opzoeken in Tabel Bij vast niveau enkel beslissen : onder of boven : gemakkelijker maar je hebt minder informatie
6.3. Gebruik en misbruik van toetsen Uitvoeren van een significantietoets is zeer eenvoudig, zeker met computer Toetsen moeten wel verstandig gebruikt worden Onderzoekers doen soms te gemakkelijk toetsen zonder eerst stil te staan bij wat ze doen
A. Kiezen van een significantieniveau Ha is meestal de onderzoekshypothese die bij een lage overschrijdingskans wordt bevestigd Als H0 een jarenlang aanvaarde waarheid is (plausibiliteit), of als verwerping vergaande consequenties heeft (consequenties), zal klein moeten zijn
Meest gangbaar 10%, 5%, en 1% Afhankelijk van inhoud van onderzoek deze kiezen Meestal wordt 5% gebruikt, dit is eigenlijk een artificiële grens, er is geen breuk tussen wel en niet significant, enkel een bewijs die in sterkte toeneemt Dus niet zomaar altijd 5% nemen en dit als een definitief BEWIJS zien, steeds als een kans
B. Wat statistische significantie niet betekent “Statistische significantie is niet hetzelfde als praktische significantie” want bij grote steekproeven vinden we vlug significantie Bv. correlatie van 0.09 kan bij een steekproef van 1000 pp. een p =0.03 geven Gewoonlijk is het verstandig ook grafisch te kijken Geef beter ook een betrouwbaarheidsinterval, geeft meer info dan enkel significantie
C. Negeer het ontbreken van significantie niet Het NIET significant zijn kan even belangrijke informatie geven, maar wordt zelden gepubliceerd Door deze niet te rapporteren gaan andere onderzoekers opnieuw op zoek, zonder effect. Kan ook niet significant zijn omdat het onderscheidingsvermogen van de toets te zwak was (zie later)
D. Statistische inferentie is niet voor alle data geldig Enkel op correct verzamelde gegevens betekenen significantietoetsen iets Experimenten Aselecte steekproef Dikwijls dit niet voorhanden : telkens op voorhand goed nagaan hoe data verkregen zijn (zie hoofdstuk 3)
E. Ga niet zoeken naar significantie Op voorhand hypothese stellen en dan toetsen, niet op zoek gaan naar alle mogelijke significanties : op 100 toetsen automatisch 5% significant door toeval Computer is hier probleem : op enkele minuten honderden toetsen uitvoeren : steeds blijven nadenken Beter : eerst exploratief en op ANDERE data deze hypothese toetsen
6.4. Onderscheidingsvermogen en inferentie bij beslissingsproblemen Onderscheidingsvermogen van een toets of de power van de toets : is de toets sterk genoeg om de nulhypothese te kunnen verwerpen Sterke link tussen onderscheidings-vermogen en aantal subjecten : hoe meer subjecten, hoe groter het onderscheidingsvermogen
80% onderscheidingsvermogen is standaard aan het worden, of power van Als het onderscheidingsvermogen te klein is zal de nulhypothese niet kunnen worden verworpen, zelfs indien de werkelijke waarde ver weg ligt van de nulhypothese Berekenigen van onderscheidingsvermogen of power enkel met computer
Fouten van type 1 en type 2 H0 is waar Ha is waar Verwerp H0 Fout van het Type 1 Correcte beslissing Verwerp Ha Correcte beslissing Fout van het Type 2
Het significantieniveau is de kans op een fout van het type 1, of is kans dat de toets de nulhypothese zal verwerpen terwijl die in feite juist is Het onderscheidingsvermogen van een significantietoets is 1 - de kans op een fout van de tweede soort : de toets is niet gevoelig genoeg om de nulhypothese te kunnen verwerpen