Inleiding tot inferentie

Slides:

Advertisements

Verwante presentaties

Statistische uitspraken over onbekende populatiegemiddelden

Advertisements

Afronden bij natuurkunde

HC2MFE Meten van verschillen

Onderscheidingsvermogen van hypothesetoetsen toegepast op de z-toets

Toetsen van verschillen tussen twee of meer groepen

Het belang van een goede steekproef

De omvang van een steekproef bepalen

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.

Een manier om problemen aan te pakken

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Hoofdstuk 3 – Gegevens verzamelen

havo A Samenvatting Hoofdstuk 8

Beschrijvende en inferentiële statistiek

P-waarde versus betrouwbaarheidsinterval

Statistiek II Hoofdstuk 4: Toetsen voor één populatie

Statistiek II Hoofdstuk 3: Betrouwbaarheidsintervallen en hypothesetoetsing Vanhoomissen & Valkeneers, hoofdstuk 3.

toetsen voor het verband tussen variabelen met gelijk meetniveau

Statistiek Verzamelen Voorstellen Beschrijven Interpreteren

vwo A Samenvatting Hoofdstuk 13

vwo A Samenvatting Hoofdstuk 15

vwo C Samenvatting Hoofdstuk 14

Hypothese toetsen We hebben de volgende situatie.

De grafiek van een lineair verband is ALTIJD een rechte lijn.

Gegevensverwerving en verwerking

Meervoudige lineaire regressie

Inferentie voor regressie

Hoofdstuk 3 Gegevens verwerven.

Inferentie voor kruistabellen

P-waarde Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen.

Afhankelijkheidstabellen

Schatter voor covariantie

Metingen met spreiding

Eenzijdige Betrouwbaarheidsgrens

Een fundamentele inleiding in de inductieve statistiek

H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.

Hoofdstuk 9 Verbanden, correlatie en regressie

Voorspellende analyse

Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.

variabelen vaststellen

Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.

Hoofdstuk 1 Basisvaardigheden.

Populatiegemiddelden: recap

Statistiek voor Historici

Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.

Methodologie & Statistiek I Principes van statistisch toetsen 5.1.

Hogere wiskunde Limieten college week 4

havo/vwo D Samenvatting Hoofdstuk 4

Statistiekbegrippen en hoe je ze berekent!!

Inhoud presentatie Statistische betrouwbaarheid: belangrijk?

De steekproefuitkomsten generaliseren naar de populatie

Interpretatie van statistiek bij toetsen en toetsvragen

HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?

Partiële r² Predictie van y gebaseerd op z alleen

Baarde en de goede Hoofdstuk 11: Data-analyse

28 mei Symposium Statistical Auditing Slide 1 Steekproefmethoden bij EU audits Paul van Batenburg.

Data-analyse of toch liever steekproeven?

Gecijferdheid 2 (Meten 1 – ME144X) week 3

Het doel en de grondbeginselen van statistiek in klinische onderzoeken

18 Evalueren van Beweringen en Redenen. Scenariotest

Wat zegt een steekproef?

Betrouwbaarheidsinterval

Significante cijfers © Johan Driesse © 2013 – Johan Driesse.

Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.

Youden Analyse.

3 vmbo-KGT Samenvatting Hoofdstuk 10

De omvang van een steekproef bepalen

Toetsen van verschillen tussen twee of meer groepen

Voorspellende analyse

Kwantitatieve kenmerken

Transcript van de presentatie:

Inleiding tot inferentie Hoofdstuk 6 Inleiding tot inferentie

Statistische inferentie : = op basis van steekproef uitspraken over populatie + mate van vertrouwen die men aan die conclusies mag hechten Bij gebruik van statistische inferentie :  data komen van een aselecte steekproef of van een gerandomiseerd experiment

6.1. Schatten met betrouwbaarheid Steekproefgemiddelde x is een schatter van de populatieverwachting µ als de waarde = 36 : hoe betrouwbaar is deze schatting ? Grotere steekproeven steeds betere schatting steeds naast gemiddelde een indicatie van de variabiliteit nodig

A. Statistische betrouwbaarheid 68 - 95 - 99.7 regel : kans dat gemiddelde binnen een afstand van 2 standaardafwijkingen van de verwachte score van de populatie (µ) ligt is 95% µ binnen een afstand van 2 standaard-afwijkingen van x in 95% van alle steekproeven zal het interval x - 2keer stand.afw. tot x + 2keer stand.afw. de werkelijke µ bevatten

Op die manier wordt het vertrouwen uitgedrukt in de resultaten van een enkelvoudige steekproef Voorbeeld : gemiddelde van steekproef is 461 en standaardafwijking is 4,5 met 95% betrouwbaarheid ligt de onbekende verwachte score van de populatie tussen 461 - 9 = 452 461 + 9 = 470 slechts 5% van de steekproeven liggen hierbuiten

We weten echter niet of onze steekproef tot die 95% of tot die 5% zal behoren DUS : “populatiegemiddelde ligt met 95% betrouwbaarheid tussen x en y” wil eigenlijk zeggen “we hebben x en y gevonden volgens een methode die in 95% van de gevallen correcte resultaten geeft”

B. Betrouwbaarheidsintervallen Interval van getallen tussen x en y is het betrouwbaarheidsinterval voor µ Betrouwbaarheidsinterval = schatting  foutmarge foutmarge toont iets van de accuraatheid die we onze schatting toekennen, gebaseerd op de variabiliteit van de schatting

Elk betrouwbaarheidsinterval : betrouwbaarheidsniveau = 95% niveau : laat zien hoeveel vertrouwen we hebben dat we met de methode µ zullen bevatten Elk betrouwbaarheidsinterval : interval (uit de data) betrouwbaarheidsniveau (kiezen, meestal > 90%) Betrouwbaarheidsniveau 95% is C=0.95 Onbekende parameter wordt  (Griekse letter theta) genoemd

Een betrouwbaarheidsinterval van niveau C voor een parameter , is een interval berekend uit de steekproefdata, volgens een methode die kans C heeft om een interval op te leveren dat de werkelijke waarde van  bevat.

C. Betrouwbaarheidsinterval voor een populatieverwachting Constructie van een betrouwbaarheids-interval van niveau C voor de populatieverwachting µ Populatie : N (µ,  ) dan heeft de steekproefverdeling van het steekproefgemiddelde x een verdeling : steekpoef : N (µ, / n)

Om voor elk betrouwbaarheidsinterval van niveau C te weten hoeveel keer we de standaardafwijking moeten nemen kunnen we Tabel D gebruiken C p z* 50% .25 0.674 90% .05 1.645 95% .025 1.960 99% .005 2.576

Oppervlakte = C Oppervlakte = 1-C = p 2 Oppervlakte = 1-C 2 - z* 0 z*

p is de oppervlakte van de rechterstaart dus gelijk aan : aangezien er ook nog een linkerstaart is die even groot is bij betrouwbaarheidsinterval de oppervlakte tussen -z* en +z* is gelijk aan C het getal z* met rechts daarvan de kans p, wordt de bovenste p-kritieke waarde genoemd (waarbij p = (1-C)/2)

De onbekende populatieverwachting µ ligt tussen x - z* ( _)  n en x + z* ( _) = betrouwbaarheidsinterval van niveau C Naarmate n groter is zal de foutmarge kleiner zijn en dus het interval korter

D. Het gedrag van betrouwbaarheidsintervallen Betrouwbaarheidsniveau kiest de gebruiker Best : grote betrouwbaarheid en kleine foutmarge Grote betrouwbaarheid = bijna altijd correcte antwoorden Kleine foutmarge = parameter is heel nauwkeurig gelokaliseerd

Voor dezelfde data : Maar voor andere data : grotere betrouwbaarheid impliceert bereidheid om grotere foutmarge te aanvaarden want : voor grotere betrouwbaarheid : grotere waarde voor z* Maar voor andere data : bij stijging van n zal de foutmarge dalen door wortel in de formule, moeten we n met 4 vermenigvuldigen om de foutmarge door 2 te laten delen (=halveren)

E. Het bepalen van de steekproefomvang op voorhand proberen om : grote betrouwbaarheid en kleine foutmarge te krijgen foutmarge = z* ( /  n) nu zoeken naar welke grootte van steekproef ik moet hebben bij een gewenste foutmarge m n = [ (z* ) / m ]2

Voorbeeld : formule : n = [ (z* ) / m ]2 betrouwbaarheid 95% en resultaten tot op 0.005 nauwkeurig n = [(1.96)(0.0068) / 0.005] 2 = 7.1 ofwel 8 metingen nodig

F. Enkele waarschuwingen data uit randomisatie en enkelvoudig aselecte steekproef geldt niet voor getrapte of gestratificeerde steekproeven geldt niet voor lukraak verzamelde data aangezien x niet resistent is, spelen uitschieters een belangrijke rol verdeling moet normaal zijn zeker bij steekproeven kleiner dan 15

De standaardafwijking van de populatie  moet gekend zijn, wat irrealistisch is, als n voldoende groot is kan s, de standaardafwijking van de steekproef gebruikt worden De gebruikte foutmarge geldt enkel voor aselecte steekproeven, drop-out, nonrespons, enz… zorgen voor extra fouten 95% interval wil zeggen : volgens een methode die voor 95% correcte resultaten geeft

6.2. Significantietoetsen Doel : beoordelen van data ten gunste van de een of andere bewering omtrent de populatie Voorbeeld : Kan het dat iemand die niet getraind is toch 6m25 ver springt ? Kans dat iemand dat zonder training kan is 0.001 Dus : het is heel waarschijnlijk dat die persoon wel getraind was Maar : het zou kunnen dat die persoon niet getraind is, maar die kans is zo klein dat het niet waarschijnlijk is

A. De redenering bij significantietoesten Significantietoets = procedure om data te vergelijken met hypothese Hypothese = bewering over parameters in een populatie Uitkomst van een significantietoets : uitgedrukt in termven van een kans die aangeeft hoe goed data en hypothese met elkaar overeenkomen

B. Formuleren van hypothesen Vraag : is een effect aanwezig ? Hypothese : het effect is niet aanwezig = de NULHYPOTHESE (geen effect, geen verschil, …) Significantietoets om de sterkte van het bewijs tegen de nulhypothese vast te stellen

Formuleren van hypothesen Nulhypothese is H0 voorbeeld : H0 : A = B of H0 : µ = 23 of H0 :  (rho) = 0 (corr = 0) Alternatieve hypothese is Ha waarvan wij verwachten dat ze juist is voorbeeld : Ha : A > B of Ha : µ < 23 of Ha :  (rho)  0 (wel een verband)

Hypothesen verwijzen altijd naar één of andere populatie : dus in populatieparameters Eenzijdig alternatief : als de richting is aangegeven Tweezijdig alternatief : als er op voorhand geen duidelijke richting is Als H0 waar is, heeft de schatter waarden dicht tegen H0 Waarden die verder van H0 zijn verwijderd vormen een bewijs tegen H0 en voor Ha

C. Overschrijdingskansen Hoe verder de waargenomen uitkomst van H0, dus hoe onwaarschijnlijker dat H0 waar is, hoe sterker de indicatie voor Ha. Significantietoets meet de kans op het krijgen van een uitkomst die even extreem is of nog extremer dan de waargenomen uitkomst = de overschrijdingskans (p) van de toets

Hoe kleiner de overschrijdingskans p, hoe sterker het bewijs tegen H0 Overschrijdingskans (p) niet zelf kunnen berekenen, wel computeroutput

D. Statistische significantie Soms op voorhand vaststellen hoeveel bewijs we zullen eisen = de beslissende waarde van de overschrijdingskans = het significantieniveau () alpha Kiezen we  =0.05 dan eisen we dat in niet meer dan 5% van de gevallen H0 toch waar kan zijn

Als de overschrijdingskans kleiner dan of gelijk is aan  , zeggen we dat de data statistisch significant zijn op niveau . De resultaten waren significant (p < 0.01) Indien p = 0.03, dan zijn de resultaten significant op niveau  = 0.05, maar niet op niveau  = 0.01.

Stappen bij een significantietoets : Formuleer H0 en Ha Specificeer het significantieniveau  Doe de statistische berekeningen bv. bereken de correlatie, t-waarde, F-waarde, … Bepaal de bijhorende p-waarde, de overschrijdingskans. Is de p-waarde kleiner of gelijk aan , dan is het toetsresultaat significant op niveau 

E. Toetsen voor een populatieverwachting z-toets voor een populatieverwachting H0 : µ = µ0 (µ0 is een bepaalde waarde) Ha : µ < µ0 eenzijdig : P (Z  z) Ha : µ > µ0 eenzijdig : P (Z  z) Ha : µ  µ0 tweezijdig : 2 P (Z  |z| ) omzetten in z-waarde z = ( x - µ0 )  /  n en kijken in tabel A

F. Tweezijdige significantie-toetsen en betrouwbaarheidsintervallen Bij tweezijdig toetsten de p-waarde die in de tabel gevonden wordt vermenigvuldigen met 2 Computer geeft standaard tweezijdige toets Tabel geeft standaard de eenzijdige toets p-waarde (eenzijdig) maal 2 is tweezijdig p-waarde (tweezijdig) gedeeld door 2 is eenzijdig

G. Overschrijdingskansen versus vast niveau  De overschrijdingskans p is het kleinste niveau  waarbij de data significant zijn. Deze p-waarde wordt door de computer gegeven of opzoeken in Tabel Bij vast niveau  enkel beslissen : onder of boven : gemakkelijker maar je hebt minder informatie

6.3. Gebruik en misbruik van toetsen Uitvoeren van een significantietoets is zeer eenvoudig, zeker met computer Toetsen moeten wel verstandig gebruikt worden Onderzoekers doen soms te gemakkelijk toetsen zonder eerst stil te staan bij wat ze doen

A. Kiezen van een significantieniveau Ha is meestal de onderzoekshypothese die bij een lage overschrijdingskans wordt bevestigd Als H0 een jarenlang aanvaarde waarheid is (plausibiliteit), of als verwerping vergaande consequenties heeft (consequenties), zal  klein moeten zijn

Meest gangbaar 10%, 5%, en 1% Afhankelijk van inhoud van onderzoek deze  kiezen Meestal wordt 5% gebruikt, dit is eigenlijk een artificiële grens, er is geen breuk tussen wel en niet significant, enkel een bewijs die in sterkte toeneemt Dus niet zomaar altijd 5% nemen en dit als een definitief BEWIJS zien, steeds als een kans

B. Wat statistische significantie niet betekent “Statistische significantie is niet hetzelfde als praktische significantie” want bij grote steekproeven vinden we vlug significantie Bv. correlatie van 0.09 kan bij een steekproef van 1000 pp. een p =0.03 geven Gewoonlijk is het verstandig ook grafisch te kijken Geef beter ook een betrouwbaarheidsinterval, geeft meer info dan enkel significantie

C. Negeer het ontbreken van significantie niet Het NIET significant zijn kan even belangrijke informatie geven, maar wordt zelden gepubliceerd Door deze niet te rapporteren gaan andere onderzoekers opnieuw op zoek, zonder effect. Kan ook niet significant zijn omdat het onderscheidingsvermogen van de toets te zwak was (zie later)

D. Statistische inferentie is niet voor alle data geldig Enkel op correct verzamelde gegevens betekenen significantietoetsen iets Experimenten Aselecte steekproef Dikwijls dit niet voorhanden : telkens op voorhand goed nagaan hoe data verkregen zijn (zie hoofdstuk 3)

E. Ga niet zoeken naar significantie Op voorhand hypothese stellen en dan toetsen, niet op zoek gaan naar alle mogelijke significanties : op 100 toetsen automatisch 5% significant door toeval Computer is hier probleem : op enkele minuten honderden toetsen uitvoeren : steeds blijven nadenken Beter : eerst exploratief en op ANDERE data deze hypothese toetsen

6.4. Onderscheidingsvermogen en inferentie bij beslissingsproblemen Onderscheidingsvermogen van een toets of de power van de toets : is de toets sterk genoeg om de nulhypothese te kunnen verwerpen Sterke link tussen onderscheidings-vermogen en aantal subjecten : hoe meer subjecten, hoe groter het onderscheidingsvermogen

80% onderscheidingsvermogen is standaard aan het worden, of power van Als het onderscheidingsvermogen te klein is zal de nulhypothese niet kunnen worden verworpen, zelfs indien de werkelijke waarde ver weg ligt van de nulhypothese Berekenigen van onderscheidingsvermogen of power enkel met computer

Fouten van type 1 en type 2 H0 is waar Ha is waar Verwerp H0 Fout van het Type 1 Correcte beslissing Verwerp Ha Correcte beslissing Fout van het Type 2

Het significantieniveau  is de kans op een fout van het type 1, of  is kans dat de toets de nulhypothese zal verwerpen terwijl die in feite juist is Het onderscheidingsvermogen van een significantietoets is 1 - de kans op een fout van de tweede soort : de toets is niet gevoelig genoeg om de nulhypothese te kunnen verwerpen