Wat zegt een steekproef?

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

HC2MFE Meten van verschillen
Onderscheidingsvermogen van hypothesetoetsen toegepast op de z-toets
Toetsen van verschillen tussen twee of meer groepen
Eenparige vertraagde beweging
Overzicht Sessie 1 Inleiding
De omvang van een steekproef bepalen
Inleiding tot inferentie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Kwalitatief en kwantitatief verband
Een manier om problemen aan te pakken
Vergroting.
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
havo A Samenvatting Hoofdstuk 8
Beschrijvende en inferentiële statistiek
P-waarde versus betrouwbaarheidsinterval
Statistiek II Hoofdstuk 3: Betrouwbaarheidsintervallen en hypothesetoetsing Vanhoomissen & Valkeneers, hoofdstuk 3.
vwo A Samenvatting Hoofdstuk 13
vwo A Samenvatting Hoofdstuk 15
vwo C Samenvatting Hoofdstuk 14
MEDISCHE STATISTIEK OEFENINGEN
Meervoudige lineaire regressie
Inferentie voor regressie
Schatter voor covariantie
Metingen met spreiding
Eenzijdige Betrouwbaarheidsgrens
Continue kansverdelingen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Een fundamentele inleiding in de inductieve statistiek
De eenparige beweging..
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Populatiegemiddelden: recap
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Toetsen van proporties 7.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
havo/vwo D Samenvatting Hoofdstuk 4
H4 Differentiëren.
De steekproefuitkomsten generaliseren naar de populatie
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
Baarde en de goede Hoofdstuk 11: Data-analyse
6 Vaardigheden 6.1 Rekenvaardigheden Rekenen in verhouding
Workshop C verhouding van inhoud, lengte en oppervlakte &
– Hoe pak ik een kwantitatief onderzoek aan?
Thema 1: Wat is biologie? Basisstof 5: GROEI.
“Statistiek, is dat moeilijk?”
Alleen toevallige variaties
Gegevens verzamelen Statistiek gaat over het verzamelen en verwerken van data (gegevens ) Data zijn vaak gespreid: -mensen hebben verschillende lengtes.
Rekenen.
Standaard normaalverdeling
Controlekaarten Industrie
Betrouwbaarheidsinterval
Alleen toevallige variaties
Afronden Hoe moet je statistisch afronden? nr gehalte (mg /100g) 1
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Wiskunde A of wiskunde B?.
Kan je zelf een geschikte schaalverdeling maken
Kan je zelf een geschikte schaalverdeling maken
3 vmbo-KGT Samenvatting Hoofdstuk 10
De omvang van een steekproef bepalen
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Fokwaarde Fokkerij 2.
Kwantitatieve kenmerken
Gebruik van SNP-merkers in fokwaardeschatting
Transcript van de presentatie:

Wat zegt een steekproef? Suikergehalte van cola Steekproef 1 Gehalte = 101 g/L en n-1 = 6 g/L Steekproef 2 Gehalte = 105 g/L en n-1 = 4 g/L Steekproef 3 Gehalte = 98 g/L en n-1 = 7 g/L Welke steekproef is het meest betrouwbaar? Welke uitslag geven we door?

Wat ontbreekt hier? Welke steekproef is nu het meest betrouwbaar? Suikergehalte van cola Steekproef 1 n = 5 Gehalte = 101 g/L en n-1 = 6 g/L Steekproef 2 n = 3 Gehalte = 105 g/L en n-1 = 4 g/L Steekproef 3 n = 10 Gehalte = 98 g/L en n-1 = 7 g/L Welke steekproef is nu het meest betrouwbaar? Hoeveel samples moet je nemen?

Onderzoek Steekproef nog groter maken? Gemiddelde lichaamslengte Nederlandse mannen van 20 jaar steekproef n lengte (cm) n-1 1 3 178,2 9,1 2 10 181,2 7,1 3 60 177,6 7,5 Steekproef nog groter maken? Welke steekproef is het meest betrouwbaar? Hoeveel samples moet je nemen?

Bepaling gemiddelde lengte Nederlandse mannen (cm) Andere opzet We gaan steekproeven 10 x herhalen Bepaling gemiddelde lengte Nederlandse mannen (cm) 3 samples 10 samples 25 samples gem n-1 168,4 8,5 178,0 10,2 178,9 8,9 181,3 12,0 178,1 8,6 180,0 9,4 182,2 7,4 180,9 8,3 179,3 7,8 181,5 9,1 176,5 9,8 180,4 6,9 175,5 183,8 8,2 178,3 179,7 180,1 9,6 180,6 10,5 178,8 181,7 6,6 177,8 5,2 178,4 5,3 179,9 7,7 181,6 10,6 180,3 181,1 11,6 4,9 6,8 Valt je iets op? De verschillen lijken kleiner te worden Kon je dat verwachten? Hoe onderzoek je of dat klopt? Gemiddelde berekenen Standaarddeviatie van die gemiddelden berekenen

Andere opzet Kleinere steekproeven herhalen Bepaling gemiddelde lengte Nederlandse mannen (cm) 3 samples 10 samples 25 samples gem n-1 168,4 8,5 178,0 10,2 178,9 8,9 181,3 12,0 178,1 8,6 180,0 9,4 182,2 7,4 180,9 8,3 179,3 7,8 181,5 9,1 176,5 9,8 180,4 6,9 175,5 183,8 8,2 178,3 179,7 180,1 9,6 180,6 10,5 178,8 181,7 6,6 177,8 5,2 178,4 5,3 179,9 7,7 181,6 10,6 180,3 181,1 11,6 4,9 6,8 gemiddelde van 10 steekproeven van 3 samples 10 samples 25 samples gem 179,0 179,7 180,7 n-1 4,2 2,5 1,5 Het gemiddelde is praktisch hetzelfde De standaarddeviatie van de gemiddelden wordt kleiner als je het aantal samples per steekproef groter maakt

gemiddelde van 10 steekproeven van Andere opzet Kleine steekproeven 50 x herhalen: histogram Blijkbaar zijn de steekproefgemiddelden ook normaal verdeeld, maar hun standaarddeviatie neemt af als we het aantal samples groter maken. Definitie De standaarddeviatie van de steekproefgemiddelden noemt men de standaardfout SE (Eng: standard error) gemiddelde van 10 steekproeven van 3 samples 10 samples 25 samples gem 179,0 179,7 180,7 n-1 4,2 2,5 1,5

Andere opzet Kleinere steekproeven herhalen

Schatting van het populatiegemiddelde gemiddelde van 10 steekproeven van 3 samples 10 samples 25 samples gem 179,0 179,7 180,7 n-1 4,2 2,5 1,5 Wat is volgens jou de beste schatting van de gemiddelde lengte van Nederlandse mannen van 20 jaar. 180,7 cm? Men noemt dit een puntschatting. Waarom? Hoeveel % betrouwbaar is een puntschatting? 0 % !! Beter is een intervalschatting van het populatiegemiddelde, dus het gemiddelde ligt tussen ……cm en …….. cm wiskundige notatie ………cm < μ < …….. cm Zo’n schatting noemt men een betrouwbaarheidsinterval

Betrouwbaarheidsinterval Van een normaalverdeling zijn het gemiddelde  en de standaarddeviatie n bekend. Een normaalverdeling geldt (helaas) alleen voor een hele populatie. Hele populatie Populatiegemiddelde  Z-waarde = aantal standaarddeviaties  Voor een willekeurig getrokken sample uit een populatie geldt dus een kans van 95 % dat hij tussen -2 en +2 ligt. Er is ook een kans van 99 % dat hij tussen -3 en +3 ligt.

Betrouwbaarheidsinterval De standaardfout SE kunnen we gebruiken in combinatie met de Z-waarden van de normaalverdeling. We willen een betrouwbaarheid van 95 %. Voor de Z-waarde nemen we de nauwkeurige waarde van 1,96 (zie Z-tabel) Voor de schatting van  gebruiken we de standaardfout SE Het betrouwbaarheidsinterval BI voor de schatting van het populatiegemiddelde  wordt dan:

Betrouwbaarheidsinterval We gebruiken de resultaten van de steekproef met 25 samples. gem = 180,7 cm met SE = 1,5 cm Invullen geeft: 180,7 -1,96 × 1,5 < μ < 180,7 +1,96 × 1,5 BI: 177,8 cm < μ < 183,6 cm In woorden De gemiddelde lengte van Nederlandse mannen van 20 jaar ligt met een betrouwbaarheid van 95 % tussen 177,8 cm en 183,6 cm. Probleem: We moeten de standaardfout SE te weten komen.

Betrouwbaarheidsinterval 250 keer? vette shit !! Hoe vinden we de standaardfout SE ? Veel steekproeven doen zoals bij de lengtemeting, in dit geval dus 10 keer 25 = 250 metingen. De standaardfout berekenen met behulp van de standaarddeviatie van de populatie (als die tenminste bekend is). Dat is bijvoorbeeld het geval bij een gevalideerde meetmethode. De formule wordt dan: Van een gevalideerde meetmethode is vastgesteld hoe nauwkeurig hij is. Dit doet men door een groot aantal metingen te doen, net zoals wij bij de lengtemeting deden Voorbeeld De meetmethode van het suikergehalte in cola is gevalideerd en heeft een (on)nauwkeurigheid van 2,5 %. Dit mogen we zien als variatiecoëfficiënt van de populatie (alle mogelijke steekproeven). Gegeven n = 3 suikergehalte = 105 g/L Bereken de standaarddeviatie n Bereken het betrouwbaarheidsinterval BI

Betrouwbaarheidsinterval Hoe vinden we de standaardfout SE ? Als we niets weten van de populatie kunnen we de standaardfout alleen maar berekenen met de standaarddeviatie van de steekproef. Helaas geldt deze formule alleen wanneer sprake is van een normaalverdeling en bij kleine steekproeven is dat niet het geval!! We kunnen de Z-waarden niet gebruiken. We moeten gebruik maken van de t-verdeling De vorm van de t-verdeling hangt af van het aantal samples in de steekproef. In dit geval geldt hij voor n = 5 ofwel v = n – 1 = 4 Alle andere waarden staan in de t-tabel.

Betrouwbaarheidsinterval De formule wordt dan: Voorbeeld suiker in cola Gegeven n = 5 suikergehalte = 105 g/L en n-1 = 6 g/L We zagen in de grafiek dat t = 2,78 bij 95 % betrouwbaarheid Afgerond suikergehalte 95 % Zonder 250 metingen te doen, kunnen we toch een 95 % betrouwbare uitslag doorgeven. Een betrouwbaarheid van 95 % betekent wel een onbetrouwbaarheid van 5 %. Dat houdt in dat we, wanneer we de steekproef 20 x zouden doen, we 1 van de 20 keer een verkeerde uitslag zouden kunnen doorgeven. In de wereld van wetenschap en laboratorium wordt dit geaccepteerd.