Een fundamentele inleiding in de inductieve statistiek

Slides:



Advertisements
Verwante presentaties
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Voorrangsregels bij rekenen (2)
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
HC2MFE Meten van verschillen
Leer de namen van de noten 1
De omvang van een steekproef bepalen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Ronde (Sport & Spel) Quiz Night !
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Leer de namen van de noten 2
Oppervlakten berekenen
WISKUNDIGE FORMULES.
toetsen voor het verband tussen variabelen met gelijk meetniveau
Elke 7 seconden een nieuw getal
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Statistiek Verzamelen Voorstellen Beschrijven Interpreteren
vwo A Samenvatting Hoofdstuk 13
vwo C Samenvatting Hoofdstuk 14
Centrummaten gemiddelde
Schatter voor covariantie
Metingen met spreiding
IJspakketten Annette Ficker Tim Oosterwijk
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Probeer te begrijpen wat de Midzomernacht zon betekent
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Populatiegemiddelden: recap
Statistiek voor Historici
Werken aan Intergenerationele Samenwerking en Expertise.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
ribwis1 Toegepaste wiskunde Lesweek 3
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
havo/vwo D Samenvatting Hoofdstuk 4
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
C op de rechterhand M F het binnenste peloton buigt af en rijdt een volte op de andere hand. telkens een.
A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)
ZijActief Koningslust 10 jaar Truusje Trap
Voorrangsregels bij rekenen (1)
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
Varianties bij replicatie (herhaald testen)
Partiële r² Predictie van y gebaseerd op z alleen
6,50 euro In dit vakje zie je hoeveel je moet betalen.
ASSOCIATION DES ETATS GENEREAUX DES ETUDIANTS DE L’EUROPE ENQUÊTE RESULTATEN.
24 april 2008 | 1 › / Henk Druiven Repository-gebruikersdag donderdag 24 april 2008.
De financiële functie: Integrale bedrijfsanalyse©
Inleiding in de statistiek voor de gedragswetenschappen
Aardrijkskunde Thema 1 water
Hoe en waar wordt de keuze voor de nieuwe auto bepaald? AutoRai 2005 Amsterdam, 10 februari 2005 Anne Hoff Research Director Interview-NSS.
Centrummaten en Boxplot
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Floodcom lesworkshop Hoofdpresentatie les
Baarde en de goede Hoofdstuk 11: Data-analyse
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
Gegevens verzamelen Statistiek gaat over het verzamelen en verwerken van data (gegevens ) Data zijn vaak gespreid: -mensen hebben verschillende lengtes.
Wat zegt een steekproef?
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
De omvang van een steekproef bepalen
Transcript van de presentatie:

Een fundamentele inleiding in de inductieve statistiek De bootstrap Een fundamentele inleiding in de inductieve statistiek

Leidend voorbeeld Onderzoeksvraag: Drinken mannelijke RuG studenten gemiddeld meer bier dan vrouwelijke RuG studenten? Onderzoek: Trek steekproef van 50 m en 50 v en meet biergebruik Je vindt: m  gemiddeld 8.98 glazen bier per week v  gemiddeld 7.14 glazen bier per week Conclusie: Mannelijke studenten drinken gemiddeld 1.84 glazen meer dan vrouwelijke Inductieve Statistiek: Hoe zeker weten we dit? Wat zijn onze onzekerheidsmarges?

maar, statistiek is er voor om je enig idee te geven. Op grond van steekproeven schatten we mannelijke studenten: gemiddeld 8.98 glazen bier, vrouwelijke studenten: gemiddeld 7.14 glazen bier. Maar hoe zeker weten we dit? Wat als we een andere steekproef zouden hebben gehad? GEEN IDEE ! maar, statistiek is er voor om je enig idee te geven.

Een gedachte-experiment vooraf: Stel we kennen volledige populatie: Van alle 10200 Mann. studenten aan RuG kennen we ‘biergebruik’ (en idem van vrouwelijke studenten)

populatie steekproef (n=50) 2e steekproef (n=50) Wat kan er gebeuren als we een random steekproef van 50 m. studenten trekken? populatie 7 6 8 9 10 11 12 gem. = 9.0 steekproef (n=50) 7 9 8 10 11 12 gem. = 8.98 2e steekproef (n=50) 8 10 7 11 6 9 gem. = 9.08

... na bijv. 1000 steekproeven ... 1. Steekproefgemiddelde varieert! Populatiegemiddelde 1. Steekproefgemiddelde varieert! 2. Meestal tussen 8.7 en 9.3  “steekproefgemiddelde is vaak ongelijk aan populatiegemiddelde, maar wijkt maar in 5% van de steekproeven meer dan 0.3 af ”

... dus omgekeerd ...

Het populatiegemiddelde ligt maar in 5% van de steekproeven meer dan 0 Het populatiegemiddelde ligt maar in 5% van de steekproeven meer dan 0.3 af van het steekproefgemiddelde Stel: steekproefgemiddelde is 8.8. Uitspraak: we zijn 95% zeker dat populatiegemidelde ligt tussen 8.8±0.3, dus tussen 8.5 en 9.1 Gevonden dankzij: marge van steekproefgemiddelde rond populatiegemiddelde waarin 95% van steekproefgemiddelden valt

Dus nodig: marge van steekproefgemiddelde rond populatie-gemiddelde waarin 95% van steekproefgemn valt Te verkregen via herhaald stkprftrekken uit populatie Maar: 1000 maal een (n=50) steekproef trekken?? Praktijk: 1 (n=50) steekproef!!! Idee: gebruik alleen huidige steekproef om schatting te krijgen van marges

Vergelijk ... de Baron Munchausen … toen nu                      … trok zichzelf uit moeras aan de lussen van zijn laarzen (bootstraps)

Bootstrap-procedure Doel Nodig Concrete vraag Verkrijgen van marge van steekproef- gemiddelde rond populatiegemiddelde Nodig weten wat andere steekproeven voor gemiddelden kunnen opleveren Concrete vraag wat wordt gemiddelde als score van iedere persoon in huidige steekproef vervangen door score van willekeurig persoon uit populatie? Wat is willekeurig persoon uit populatie?

Bootstrap filosofie: Wat is willekeurige persoon? Doet er niet toe: Alleen diens scores nodig! Wat zijn willekeurige scores? scores die voorkomen in steekproef! (realistisch!) sommige scores gangbaarder dan andere!  willekeurige scores: scores die je willekeurig uit eigen steekproef trekt!

Bootstrap aanpak: 7 9 8 10 11 12 Steekproef gem. = 8.98 score freq 7 4 8 10 9 20 13 11 2 12 1 Bootstrap aanpak: 7 9 8 10 11 12 Steekproef gem. = 8.98 2 12 11 16 10 19 9 8 3 7 freq score Bootstrap steekproef 7 9 8 10 11 12 9 8 9 9 8 10 7 9 10 10 10 9 10 12 7 11 11 8 10 9 10 7 10 9 10 9 12 10 9 8 9 10 10 10 9 gem. = 9.02 Maak alternatieve steekproef door willekeurig scores uit oorspronkelijke te trekken  frequenties ongeveer zelfde!

“Bootstrap- steekproef” Bootstrap aanpak: Herhaal deze procedure vaak (bijv. 1000 keer): 1. Trek nieuwe steekproef met teruglegging van grootte n uit oorspronkelijke steekproef 2. Bereken gemiddelde “Bootstrap- steekproef” Resultaat: 1000 bootstrapsteekproefgemiddelden Geeft idee van gebruikelijke marge rond steekproef-gemiddelde bij herhaald trekken uit steekproef (als stand-in voor populatie)! We nemen aan dat dit idee geeft van gebruikelijke marge rond populatiegemiddelde!

Voorbeeld: Gemiddelden van 100 bootstrapsteekproeven:

Histogram van gemiddelden van 100 bootstrapstkprn bootstrapsteekproefgemiddelde frequentie originele steekproefgemiddelde (8.98) In 95% van bootstrapstkprn ligt gemiddelde tussen 8.8 en 9.2. marge (95%) rond originele steekproef-gemiddelde is dus 0.2

plug-in voor populatie (95%)marge van bootstrapsteekproeven rond originele steekproefgemiddelde is 0.2 Aanname: scoreverdeling in steekproef = scoreverdeling in populatie dus variatie in bootstrapsteekproeven even groot als in steekproeven uit populatie plug-in voor populatie

95% betrouwbaarheidsinterval Conclusie: “voor plug-in populatie liggen 95% van steekproefgemiddelden binnen marge 0.2 rond plug-in gemiddelde”  “voor echte populatie liggen 95% van steekproefgemiddelden binnen marge 0.2 rond populatiegemiddelde” Slotconclusie: we vonden in steekproef 8.98 in 95% van gevallen wijkt steekproefgemiddelde niet meer dan 0.2 af van populatie-gemiddelde dus zal populatiegemiddelde met 95% zekerheid niet onder 8.78 of boven 9.18 hebben gelegen! 95% betrouwbaarheidsinterval

95% betrouwbaarheidsinterval (95%bhi): Wat wordt bedoeld met 95% ? = steekproefgemiddelde ± gevonden marge Wat wordt bedoeld met 95% ? per steekproef uit populatie: 95% kans stkprfgemiddelde binnen marge rond pop.gem. Praktijk: 100 steekproef uit verschillende popul. steekproefgemiddelde ca. 95 binnen (telkens andere) marge rond populatiegemiddelde omgekeerd: populatiegemiddelde ca. 95 binnen 95%bhi met 95%BHI zit je dus ca. 95 goed (en 5 fout…!)

Meeste intervallen dekken populatiegemiddelde, maar 6 zitten er naast Voorbeeld van 100 steekproeven en 95%bhi uit populatie met zelfde gemiddelde Meeste intervallen dekken populatiegemiddelde, maar 6 zitten er naast

Bootstrap voor allerlei maten Bootstrap-procedure alom toepasbaar: mediaan, Q1, trimmed mean, correlatie, regressiegewicht, etc., etc. Aanpak in het algemeen: trek groot aantal bootstrapsteekproeven (bijv. 1000) uit steekproef bereken gewenste maat in alle bootstrapstkprn bepaal gewenste percentieleninterval (benadering van betrouwbaarheidsinterval) Voor bepaalde maten (efficiëntere) ‘klassieke aanpak’ beschikbaar