De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 De bootstrap Een fundamentele inleiding in de inductieve statistiek.

Verwante presentaties


Presentatie over: "1 De bootstrap Een fundamentele inleiding in de inductieve statistiek."— Transcript van de presentatie:

1 1 De bootstrap Een fundamentele inleiding in de inductieve statistiek

2 2 Leidend voorbeeld Onderzoeksvraag: Drinken mannelijke RuG studenten gemiddeld meer bier dan vrouwelijke RuG studenten? Onderzoek: Trek steekproef van 50 m en 50 v en meet biergebruik Je vindt: m  gemiddeld 8.98 glazen bier per week v  gemiddeld 7.14 glazen bier per week Conclusie: Mannelijke studenten drinken gemiddeld 1.84 glazen meer dan vrouwelijke Inductieve Statistiek: Hoe zeker weten we dit? Wat zijn onze onzekerheidsmarges?

3 3 Op grond van steekproeven schatten we mannelijke studenten: gemiddeld 8.98 glazen bier, vrouwelijke studenten:gemiddeld 7.14 glazen bier. Maar hoe zeker weten we dit? Wat als we een andere steekproef zouden hebben gehad? GEEN IDEE ! maar, statistiek is er voor om je enig idee te geven.

4 4 Stel we kennen volledige populatie: Van alle Mann. studenten aan RuG kennen we ‘biergebruik’ (en idem van vrouwelijke studenten) Een gedachte-experiment vooraf:

5 5 steekproef (n=50) 2 e steekproef (n=50) gem. = 8.98 populatie gem. = 9.0 gem. = Wat kan er gebeuren als we een random steekproef van 50 m. studenten trekken?

6 6... na bijv steekproeven Steekproefgemiddelde varieert! 2. Meestal tussen 8.7 en 9.3  “steekproefgemiddelde is vaak ongelijk aan populatiegemiddelde, maar wijkt maar in 5% van de steekproeven meer dan 0.3 af ” Populatiegemiddelde

7 7... dus omgekeerd...

8 8 Stel: steekproefgemiddelde is 8.8. Uitspraak: we zijn 95% zeker dat populatiegemidelde ligt tussen 8.8±0.3, dus tussen 8.5 en 9.1 Gevonden dankzij: marge van steekproefgemiddelde rond populatiegemiddelde waarin 95% van steekproefgemiddelden valt Het populatiegemiddelde ligt maar in 5% van de steekproeven meer dan 0.3 af van het steekproefgemiddelde

9 9 Dus nodig: marge van steekproefgemiddelde rond populatie- gemiddelde waarin 95% van steekproefgem n valt Te verkregen via herhaald stkprftrekken uit populatie Maar: 1000 maal een (n=50) steekproef trekken?? Praktijk: 1 (n=50) steekproef!!! Idee: gebruik alleen huidige steekproef om schatting te krijgen van marges

10 10 Vergelijk... de Baron Munchausen … toen nu … trok zichzelf uit moeras aan de lussen van zijn laarzen (bootstraps)

11 11 Bootstrap-procedure Doel –Verkrijgen van marge van steekproef- gemiddelde rond populatiegemiddelde Nodig –weten wat andere steekproeven voor gemiddelden kunnen opleveren Concrete vraag –wat wordt gemiddelde als score van iedere persoon in huidige steekproef vervangen door score van willekeurig persoon uit populatie? Wat is willekeurig persoon uit populatie?

12 12 Wat is willekeurige persoon? Doet er niet toe: Alleen diens scores nodig! Wat zijn willekeurige scores? scores die voorkomen in steekproef! (realistisch!) sommige scores gangbaarder dan andere!  willekeurige scores: scores die je willekeurig uit eigen steekproef trekt! Bootstrap filosofie:

13 13 Bootstrap aanpak: Steekproef Bootstrap steekproef scorefreq Maak alternatieve steekproef door willekeurig scores uit oorspronkelijke te trekken  frequenties ongeveer zelfde! gem. = 8.98 gem. = freqscore

14 14 Bootstrap aanpak: Herhaal deze procedure vaak (bijv keer): 1. Trek nieuwe steekproef met teruglegging van grootte n uit oorspronkelijke steekproef 2. Bereken gemiddelde “Bootstrap- steekproef” Resultaat: 1000 bootstrapsteekproefgemiddelden Geeft idee van gebruikelijke marge rond steekproef- gemiddelde bij herhaald trekken uit steekproef (als stand-in voor populatie)! We nemen aan dat dit idee geeft van gebruikelijke marge rond populatiegemiddelde!

15 15 Voorbeeld: Gemiddelden van 100 bootstrapsteekproeven:

16 16 Histogram van gemiddelden van 100 bootstrapstkpr n In 95% van bootstrapstkpr n ligt gemiddelde tussen 8.8 en 9.2. bootstrapsteekproefgemiddelde frequentie originele steekproefgemiddelde (8.98) marge (95%) rond originele steekproef- gemiddelde is dus 0.2

17 17 (95%)marge van bootstrapsteekproeven rond originele steekproefgemiddelde is 0.2 Aanname: scoreverdeling in steekproef = scoreverdeling in populatie dus variatie in bootstrapsteekproeven even groot als in steekproeven uit populatie plug-in voor populatie

18 18 Conclusie: “voor plug-in populatie liggen 95% van steekproefgemiddelden binnen marge  0.2 rond plug-in gemiddelde”  “voor echte populatie liggen 95% van steekproefgemiddelden binnen marge  0.2 rond populatiegemiddelde” Slotconclusie: we vonden in steekproef 8.98 in 95% van gevallen wijkt steekproefgemiddelde niet meer dan 0.2 af van populatie-gemiddelde dus zal populatiegemiddelde met 95% zekerheid niet onder 8.78 of boven 9.18 hebben gelegen! 95% betrouwbaarheidsinterval

19 19 95% betrouwbaarheidsinterval (95%bhi): = steekproefgemiddelde ± gevonden marge Wat wordt bedoeld met 95% ?  per steekproef uit populatie: 95% kans stkprfgemiddelde binnen marge rond pop.gem. Praktijk: 100  steekproef uit verschillende popul.  steekproefgemiddelde ca. 95  binnen (telkens andere) marge rond populatiegemiddelde  omgekeerd: populatiegemiddelde ca. 95  binnen 95%bhi  met 95%BHI zit je dus ca. 95  goed (en 5  fout…!)

20 20 Voorbeeld van 100 steekproeven en 95%bhi uit populatie met zelfde gemiddelde Meeste intervallen dekken populatiegemiddelde, maar 6 zitten er naast

21 21 Bootstrap voor allerlei maten Bootstrap-procedure alom toepasbaar: –mediaan, Q 1, trimmed mean, correlatie, regressiegewicht, etc., etc. Aanpak in het algemeen: –trek groot aantal bootstrapsteekproeven (bijv. 1000) uit steekproef –bereken gewenste maat in alle bootstrapstkpr n –bepaal gewenste percentieleninterval (benadering van betrouwbaarheidsinterval) Voor bepaalde maten (efficiëntere) ‘klassieke aanpak’ beschikbaar


Download ppt "1 De bootstrap Een fundamentele inleiding in de inductieve statistiek."

Verwante presentaties


Ads door Google