Statistiek 2 Hoofdstuk 2: Kansverdelingen en kansberekening Vanhoomissen & Valkeneers, hoofdstuk 2
Previously on Statistiek 2 Onderzoek begint met een onderzoeksvraag. Daaruit wordt afgeleid wat de populatie is (verzameling waarover we een uitspraak willen doen) en wat de onderzoekseenheden zijn (de elementen van die verzameling). Bedoeling van statistiek is om op basis van verzamelde data een onderbouwde beslissing te nemen over verband/verschil. We gebruiken hiervoor steekproeven omdat de hele populatie onderzoeken te omslachtig is. Daarom zijn we nooit 100% zeker over onze beslissing. Dat is niet erg, zo lang we maar de mate van onzekerheid kennen. Om die mate van onzekerheid te bepalen, hebben we kansberekeningen nodig. We willen vooral te weten komen hoe (on)waarschijnlijk het is om de verzamelde data te observeren. Op basis daarvan kunnen we beslissen of een verband/verschil significant is. Statistiek is geen wetenschap op zich. Statistische conclusies zijn pas waardevol als ook aan de randvoorwaarden voldaan is en statistiek niet misbruikt wordt. Hoofdstuk 2: Kansverdelingen en kansberekening
Vandaag Kansverdelingen en kansberekening Om antwoorden te geven op vragen als “Als ik straks op straat een willekeurige jongeling aan de haak sla, hoe groot is dan de kans dat hij groter is dan 1m75 maar kleiner dan 1m95?”
Kansen Kans = waarschijnlijkheid om een bepaalde gebeurtenis te observeren, uitgedrukt met een getal tussen 0 en 1 Hoe waarschijnlijk is het om een “3” te gooien met 1 worp van een dobbelsteen? -> P(3) = 1/6 (of 0.1666) of nog: Hoe waarschijnlijk is het om bij aselecte trekking van “een docent statistiek” de gebeurtenis “niet saai” te observeren? -> P(“niet saai”) = ??? Hoofdstuk 2: Kansverdelingen en kansberekening
Waarom kansen? Waarom kansen nodig in statistiek? Belangrijk doel in statistiek: op basis van steekproefgegevens conclusies trekken over populatie Soorten vragen: Interval-estimatie Hypothesetoetsing Hoofdstuk 2: Kansverdelingen en kansberekening
Waarom kansen? Interval-estimatie Vraag: Wat is het gemiddelde IQ van alle kinderen in het 1e jaar secundair onderwijs die 1 of meerdere jaren blijven zitten zijn in het basisonderwijs? Antwoord op basis van gegevens uit steekproef: “Het gemiddelde IQ van alle kinderen in het 1e jaar SO die 1 of meerdere jaren blijven zitten zijn in het BaO ligt tussen X1 en X2 met 95% zekerheid.” Betekenis: Indien je steeds deze bewering aanhoudt, dan weet je dat je in 5% van de gevallen fout zal zijn OF de kans op een fout is 0.05 -> zegt iets over nauwkeurigheid van de schatting van de populatieparameter op basis van de steekproefgegevens Nodig: Steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) + Kansverdeling Hoofdstuk 2: Kansverdelingen en kansberekening
Waarom kansen? Hypothesetoetsing Hypothese: Het IQ van leerlingen in het 1e jaar SO die 1 of meerdere jaren in het BaO zijn blijven zitten (populatie 1) is gelijk aan het IQ van leerlingen 1e jaar SO die niet zijn blijven zitten (populatie 2). Antwoord op basis van gegevens uit steekproef: “We verwerpen deze hypothese” of “We kunnen deze hypothese niet verwerpen”. Nodig: Steekproefstatistieken (gemiddelde, standaardafwijking, grootte steekproef) + Kansverdeling Waarom kansverdeling nodig? Stel dat we vinden dat IQ in steekproef 1 = 105 en IQ in steekproef 2 = 115 . Hoe groot is de kans om dit verschil te vinden als er in werkelijkheid geen verschil is tussen de twee populatiegemiddelden? -> grote kans: hypothese niet verwerpen -> kleine kans: hypothese verwerpen Hoofdstuk 2: Kansverdelingen en kansberekening
Kansen Relevante begrippen Uitkomst = 1 enkelvoudig resultaat “een 3” bij het gooien met een dobbelsteen “Chad Smith” bij het trekken van een bandlid van RHCP Uitkomstenruimte = verzameling van alle mogelijke enkelvoudige uitkomsten bij dobbelsteen {1,2,3,4,5,6} bij trekking bandlid {Chad Smith, Anthony Kiedis, Flea, Josh Klinghoffer} Hoofdstuk 2: Kansverdelingen en kansberekening
Kansverdeling Kansverdeling = combinatie van uitkomstenruimte met respectievelijke kansen - overzicht van mogelijke waarden van een variabele en bijhorende kansen bij dobbelsteen: uitkomst kans 1 1/6 2 3 4 5 6 Hoofdstuk 2: Kansverdelingen en kansberekening
Kansverdeling variabele = aantal ogen bij werpen van 2 dobbelstenen Hoofdstuk 2: Kansverdelingen en kansberekening
Kansverdeling frequentieverdeling bij geobserveerde waarden Kansverdeling is analoog aan de frequentieverdeling (zie Statistiek 1) verschil: frequentieverdeling bij geobserveerde waarden kansverdeling bij theoretische waarden gemiddelde en standaardafwijking bij kansverdeling niet echt mogelijk wegens geen observaties, maar wél op basis van kansberekening Hoofdstuk 2: Kansverdelingen en kansberekening
Kansverdeling gemiddelde van de kansverdeling : verwachte waarde bv bij het gooien van 1 dobbelsteen: Hoofdstuk 2: Kansverdelingen en kansberekening
Kansverdeling Variantie van een kansverdeling: bv bij het gooien van 1 dobbelsteen: Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Een bijzondere kansverdeling: de steekproevenverdeling van het gemiddelde Stel: We trekken uit een populatie een oneindig aantal steekproeven. Elke steekproef wordt gekenmerkt door een aantal steekproefstatistieken zoals het gemiddelde. We krijgen dus een oneindig aantal steekproefgemiddelden waarvan we een verdeling kunnen opstellen. Steekproevenverdeling van gemiddelde = alle mogelijke waarden van steekproefgemiddelden samen met de kansen op die steekproefgemiddelden Daarna kunnen we dus de kans bepalen op het vinden van een bepaald steekproefgemiddelde. Hoofdstuk 2: Kansverdelingen en kansberekening
populatie steekproef steekproeven- verdeling Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling We trekken een steekproef van n = 2 uit de populatie van getallen 2, 4, 6 Waarden steekproef Gemiddelde van steekproef Kans 2 1/9 4 3 6 5 6 6 X P(X) 2 1/9 3 2/9 4 3/9 5 6 Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Verwachte waarde van steekproevenverdeling = populatiegemiddelde (2 + 4 + 6)/3 = 4 (1/9 x 2) + (2/9 x 3) + (3/9 x 4) + (2/9 x 5) + (1/9 x 6) = 4 -> gemiddelde van de steekproef is een ‘zuivere schatter’ van het gemiddelde van de populatie Schatter: we schatten met behulp van het steekproefgemiddelde het populatiegemiddelde Zuiver: er zullen geen systematische afwijkingen zijn wanneer men kijkt naar het gemiddelde van alle mogelijke steekproeven om de populatiegrootheid te schatten Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Standaardafwijking van steekproevenverdeling = standaardfout van gemiddelde standaardafwijking van populatie steekproefgrootte standaardafwijking van het gemiddelde Standard Error of standaardfout van het gemiddelde standaardafwijking van de steekproef indien niet gekend Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Hoe groter de steekproef, hoe kleiner de standaardfout Gemiddelde lengte van alle 20-jarige mannen = 180cm met een standaardafwijking van 10cm. Bij een steekproef van n = 300 Bij een steekproef van n = 700 Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Vorm van de steekproevenverdeling gemiddelde en standaarddeviatie van deze verdeling zijn bekend dus: als de verdeling normaal verdeeld is, kennen we het volledige verloop maar: is de verdeling normaal verdeeld? Centrale Limiet Theorema (A. De Moivre, 17E) Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Hoe groter de steekproef, hoe meer de normale verdeling benaderd wordt: (vb: gooien van 1 dobbelsteen) Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Vorm van de steekproevenverdeling Als de populatie waaruit men steekproeven trekt normaal verdeeld is, dan is de steekproevenverdeling van het gemiddelde ook normaal verdeeld met een verwachte waarde μ en een standaardafwijking . Als de populatie waaruit men een steekproeven trekt niet normaal verdeeld is, maar de steekproeven zijn groot genoeg (N > 30), dan zal de steekproevenverdeling bij benadering normaal verdeeld zijn met een verwachte waarde μ en een standaardafwijking . (wat als N < 30? zie later) Als σ niet gekend is, mag men σ vervangen door de standaardafwijking van de steekproef als N > 100. Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Wat is er nu zo cool aan de steekproevenverdeling van het gemiddelde? Aangezien: we het gemiddelde van deze verdeling kennen (µ) we de standaardafwijking van de verdeling kennen ( of indien σ niet gekend is en N>100 : ) we weten dat ze normaal verdeeld is (als populatie normaal verdeeld is of als N > 30) kunnen we z-scores berekenen en kansen uit de standaardnormaalverdeling halen! Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling Waarom is die vorm zo belangrijk? kennis over de verdeling van kansen van een bepaalde variabele maakt intervalestimatie en hypothesetoetsing mogelijk. kansvariabelen die passen in theoretische verdeling (model) bieden meer mogelijkheden voor verwerking. veelgebruikt model: normale verdeling (= vaak voorkomende verdeling van kansen in gedragswetenschappen) Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling normale verdelingen verschillen enkel in gemiddelde en standaarddeviatie. De curve is altijd klokvormig en symmetrisch. kans om een waarde te observeren tussen 2 grenzen is gelijk aan de oppervlakte onder de curve totale oppervlakte onder de curve is dus 1 Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling Formule: f (X) = hoogte in curve π = 3.14 e = 2.72 μ = mu = verwachte waarde, gemiddelde van de normale verdeling -> bepaalt de plaats van het midden van de verdeling σ = sigma = standaardafwijking van de verdeling, spreiding van scores -> bepaalt hoe breed of smal de verdeling is (kleine sigma geeft smalle en hoge curve; grote sigma geeft brede en lage curve) Dus: μ en σ bepalen de normaalverdeling er zijn vele soorten normaalverdelingen (naargelang μ en σ ) Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling Verschillende μ , gelijke σ Gelijke μ , verschillende σ Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling Totale oppervlakte onder curve = 1 Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling Kans op een waarde in bepaald gebied = oppervlakte onder curve Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling μ -3σ μ -2σ μ -σ μ μ +σ μ +2σ μ +3σ .3413 .3413 .0228 .0228 .1359 .1359 μ -3σ μ -2σ μ -σ μ μ +σ μ +2σ μ +3σ Hoofdstuk 2: Kansverdelingen en kansberekening
normale verdeling μ -3σ μ -2σ μ -σ μ μ +σ μ +2σ μ +3σ .3413 .3413 .0228 .0228 .1359 .1359 μ -3σ μ -2σ μ -σ μ μ +σ μ +2σ μ +3σ IQ is normaal verdeeld met μ = 100 en σ = 15 ongeveer 68% heeft IQ tussen 85 en 115 ongeveer 95% heeft IQ tussen 70 en 130 ongeveer 2.3% heeft een IQ lager dan 70; ongeveer 2.3% heeft een IQ hoger dan 130 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Eén bepaald type normale verdeling Namelijk met μ = 0 en σ = 1 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Waarom die speciale verdeling? bij normaal verdeelde gegevens -> kans afleiden uit oppervlakte onder de curve oppervlakte berekenen = heel omslachtig -> beter aflezen uit tabel onmogelijk om van elke normale verdeling een tabel op te stellen (oneindige verzameling) => slechts 1 tabel opstellen en elke normale verdeling transformeren naar de verdeling waarvoor de tabel is gemaakt, nl. de standaardnormale verdeling Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Hoe gaat dat in zijn werk? Transformatie van normale verdeling: vorm blijft behouden, maar µ en σ worden resp. 0 en 1. Transformatie = “standaardiseren” = Z-waarden berekenen: De verdeling is dan standaardnormaal en de kansen kunnen afgelezen worden uit de tabel voor de standaardnormale verdeling. Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 112? Stap 1: dus: Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Stap2: kans van waarde 0.8 opzoeken in tabel Z = 0.80 P(z < 0.80) = 0.7881 P(z ≥ 0.80) = 1 – 0.7881 Pr(0.80) = 0.2119 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Andere soorten oefeningen ivm kansberekening: analoog aan berekening van percentages in statistiek 1 (hoofdstuk 6). Voor herhaling: zie slides achteraan. Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling We kunnen nu dus raadsels als deze oplossen: We hebben een normaal verdeelde populatie met μ = 100 en σ = 15. Uit deze populatie trekken we een steekproef van n = 40. Het gemiddelde van de steekpoef is 102 en de standaardafwijking is 14. Hoe groot is de kans op een steekproefgemiddelde van 102 of hoger? Wat is gevraagd? P(X ≥ 102) Is de steekproevenverdeling normaal verdeeld? Ja, want de populatie is normaal verdeeld Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Dus: Stap1: z-score berekenen Stap 2: kans van z-score bepalen via standaardnormale verdeling Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Z = 0.84 P(z ≥ 0.84) = 1 - P(z ≤ 0.84) = 1 - 0.7995 = 0.2005 Hoofdstuk 2: Kansverdelingen en kansberekening
De steekproevenverdeling Dus: P(z ≥ 0.84) = 0.2005 Conclusie: De kans op een gemiddelde van 102 of groter is 0.20 We kunnen dus de kans berekenen op het voorkomen van een bepaald gemiddelde van een steekproef. M.a.w.: we kunnen nagaan of ons steekproefgemiddelde uitzonderlijk is of juist heel acceptabel. En dat is net wat we nodig hebben om hypotheses te toetsen!! Hoofdstuk 2: Kansverdelingen en kansberekening
Samengevat Kansen zijn van groot belang in onderzoek omdat ze ons in staat stellen om te beslissen of een observatie heel uitzonderlijk is of eerder heel gewoon. Om kansen te berekenen maken we gebruik van kansverdelingen: theoretische verdelingen van mogelijke waarden en bijhorende kansen van een variabele. In de psychologie wordt de normale verdeling vaak gebruikt, aangezien veel kenmerken van mensen als normaal verdeeld in de populatie worden beschouwd. Omdat voor elk kenmerk een normale verdeling met een ander gemiddelde en standaarddeviatie geldt, is het onmogelijk om voor elke verdeling de exacte kansen te kennen. Daarom herleiden we die normale verdeling naar een standaardnormale verdeling door z- scores te berekenen. Daarna kunnen we de kansen van de z-scores aflezen uit een tabel. Een specifieke kansverdeling is de steekproevenverdeling van het gemiddelde, waarmee we kunnen uitrekenen hoe groot de kans is om een bepaald gemiddelde te observeren. Hoofdstuk 2: Kansverdelingen en kansberekening
Herhalingsoefeningen: kansen berekenen in de normale verdeling. (zelfstudie – zie statistiek 1)
Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 112? Stap 1: dus: scenario 1 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Stap2: kans van waarde 0.8 opzoeken in tabel Z = 0.80 P(z < 0.80) = 0.7881 P(z ≥ 0.80) = 1 – 0.7881 Pr(0.80) = 0.2119 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ groter of gelijk aan 87? Stap 1: Stap 2: P(z ≥ -0.867)=? scenario 2 -0.867 ? Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Stap2: kans van waarde -0.867 opzoeken in tabel Probleem: tabel bevat enkel kansen voor positieve z-waarden! Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Gelukkig is de standaardnormale verdeling symmetrisch! Dus: P ( z ≤ -0.867) = P ( z ≥ 0.867) En ook: P (z ≥ -0.867) = P ( z ≤ 0.867) P (z ≤ -0.867) P (z ≥ 0.867) Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling En uit de tabel lezen we af: P ( z ≤ 0.867) = 0.8078 = P (z ≥ -0.867) Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ kleiner of gelijk aan 114? Stap 1: Stap 2: P(z ≤ 0.93)=? Lees rechtstreeks af uit de tabel: P(z ≥ 0.93) = 0.8238 scenario 3 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ kleiner of gelijk aan 87? Stap 1: Stap 2: P(z ≤ -0.867)=? Niet af te lezen uit tabel! Maar we weten dat: P(z ≤ -0.867) = P(z ≥ 0.867) Dus: P(z ≤ 0.867) = 0.8078 En P(z ≥ 0.867) = 1 - 0.8078 = 0.1922 scenario 4 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Meer varianten op hetzelfde thema! IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ kleiner of gelijk aan 87 OF groter of gelijk aan 113? Stap 1: OF Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Stap 2: P(z ≥ 0.867) OF P(z ≤ -0.867)= P(z ≥ 0.867) + P(z ≤ -0.867) P(z ≥ 0.867) + P(z ≤ -0.867) = 0.192 + 0.192 = 0.384 => kans op IQ kleiner dan of gelijk aan 87 OF groter dan of gelijk aan 113 is 0.384 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Meer varianten op hetzelfde thema! IQ is normaal verdeeld met μ = 100 en σ = 15. Wat is kans op een IQ tussen 87 en 113? Stap 1: ? Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Stap 2: P( -0.867 ≤ z ≤ 0.867) = P(z ≤ 0.867) - P(z ≤ -0.867) P(z ≤ 0.867) = 0.8078 en P(z ≤ -0.867) = 1 - P(z ≤ 0.867) = 0.1922 Dus: P(z ≤ 0.867) - P(z ≤ -0.867) = 0.8078 – 0.1922 = 0.616 => kans op IQ tussen 87 en 113 is 0.616 Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Algemene werkwijze bij gelijkaardige oefeningen: Bereken de z-scores Noteer in P(z ≥ x)-vorm wat je zoekt Haal uit de tabel wat rechtstreeks kan afgelezen worden Gebruik optelling of aftrekking om kansen af te leiden die niet in de tabel staan => makkelijker als je even de tekening maakt! Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Verdere toepassing van dezelfde techniek: Een normaal verdeelde test heeft een gemiddelde van 100 en een standaardafwijking van 15. Welke score moet men hebben om bij de 5% best scorende mensen te behoren? Wat is gevraagd? Een score x waarvoor P (z ≥ x) = 0.05 Dus: omgekeerde richting: een score zoeken op basis van een kans ipv een kans op basis van een score 0.05 ? Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling In de tabel zien we dat de Z-score die een P van 0.95 heeft gelijk is aan 1.65 Dus: we zoeken een score x waarvan de Z score gelijk is aan 1.65 Remember: x – 100 = 1.65 15 x = (1.65 x 15) + 100 x = 124.7 ~ 125 Antwoord: men moet een score van 125 hebben om bij de 5% best scorende mensen te horen 0.05 ? Hoofdstuk 2: Kansverdelingen en kansberekening
Standaardnormale verdeling Een variabele is normaal verdeeld met een gemiddelde van 70 en een standaardafwijking van 12. Hoeveel % van de mensen scoort hoger dan 58? Wat is gevraagd? P (x ≥ 58) = ? Stap 1: score van 58 omzetten in Z score 58 – 70 = -1 12 Stap 2: P (z ≥ -1) = ? [scenario 2] => 0.8413 of 84% Hoofdstuk 2: Kansverdelingen en kansberekening