Statistiek Deel 3. Inductieve statistiek 3.1. Studie van het toeval: kansrekenen 3.2. Stochastische variabelen 3.2.1. Kansverdeling 3.2.2. Verwachting en variantie 3.2.3. Wet van de grote aantallen
voorbeeld: Statistische beschrijving van teerling Een teerling X heeft 6 waarden (Xi): {1,2,3,4,5,6} Bij een niet getrukeerde teerling heeft elke waarde een gelijke kans om het resultaat te zijn van een worp !!!
voorbeeld: Statistische beschrijving van kaartspel !!!
3.1. Studie van het toeval: kansrekenen voorgaande: theoretische kansverdelingen vaststellen van theoretische verdelingen op experimentele wijze toevalsexperimenten (random experiments) toevalsverschijnsel: partikuliere uitkomst relatief onzeker maar: bij vele herhalingen: regelmaat demonstratie: ‘wereldrecord’ teerlingwerpen 4.1
Kans intuitieve definitie: relatieve frequentie bij veel herhaalde pogingen theoretische definitie: theoretische (ideale) voorstelling van de relatieve frequenties (oneindig aantal pogingen) wiskundige beschrijving toevalsverschijnselen: kansrekenen 4.1
Relevantie hier ‘kans’ basis van inductie: zoeken naar achterliggende logica of regelmaat van een verschijnsel op basis van ogenschijnlijk willekeurige gevallen toevalssteekproef: waarden van steekproefgrootheden door toeval bepaald ; individuele uitkomsten per steekproef variëren, maar niet louter willekeurig kansrekenen beschrijft dan hoe steekproefgrootheden variëren bij herhaalde steekproeftrekking (als toestand populatie constant) theoretische verdeling steekproefgrootheden bepalen (zonder dat populatiewaarde gekend) !!!
Kansmodellen verzameling van alle mogelijke uitkomsten van een toevalsverschijnsel = uitkomstenruimte S: {..., ..., ..., ..., ...,...} = sample space S Teerling S = {1,2,3,4,5,6} Kaartspel S = {AH,AR,AS,AK, ..., 2H,2R,2S,2K} Enquêtevraag naar geslacht S = {man,vrouw} 4.2
eenzelfde object of geval kan verschillende uitkomstruimtes hebben; bvb.: muntstuk aantal keer munt in 1 worp: S = {0,1} aantal keer munt in 4 worpen: S = {0,1,2,3,4} volgorde kop/munt in 4 worpen: S = {KKKK,KKKM,KKMK,KKMM,...} (16) (...) 4.2
elk element uit S heeft bepaalde theoretische kans maar theoretische kans niet altijd vast te stellen experimentele kans: kansen gedefinieerd in termen van veelvuldig herhalen experimentele wet: naarmate het aantal herhalingen van een toevalsproces toeneemt, zullen de kansen van de elementen van S zich meer en meer stabiliseren bij groot aantal herhalingen: stabiele waarde beschouwd als kans dat element uit S zich voordoet 4.2
Gebeurtenis A Gebeurtenis is verzameling uitkomsten van een toevalsverschijnsel = deelverzameling van uitkomstenruimte S omvat meerdere deelverzamelingen A; bvb.: teerling komt op even getal teerling is 2 of 4 A bestaat dus uit: geen, één of combinatie van mogelijke waarden uit uitkomstenruimte S 4.2
elke gebeurtenis heeft kans P(A) basisregels: 0 P(A) 1 P(S) = 1 voorbeeld: opwerpen muntstuk (theoretische kans): P(M) = 0,5 P(K) = 0,5 teerling (theoretische kans): P(1) = 1/6 P(5) = 1/6 4.2
Rekenregels voor kansen totnogtoe: toekennen kansen aan afzonderlijke gebeurtenissen nu: toekennen kansen aan combinatie van gebeurtenissen rekenregels afhankelijk van soort relatie tussen gebeurtenissen 4.2
Disjuncte gebeurtenissen (OF) gebeurtenissen die geen gemeenschappelijke uitkomst hebben (ofwel A ofwel B): resultaat van een toevalsverschijnsel kan niet tegelijkertijd A en B zijn voorbeeld richting: politieke, communicatie, sociologie uitkomst één teerlingworp eenmalig trekken van kaart uit kaartspel 4.2
rekenregel: optelregel P(A of B) = P(A) + P(B) geldt voor elk aantal disjuncte gebeurtenissen S A B 4.2
voorbeeld !!!
Complement complement A = gebeurtenis dat A zich niet voordoet = AC A en AC per definitie disjunct rekenregel: complementregel: P(AC) = 1 - P(A) voorbeeld: kans op niet trekken van een heer P(niet heer) = 1-P(heer) 1- 4/52 = 48/52 = 12/13 4.2
Onafhankelijkheid (EN) gebeurtenissen A en B komen allebei samen voor in de bijzondere situatie dat de wetenschap dat A gebeurt niets verandert aan de kans dat B gebeurt; vb.: kans dat 2 opeenvolgende worpen met geldstuk munt opleveren S A B 4.2
rekenregel: productregel P(A en B) = P(A) x P(B) voorbeeld: als twee kaarten trekken (met teruglegging): kans dat in twee trekkingen klaverenaas en schoppenaas wordt getrokken = P(klaverenaas) P(schoppenaas) 1/52 * 1/52 = 1/2704 kans op trekken van rood en boer = P(rood) P(boer) 1/2 * 1/13 = 1/26 als twee kaarten trekken (zonder teruglegging): kans dat eerste kaart rood is en de tweede ook rood is = 26/52 * 25/51 4.2 / !!!
3.2. Stochastische variabelen (kansvariabelen) vaak in statistiek: uitkomstenruimte = numerieke uitkomst aantal keer 3 gooien in 5 worpen met teerling aantal keer naar bioscoop in voorbije jaar aantal keer ‘ja’ op vraag in enquête stochastische variabelen definitie: variabele waarvan de waarde een numerieke uitkomst is van een toevalsverschijnsel ook steekproefgrootheden zijn stochastische variabelen 4.3
3.2.1. Kansverdeling notatie: kansvariabelen X, Y, Z uitkomst: xi, yi, zi toekenning van kansen aan waarden van stochastische variabele via kansverdeling 2 alternatieve manieren om kansen toe te kennen aan uitkomsten; afhankelijk van type variabele discrete kansvariabele continue kansvariabele 4.3
Discrete kansvariabelen nemen een eindig aantal waarden aan x1, x2, x3, ..., xk kansmodel X P(X=xi) = pi voor kansen geldt dat 0 pi 1 p1 + p2 + p3 + ... + pk = 1 met kansen kan gerekend worden bvb. P(X in A) = som pi‘s van xi‘s die A vormen 4.3
bijvoorbeeld: kans op trekken leerling met bepaald score op test (op 10), gegeven: P(X 8) = 0,30 + 0,15 = 0,45 kansen kunnen grafisch worden weergegeven: kanshistogram: kans weergegeven door oppervlakte 4.3
speciaal geval: discreet uniform: alle xi zelfde kans 4.3
speciaal geval: discreet gelijkmatig verdeeld bvb. Aantal keer Kruis (K) bij 4 worpen met muntstuk vergelijkbaar met ja/neen vraag in enkelvoudige aselecte steekproef (bvb. ‘man ?’ in populatie met geslachtsratio=1) 4.3
Continue kansvariabelen oneindig aantal mogelijke uitkomsten (mogelijke waarden op X-as) voor elke exacte waarde geldt: pi = 0 Hoe dan bepalen kans dat uitkomst in bvb. interval [3,7] ? sommeren kan niet wel: oppervlakte onder kromme 4.3
continu uniform (bvb. generator toevalsgetallen) uitkomsten uniform gespreid totale hoogte en breedte = 1 kans = oppervlakte (breedte) P(0,3 xi 0,7) = 0,4 P(xi 0,5) = 0,5 P(xi 0,5 of xi 0,8) = 0,7 4.3
meer algemeen kans kan worden beschreven a.d.h.v. een kansdichtheidsfunctie f(x) dichtheidskromme beschrijft de kansverdeling van een continue kansvariabele kansmodel kent kansen toe aan intervallen van uitkomsten totale oppervlakte = 1 p(x) 0 4.3
een concreet voorbeeld: gewicht volwassen Nederlanders gearceerd: kans dat willekeurige Nederlander tussen 75 en 80,5 kg weegt 4.3
berekenen kansen: integraalrekenen gebruik van ideaal-typische (theoretische) kansdichtheidsfuncties: vooral: normaalverdeling N(,) Normaalverdeling slechts één van mogelijke theoretische kansverdeling. Daarnaast bestaan er resem andere verdelingen: uniforme, Bernouilli, binomiaal, multinomiaal, geometrisch, hypergeometrisch, Poisson, exponentieel, ... 4.3
3.2.2. Verwachting en variantie Beschrijving van een kansverdeling beschrijven van kansverdeling via: verwachting variantie 4.4
Verwachting van een kansvariabele gemiddelde van kansverdeling (zwaartepunt) maar met dit verschil: niet elke uitkomst is even waarschijnlijk (heeft zelfde kans) gewogen gemiddelde (gewogen op kansen) eenvoudig voorbeeld: loterij: 1000 nummers; 1 aselect trekken; winnaar: 500€; 1 lot: 1€ rekenk. gemiddelde geen goede samenvatting verwachting = (500€ * 1/1000) + (0€ * 999/1000) = 0,50€ 4.4
algemeen: nog een voorbeeld: gezinsgrootte stel 1000 maal willekeurig 1 gezin trekken gezinsgrootte is kansvariabele verwachting = gemiddelde gezinsgrootte X = 3,146 en wat met continue kansvariabelen ? berekening evenwichtspunt complex bij niet-symmetrische verdelingen theoretische verdelingen 4.4
Regels voor verwachtingen als X en Y stochastische variabelen zijn: X+Y = X + Y bv. aantal kinderen binnen en buiten huwelijk met constante optellen of vermenigvuldigen: a+bX = a + bX 4.4
Variantie van een kansvariabele weging met kans regels voor varianties als X en Y onafhankelijke stochastische varn. zijn: ²X+Y = ²X + ²Y ²X-Y = ²X + ²Y optellen/vermenigvuldigen met constante: ²a+bX = b²²X 4.4
3.2.3. Wet van de grote aantallen verwachting van kansverdeling = gemiddelde bij vele herhaalde trekkingen als vele malen uitkomsten waarnemen van kansvariabele (bvb. steekproeven) en telkens gemiddelde berekenen: gemiddelde benadert de verwachting toevalsschommelingen worden uitgevlakt (‘uitgemiddeld’) bij vele herhalingen (naar analogie met kansen (benaderd door relatieve frequenties)) 4.4
wet van de kleine aantallen: gokkers en zwaarvoeters actief gebruikt in inductieve statistiek maar ook voor gokspelen, verzekeringen, enz. wet van de kleine aantallen: gokkers en zwaarvoeters 4.4
Essentie vorige systematiek van het toeval: bij oneindig aantal herhalingen van toevalsverschijnsel: regelmaat experimentele of theoretische kansverdelingen kansrekenen beschrijft die systematiek en laat toe kansen te berekenen voor combinaties van gebeurtenissen focus op stochastische variabelen: toekennen kansen via kansverdeling; gebruik van theoretische verdelingen; verwachting , variantie ² wet van de grote aantallen: is gemiddelde op de lange duur van vele onafhankelijke waarnemingen !!!