Exponentiële Verdeling Belangrijke en unieke eigenschap: geheugenloosheid. D.w.z. P(X > t | X > s) = P(X > t-s). M.a.w: het feit dat X groter is dan s geeft geen enkele informatie over de restlevensduur. De exponentiële verdeling geeft de verdeling van de ‘tussentijden’ in een Poisson proces aan. Deze verdeling wordt tevens gebruikt om levensduren van niet aan slijtage onderhavige zaken te modelleren.
Simultane Kansdichtheid Simultane kansen, discrete stochasten (joint probability mass function) Marginale kansen, discrete stochasten (marginal probability mass function) Simultane kansdichtheid, continue stochasten (joint probability density function) Marginale kansdichtheid, continue stochasten (marginal probability density function) Onafhankelijkheid (Independence) Covariantie en correlatie (covariance and correlation) Bivariate normale verdeling
Simultane Kansdichtheid, discreet De simultane kansdichtheid van twee discrete stoch-asten X en Y geven we weer met fXY(x,y). Er geldt: Voorbeeld.Vaak wordt een discrete simultane kans-dichtheid m.b.v. een tabel weergegeven. Stel we zijn geinteresseerd in het optreden (0/1) van een defect in de linkerknie en rechterknie van een sporter. Noem L: indicator voor defect linkerknie en R: indicator voor defect rechter knie. De volgende tabel geeft de simultane kansdichtheid weer. Dus: fLR(0,0) = P(L=0,R=0) = 3/4. R L 1 3/4 1/16 1/8
Marginale Kansdichtheid, discreet De marginale kansverdeling van een discrete stochast X kan berekend worden uit de simultane: Je sommeert dus over alle mogelijke uitkomsten van Y. Voorbeeld (vervolg): bereken de kans op een defecte linkerknie. Dus gevraagd: P(L = 0) = fL(0) = 3/4 + 1/16 = 13/16. R L 1 3/4 1/16 1/8
Simultane Kansdichtheid, continu De simultane kansdichtheid van twee continue stoch-asten X en Y geven we weer met fXY(x,y). Er geldt: Voorbeeld. De bevolkingsdichtheid voor een vierkant land van 3 bij 3 km wordt beschreven met de functie fXY(x,y) = (x+y)/27, voor 0 <y <3, 0 < x < 3. We komen een willekeurig persoon uit dat land tegen. Wat is de kans dat deze afkomstig is uit het gebied 0 <y <2, 0 < x < 2?
Marginale Kansdichtheid, continu De marginale kansverdeling van een continue stochast X kan berekend worden uit de simultane: Je integreert dus over alle mogelijke uitkomsten van Y. Voorbeeld (vervolg): Bevolkingsdichtheid. Bereken de kans dat X < 1, m.a.w. de kans dat de aselect gekozen persoon in het westen woont. Er geldt: Dus:
Marginale Kansdichtheid, continu (2) Als je de marginale kansdichtheid eenmaal kent, dan kun je de verwachting van de stochast op de gebruikelijke manier berekenen, dus voor een continue stochast (voor discreet: gebruik som ipv integraal): Voorbeeld (vervolg): Bevolkingsdichtheid. Bereken E(X). Er geldt: Dus:
Onafhankelijkheid De stochasten X en Y zijn onafhankelijk alleen en slechts alleen als voor alle mogelijke waarden x en y: Voorbeeld: defecten aan linker- en rechterknie. Dus niet onafhankelijk. R L 1 3/4 1/16 1/8
Associatie tussen kwantitatieve variabelen Veronderstel: X en Y paarsgewijs waargenomen continue stochastische variabelen in een aselecte steekproef van omvang n na translatie
Associaties tussen kwantitatieve variabelen Covariantie Populatie-correlatiecoëfficiënt Eigenschappen = 1 dan exact lineair verband ( ) = 0 dan geen lineair verband, X en Y ongecorreleerd tussen –1 en 1: als X en Y onafhankelijk zijn dan = 0 (niet noodzakelijk andersom!!!) Om de covariantie of correlatiecoëfficiënt te berekenen, moeten we de simultane kansdichtheid van X en Y kennen, want
Associaties tussen kwantitatieve variabelen, voorbeeld Bevolkingsdichtheid (vervolg). Wat is de correlatie tussen de Oost-West coördinaat (X) en Noord-Zuid coördinaat (Y)? Eerst de covariantie.
Associaties tussen kwantitatieve variabelen, voorbeeld Dan de correlatie:
Bivariate Normale Verdeling Voorbeeld Meet van een aantal personen de lengte van de linkervoet en de rechtervoet. Over het algemeen niet precies aan elkaar gelijk, maar links maat 36 en rechts maat 45 zal wel niet voorkomen. We verwachten positieve correlatie. Als X de linkermaat is, en Y de rechtermaat, dan kunnen we de simultane verdeling van X en Y modelleren met de bivariate normale verdeling: dichtheidsfunctie f met parameters Voor ρ = 0 zijn X en Y onafhankelijk.
Voorbeelden bivariate normale verdeling = 0 = 0.5
Voorbeelden bivariate normale verdeling = 0.5
Van data naar kansverdeling: schatten Doel van schatten. Situatie: data beschikbaar, model (kansdichtheid) bekend, maar parameters niet. Wij richten ons vooral op de normale verdeling. Stap 1. Klopt het model? We zijn geïnteresseerd in kunstwervels. Een 100-tal wervels worden getest op maximale verticale belasting. Omdat er fluctuaties optreden in het productieproces, is dit niet constant. We willen de kansverdeling van X, de maximale verticale belasting, te weten komen. We veronderstellen het model: Alvorens de twee parameters te schatten, moeten we nagaan of de aanname dat de data normaal verdeeld zijn realistisch is. Drie soorten plotjes kunnen ons hierbij helpen: Histogram, Box-plot en Normal probability plot.
Plotjes van de data 100 uitkomsten van ‘Belast’ (maximale belasting) worden opgedeeld in klassen. Klasse 2 is 680 < Belast < 900. Vervolgens worden de klasses uitgezet tegen het aantal in die klasses. Als model juist is moet de histogram qua vorm lijken op de normale kansdichtheid: een klokcurve. Alleen bruikbaar bij veel data!
Plotjes van de data, vervolg Box: loopt van 25% punt (dus 25e waarneming qua grootte, in dit specifieke geval met 100 in totaal) tot 75% punt. Middelste blauwe lijn: mediaan, dit is de middelste waarneming, of het gemiddelde van de middelste twee bij een even aantal. ‘Whiskers’ (uitstekende lijnen): waarnemingen buiten deze lijnen geven uitschieters (outliers) weer. Nu zijn dat er geen. Vooral handig om symmetrie na te gaan. Klokcurve is symmetrisch, dus mediaan moet ong. in het midden van de box liggen
Plotjes van de data, vervolg Percentagepunten van de data (1% punt is kleinste waarde in een data set van honderd, enz.) worden uitgezet tegen theoretische percentages op logaritmische schaal Belangrijkste: Als de punten redelijkerwijs op een rechte lijn liggen dan mag de normale verdeling verondersteld worden.
Eigenschappen van schatters Doel van schatten. Situatie: data beschikbaar, model (kansdichtheid) bekend, maar parameters niet. Wij richten ons vooral op de normale verdeling. De schatter (estimator) voor een onbekende parameter is een functie van de data (d.w.z. kan berekend worden uit de data) die deze parameter schat. Schatter is een stochast voordat je het experiment uitvoert (notatie: grote letter), en is een realisatie nadat je het experiment hebt uitgevoerd (notatie: kleine letter) Een schatter is zuiver als de verwachting van die schatter gelijk is aan de parameter die geschat wordt. Een zuivere schatter is efficiënt als zijn variantie klein is.
Belangrijke schatters Normale verdeling, onbekende parameters: en 2. Dus we weten Xi ~ N(,2). Schatter voor : Schatter voor 2 : Beide schatters zijn zuiver en hebben een minimale variantie.
Schatter voor covariantie Definitie Steekproefcovariantie tussen X en Y: Cov > 0 positieve associatie Cov < 0 negatieve associatie Cov = 0 geen associatie
Schatter voor , steekproefcorrelatiecoëfficiënt r Definitie Correlatiecoëfficiënt R beschrijft de mate van lineaire samenhang tussen twee paarsgewijs waargenomen continue stochastische variabelen X en Y. Bekijk ook: 'Guessing correlations’ en gok zelf correlaties.