Beschrijvende en inferentiële statistiek

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

KWALITEITSZORG november 2012
Stilstaan bij parkeren Dat houdt ons in beweging
‘SMS’ Studeren met Succes deel 1
Beschrijvende en inferentiële statistiek
Wat was toen het grootste het grootste probleem van de van de FOD?
Paulus' eerste brief aan Korinthe (20) 23 januari 2013 Bodegraven.
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Toepassingen op regressie
STAPPENPLAN GRAMMATICUS.
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Een Concert van het Nederlands Philharmonisch Orkest LES 4 1.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Beschrijvende en inferentiële statistiek
INITIATIE DEFINITIESELECTIECONCIPIËREN INBEDDING IN ORGANISATIE ONDERHOUD Opdrachtgever/ Projectleider Eigenaar Architect en zijn team Stakeholders INITIATIEDEFINITIESELECTIECONCIPIËRENINBEDDINGONDERHOUD.
Kb.1 Ik leer op een goede manier optellen en aftrekken
9 januari 2013 Bodegraven 1. 1Korinthe 11 1 Wordt mijn navolgers, gelijk ook ik Christus navolg. 2.
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
Nooit meer onnodig groen? Luuk Misdom, IT&T
toetsen voor het verband tussen variabelen met gelijk meetniveau
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Elke 7 seconden een nieuw getal
Lineaire functies Lineaire functie
Regelmaat in getallen … … …
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
1 introductie 3'46” …………… normaal hart hond 1'41” ……..
Gegevensverwerving en verwerking
Inferentie voor regressie
Oefeningen F-toetsen ANOVA.
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Voorspellende analyse
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Seminarie 1: Pythagoreïsche drietallen
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
1 © GfK 2012 | Supermarktkengetallen | GFK SUPERMARKTKENGETALLEN ‘Hoe ontwikkelt het aantal kassabonnen zich?’ ‘Wat is de omzet van de supermarkten.
Ben Bruidegom 1 Sequentiële schakelingen Toestand uitgang bepaald door:  ingangen;  vorige toestand uitgang.
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
Help! ‘Niet vorderende ontsluiting’
Liaison dangereuse? Secretarissen en ontvangers over hun onderlinge verhouding en de werking van het managementteam Prof. Dr. Herwig Reynaert Dr. Kristof.
EFS Seminar Discriminatie van pensioen- en beleggingsfondsen
Hoe gaat dit spel te werk?! Klik op het antwoord dat juist is. Klik op de pijl om door te gaan!
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
Op reis naar een dierentuin
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 3.
STIMULANS KWALITEITSZORG juni 2014.
In opdracht van NOC*NSF
Centrummaten en Boxplot
Waar gaat het nou toch om?!
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Openbaar je talent Service public, talent particulier.
23 mei 2013 Bodegraven vanaf hoofdstuk 6: hoofdst.1: de wijsheid van de wereld hoofdst.2: de wijsheid van God hoofdst.3: Gods akker en Gods bouwwerk.
Voorspellende analyse
Transcript van de presentatie:

Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie

Responsiecollege Volgende week dinsdag 19 maart Vragen indienen op forum BB vóór vrijdag 15 maart 17.00 uur

NB formuleblad Formule conditionele standaarddeviatie: Wordt op formuleblad “residu standaard deviatie y” genoemd

Vandaag Uitwerking huiswerkopdracht Vervolg regressie

Oefening multipele regressie In de huiswerkopdracht van college 9 hebben jullie onderzocht of tv kijken invloed heeft op tentamencijfer. Onderzoek of naast tv kijken sporten (in dataset exercising) en aantal uren studeren (studytime) ook invloed heeft (je hebt dus 3 onafhankelijke variabelen en 1 afhankelijke). Voer de regressie uit en trek je conclusie.

Eerst correlatie

We weten nu dat hoe meer een student tv kijkt en hoe meer hij/zij sport, hoe lager zijn/haar tentamencijfer (p < .05). Het aantal uren studeren bleek geen significante invloed op tentamencijfer te hebben. Tv kijken en sporten verklaart 19.8% van het tentamencijfer.

Tot nu toe Enkelvoudige regressie: 1 X en 1 Y Meervoudige regressie: > 1 X-en en 1 Y Y voorspellen dmv X (regressieformule) Residuals Correlatie sterkte verband R-square verklaarde variantie Y door X Wijken slopes significant af van 0?

RSS, TSS, MSS MSS RSS TSS

   

   

   

 

   

           

Correlatie Correlatie: geeft sterkte van het verband tussen X en Y aan Twee manieren om te berekenen: Met de R-square Met de slope en de standaarddeviaties

Correlatie Correlatie berekenen met de R-square: De correlatie wordt uitgedrukt in r. Dus de wortel van R-square is de correlatie:

Correlatie Correlatie berekenen met de slope en de standaarddeviaties van X en Y:

In een andere tabel (door een descriptives te draaien) zie ik een standaarddeviatie van X 1.083 en van Y .650. De slope was .518.

Let op: De correlatie berekenen dmv de standaarddeviaties en de slope kan alleen maar als je 1 X hebt Als je meerdere X-en hebt dan geeft de correlatie het verband tussen al die X-en en Y aan

Theorie achter correlatie

Variantie en covariantie Variantie: gemiddelde gekwadrateerde afstand tot het gemiddelde Covariantie: vergelijkbaar met variantie, maar dan voor 2 variabelen: Covariantie: meet hoeveel afstand tussen de gemiddeldes van 2 variabelen met elkaar te maken heeft.

Covariantie Nadeel: is afhankelijk van meeteenheden. Voor inkomen in euros ipv dollars:

Covariantie and correlatie In plaats van de variantie, gebruiken we de standaard deviatie. In plaats van de covariantie, gebruiken we de correlatie. In ons inkomen (in dollars) en opleiding voorbeeld:

Correlatie Voordeel: is niet afhankelijk van meeteenheden. Eigenschappen: -1 ≤ r ≤ 1. r=1: perfecte positieve correlatie. r=-1: perfecte negatieve correlatie. Grootte van r: sterkte van de associatie. Gebruiken we vooral met interval/continue variabelen.

Correlatie en regressie Correlatie: geen causaal onderscheid tussen X en Y. Regressie: wel een causaal onderscheid tussen X en Y. Relatie tussen correlatie en regressiecoëfficiënt:

Correlatie en regressie In ons voorbeeld: r is ook de gestandaardiseerde coëfficiënt (alleen met 1 X)

Correlatie en regressie 1 b sx sxb=rsy Eén s.d. omhoog in x resulteert in r s.d.’s omhoog in y. Onafhankelijk van meeteenheid! r (in dit geval de gestandardiseerde coefficient): goede maat voor sterkte!

Ter illustratie Inkomen in dollars: Inkomen in euros:

Gestandaardiseerde coëfficiënten (beta’s) Om de sterkte van de associatie te meten. Mogelijk om verschillende coëfficiënten te vergelijken: …van dezelfde variabelen tussen verschillende regressies. Ook als de meeteenheid niet hetzelfde is. …van verschillende variabelen in dezelfde (multivariate) regressie.

Verschil correlatie en regressielijn Onafhankelijk van meeteenheden Geeft sterkte van associatie tussen X en Y aan in één getal Niet mogelijk om Y te voorspellen Geen causale richting tussen X en Y, simpelweg associatie Regressielijn: Afhankelijk van meeteenheden Mogelijk om Y te voorspellen o.b.v. X Geeft richting: je kijkt of X Y voorspelt

Weten nu meer over RSS, TSS, MSS R-square Correlatie

Hebben het nu steeds over beschrijvende statistiek Nu inferentiële statistiek

Betrouwbaarheidsintervallen   Betrouwbaarheidsintervallen Hypothesetests Ha: β > 0 of Ha: β < 0

We willen weten of de slope significant afwijkt van 0 (0 is waarde nulhypothese) Moeten eerst de test statistic (t-waarde) weten.

    Want n – (1 + k)

Kritieke t-waarde bij df=8 met 95% (tweezijdig)?

    Kritieke t = 2.306

   

Betrouwbaarheidsinterval van de slope (95%) b ± t(se) b = .518 Kritieke t-waarde = 2.306 Se = 0.107 Dus: .518 ± 2.306(0.107) We weten met 95% zekerheid dat de slope in de populatie tussen de 0.27 en 0.76 ligt.

Als de 0 in het betrouwbaarheidsinterval van de slope ligt, dan kunnen we de nulhypothese niet verwerpen. Ligt de 0 niet in het betrouwbaarheidsinterval, dan kunnen we de nulhypothese wel verwerpen: de slope wijkt significant af van 0.

    0.391 +- 1.96(0.028) = van 0.336 tot 0.446    

Nu F-toets in ANOVA tabel De F-toets ziet of een van de X-en een significante invloed op Y heeft

         

Mean squares Hoe kleiner de gemiddelde residual sum of squares (ofwel prediction errors) - de afwijkingen die we NIET verklaren met het regressiemodel - ten opzichte van de variatie die het regressiemodel WEL verklaart (de gemiddelde regression sum of squares), hoe beter het regressiemodel variantie y verklaart

De F-toets geeft de verhouding weer tussen het regressiemodel en de residuals.

Hoe hoger de F-waarde, hoe groter de kans dat één van de X-en een significante invloed heeft op Y Zoeken kritieke F-waardes: Tabel D

Df1 Df2

   

Df1 = 1 Df2 = 754 Kritieke F-waarde = 3.84

Kritieke F-waarde = 3.84

F-test en t-test t-test Test of één regressiecoëfficiënt 0 is. H0: β1=0 (of β2=0 of β3=0). F-test Test of ALLE regressiecoëfficiënten 0 zijn. H0: β1=β2=β3=0. Ha: in ieder geval één van β1,β2,β3 is niet nul. F-test toetst of in ieder geval één onafhankelijke variabele enige variantie in de afhankelijke variabele verklaart. t-toets(en) vindt welk coëfficiënt dat doet.

Manieren om significantie X op Y te bepalen T-toets: toets per slope Betrouwbaarheidsinterval van de slopes F-toets: toets alle slopes tegelijk

Meervoudige regressie

Multipele regressie in SPSS            

 

Df1 = 2 Df2 = 100

     

Waarom zoveel output? Zodat je alles snapt als je zelf onderzoek doet

Oefenen

Vraag 1 We voeren een enkelvoudige regressie uit en vinden een model sum of squares (MSS) van 2163 en een total sum of squares (TSS) van 8560. Welke waarde heeft de residual sum of squares (RSS)? MSS + TSS MSS – TSS TSS – MSS Dat weten we niet obv bovenstaande

Output MSS + RSS = TSS, dus 2318 + 854 = 3172 MSS RSS TSS

Vraag 2 We vinden een slope van X1 van .523 en een standaard error van deze slope van .023. Wat is de t-waarde? Slope * se Slope / se Se / slope Se + slope

Vraag 3 Bij een meervoudige regressie vind je een R-square van .745. Wat is de waarde van de correlatie? Onbekend obv bovenstaande R-square * 2 R-square / 2 Wortel R-square

Vraag 4 Een onderzoeker wil weten welke factoren van belang zijn in het bepalen van de huurprijs. Hij onderzoekt de effecten van grootte van de woning, wijk waarin de woning gesitueerd is en hoeveel kamers de woning heeft. Hij vindt een R-square van .31. Dit betekent dat 31% van de variantie in huurprijs bepaald wordt door grootte, wijk en aantal kamers. Waar Niet waar

Vraag 5 Dezelfde onderzoeker vindt voor grootte van de woning een slope van .589, voor wijk een slope van .123 en voor aantal kamers een slope van .988. Welke X heeft de grootste invloed op huurprijs? Grootte van de woning Wijk waarin de woning gesitueerd is Aantal kamers in de woning Dat weet je niet obv bovenstaande

Inferentiële statistiek: overzicht Aantal variabelen Soort variabele(n) SPSS toets 1 Categorisch Binomial Kwantitatief One-sample T test 2 (of meer) Kwantitatief en 2 onafhankelijke groepen Independent-samples T test Kwantitatief en 2 afhankelijke groepen Dependent-samples T test Chi-kwadraat T test en F test (regressie) Betrouwbaarheid schaal Reliability analysis

Morgen betrouwbaarheidsanalyse Toegevoegd hoofdstuk Van de Bunt: reliability analysis