Beschrijvende en inferentiële statistiek

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
HC2MFE Meten van verschillen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Toetsen van verschillen tussen twee of meer groepen
Statistiek II Deel 1.
Van tabel naar formule Hoofdstuk 8 Klas 1
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistiek voor Historici
Haal meer uit je Hersenen masterclass wiskunde
Management en Organisatie
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
P-waarde versus betrouwbaarheidsinterval
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistiek II Hoofdstuk 5: Toetsen voor twee populaties
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
vwo A Samenvatting Hoofdstuk 15
Rekenregels van machten
Hypothese toetsen We hebben de volgende situatie.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Inferentie voor kruistabellen
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Computer Ondersteunde ZELFSTUDIE
Voorspellende analyse
variabelen vaststellen
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Meetonzekerheden In de natuurkunde moet je vaak een grootheid meten
toetsen van waterkwaliteit
Partiële r² Predictie van y gebaseerd op z alleen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Verbanden JTC’07.
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Data-analyse of toch liever steekproeven?
Diagnostische waarde van de anamnese om lumbosacrale wortelcompressie vast te stellen
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Methoden & Technieken van Onderzoek
FOKKE en SUKKE helpen bij het veldwerk. Gebruik van een statistisch pakket SPSS Opslaan en bewerken data –selecteren –wegen –hercoderen –Ontwerpen van.
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Doel: De leerling kan, aan het einde van de les, benoemen hoe blootstelling en interpretatie van invloed zijn op het koopproces van de consument. Ook kan.
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof)

Vandaag Uitwerking huiswerkopdracht Uitwerking oude tentamenvragen Multivariate regressie (of multipele of meervoudige regressie), dus met meerdere X-en en één Y

Huiswerkopdracht Ik ben benieuwd of het aantal minuten dat een student per dag tv kijkt verband houdt met zijn/haar cijfer voor het tentamen van BIS Mijn hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS Gebruik de data van de Georgia Student Survey (zie BB). Beschouw CGPA (college GPA) als tentamencijfer BIS. Voer dit in SPSS in, maak een scatterplot en voer een regressie-analyse uit Trek je conclusie omtrent de hypothese

X is hoeveel minuten een student per dag tv kijkt (watchTV in dataset) Y is cijfer (CGPA in dataset)

Scatterplot

Scatterplot met regressielijn

R-square van 0.125. Dus: 12.5% van de variantie in het tentamencijfer wordt verklaard door hoeveel minuten een student per dag tv kijkt.

Heeft tv kijken ook echt een significante invloed op het tentamencijfer? Regressie-analyse uitvoeren

Alternatieve hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS Nulhypothese: hoeveel een student per dag tv kijkt heeft geen invloed op zijn/haar tentamencijfer voor BIS Eenzijdig of tweezijdig?

We toetsen eenzijdig met onze hypothese, dus de p-waarde is. 006 / 2 = Negatieve slope: hoe meer tv kijken, hoe lager het cijfer

Conclusie Hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS (p < .05)

Vandaag Meervoudige regressie: Meerdere X-en die invloed hebben op Y

Gevoelstemperatuur Gevoelstemperatuur = “De temperatuur ligt rond -5 graden. Omdat de wind flink blijft doorstaan, blijft het ook overdag zeer koud aanvoelen, de gevoelstemperatuur ligt rond -15 graden.” De gevoelstemperatuur wordt berekend uit een combinatie van de luchttemperatuur en de gemiddelde windsnelheid. Bron: www.wikipedia.nl Gevoelstemperatuur = 13,12 + 0,6215·Temperatuur – 11,37·Windsterkte

Formules Bivariate (enkelvoudige) regressie: Multivariate (meervoudige) regressie:

Centrale vraag Hoe kan ik op basis van beperkt aantal observaties uitspraak doen over relatie tussen 1 afhankelijke en meerdere onafhankelijke variabelen in hele populatie?

Ik wil weten welke factoren de prijs van eten in restaurants bepalen Ik wil weten welke factoren de prijs van eten in restaurants bepalen. Eerst onderzoek ik wat de invloed is van service op de prijs.

Causaal model

Betaal je voor service?

Scatterplot

We weten nu dat service een significante invloed heeft op de prijs We weten nu dat service een significante invloed heeft op de prijs. Hoe zit dat met de kwaliteit van het eten en de entourage van het restaurant?

Causaal model

Je maakt eerst een correlatiematrix

Correlatiematrix

Op basis van de correlatiematrix bepaal je of je een bepaalde X weg moet laten We zagen net dat de kwaliteit van het eten geen invloed had op de prijs. De entourage en de service wel. We laten kwaliteit eten dus weg.

Aangepast causaal model

x1 = service x2 = entourage Regressievergelijking = α + β1· x1 + β2· x2

Voorspellingsvergelijking Geeft aan of het intercept significant van 0 afwijkt.

Verklaarde variantie van Y Welk deel van variantie in Y wordt verklaard door X-en?

R2 =8,3%

R2 =14,5%

R2 Daalt nooit na toevoegen extra variabelen Formele interpretatie: De error als je de voorspelde Y gebruikt (met service en entourage in de formule) is 14.5% kleiner dan de error als je de gemiddelde Y gebruikt (dus zonder service en entourage). Praktische intepretatie: Service en entourage verklaren 14.5% van de variantie van prijs.

Gestandaardiseerde coëfficiënten Slopes gedeeld door standaarddeviatie Waarom? Zodat je ze gemakkelijk kunt vergelijken - Welke variabele heeft grootste effect op y?

Is er relatie in de populatie tussen service en prijs?

Hypothesen (service en prijs) Ha: β1 ≠ 0 Toetsingsgrootheid (t-score)

Is er relatie in populatie? p-waarde De kans dat ik in de steekproef zo’n sterk (of nog sterker) verband tussen service en prijs vind, als in de populatie géén verband zou zijn, is 35,6%. Conclusie p > α ↔ 0,356 > 0,05. Verwerp H0 niet. We hebben onvoldoende bewijs dat er in de populatie een verband bestaat tussen de service en de prijs van het restaurant.

Is er relatie in de populatie tussen entourage en prijs?

Is er relatie in populatie? Hypothesen (entourage en prijs) H0: β2 = 0 Ha: β2 ≠ 0 Conclusie: Verwerp H0. We hebben voldoende bewijs dat er in de populatie een verband is tussen de entourage en de prijs van het restaurant (p < .05).

Dus Met meervoudige regressie onderzoek je de invloed van meerdere X-en op Y Je maakt eerst een correlatiematrix Bepaalt obv die matrix welke X-en je meeneemt Je kijkt of de slopes significant zijn Je bekijkt de R-square om te weten hoeveel variantie van Y verklaard wordt door de X-en

Ik wil cyberpestgedrag kunnen verklaren Ik wil cyberpestgedrag kunnen verklaren. Ik ben benieuwd wat de invloed is van leeftijd, gepest worden in de klas en woede.

Correlatiematrix

R = multipele correlatie, dus correlatie van alle x-en gezamelijk met y r = afzonderlijke correlaties, dus afzonderlijke x met y, gecontroleerd voor de andere x (-en)

Regression towards the mean

Vorige keer Beta = slope / standaarddeviatie, dus de gestandaardiseerde slope. Als je het standaardiseert, heb je geen last meer van verschillende meeteenheden (belangrijk bij meervoudige regressie).

Correlatie is hier .855 Als X (uren studie) 1 standaarddeviatie omhoog gaat, gaat Y (cijfer) .855 standaarddeviatie omhoog

Regression towards the mean The predicted y is relatively closer to the mean than x is to its mean (p.601) Wanneer x één sd omhoog gaat, gaat y r sd’s omhoog Regression towards the mean: Y zal de neiging hebben terug te keren naar het gemiddelde

Regression towards the mean voorbeeld StatLabtoets 1 en 2 X = toets 1, Y = toets 2

Cijfer toets 1 voorspelt cijfer toets 2 Jantje had een extreem hoge score bij toets 1: een 9,5 Op toets 2 zal hij volgens de regressieformule een 7.99 halen, wat minder extreem Klaas had een erg lage score bij toets 1: een 2 Op toets 2 zal hij volgens de regressieformule een 3.22 halen, wat minder laag Regression towards the mean: een extreme score zal een volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen

Correlatie bij StatLabtoetsen was .424. Gemiddelde toets 1: 7.8, met sd = 1.50 Gemiddelde toets 2: 7.0, met sd = 2.13 Als iemand 1 sd boven het gemiddelde van toets 1 scoorde (dus een 7.8+1.50=9.30), dan scoorde deze persoon .424 standaarddeviaties in toets 2 hoger (dus 7.0+(0.424*2.13)=7.90). Dus: een extreme score in toets 1 zal bij toets 2 minder extreem zijn

Regression towards the mean in de praktijk Een extreme score zal een volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen.

Hoe in SPSS? Regressie: Analyze > Regression > Lineair. Dependent is Y en bij Independent kun je alle X-en invullen.

College 12 Hoofdstuk 15 Vanaf pagina 745: Reliability analysis using SPSS Door Gerhard van de Bunt