Beschrijvende en inferentiële statistiek

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

KWALITEITSZORG november 2012
‘SMS’ Studeren met Succes deel 1
HC2MFE Meten van verschillen
Toetsen van verschillen tussen twee of meer groepen
Van tabel naar formule Hoofdstuk 8 Klas 1
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Stijgen en dalen constante stijging toenemende stijging
STAPPENPLAN GRAMMATICUS.
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
INITIATIE DEFINITIESELECTIECONCIPIËREN INBEDDING IN ORGANISATIE ONDERHOUD Opdrachtgever/ Projectleider Eigenaar Architect en zijn team Stakeholders INITIATIEDEFINITIESELECTIECONCIPIËRENINBEDDINGONDERHOUD.
Kb.1 Ik leer op een goede manier optellen en aftrekken
Beschrijvende en inferentiële statistiek
Beschrijvende en inferentiële statistiek
Nooit meer onnodig groen? Luuk Misdom, IT&T
toetsen voor het verband tussen variabelen met gelijk meetniveau
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Elke 7 seconden een nieuw getal
vwo A Samenvatting Hoofdstuk 15
Rekenregels van machten
Lineaire functies Lineaire functie
Regelmaat in getallen … … …
De grafiek van een lineair verband is ALTIJD een rechte lijn.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
1 introductie 3'46” …………… normaal hart hond 1'41” ……..
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Inferentie voor kruistabellen
Oefeningen F-toetsen ANOVA.
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Voorspellende analyse
Voorspellende analyse
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
Populatiegemiddelden: recap
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Ben Bruidegom 1 Sequentiële schakelingen Toestand uitgang bepaald door:  ingangen;  vorige toestand uitgang.
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
Statistiekbegrippen en hoe je ze berekent!!
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
STIMULANS KWALITEITSZORG juni 2014.
Vergelijkingen oplossen
Centrummaten en Boxplot
Hoorcollege 3 Samenhang tussen variabelen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Verbanden JTC’07.
Inleiding in de statistiek voor de gedragswetenschappen
1 Week /03/ is gestart in mineur De voorspellingen van alle groten der aarden dat de beurzen zouden stijgen is omgekeerd uitgedraaid.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
College 9 zHoe gaat het met de afname? zData-invoer zEerste analyses.
Voorspellende analyse
Transcript van de presentatie:

Beschrijvende en inferentiële statistiek College 9 – Anouk den Hamer – Hoofdstuk 12 (12.5 geen tentamenstof)

Vandaag Uitwerking oude tentamenopgaven Overzicht toetsen Regressie R²

Totaal Observed 30 25 70 125 Expected 50 (obs-exp)^2 / exp 8 100 250

Wanneer gebruik je welke toets?

Wanneer je een specifieke waarde verwacht voor de nulhypothese: Bij een proportie: Binomial Test. Hoe in SPSS? Analyze – Nonparametric Tests – Legacy Dialogs – Binomial. Variabele naar test variabele list slepen – test proportion invullen – bij options descriptives aanvinken. Bij een gemiddelde: One Sample T test. Hoe in SPSS? Analyze – Compare Means – One Sample T test. Variabele naar test variabele slepen – test value invullen – bij options hoef je niks te veranderen.

Wanneer je twee groepen wilt vergelijken: Onafhankelijke groepen: Independent T-test. Hoe in SPSS? Analyze – Compare Means – Independent T-test. De variabele die uit de 2 groepen bestaat is je grouping variable. Vul bij define groups de waarden van deze groepen in (vaak 1 en 2). De afhankelijke variabele komt in test variabele. Afhankelijke groepen: Dependent T-test. Hoe in SPSS? Analyze – Compare Means – Paired Samples T-test. Dubbelklik op de variabele van de voormeting en dubbelklik daarbij op de variabele van de nameting.

Wanneer je categorische variabelen wilt vergelijken: Chi-square: Analyze – Descriptive Statistics – Crosstabs. Variabele in row en variabele in colom (maakt niet uit welke waar). Bij statistics chi-square aanvinken. Bij cells observed, expected en adjusted standardized aanvinken.

Wanneer je wilt weten wat de invloed van een of meer continue onafhankelijke variabelen op een continue afhankelijke variabele is: Enkelvoudige regressie: Analyze > Regression > Lineair. Dependent is Y en Independent X. Meervoudige regressie: Analyze > Regression > Lineair. Dependent is Y en bij Independent kun je alle X-en invullen.

Wanneer je wilt weten of een schaal in je vragenlijst betrouwbaar is: Betrouwbaarheidsanalyse: Analyze > Scale > Reliability analysis. Alle items in itemsbox zetten. Bij statistics aanvinken: onder “descriptives for” item, scale en scale if item deleted, en onder “summaries” correlations. Ok.

Bestand te vinden op BB (Course Documents).

Tabellen Tabel A: z-verdeling met z-scores en p-waardes Tabel B: t-verdeling met df’s en kritieke t-waardes Tabel C: chi-square verdeling met df’s en kritieke chi-square waardes Tabel B: Ervan uitgaande dat je toetst bij een significantieniveau van .05: Bij een eenzijdige toets ga je op zoek naar de kritieke t-waarde bij t.05 (want 5% verdeeld over één staart) Bij een tweezijdige toets ga je op zoek naar de kritieke t-waarde bij t.025 (want 5% verdeeld over twee staarten)

X is categorisch: z-toets, t-toetsen, chi-sqaure toets Vandaag: Tot nu toe: X is categorisch: z-toets, t-toetsen, chi-sqaure toets Vandaag: X is continu (of kwantitatief) en Y is continu: regressie X Y

Regressie Met regressie ga je proberen een waarde van Y te voorspellen aan de hand van X Bij regressie zijn X en Y beide kwantitatief! Enkelvoudige regressie: 1 X en 1 Y Meervoudige regressie: meerdere X-en en 1 Y Voorbeeld enkelvoudige regressie: je wilt weten of percentage single parents in een stad (X) verband houdt met de violent crime rate (Y)

Scatterplot

Regressie 1) Je wilt Y dmv X kunnen voorspellen met een formule. 2) Je probeert Y zo goed mogelijk te voorspellen, maar je kunt niet vermijden dat je Y niet helemaal precies voorspelt. 3) We hebben het wederom over de associatie tussen variabelen. 4) De sterkte van de associatie tussen X en Y wordt uitgedrukt door de correlatie. 5) Naast de sterkte van de associatie wil je weten hoe goed X Y voorspelt (met de R-square). 6) We willen weten of onze X een significante invloed heeft op Y.

Regressie 1) Je wilt Y dmv X kunnen voorspellen met een formule.

Regressieformule Formule: a is het intercept en b de slope Intercept (a of α): de waarde van Y als X 0 is Slope (b of β): de helling van de lijn. Dus de hoeveelheid Y die erbij komt als X één waarde omhoog gaat Bij een positieve b is er een positief verband en bij een negatieve b is er een negatief verband

Wat is het intercept? En wat is de slope? Intercept: bij X = 0, Y = 0. Het intercept is dus 0 Slope: bij X = 8 stijgt Y met 1000 (van 0 naar 1000). 1000/8 is 125. De slope is dus 125

Invullen in formule De formule: Dus: Y-hat = 0 + 125x, oftewel gewoon 125x Stel dat een stad een single parent percentage van 10 heeft, hoe hoog is de crime rate dan? 0 + 125*10 = 1250

Intercept verandert α: intercept Als α verandert terwijl b constant blijft resulteert dat in parallelle lijnen.

Slope verandert b: slope. Als b verandert terwijl α constant blijft resulteert dat in geroteerde lijnen.

Regressie 2) Je probeert Y zo goed mogelijk te voorspellen, maar je kunt niet vermijden dat je Y niet helemaal precies voorspelt.

Residuals Probeert zo goed mogelijk te schatting hoe de lijn loopt Je hebt echter altijd predictions errors ,ofwel residuals: de verticale afstand tussen een observatie en de lijn, het verschil tussen de y die je voorspelt met je formule en de geobserveerde y

Regressielijn en residuals Regressielijn met zo klein mogelijke residuals: least squares line Least squares line: lijn met de kleinste sum of squared residuals: sum of squared residuals = …dus de som van de gekwadrateerde residuals Waarom geen least residuals line, maar least squares line? Als je de residuals niet kwadrateert, dan vallen de positieve residuals weg tegen de negatieve residuals. (-3 + 3 = 0, terwijl -32 + 32 = 18)

Model De regressielijn of de formule wordt ook wel een model genoemd Het model kan Y niet exact voorspellen, maar is een benadering van de relatie tussen X en Y

Regressie 3) We hebben het wederom over de associatie tussen variabelen.

Associatie De slope (de b) geeft aan of de associatie positief of negatief is De correlatie geeft de sterkte van de associatie

Regressie 4) De sterkte van de associatie tussen X en Y wordt dus uitgedrukt door de correlatie.

Regressie 5) Naast de sterkte van de associatie wil je weten hoe goed X Y voorspelt (met de R-square).

R-square De correlatie geeft aan hoe sterk het verband is en de R-square geeft aan in hoeverre X in staat is Y te voorspellen. Waarom wil je dat weten? Stel dat de R-square heel laag is, dan weet je dat je ook met andere variabelen rekening moet houden wil je Y goed kunnen voorspellen.

Zo meteen de formule voor de R-square

We zagen net… least squares line

RSS = residual sum of squares RSS = alle groene streepjes kwadrateren en bij elkaar optellen Regressielijn met de voorspelde y

Je wilt weten hoeveel de voorspelde y’s afwijken van de geobserveerde y’s (RSS) En je wilt kunnen verklaren waarom er observaties zijn die afwijken van het gemiddelde van y

Gemiddelde y TSS = total sum of squares TSS = alle groene streepjes kwadrateren en bij elkaar optellen

Nodig voor de formule van de R-square

Formule R² R² = (TSS - RSS)/TSS TSS (total sum of sqaures): hoeveel de geobserveerde y’s afwijken van het gemiddelde van y ( ) RSS (residual sum of squares): hoeveel de geobserveerde y’s afwijken van de voorspelde y ( ) MSS (model sum of squares): TSS-RSS, dus de variantie verklaard door het model

Met de R² wil je weten hoeveel beter de regressielijn (waarbij je rekening houdt met X) Y voorspelt dan wanneer je alleen de gemiddeldelijn van Y had gebruikt. M.a.w.: je wilt weten hoeveel variantie van Y verklaard wordt door X. Stel dat een R² 0.40 is, dan is de error als je de voorspelde Y gebruikt (met X in de formule) 40% kleiner dan de error als je de gemiddelde y gebruikt (dus zonder X). Dus 40% van de variantie in Y wordt voorspeld door X

Theoretisch geeft de R² de reductie in error als je de regressielijn gebruikt ipv de gemiddeldelijn. Praktisch geeft de R² aan hoeveel variantie van Y verklaard wordt door X.

Eigenschappen R² R² ligt tussen 0 en 1 Hoe dichter bij 1, hoe sterker de associatie

Regressie 6) We willen weten of onze X een significante invloed heeft op Y.

Toetsen van regressiecoëfficiënten (de slopes) Als de regressielijn horizontaal loopt, betekent dit dat bij welke waarde van X dan ook, je steeds dezelfde Y vindt. Y hangt dus niet van X af. De regressiecoëfficiënt (of slope of b of ß) is 0. Dus: als de onafhankelijke variabele X effect heeft op de afhankelijke variabele Y, dan verwachten we een regressiecoëfficiënt b die significant afwijkt van nul: positief of negatief. Bij toetsen van slopes toets je of de slope significant van 0 afwijkt

Output (onderste tabel) Intercept (a) = 49.779 (de constante is altijd het intercept) Slope (b) = 6.273 Beta = slope / standaarddeviatie, dus de gestandaardiseerde slope. Als je het standaardiseert, heb je geen last meer van verschillende meeteenheden (belangrijk bij meervoudige regressie).

Output We zien dat de correlatie tussen X en Y .86 is (correlatie wordt met R aangegeven) en de R² = .73, dus 73% van de variantie van Y wordt veklaard door X. Hier is X aantal uren studie en Y tentamencijfer.

   

   

  MSS  

         

           

Output k = aantal x-en R-squared: MSS/TSS = 2318.001/3172.500 = 0.7307 MSS + RSS = TSS, dus 2318+854=3172 df regression + df residual = df total, dus 1+8=9 MSS / df regression = mean square regression, dus 2318 / 1 = 2318 RSS / df residual = mean square residual (ook wel mean square error genoemd), dus 854 / 8 = 106 MSS RSS TSS N – 1 – k, hier was n = 10 n - 1

Mean square regression: gemiddelde per onafhankelijke variabele van Mean square residual: gemiddelde gekwadrateerde residual, dus van F = (mean square regression) / (mean square residual), dus 2318 / 106 = 21.7 F is de gekwadrateerde t-waarde uit de coefficiententabel. Wortel 21.7 = 4.658 De F-test is een andere manier om te zien of X een significante invloed op Y heeft (wat je met de t-statistic ook kon doen) Waarom? Komt in volgend hoofdstuk aan bod.

Conditionele verdeling Conditionele verdeling in regressie: verdeling van y bij specifieke waardes van x. Stel dat x opleiding is en y inkomen, dan kijkt regressie hoe het conditionele gemiddelde van y verandert door opleiding.

Omdat de voorspelde y een schatting is, heb je bij ieder punt van x bij y een conditionele verdeling.

Conditionele standaard deviatie σ Meet hoe ‘ver’ de geobserveerde y van de voorspelde y af ligt. σ weten we niet. Dus gebruiken we: Maar er is nog een standaard deviatie: Dat is de marginale standaard deviatie en die negeert alle waardes van x.

Conditionele en marginale s.d. Conditionele standaard deviatie: variantie van inkomen bij een specifiek aantal jaar van opleiding. Marginale standaard deviatie: variantie van inkomen, los van aantal jaren opleiding.

Conditionele standaard deviatie Slechte titel! = conditionele sd

Conditionele en marginale s.d. Conditionele standaard deviatie: variantie van inkomen bij een specifiek aantal jaar van opleiding. Marginale standaard deviatie: variantie van inkomen, los van aantal jaren opleiding.

Marginale standaard deviatie

Conditionele en marginale s.d. Conditionele standaard deviatie: variantie van inkomen bij een specifiek aantal jaar van opleiding. Marginale standaard deviatie: variantie van inkomen, los van aantal jaren opleiding. s = 15.9 < sy = 20.7 Hoe groter de verhouding tussen s/ sy , hoe sterker de associatie tussen x en y. De conditionele sd is altijd kleiner dan de marginale sd

Inferentie in regressie Assumpties: Random steekproef. Formule: Conditionele verdeling van y voor elke waarde van x is normaal (dus normaal verdeeld, klokvormig). Identieke conditionele standaard deviatie voor elke waarde van x (constante variantie of homoscedasticiteit).

Inferentie in regressie Benoem de hypotheses: H0: β=0 Ηα: β≠0 (of β<0, β>0) Vind de test statistic: Sigma beta = standard error van de slope s = conditionele standaard deviatie

Wat moeten jullie weten van de output? Kijk altijd eerst naar de coefficiententabel. Je moet weten waar je het intercept, de slope, de t-waarde en de p-waarde vindt. Daarnaast moet je weten wat de beta betekent. Daarna de model summarytabel. Hierin moet je de correlatie kunnen vinden, evenals de R-square. Als laatste de ANOVA-tabel. De cijfers onder sum of squares en df moeten jullie begrijpen. De rest (vooralsnog) alleen weten hoe je ze berekent (dus stel dat je bv de TSS niet weet, hoe kan je daar toch achter komen? Idem voor als je bv de F-waarde niet weet).

Huiswerkopdracht Ik ben benieuwd of het aantal minuten dat een student per dag tv kijkt verband houdt met zijn/haar cijfer voor het tentamen van BIS Mijn hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS Gebruik de data van de Georgia Student Survey (zie op BB onder Course Documents). Beschouw CGPA (college GPA) als tentamencijfer BIS. Voer dit in SPSS in, maak een scatterplot en voer een regressie-analyse uit Trek je conclusie omtrent de hypothese

Hoe in SPSS? Scatterplot: Graphs > Legacy Dialogs > Scatter/dot > Simple. Vul X en Y as in. Regressie: Analyze > Regression > Lineair. Dependent is Y en Independent X.