Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistische uitspraken over onbekende populatiegemiddelden
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
H3 Tweedegraads Verbanden
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
N = geschatte aantal M = eerste gemerkte vangst C = totaal tweede vangst R = aantal gemerkte exemplaren in tweede vangst.
Beschrijvende en inferentiële statistiek
vwo A/C Samenvatting Hoofdstuk 2
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
toetsen voor het verband tussen variabelen met gelijk meetniveau
vwo B Samenvatting Hoofdstuk 2
vwo A Samenvatting Hoofdstuk 16
vwo A Samenvatting Hoofdstuk 14
Lineaire functies Lineaire functie
De grafiek van een lineair verband is ALTIJD een rechte lijn.
Formules en de GR Met de GR kun je bijzonderheden van formules te weten komen. Eerst plot je de grafiek. Gebruik eventueel de optie ZoomFit (TI) of Auto.
Lineaire vergelijkingen
Assenstelsels en het plotten van Functies in LOGO
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
variabelen vaststellen
Voorspellende analyse
Statistiek voor Historici
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
havo A Samenvatting Hoofdstuk 3
Experimenteel onderzoek
Tweedegraadsfuncties
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
H4 Differentiëren.
H2 Lineaire Verbanden.
havo B Samenvatting Hoofdstuk 1
Inleiding in de statistiek voor de gedragswetenschappen
Hoorcollege 3 Samenhang tussen variabelen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Inleiding in de statistiek voor de gedragswetenschappen
6 Vaardigheden 6.1 Rekenvaardigheden Rekenen in verhouding
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Hoofdstuk 3 Lineaire formules en vergelijkingen
2. Tweedegraadsfuncties en vergelijking cirkel
De grafiek van een lineair verband is ALTIJD een rechte lijn.
havo B Samenvatting Hoofdstuk 1
Voorspellende analyse
Voorkennis Wiskunde Les 7 Hoofdstuk 2/3: §2.5, 3.1 en 3.2.
Transcript van de presentatie:

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers

Hoofdstuk XI De regressieanalyse guido.valkeneers@lessius.eu

Doelstellingen De student begrijpt de principes van enkelvoudige en meervoudige regressietechniek; De student kan uit een dataset de vergelijking van de regressielijn opstellen; De student kan deze berekeningen via SPSS doen; De student kan de output van SPSS lezen en interpreteren.

Samenhang tussen twee interval variabelen Bestaat er een (lineair) verband? Gebruik de Pearson correlatiecoëfficiënt Hoe kunnen we de Y variabele voorspellen op grond van de X variabele? Gebruik de regressielijn van Y op X.

Lineaire regressie (enkelvoudige) Welke rechte past het best bij een gevonden spreidingsdiagram? Welke rechte lijn biedt een zo goed mogelijke samenvatting van de trend in de puntenwolk? Zoeken de vergelijking van deze rechte, op basis waarvan we op grond van een X waarde de Y waarde kunnen voorspellen

Regressielijn Y = a + bX Waarbij: X = de onafhankelijke (predictor) variabele (horizontale as) Y = de afhankelijke (criterium) variabele (verticale as) a = de constante, die het snijpunt (intercept) met de Y-as vormt b = de hellingscoëfficiënt (slope, of richtingscoëfficiënt)

De regressielijn een eenvoudig voorbeeld: het salaris Maandelijks salaris Jaarlijks inkomen 4.000 48.000 4.500 54.000 5.000 60.000 5.750 69.000 6.000 72.000 6.250 75.000 6.500 78.000 6.700 80.400

SPSS input

SPSS output de correlatie

Teken een scatterplot via SPSS

SPSS aanmaken van een scatterplot Afhankelijke variabele op Y-as Onafhankelijke variabele op X-as

SPSS output: de scatterplot

Een eenvoudig voorbeeld: het salaris Maandelijks salaris Jaarlijks inkomen 4.000 48.000 4.500 54.000 5.000 60.000 5.750 69.000 6.000 72.000 6.250 75.000 6.500 78.000 6.700 80.400 De regressielijn: Y= a + bX Y = 12*X Fouten bij de voorspelling?

Voorbeeld, nu met eindejaarspremie € 1000 Maandelijks salaris Jaarlijks inkomen 4.000 49.000 4.500 55.000 5.000 61.000 5.750 70.000 6.000 73.000 6.250 76.000 6.500 79.000 6.700 82.400 Welk is de r? en de scatterplot? En de regressielijn? Fouten bij de voorspelling?

Enkelvoudige regressielijn Twee vragen: Hoe vinden we de parameters van de regressielijn (Y = a + bX)? Hoe goed kunnen we de Y waarden voorspellen op basis van dit model?

Regressielijn Hoe vinden we deze a en b coëfficiënten? a: dit is de uitslag van Y indien X nul bedraagt; a = Y – bX (intercept) b: dit is de richtingscoëfficiënt; deze is functie van de r en de verhouding tussen de beide SD. b = rYX. SDY/SDX (slope) Deze b geeft aan hoe de Y waarde verandert wanneer de X waarde met één eenheid toeneemt.

Regressielijn Op grond van deze vergelijking kunnen we voor elke score van X een verwachting voor Y formuleren. Y = a + bX Y = 2,4 + 1,31X bv. X = 3, Y = ? Y = 2,4 + 1,31*3 Y = 6,31

Regressielijn De regressielijn voldoet aan het criterium van het kleinste kwadraat. D.w.z. dat de gekwadrateerde afwijking van de verwachte uitslag t.o.v. de feitelijke uitslag minimaal is.

Regressielijn Algemene werkformule van de regressielijn: Y = Y + r XY (Xi – X)*SDY/SDX Vergelijking van de best passende lijn, waarbij de Y waarden zo goed mogelijk geschat kunnen worden op grond van de X waarden. De regressielijn is niet symmetrisch. Hoe goed voldoet dit model om de werkelijkheid te voorspellen?

Waarde van de regressielijn I Hoe goed verklaart het model de werkelijke gegevens? Proportie verklaarde variantie: r2XY Deze determinatiecoëfficiënt geeft de gemeenschappelijk variantie weer. Kan berekend worden via het kwadraat van de r. Voorstelling: r2 Proportie niet-verklaarde variantie: (1- r2XY)

Waarde van de regressielijn II Het verschil tussen de verwachte en de feitelijke score van Y is de schattingsfout. De standaarddeviatie van deze fout is de standaardschattingsfout. Dit komt overeen met de standaarddeviatie van de verschillen tussen de verwachte en feitelijke uitslag.

Standaardschattingsfout In SPSS wordt deze standaardfout aangeduid middels ‘std. error of the estimate’. Deze standaardschattingsfout geeft een indicatie van de (on)nauwkeurigheid van de voorspelling. (omgekeerde) relatie met rXY

Terug naar het voorbeeld van IQ en schoolvorderingen

Dialoogvenster Linear regression

Output regressieanalyse

Output regressieanalyse Welk is de waarde van het model voor de populatie?

Output regressieanalyse SV =16,46 + 0,52*IQ

Uitgaven restaurant en inkomen Wat is het verband tussen het inkomen en de uitgaven aan restaurantbezoek? Hoe zal uitgaven voor restaurantbezoek toenemen in functie van inkomensverandering?

Restaurantuitgaven gegevens Ppn uitg. rest inkomen 1 10 120 2 5 80 3 6 85 4 3 50 5 12 135 6 8 90 7 8 95 Afhankelijke/onafhankelijke variabele?

Is er een lineair verband? Eerste inzicht in de relatie tussen de twee variabelen via de puntenwolk (spreidingsdiagram) Bestaat er een rechtlijnig verband tussen beide variabelen?

Pearson correlatiecoëfficiënt = Covariantie gestandardiseerd Geeft een aanduiding van de sterkte en de richting van het verband tussen twee variabelen. Significantietoets: zie verder inductieve statistiek

Output regressieanalyse Restuit = -2,66 + 0,11*Inkomen

Output regressieanalyse R square is de determinatiecoëfficiënt. Geeft de verhouding aan tussen de verklaarde variantie en de totale variantie.

De regressievergelijking Restaurantuitgaven = -2,66 + 0,11 * Inkomen Bijvoorbeeld: inkomen is 200, welk is dan de restaurantuitgave? -2,66 + 0,11 * 200 = 19,34. En als X = 0 ?

De regressievergelijking Wat is de waarde van deze vergelijking? Dekt het model de werkelijkheid? - 96% van de verschillen in de restaurantuitgaven kunnen verklaard worden door de verschillen in inkomen - De standaardfout van estimatie bedraagt: 0,70. Dwz dat in 2/3 van de gevallen de fout in de voorspelling kleiner zal zijn dan 0,70

Meervoudige regressie In dit geval zijn er meerdere X variabelen, op grond waarvan de Y variabele geschat wordt. Veel gebruikte procedure om aan te geven hoe diverse onafhankelijke variabelen gezamenlijk een invloed uitoefenen op de afhankelijke variabele. Diverse onafhankelijke variabelen worden t.o.v. mekaar uitgespeeld. De afzonderlijke bètacoëfficiënten bieden een inzicht in het impact van elke onafhankelijke variabele, onder constant houding van de overige variabelen. Voorbeeld: Wie is er koopverslaafd?

Nog vragen? Forum van Toledo

Opgaven van het handboek

Statistiek deel I Inleiding in de statistiek Met ondersteuning van SPSS Guido Valkeneers