Meervoudige lineaire regressie

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistische uitspraken over onbekende populatiegemiddelden
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Inleiding tot inferentie
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Betrouwbaarheid en Validiteit
Beschrijvende en inferentiële statistiek
P-waarde versus betrouwbaarheidsinterval
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistiek II Hoofdstuk 5: Toetsen voor twee populaties
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
vwo C Samenvatting Hoofdstuk 14
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Twee-factor Variantie-analyse
Inferentie voor regressie
Schatter voor covariantie
Continue kansverdelingen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
variabelen vaststellen
Voorspellende analyse
Populatiegemiddelden: recap
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van proporties 7.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
havo/vwo D Samenvatting Hoofdstuk 4
HC2 – Statistiek in vogelvlucht
De steekproefuitkomsten generaliseren naar de populatie
Partiële r² Predictie van y gebaseerd op z alleen
havo B Samenvatting Hoofdstuk 1
Inleiding in de statistiek voor de gedragswetenschappen
Inleiding in de statistiek voor de gedragswetenschappen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Statistiek: Argumentatiemiddel bij pedagogische vragen
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.
Workshop basismonitoring Belgische offshore windmolenparken Thema 1: natuurlijke variabiliteit & gradiënten N. Vanermen & S. Degraer WINMON Workshop, Oktober.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Wat zegt een steekproef?
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
havo B Samenvatting Hoofdstuk 1
Voorspellende analyse
Transcript van de presentatie:

Meervoudige lineaire regressie Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553

Enkelvoudige lineaire regressie (vorig jaar): 2 kwantitatieve variabelen : X is een verklarende variabele Y is een te verklaren variabele X Y Meervoudige lineaire regressie : Meer dan 2 kwantitatieve variabelen waarbij Meerdere verklarende variabelen X1 X2 Y X3 …

A. Statistisch model voor meervoudige regressie µy = 0 + 1 x bij enkelvoudige µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp bij meervoudige Dit is de populatie-regressievergelijking, op basis van steekproeven schatten

VOORBEELD : voorspellen van succes in 1e kan informatica (y=totale score) op basis van resultaten humaniore wiskunde (x1), natuurwetenschappen (X2) en engels (X3). X1 X2 Y X3 µtotale score = 0 + 1 wiskunde + 2 natuurwet + 3 engels

De  - waarden worden geschat op basis van de steekproef b0, b1, b2, b3, ….., bp Zijn schatters van de parameter 0 , 1 , 2 , 3 , ….., p In dit voorbeeld zijn er voor elke proefpersoon 4 waarden nodig = 4 variabelen (kolommen) per proefpersoon : 3 OV en 1 AV

WAARNEMING = AANPASSING + RESIDU Op basis van kleinste kwadratenmethode de residuen zo klein mogelijk maken RESIDU zijn de afwijkingen, de ruis, voorgesteld door Epsilon () die maken dat de waargenomen waarden niet op een rechte lijn liggen. Residu = waargenomen – voorspelde reactie De afwijkingen i worden verondersteld onafhankelijk te zijn met verwachting 0 en st.dev. 

Ha : j  0 voor tenminste één j H0 : 1 = 2 = 3 = 4 = … p = 0 Dan houden we in µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp enkel µy = 0 over Dat betekent dat de verwachting van y niet varieert met de verschillende xen, geen van de verklarende variabelen x is een voorspeller van y Ha : j  0 voor tenminste één j Dat betekent dat er ten minste één verklarende variabele x bij is, die lineair samenhangt met de te verklaren variabele y

R2 is de meervoudige correlatiecoëfficiënt of de fractie van de variatie in de verklaarde variabele y die verklaard wordt door de verklarende variabelen x1, x2, x3, …, xp in een meervoudige lineaire regressie De wortel R van R2 is de correlatie tussen de waarnemingen y en de voorspelde waarden y (op basis van b0 + b1 x1 + b2 x2 +… )

Uitgewerkt voorbeeld : Voorspellen van totaalscore 1e kan op basis van de scores op wiskunde, wetenschap en engels wiskunde wetenschap engels Totaalscore 6.5 7.8 6.9 4.6 9.3 … 7.2 8.5 5.9 8.9 8.8 6.7 7.3 7.4 8.4

Stap 1 : Descriptive statistiek van afzonderlijke variabelen Gemiddelde, stand.afw., minimum, maximum : zijn er extreme waarden, zijn er uitbijters ??? Niet elke variabele apart moet normaal verdeeld zijn, wel de som

Stap 2 : Relaties tussen elke twee variabelen Spreidingsdiagrammen en correlaties Zeer hoge correlaties tussen OV moeten vermeden worden (wordt hetzelfde niet gemeten ?) Niet significante correlatie tussen OV en AV betekent niet noodzakelijkerwijs dat deze OV geen nuttige (en significante) voorspeller kan zijn van de AV in een meervoudige regressie

Stap 3 : Regressie berekenen via Regression > Linear > dependent en indepent invullen We krijgen een ANOVA tabel, en informatie over de schatting van de parameters De ANOVA tabel geeft een toets van H0 : 1 = 2 = 3 = 4 = … p = 0 Als F-waarde significant is : ten minste één van de drie regressiecoëfficiënten is verschillend van 0 F=19,7 p<0.001

De waarde van R2 betekent het percentage van de waargenomen variatie in y die verklaard wordt door de lineaire regressie = .787 Op basis van de parameter estimates kunnen we de vergelijking weer opstellen : Totaalscore = 3.189 + 0.522wiskunde – 0.121wetenschappen + 0.149 engels

Deze aparte regressiecoëfficiënten worden getoetst met t-waarden Deze aparte regressiecoëfficiënten worden getoetst met t-waarden. Significante t-waarden wijzen op predictoren die significant y voorspellen In het voorbeeld enkel wiskunde die significant voorspelt t=5.01 p<0.001 Twee andere predictoren voorspellen niet, vooral omwille van de hoge intercorrelatie met wiskunde=overlapping van voorspellende waarde MAAR als we wiskunde weg laten : toch voorspellende waarde van engels (p<0.05)

Bij multiple regressie : Voorspellende waarde zeer sterk afhankelijk van welke predictoren Weglaten van één of toevoegen geeft andere waarden voor alle parameters Let op gemeenschappelijke variantie Hoe meer onafhankelijk de OV van elkaar zijn, hoe meer ze elk op zich kunnen voorspellen

Methoden van Multiple Regressie : Enter : alle OV tegelijk in 1 model Foreward : eerst OV met hoogste predictie dan toevoegen die meest Backward : eerst alle OV in model dan weglaten die minst Stepwise : analoog met Foreward maar telkens evaluatie van geheel