Introductie tot de lineaire regressie

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistische uitspraken over onbekende populatiegemiddelden
WOT statistiek Correlaties CLIN Centre for Linguistics.
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Het belang van een goede steekproef
Statistiek II Deel 1.
Math Candel Universiteit Maastricht. 1.Heldere en haalbare probleemstelling 2.Keuze van het design 3.Keuze van onderzoeks/analyse-eenheid 4.Operationalisatie.
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
Betrouwbaarheidsanalyse van stofbalansen Hella PomariusWaterschap Rivierenland Beleidsafdeling Water Team Wateradvies Carlijn BakDeltares 2 februari 2010.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Correlatietoetsen Toetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen. Vb. afhankelijkheid.
DIAGNOSE Typisch probleem:
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
vwo A Samenvatting Hoofdstuk 15
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Schatter voor covariantie
Eenzijdige Betrouwbaarheidsgrens
Continue kansverdelingen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
variabelen vaststellen
Voorspellende analyse
Populatiegemiddelden: recap
Logistische regressie
Effect modificatie Algemeen principe Bepalen van effect modificatie
Statistiek voor Historici
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Methodologie & Statistiek I Toetsen van twee gemiddelden 6.1.
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
HC2 – Statistiek in vogelvlucht
Nederlands tijdschrift voor Diabetologie
Onderzoeksmethoden en -Technieken
Partiële r² Predictie van y gebaseerd op z alleen
Hoorcollege 3 Samenhang tussen variabelen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
11 NHV-werkgroep Tijdreeksanalyse Discussiemiddag 1 oktober 2015 Paul Baggelaar Belang van ruismodel bij tijdreeksmodellering Icastat.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Wat zegt een steekproef?
Betrouwbaarheidsinterval
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Introductie tot de lineaire regressie Twee gemiddelden Meer gemiddelden Nog meer gemiddelden: Enkelvoudige regressie en correlatie Multiple lineaire regressie

RECAP: twee gemiddelden: t-test

RECAP: twee gemiddelden: t-test

RECAP: twee gemiddelden: t-test

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

Introductie tot de lineaire regressie Inleiding Doel: bestuderen van de relatie tussen twee continue variabelen X en Y statistisch verband: associatie (# causaal verband); positief vs negatief wanneer het doel is te weten of twee variabelen geassocieerd zijn: correlatie onderzoek wanneer het doel is de ene variabele uit de andere te voorspellen: regressie onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek Stap 1: spreidingsdiagramma (scatterplot) Zijn DNA-index en proliferatieindex geassocieerd?

Introductie tot de lineaire regressie Correlatie-onderzoek nummer systolische bloeddruk diastolische bloeddruk lichaamsgewicht 1 122.5 82.5 45 2 125 55 3 75 43 4 110 65 5 137.5 90 44 6 47 7 8 112.5 80 33 9 135 85 41 10 130 60 11 120 39 12 13 67.5 37 14 100 15 105 70 16 102.5 72.5 Gemiddelde 118.6 78 44.6 Stand. Dev. 11.7 7.4 7.5

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek Stap 2: berekenen van een correlatiecoëfficiënt Pearson Spearman Kendall Waarde: -1 tot +1 -1 en +1 geven perfect verband aan Meest gebruikt: Pearson (productmoment-correlatiecoëfficiënt), r Toets en betrouwbaarheidsinterval Populatie correlatiecoëfficiënt:

Introductie tot de lineaire regressie Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie Pearson productmoment-correlatiecoëfficiënt Deel teller en noemer door n-1, dan is waarin SX en SY de steekproefstandaardafwijkingen zijn van X en Y en SXY is de zgn steekproefcovariantie van X en Y

Introductie tot de lineaire regressie Covariantie: gevoelig voor mate van associatie Gemiddelde leeftijd Gemiddelde pols

Introductie tot de lineaire regressie Covariantie: gevoelig voor mate van associatie

Introductie tot de lineaire regressie Pearson productmoment-correlatiecoëfficiënt Test: Nul hypothese: correlatiecoëfficiënt is 0 Betrouwbaarheidsinterval

Introductie tot de lineaire regressie Correlatiematrix

Introductie tot de lineaire regressie Correlatiematrix

Introductie tot de lineaire regressie Drie-dimensioneel:

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek

Introductie tot de lineaire regressie Correlatie-onderzoek Contraindicaties, voorwaarden X en Y: bivariate normaalverdeling Lineariteit Uitbijters

Introductie tot de lineaire regressie Correlatie-onderzoek Voorwaarden niet voldaan Niet parametrische equivalent: SPEARMAN Correlatiecoëfficiënt

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie (simple linear regression) X en Y: spelen verschillende rol Y (afhankelijke variabele) wordt verklaard door X (onafhankelijke variabele) X-en moeten geen aselecte steekproef zijn Er mag evenwel niet geselecteerd worden voor Y. Eerste stap: spreidingsdiagramma Y heeft voor elke waarde van X een kansverdeling met als gemiddelde µ(x) Doel regressie-analyse: het maken van een schatting van µ(x) voor elke waarde van x µ(x) = alfa + beta.x alfa en beta worden geschat (a en b).

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie Stap 1: spreidingsdiagramma (scatterplot)

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie Voor elke observatie is Y e (het residu) verwijderd van de verwachte waarde ei

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie Verwachte waarde van residu (e) = 0 Criterium: ‘kleinste kwadratencriterium’ (least squares) d.w.z. dat de som van de gekwadrateerde geschatte residuen minimaal is: Berekening van de richtingscoëfficient wordt dan: (de covariantie tussen X en Y gedeelt door de steekproefvariantie van X)

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie Relatie correlatie & lineaire regressie Als r nul is, is ook b nul

Introductie tot de lineaire regressie Verklaarde variantie Hoe goed men Y kan voorspellen op basis van gemiddelde: hangt af van variabiliteit Bij gebruik X hangt de variabiliteit af van de variabiliteit van Y voor een gegeven waarde van X r² kan geïnterpreteerd worden als de relatieve reductie van de variabiliteit van Y door gebruik te maken van de regressie van Y op X r² x 100% is het percentage door X ‘verklaarde variantie’

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie Enkelvoudige lineaire regressie Voorwaarden: Lineariteit: de relatie tussen Y en X is lineair (som residuen 0) Gelijke varianties: de standaardafwijking van Y is voor alle waarden van X gelijk (variantie van e constant) Normaliteit: voor elke waarde van X volgt Y een normale verdeling (e normaal) Evaluatie: op basis van spreidingsdiagramma op basis van residuenplot

Multiple lineaire regressie Inleiding: multiple regressie Meerdere onafhankelijke variabelen: Multiple of multivariate regressie ? Voorspellen Y of wegwerken verstoring ? Typeverdeling Y Regressiemodel normaal multiple lineaire regressie dichotoom multiple logistische regressie Poisson Poisson regressie overlevingsduurgegevens Cox proportionele hazard regressie

Multiple lineaire regressie Veronderstelling: Y normaal verdeeld met gemiddelde: Verdeling X-en: geen eisen aselect, select, gestratificeerd… Y is wel aselect getrokken gegeven de waarden van de verschillende X-en Regressiecoëfficiënten: gemiddelde toename van Y bij de toename van één eenheid X. geeft de invloed van X weer, gecorrigeerd voor de andere X-en.

Multiple lineaire regressie Alternatieve formulering: waarbij e een normaal verdeling volgt met als gemiddelde 0 en onbekende standaardafwijking sigma, die niet van de Xi’s afhangt. De regressiecoëfficiënten worden opnieuw geschat door gebruik te maken van het kleinste kwadratencriterium moet minimaal zijn. Schattingen (+ se (p-waarde) en betrouwbaarheidsintervallen): computerprogramma nodig

Multiple lineaire regressie Voorbeeld Medisch onderzoeker heeft in een ontwikkelingsland uit enkele plattelandsdorpen 31 mensen willekeurig geselecteerd. Bij hen werd de systolische bloeddruk, het lichaamsgewicht, de leeftijd en de polsfrequentie gemeten. Aan de hand van een multiple regrssie wordt nagegaan hoe de systolische bloeddruk afhangt van gewicht, leeftijd en polsslag. afhankelijke variabele : Y (systolische bloeddruk in mm Hg) onafhankelijke variabelen : X1 (gewicht in kg) X2 (leeftijd in jaren) X3 (polsfrequentie in slagen/minuut)

Multiple lineaire regressie Analyse: Eerst enkelvoudige regressies Onderlinge correlaties tussen X-en? Multiple lineaire regressie Schatten van de intercept en van de regressiecoëfficiënten kleinste kwadratencriterium computerprogramma nodig standaardfouten voor de coëfficiënten en p-waarde voor toetsing nul-hypothese (regressiecoëfficiënt = 0) Interpretatie cave: causaliteit?

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Analyse: Variantieanalyse tabel afwijking yi t.o.v. gemiddelde y is de regressiecomponent + de residuele component kwadratensommen F-toets R²

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen Prevalentie als een functie van het diagnostisch profiel Prev= 0.04 + 0.25(koorts) + 0.41(inspectie) multiple lineaire regressie

Multiple lineaire regressie Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen Prevalentie als een functie van het diagnostisch profiel Prev= 0.04 + 0.25(koorts) + 0.41(inspectie) + 0.20(inspectie)(koorts) interactieterm

Multiple lineaire regressie Voorbeeld

Multiple lineaire regressie Voorbeeld http://faculty.vassar.edu/lowry/webtext.html