Gegevensverwerving en verwerking

Slides:



Advertisements
Verwante presentaties
Beschrijvende en inferentiële statistiek
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
H3 Tweedegraads Verbanden
Vierde bijeenkomst Kleinste kwadraten methode Lineaire regressie
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Beschrijvende en inferentiële statistiek
Introductie tot de lineaire regressie
Toetsen van verschillen tussen twee of meer groepen
-Glucuronidase (GUS)
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Beschrijvende en inferentiële statistiek
Is cosmology a solved problem?. Bepaling van Ω DM met behulp van rotatie krommen.
Beschrijvende en inferentiële statistiek
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
P-waarde versus betrouwbaarheidsinterval
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
toetsen voor het verband tussen variabelen met gelijk meetniveau
Statistiek ?! … Ronald Buyl - BISI.
Jan Talmon Medische Informatica Universiteit Maastricht
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Twee-factor Variantie-analyse
Inferentie voor regressie
Het proefverslag Van de calorimetrie-proef (proef 4) moet een proefverslag worden gemaakt. De studenten die proef 4 hebben gedaan in de week van 29 sept 
Schatter voor covariantie
1212 /n Metingen aan de hoogte van een toren  D  wordt gemeten met onzekerheid S  =0.1 o. Vraag 1: Op welke afstand D moet je gaan staan om H zo nauwkeurig.
Insertie van etheen in BH 3 en NH 3 Doorrekenen van een reactiepad.
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
CSE Vaardigheden.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
variabelen vaststellen
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Populatiegemiddelden: recap
Logistische regressie
Effect modificatie Algemeen principe Bepalen van effect modificatie
Statistiek voor Historici
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.2
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
H1 Experimenteel onderzoek
Tweedegraadsfuncties
toetsen van waterkwaliteit
H4 Differentiëren.
Hoofdstuk 16 Het vermogen van een test
Partiële r² Predictie van y gebaseerd op z alleen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Keuzevak onderzoeksvaardigheden Tijdreeksen. Definitie  Een tijdreeks (historische reeks) is een reeks van cijfers die de ontwikkeling aangeven van een.
Latent class growth analysis als succesvolle methode om subgroepen te identificeren binnen een gewichtsreductie interventie. Bastiaan C. de Vos¹, MD,
Grafische vergelijking meetmethoden
Wat zegt een steekproef?
Gemeenschaps- en systeemecologie (Ba3) Werkcollege Diversiteitsindices
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

Gegevensverwerving en verwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

Y = a + bX SSregr. SSY SSres SSregr. R² = -------- SSY Eenvoudige lineaire regressie Y = a + bX Vergelijking van een rechte : => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN SSregr. SSY SSres Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0 Dus indien F > F tabel => Regressie is significant SSregr. R² = -------- SSY R² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test - alle variabelen zijn normaal verdeeld - er zijn geen residuele uitbijters => residuele analyse * e is een willekeurige variabele met een constante variantie * e ‘s zijn onderling onafhankelijk * e’s zijn normaal verdeeld. => op zoek naar uitbijters : sterke impact op regressielijn - wanneer e > gemiddelde e waarde ± 3 SD - ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepen plot van residuelen tov ‘deleted residuals’

Test van residuelen

Voorbeeld : eenvoudige lineaire regressie

Correlations (regvb1.sta) SALINITY SEDIMENT PH NUTR_ LICHT TEMP POROSITE DIATOMS SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688 SEDIMENT .052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531 PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407 NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264 LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268 TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892 POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859 DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000

Y as X as

Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard Regression Summary for Dependent Variable: DIATOMS R= .64468754 R²= .41562202 Adjusted R²= .39397839 F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560 St. Err. St. Err. BETA of BETA B of B t(27) p-level Intercpt 32.70604 2.374576 13.77342 .000000 SALINITY -.644688 .147118 -.40048 .091389 -4.38212 .000160 Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit. Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????

Y = a + b1X1 + b2X2+…….bkXk Multiple lineaire regressie Twee of meer (k) onafhankelijke variabelen Y = a + b1X1 + b2X2+…….bkXk Vergelijking : Licht X1 temperatuurX2 nutrientenXk…….. Groei Y Onafhankelijke Afhankelijke variabelen

Y = a + bX Y = a + b1X1 + b2X2+…….bkXk a en b zijn parameters of constanten a = waarde van Y als X = 0 ; = snijpunt Y as b = aantal eenheden dat Y verandert als X met één eenheid verandert; = helling of REGRESSIE-COEFFICIENT Y = a + b1X1 + b2X2+…….bkXk b1 = verwachte verandering in Y wanneer X1 met één eenheid verandert terwijl X2 constant is b2 =idem voor X2 met X1 constant => PARTIËLE REGRESSIE-COËFFICIENTEN

Gestandardiseerde partiële regressie-coëfficienten , ’s Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar. Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie) ==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele. =0 Y =  1X1 +  2X2+…….  kXk

- meer data dan onafhankelijke variabelen (10 tot 20 maal) Beperkingen - meer data dan onafhankelijke variabelen (10 tot 20 maal) - de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’) Tolerantie-waarde : 1-R² R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen deze variabele met de overige onafhankelijke variabelen. => aanvaardbaar minimum van 0.01 => er is een overlap van 99%

Betrouwbaarheid van de schatting : ANOVA : F-test => totale significantie t-test => partiële significantie standard error van de schatting R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening = betere maat voor de variatie verklaard door de regressie dan R²

t-test => partiële significantie t-test kan grebruikt worden om na te gaan of b=0 In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart H0 b=0 t =(geschatte b - verwachte b) / SEb Deze t waarde wordt vergeleken met een getabelleerde t-waarde van een Student’s t distributie met n-2 vrijheidsgraden. Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X

Selectie van de onafhankelijke variabelen : Stel groot aantal potentiële onafhankelijke variabelen => welke set van onafhankelijke variabelen geeft de beste voorspelling van Y? Voorwaartse selectie => F to enter Achterwaartse selectie => F to remove (al of niet stapsgewijze selectie) Diverse strategieën : Selectie-criteria: t-waarde tolerantie > 0.1 Voorwaarts : => selectie van de beste predictor (grootste F waarde) => vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

Voorbeeld : multiple lineaire regressie

Regression Summary for Dependent Variable: DIATOMS R= .88777217 R²= .78813943 Adjusted R²= .71751924 F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519 St. Err. St. Err. BETA of BETA B of B t(21) p-level Intercpt 22.78330 28.83626 .79009 .438305 SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463 SEDIMENT .619084 .364097 .00195 .00115 1.70033 .103833 PH .074262 .109559 2.49195 3.67641 .67782 .505284 NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860 LICHT .595125 .238061 .15819 .06328 2.49988 .020784 TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772 POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913 Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 930.866 7 132.9808 11.16026 .000008 Residual 250.227 21 11.9156 Total 1181.092

Achterwaartse selectie Regression Summary for Dependent Variable: DIATOMS R= .87965612 R²= .77379490 Adjusted R²= .72461987 F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082 St. Err. St. Err. BETA of BETA B of B t(23) p-level Intercpt 38.94460 12.81984 3.03784 .005846 NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222 SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066 LICHT .621241 .233754 .16513 .06213 2.65767 .014064 SEDIMENT .245783 .140607 .00077 .00044 1.74802 .093800 TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915 Voorwaartse selectie Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Achterwaartse selectie

Tolerantie waarde : 1 – R² Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta) R-square column contains R-square of respective variable with all other independent variables Partial Semipart Toleran. R-square Cor. Cor. SALINITY .999502 .000498 -.741486 -.633231 LICHT .999502 .000498 .661920 .506002 PH .989593 .010407 .194202 .111279 NUTR_ .297700 .702300 -.353409 -.202506 POROSITE .672713 .327287 .351319 .201309 TEMP .872853 .127147 -.416310 -.238550 SEDIMENT .565097 .434903 .426678 .244491

Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Diatom. = 23.04 –0.393sal. -+ 0.134 licht Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 793.293 2 396.6464 26.59314 .000001 Residual 387.800 26 14.9154 Total 1181.092

Residuelen normaal verdeeld ?

Geen residuele uitbijters ??

Gezien aan de assumpties is voldaan=> Besluit : - 64.6 % van de variatie in aantal diatomeeën wordt verklaard door de combinatie van licht en saliniteit. Adjusted R²= .64640336 de regressie is significant (totaal F > Ftab en partieel (t-testen) Diatom. = 23.04 –0.393sal. -+ 0.134 licht het belang van beide onafhankelijke variabelen is ongeveer even groot. BETA SALINITY-.633389 . LICHT .506128

Bemerkingen : - Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II - stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair) => andere dan lineaire functie