De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Gegevensverwerving en verwerking Staalname Bibliotheek - aantal stalen/replicaten - grootte staal - apparatuur - beschrijvend - variantie-analyse - correlatie.

Verwante presentaties


Presentatie over: "Gegevensverwerving en verwerking Staalname Bibliotheek - aantal stalen/replicaten - grootte staal - apparatuur - beschrijvend - variantie-analyse - correlatie."— Transcript van de presentatie:

1 Gegevensverwerving en verwerking Staalname Bibliotheek - aantal stalen/replicaten - grootte staal - apparatuur - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Statistiek Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

2 Eenvoudige lineaire regressie Vergelijking van een rechte : Y = a + bX => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN SS Y SSregr. SSres Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0 Dus indien F > F tabel => Regressie is significant R² = -------- SSregr. SS Y R² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

3 Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test - alle variabelen zijn normaal verdeeld - er zijn geen residuele uitbijters => residuele analyse * e is een willekeurige variabele met een constante variantie * e ‘s zijn onderling onafhankelijk * e’s zijn normaal verdeeld. => op zoek naar uitbijters : sterke impact op regressielijn - wanneer e > gemiddelde e waarde ± 3 SD - ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepen plot van residuelen tov ‘deleted residuals’

4 Test van residuelen

5 Voorbeeld : eenvoudige lineaire regressie

6

7 Correlations (regvb1.sta) SALINITYSEDIMENTPH NUTR_ LICHT TEMP POROSITEDIATOMS SALINITY1.000000.052237.100864.369392-.022323-.174269.126697-.644688 SEDIMENT.0522371.000000.150468.375451-.658402-.351110.943332-.182531 PH.100864.1504681.000000-.091243.013030-.130438.259497.053407 NUTR_.369392.375451-.0912431.000000-.760288-.110341.279120-.729264 LICHT-.022323-.658402.013030-.7602881.000000.314903-.560574.520268 TEMP-.174269-.351110-.130438-.110341.3149031.000000-.347578.046892 POROSITE.126697.943332.259497.279120-.560574-.3475781.000000-.198859 DIATOMS-.644688-.182531.053407-.729264.520268.046892-.1988591.000000

8 X as Y as

9 Regression Summary for Dependent Variable: DIATOMS R=.64468754 R²=.41562202 Adjusted R²=.39397839 F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560 St. Err. St. Err. BETA of BETA B of B t(27) p-level Intercpt 32.706042.37457613.77342.000000 SALINITY -.644688.147118-.40048.091389-4.38212.000160 Besluit : 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit. Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting diat. = 32.7 - -0.40048 saliniteit. => model, voorspellingen ????

10 Multiple lineaire regressie Twee of meer (k) onafhankelijke variabelen Vergelijking : Y = a + b 1 X 1 + b 2 X 2 +…….b k X k Licht X 1 temperatuur X 2 nutrienten X k …….. Groei Y OnafhankelijkeAfhankelijke variabelen

11 Y = a + bX a en b zijn parameters of constanten a = waarde van Y als X = 0 ; = snijpunt Y as b = aantal eenheden dat Y verandert als X met één eenheid verandert; = helling of REGRESSIE-COEFFICIENT Y = a + b 1 X 1 + b 2 X 2 +…….b k X k b 1 = verwachte verandering in Y wanneer X 1 met één eenheid verandert terwijl X 2 constant is b 2 =idem voor X 2 met X 1 constant => PARTIËLE REGRESSIE-COËFFICIENTEN

12 Gestandardiseerde partiële regressie-coëfficienten ,  ’s Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar. Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie) ==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele. Y =  1 X 1 +  2 X 2 +…….  k X k  =0

13 Beperkingen - meer data dan onafhankelijke variabelen (10 tot 20 maal) - de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’) Tolerantie-waarde : 1-R² R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen deze variabele met de overige onafhankelijke variabelen. => aanvaardbaar minimum van 0.01 => er is een overlap van 99%

14 Betrouwbaarheid van de schatting : ANOVA : F-test => totale significantie t-test => partiële significantie standard error van de schatting R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening = betere maat voor de variatie verklaard door de regressie dan R²

15 t-test => partiële significantie t-test kan grebruikt worden om na te gaan of b=0 In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart H 0 b=0 t =(geschatte b - verwachte b) / SE b Deze t waarde wordt vergeleken met een getabelleerde t-waarde van een Student’s t distributie met n-2 vrijheidsgraden. Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X geen significante bijdrage van X

16 Selectie van de onafhankelijke variabelen : Stel groot aantal potentiële onafhankelijke variabelen => welke set van onafhankelijke variabelen geeft de beste voorspelling van Y? Diverse strategieën : Voorwaartse selectie => F to enter Achterwaartse selectie => F to remove (al of niet stapsgewijze selectie) Selectie-criteria: t-waarde tolerantie > 0.1 Voorwaarts : => selectie van de beste predictor (grootste F waarde) => vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

17 Voorbeeld : multiple lineaire regressie

18 Regression Summary for Dependent Variable: DIATOMS R=.88777217 R²=.78813943 Adjusted R²=.71751924 F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519 St. Err. St. Err. BETA of BETA B of B t(21) p-level Intercpt22.7833028.83626.79009.438305 SALINITY-.578521.139680-.35938.08677-4.14177.000463 SEDIMENT.619084.364097.00195.001151.70033.103833 PH.074262.1095592.491953.67641.67782.505284 NUTR_-.196053.217156-.12619.13977-.90282.376860 LICHT.595125.238061.15819.063282.49988.020784 TEMP-.175460.116450-.39707.26353-1.50674.146772 POROSITE-.401487.352781-.00005.00005-1.13806.267913 Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress.930.8667132.980811.16026.000008 Residual250.2272111.9156 Total1181.092

19 Regression Summary for Dependent Variable: DIATOMS R=.87965612 R²=.77379490 Adjusted R²=.72461987 F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082 St. Err. St. Err. BETA of BETA B of B t(23) p-level Intercpt38.9446012.819843.03784.005846 NUTR_-.139007.204388-.08947.13155-.68011.503222 SALINITY-.624841.128609-.38815.07989-4.85844.000066 LICHT.621241.233754.16513.062132.65767.014064 SEDIMENT.245783.140607.00077.000441.74802.093800 TEMP-.186670.114585-.42244.25931-1.62909.116915 Voorwaartse selectie Regression Summary for Dependent Variable: DIATOMS R=.81954882 R²=.67166026 Adjusted R²=.64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt23.042452.8099758.20023.000000 SALINITY-.633389.112404-.39346.069825-5.63491.000006 LICHT.506128.112404.13453.0298784.50275.000125 Achterwaartse selectie

20 Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta) R-square column contains R-square of respective variable with all other independent variables Partial Semipart Toleran.R-square Cor. Cor. SALINITY.999502.000498-.741486-.633231 LICHT.999502.000498.661920.506002 PH.989593.010407.194202.111279 NUTR_.297700.702300-.353409-.202506 POROSITE.672713.327287.351319.201309 TEMP.872853.127147-.416310-.238550 SEDIMENT.565097.434903.426678.244491 Tolerantie waarde : 1 – R²

21 Regression Summary for Dependent Variable: DIATOMS R=.81954882 R²=.67166026 Adjusted R²=.64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt23.042452.8099758.20023.000000 SALINITY-.633389.112404-.39346.069825-5.63491.000006 LICHT.506128.112404.13453.0298784.50275.000125 Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress.793.2932396.646426.59314.000001 Residual387.8002614.9154 Total1181.092 Diatom. = 23.04 –0.393sal. -+ 0.134 licht

22 Residuelen normaal verdeeld ?

23 Geen residuele uitbijters ??

24 Besluit : Adjusted R²=.64640336 - 64.6 % van de variatie in aantal diatomeeën wordt verklaard door de combinatie van licht en saliniteit. Diatom. = 23.04 –0.393sal. -+ 0.134 licht -de regressie is significant (totaal F > Ftab en partieel (t-testen) -het belang van beide onafhankelijke variabelen is ongeveer even groot. BETA SALINITY-.633389. LICHT.506128 Gezien aan de assumpties is voldaan=>

25 Bemerkingen : - Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II - stel geen lineaire relatie tussen X en Y => transformatie ( indien intrinsiek lineair ) => andere dan lineaire functie

26


Download ppt "Gegevensverwerving en verwerking Staalname Bibliotheek - aantal stalen/replicaten - grootte staal - apparatuur - beschrijvend - variantie-analyse - correlatie."

Verwante presentaties


Ads door Google