De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden.

Verwante presentaties


Presentatie over: "Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden."— Transcript van de presentatie:

1 Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden

2 Opbouw presentaties Voorbeelden “grote” datasets Visualiseren van de relaties tussen de variabelen d.m.v. een conceptueel model Verborgen variabelen en interacties tussen variabelen Stappenplan om te komen tot een “best passend model” met de voorspellers voor een afhankelijke variabele (Bron: “Applied logistic regression Hosmer & Lemeshow ” )

3 Voorbeelden grote datasets GIS (Geografische Informatiesystemen) vegetatiekaarten, hoogtekaarten locatiegegevens (via zenders) etc. etc. Internet Klimaatgegevens digitaal enquêteren (b.v. via fora) Gedigitaliseerde gegevens van organisaties

4 Voorbeelden “grote” datasets Stichting Hulphond Nederland Welke factoren hebben in welke mate een invloed op de uitval van aspirant hulphonden tijdens het opleidingstraject?

5

6 Voorbeeld “Stichting Hulphond” Het bestand bestond uit 30 kenmerken van 443 honden =30*443=13290 gegevens

7 Oorspronkelijk 29 voorspellers waarvan uiteindelijk 18 gebruikt voor onderzoek. Van 11 voorspellers waren bepaalde klassen ondervertegenwoordigd omdat voor de analyse die gebruikt werd je minstens 30 honden per klasse nodig had. Bijvoorbeeld: 15 van de 443 honden hadden een mannelijke trainer. Dit waren te weinig om het effect van het geslacht van de trainer op uitval te bepalen. Voorbeeld “Stichting Hulphond”

8 Voorbeeld “Blanding’s turtles Invloed van biotische en abiotische factoren op het nest succes van het Blanding’s schildpad (Emydoidea blandingii) Welke biotische en abiotische factoren hebben invloed op het nest succes van het Blanding’s schildpad in Nova Scotia en hoe beïnvloeden ze het nest succes

9 Voorbeeld “Blanding’s turtles Het bestand bestond uit 14 kenmerken van 162 nesten =14*162= 2268 gegevens Time of emergence was defined as the number of days elapsed between the date when the first hatchling emerged (date of first hatchling) and the date when the last hatchling emerged (date of last hatchling). Incubation time for each nest was defined as the number of days elapsed between oviposition (nesting date) and the emergence of the first hatchling (date of first hatchling) (Standing et al., 1999). Kejimkujik National Park (KNP) ; McGowan Lake (ML)

10

11 NoRelationKnownHypothesisLiterature 2b Location  Nesting effort The slate substrate outcrops (inlands), in which many of the turtles nest are apparently difficult for the females to nest in, resulting in increased effort from the female, both in nest duration and number of nest attempts. Nesting effort differs per nesting location with a higher nesting effort of females nesting inlands than at lakeshores. McNeil b Air temperature  biomass hatchling unit The influence of the environment, like air temperature, on the development in embryonic turtles has been shown to affect nesting survival, duration of incubation, sexual differences, and size and composition of hatchlings. There is a significant positive relation between air temperature and body size of hatchlings. Bull and Vogt, 1979; Packard et al., 1980, 1981; Gutzke, Body size F  body size H unit According to a study by Congdon and van Loben Sels in 1990 in Michigan (U.S.A). The linear relationship of hatchling mass (weight) with female parent size (CL) was not significant. They found this result not surprising because the relationship of egg size to body size was weak. They suggest that variation in hatchling size caused by differences in thermal and hydric conditions of natural nests could mask all but the strongest correlations of hatchling size with body size of females. There is a positive linear relation between body size of adult females and body size of hatchlings. Congdon and van Loben Sels, 1990; Packard et al. 1982

12

13 Conceptueel model Via een conceptueel model kun je grafisch weergeven hoe de variabelen onderling samenhangen Zoek literatuur om je verwachtingen te onderbouwen

14 Modelontwikkeling Waarom kun je niet simpel via een enkelvoudige analyse bepalen welke voorspellers (onafhankelijke variabelen) van invloed zijn op de afhankelijke variabele? Verborgen (confounding) variabelen Interactie tussen de onafhankelijke variabelen

15 Verborgen variabelen Via een enkelvoudige analyse heb je bepaald dat mannen significant gemiddeld meer verdienen dan vrouwen. Het blijkt dat de mannen in de steekproef gemiddeld ouder zijn dan de vrouwen Ook geldt dat hoe ouder men is des te meer men verdient. Dan kun je je afvragen of de gevonden relatie tussen geslacht en inkomen niet veroorzaakt wordt door het feit dat de vrouwen in de steekproef gemiddeld jonger zijn.

16 Verborgen variabelen Dus bij het bepalen van de relatie tussen geslacht en inkomen zou leeftijd een verborgen variabele kunnen zijn. Een variabele kan alleen een verborgen variabele zijn als: 1.De variabele van invloed is op de afhankelijke variabele (dus leeftijd moet invloed hebben op inkomen) 2.De verdeling van de verborgen variabele is niet gelijk voor elke waarde van de onafhankelijke variabele (ofwel de verdeling van leeftijd verschilt voor de beide geslachten)

17 Interactie tussen 2 onafhankelijke variabelen Uit enkelvoudige analyses blijkt dat 1.Opleiding heeft een significant invloed op besteed bedrag aan boeken (P <0,001) 2.Geslacht heeft geen invloed op besteed bedrag aan boeken (P=0,194)

18 Interactie tussen 2 onafhankelijke variabelen Wat we hier zien is dat het effect van geslacht op besteed bedrag aan boeken afhangt van de opleiding (bij hoge opgeleiden zien we een groot verschil tussen mannen en vrouwen terwijl dit bij de ander 2 opleidingen niet zo is) Er is dan sprake van een interactie tussen opleiding en geslacht wat betreft het effect op besteed bedrag aan boeken

19 Modelbouw Doelstelling: te komen tot een “best” passend model met voorspellers voor de afhankelijke variabele binnen de wetenschappelijke context van het probleem Men probeert vaak het aantal voorspellers te minimaliseren om zo een numeriek stabiel model te krijgen. Des te meer variabelen je in een model neemt des te meer het model afhangt van de gebruikte data. De verhouding tussen het aantal variabelen en de steekproefgrootte moet dus niet te klein zijn

20 Selectie van variabelen

21 Stappenplan modelselectie “Hosmer & Lemeshow” Stap 1: Voer een enkelvoudige analyse uit voor elke voorspeller. Selecteer de voorspellers die voor het onderzoek belangrijk zijn en alle andere voorspellers (vaak controle variabelen) met een significantie P<0,25 (Bendel en Afifi (1977)) Stap 2: Voer een meervoudige analyse uit met alle voorspellers die geselecteerd zijn uit stap 1 (=model1) Verwijder niet-significante controle variabelen (P>0,05) uit het model en voer opnieuw een meervoudige analyse uit met de overgebleven voorspellers (=model2) Vergelijk het effect van elke variabele in model 2 met die van model 1. Indien hier grote verschillen tussen bestaan moet je controleren of eerder verwijderde variabelen teruggeplaatst moeten worden Stap3: Indien je verwacht dat het effect van een voorspeller op de afhankelijke variabele afhangt van een andere voorspeller voeg dan deze interactie aan het model toe en bepaal de significantie. Doe dit voor elke interactieterm apart. Alleen interactietermen die biologisch belangrijk zijn en die een P<0,1 hebben toevoegen aan het eindmodel.

22 Voorbeeld stappenplan In hoeverre hangt het geboortegewicht van een baby af van de levensstijl van de moeder? levensstijl : wel/niet roken; wel/geen alcoholgebruik controlevariabelen: kenmerken baby: geslacht; eerstgeboren (ja/nee); kenmerken moeder : lengte; gewicht; leeftijd; opleidingsniveau; stad (Groningen/Rotterdam)

23 Voorbeeld stappenplan

24 Variabelewaardenmeetschaaltype variable GLM birth weight (gr) ratioAfhankelijke variabele age mother (yr) ratiocovariaat length mother (cm) ratiocovariaat weight mother (kg) ratiocovariaat education level mother1 Mavoordinaalfixed factor smoking mother0=No 1=Yesnominaalfixed factor use of alcohol mother0=No 1=Yesnominaalfixed factor sex child0=Boy 1=Girlnominaalfixed factor parity0=First Born 1 Not First Bornnominaalfixed factor city0=Groningen 1=Rotterdamnominaalfixed factor

25 Voorbeeld stappenplan (stap 1) Variabelegebruikte enkelvoudige toetscoëfficiënt (±se)significantie birth weight (gr) age motherenkelvoudige lineaire regressie-2,1±5,7 gr/yr (1)0,714 weight mother (kg)enkelvoudige lineaire regressie10,7±2,0 gr/kg (1)<0,001 length mother (cm)enkelvoudige lineaire regressie14,1±3,6 gr/cm (1)<0,001 education level mothervariantie analyse-96,2±60,5 gr (3) -73,4±58,8 gr (4) 22,9±48,7 gr (5) 0,275 smoking mothert-toets 2 onafh. steekproeven77,4±49,6 gr (2)0,119 use of alcohol mothert-toets 2 onafh. steekproeven-61,1±50,0 gr (2)0,223 sex childt-toets 2 onafh. steekproeven93,3±43,4 gr (2)0,032 parityt-toets 2 onafh. steekproeven-160,9±42,8 gr (2)<0,001 cityt-toets 2 onafh. steekproeven98,4±43,3 gr (2)0,023 1) richtingscoëfficiënt 2) gemiddelde verschil groep=0 en groep=1 3) gemiddeld verschil < MAVO en =MAVO 4) gemiddelde verschil MAVO 5) gemiddelde verschil =MAVO en >MAVO

26 Voorbeeld stappenplan (stap 2)

27

28 Variabelecoëfficiënt (±se) enkelvoudig model sign. (±se) GLM1 sign. age mother-2,1±5,7 gr/yr0,714 - length mother (cm)14,1±3,6 gr/cm<0,0016,7±3,7 gr/cm0,076 weight mother (kg)10,7±2,0 gr/kg<0,0019,5±2,2 gr/kg<0,001 education level mother 0,275 - smoking mother (groep nee – groep ja) 77,4±49,6 gr0,119102,6±47,4 gr0,031 use of alcohol mother (groep nee – groep ja) -61,1±50,0 gr0,223-62,5±48,5 gr0,198 sex child (boy – girl) 93,3±43,4 gr0,032108,2±41,7 gr0,010 Parity (eerstgeborene- niet 1e geborene) -160,9±42,8 gr<0, ,2±41,4 gr0,001 City (groningen-rotterdam) 98,4±43,3 gr0,02366,3±42,6 gr0,120

29 Voorbeeld stappenplan (stap 2)

30 Variabelecoëfficiënt (±se) enkelvoudig model sign. (±se) GLM1 sign. coëfficiënt (±se) GLM2 sign. age mother-2,1±5,7 gr/yr0, length mother (cm)14,1±3,6 gr/cm<0,0016,7±3,7 gr/cm0,076-- weight mother (kg)10,7±2,0 gr/kg<0,0019,5±2,2 gr/kg<0,00111,0±2,0 gr/kg<0,001 education level mother 0, smoking mother (groep nee – groep ja) 77,4±49,6 gr0,119102,6±47,4 gr0,031102,4±47,5gr0,032 use of alcohol mother (groep nee – groep ja) -61,1±50,0 gr0,223-62,5±48,5 gr0,198-88,0 ±47,40,064 sex child (boy – girl) 93,3±43,4 gr0,032108,2±41,7 gr0,010117,0±41,6 gr0,005 Parity (eerstgeborene- niet 1e geborene) -160,9±42,8 gr<0, ,2±41,4 gr0, ,5±41,5 gr0,001 City (groningen-rotterdam) 98,4±43,3 gr0,02366,3±42,6 gr0,120--

31 Voorbeeld stappenplan (stap 3) Interactiesign.R 2 adj alleen hoofdeffecten (GLM2) 0,112 smoking mother*use alcohol0,7900,110 smoking mother* parity0,2550,112 smoking mother* weight mother0,8380,110 smoking mother* sex child 0,7890,110 use alcohol*sex0,9310,110 use alcohol*parity0,3780,111 use alcohol* weight mother0,9950,110 sex child *parity0,5540,110 sex child* weight mother0,8240,110 parity*weight mother0,0230,121

32 Voorbeeld stappenplan (stap 3)

33

34

35 Veel voorkomende problemen multicollineariteit (sterke relaties tussen de voorspellers). Deze zorgt voor hogere waarden van de standaard errors van de coëfficiënten van de voorspellers in het model waardoor deze minder snel significant van nul verschillen. Factoren waarbij bepaalde klassen ondervertegenwoordigd zijn. Covariaten waarbij je niet over het hele bereik waarnemingen hebt. Covariaten die een heel scheve verdeling bezitten. Niet lineaire relaties tussen de voorspeller (covariaat) en de afhankelijke variabele. Afhankelijke waarnemingen of meerdere waarnemingen aan 1 subject Uitbijters (outliers) Niet voldoen aan de eisen van de multivariate techniek (ook vaak het gevolg van bovenstaande problemen)


Download ppt "Grote datasets Henry Kuipers Hogeschool Van Hall Larensteijn Leeuwarden."

Verwante presentaties


Ads door Google