Wegen 2016 17 september 2018
De ochtend Inleiding over wegen & designeffecten – Daan Uitenbroek Hoe doe je analyses in complex samples (kruistabellen, gemiddelden, regressieanalyse) – Henriëtte Dijkshoorn Surveys Combineren/trendanalyse – Daan Uitenbroek Vragen –Henriëtte Dijkshoorn & Daan Uitenbroek
Hier de titel van de presentatie 17 september 2018 Wegen en complex samples bekeken 22-04-2013 Daan Uitenbroek, GGD Amsterdam, www.quantitativeskills.com 17 september 2018 GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Gewichten samenstellen, waarom 1) Vanwege de design (design correctie) Uit je GGD regio neem je alle gemeenten In iedere gemeente sample je 3 scholen Dan neem je in iedere school alle klassen En vervolgens sample je drie leerlingen per klas Wij hebben alleen te maken met strata (fixed), niet met clusters (random) 2) Vanwege de response (post-stratificatie correctie) Jongeren responderen minder dan ouderen Mannen minder dan vrouwen Allochtonen minder dan autochtonen GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Gewichten samenstellen, hoe: 1) Inverse insluitkansen Je hebt 10 mensen gesampled in een populatie van 100, dan is de insluitkans 0,1 (10/100) en de inverse insluitkans is dan 1/insluitkans, Is de enige methoden bij heel complexe designs. Is ingewikkeld bij niet zo complexe designs 2) De empirische methode Je vergelijkt de verdeling van groepen in de steekproef met de verdeling van die groepen in de bevolking, en berekend correctiefactoren door het nemen van ratio's. GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Ontwerp Amsterdamsegezondheidsenquête 2012 Leeftijd Totaal Bevolking 19-34 jaar 35-64 jaar 65 jaar of ouder Stadsdeel Centrum 700 600 455 1755 86499 Noord (GGD) 92917 Noord (TNO) 1400 1200 900 3500 Oost 132421 Zuidoost 86057 Zuid 143258 West 143964 Nieuw-West 149397 Wijkaanpakbuurten (per stadsdeel) 500 1000 19.285 GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Het weegmodel dat is toegepast (door CBS in 2012) is: Primaire eenheid (2128) + GGD(28) x Geslacht (2) x Leeftijd (12) + GGD(28) x Burgerlijke staat (4) + Gemeente ingedikt (391) x Burgerlijke staat (2) + Gemeente ingedikt (391) x Geslacht (2) + GGD(28) x Stedelijkheidsgraad (5) + GGD(28) x Huishoudgrootte (5) + GGD(28) x Geslacht (2) x Leeftijd (3) x Burgerlijke staat (2) + GGD(28) x Etniciteit (3)+ GGD(28) x Inkomen(5). GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Het weegmodel dat is toegepast (door CBS 2012 vervolg) is verder: Geslacht (2): man, vrouw Leeftijd (13): 17-18, 19-24, 25-29, 30-34, 35-39, 40-44, 45-49,50- 54, 55-59, 60-64, 65-69, 70-74, 75+ Leeftijd (6): 17-34, 35-49, 50-64, 65-74, 75-84, 85+ Burgerlijke staat (4): gehuwd, gescheiden, verweduwd, nooit gehuwd geweest, Burgerlijke staat (2): gehuwd, niet gehuwd Stedelijkheidsgraad (5): zeer sterk stedelijk, sterk stedelijk, matig stedelijk, weinig stedelijk, niet stedelijk Huishoudgrootte (5): 1, 2, 3, 4, 5 of meer personen Etniciteit (3): autochtoon, westerse allochtoon, niet-westerse allochtoon Inkomen (5): gestandaardiseerd huishoudinkomen opgedeeld in 5 kwintielen. GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Waaraan te denken als je gewichten toepast Je gebruikt maar één set gewichten per analyse Iedere “rij” of “record” dus één persoon heeft dan maar één gewicht Als er meerdere gewichten zijn heeft dit te maken met het feit dat sommige mensen in de ene analyse wel meedoen, maar niet in de andere analyse Grote gewichten zijn altijd groter dan één en kunnen heel groot zijn (voor NL op donderdag 18 april 2013 13:51:27 maximaal 16.788.361) Kleine –proportie- gewichten die we dus liever niet gebruiken zitten rond de één Grote gewichten kunnen min of meer probleemloos worden gebruikt voor subgroep analysen, kleine gewichten niet Een gewicht van nul betekend dat die persoon niet meedoet in de analyse Bij het vergelijken van twee enquêtes (in tijd of plaats) gebruik je de bij die enquête behorende gewichten Bij het combineren van enquêtes uit dezelfde tijd en plaats moet je nieuwe gewichten ontwikkelen GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Wegen in de formules Mean(x)=som(xi)/n Gewogen Mean(x)=som(xi*wi)/som(wi) Gewogen SS=som(sqr(xi-mean(x))*wi) Gewogen Variantie=1/(som(wi)-1)*gewogen SS Etc. etc. GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Design effecten DEFF v^=v*deff; effectieve n^=waargenomen n/deff DEFFT sqrt(DEFF) s.e.^=s.e*defft DEFF >1 meer variantie DEFF<1 minder variantie DEFF altijd >0 Deff wordt veroorzaakt door: Stratificatie 0<1 Clustering >1 Wegen >1 En de combinatie Voor veel statistieken geld: ^C2, ^F, ^t = C2,F,t/Defft GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Monitor Design (bij benadering) wi, range DEFF Zuid Holland Zuid, 2006 Leeftijd 19+, 4% uit 14 gemeenten 1,00-1,00 1,00 Groningen, 2006. Leeftijd 20+, 2% uit 25 gemeenten Groningen, 2002. In de leeftijd 20-64 1% in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. 0,33-1,64 1,14 Amstelland 2002 Leeftijd Gestratificeerd design 0,34-1,63 1,21 Noord Kennemerland, 2006. Omstreeks 480 per gemeente uit 8 gemeenten, 19-65 jaar 0,14-2,97 1,71 Gooi en Vechtstreek, 2004. Omstreeks 1500 per gemeente uit 9 gemeenten, leeftijd 19+ 0,24-3,17 1,72 Hollands Midden, 2005. Omstreeks 500 per gemeente, 13 gemeenten. Leeftijd 19 t/m 64 jaar. 0,42-3,92 1,80 Amsterdam, 2004. Circa 200 per groep uit 20 groepen naar 5 leeftijden en 4 etnische groepen, 18 jaar en ouder 0,04-3,21 1,85 Amsterdam, 2008. Circa 200 uit 56 groepen naar 4 leeftijden en 14 stadsdelen, extra 600 per groep uit 4 leeftijdsgroepen 0,06-7,7/ 0,2-5,0 2,02/ 1,93 Uitenbroek DG. Design, wegen en het designeffect in GGD gezondheidsenquêtes. Tijdschrift voor Gezondheidswetenschappen (TSG). 2009(2): 64-8. GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken SPSS Complex Samples is waarlijk complex Wat kan je doen: Een complexe design stop je in SPSS en die trekt de steekproef, en berekend de insluitkansen Maakt automatisch de gewichten met de inverse insluitkansen Vervolgens hou je rekening met post-stratificatie (de non response) GGD Amsterdam
Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken SPSS Complex Samples gaan we niet complex doen CBS heeft een planfile gestuurd waar we rekening houden met: De gewichten (samengesteld met inverse insluitkansen en poststratificatie) maar behandeld als geheel posstratificatie Let op: gewichten vergroten de variantie! Strata: primaire eenheden (buurten gecombineerd met leeftijd) en leeftijd. Let op: strata verkleinen de variantie! 1 * Officieel CBS. CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan1.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid leeftijdsgroep /ESTIMATOR TYPE=WR. GGD Amsterdam
Surveys Combineren/trendanalyse GET FILE='M:\data\RGI\agm2008.sav'. DATASET NAME DataSet1 WINDOW=FRONT. FILE='M:\data\RGI\agm2012.sav'. DATASET NAME DataSet2 WINDOW=FRONT. FILE='M:\data\RGI\agm2016.sav'. DATASET NAME DataSet3 WINDOW=FRONT. DATASET ACTIVATE DataSet1. Compute verzJaar=2008. Compute Strata=geslacht. DATASET ACTIVATE DataSet2. Compute verzJaar=2012. Compute Strata=geslacht+2. DATASET ACTIVATE DataSet3. Compute verzJaar=2016. Compute Strata=geslacht+10. RENAME VARIABLES (ewCBSGGD = weegfactor1).
Surveys Combineren DATASET ACTIVATE DataSet1. ADD FILES /FILE=* /FILE='DataSet2'. EXECUTE. /FILE='DataSet3'. FREQUENCIES VARIABLES=verzJaar /ORDER=ANALYSIS. SAVE OUTFILE='M:\data\RGI\agm200820122016.sav' /COMPRESSED. verzJaar Frequency Percent Valid Percent Cumulative Percent Valid 2008,00 6511 28,3 2012,00 7615 33,1 61,4 2016,00 8869 38,6 100,0 Total 22995
Surveys analyseren/plan file * Analysis Preparation Wizard. CSPLAN ANALYSIS /PLAN FILE='M:\data\RGI\daansplan.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=Strata /ESTIMATOR TYPE=WR.
Surveys analyseren/crosstabs GET FILE='M:\data\RGI\agm200820122016.sav'. DATASET NAME DataSet1 WINDOW=FRONT. CSTABULATE /PLAN FILE='M:\data\RGI\daansplan.csaplan' /TABLES VARIABLES=AGGWS203 BY verzJaar /CELLS POPSIZE COLPCT /STATISTICS CIN(95) COUNT /MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.
Surveys analyseren/Regressie * Complex Samples General Linear Model. CSGLM AGGWS201 WITH verzJaar /PLAN FILE='M:\data\RGI\daansplan.csaplan' /MODEL verzJaar /INTERCEPT INCLUDE=YES SHOW=YES /STATISTICS PARAMETER SE CINTERVAL TTEST /PRINT SUMMARY VARIABLEINFO SAMPLEINFO /TEST TYPE=F PADJUST=LSD /MISSING CLASSMISSING=EXCLUDE /CRITERIA CILEVEL=95. Parameter Estimatesa Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -2,292 24,251 -49,825 45,242 -,094 21957,000 ,925 verzJaar ,013 ,012 -,010 ,037 1,114 ,265 a. Model: AGGWS201 Body Mass Index = (Intercept) + verzJaar Parameter Estimatesa Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -2,292 24,251 -49,825 45,242 -,094 21957,000 ,925 verzJaar ,013 ,012 -,010 ,037 1,114 ,265 a. Model: AGGWS201 Body Mass Index = (Intercept) + verzJaar Als verzJaar(0,4,8) dan Intercept=24.67;verzJaar=0.013 Als verzJaar(0,1,2) dan Intercept=24.67;verzJaar=0.054
Surveys analyseren/Regressie * Complex Samples General Linear Model. CSGLM AGGWS201 BY geslacht WITH verzJaar lftcat8 /PLAN FILE='M:\data\RGI\daansplan.csaplan' /MODEL geslacht verzJaar lftcat8 /INTERCEPT INCLUDE=YES SHOW=YES /STATISTICS PARAMETER SE CINTERVAL TTEST /PRINT SUMMARY VARIABLEINFO SAMPLEINFO /TEST TYPE=F PADJUST=LSD /MISSING CLASSMISSING=EXCLUDE /CRITERIA CILEVEL=95. Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -16,532 23,587 -62,764 29,701 -,701 21957,000 ,483 [geslacht=1] ,601 ,074 ,456 ,746 8,119 ,000 [geslacht=2] ,000b . verzJaar ,019 ,012 -,004 ,042 1,644 ,100 lftcat8 ,628 ,018 ,593 ,663 35,171 a. Model: AGGWS201 Body Mass Index = (Intercept) + geslacht + verzJaar + lftcat8 b. Set to zero because this parameter is redundant. 0.019/0.013=1.46
Surveys analyseren/crosstabs (in R) #install.packages("foreign") library(foreign) setwd("c:/users/daan/ggd") data<-read.spss("agm200820122016.sav", to.data.frame = TRUE) names(data) install.packages("survey") #library(survey) dstrat <- svydesign(id=~1,strata=~Strata, weights=~weegfactor1, data=data) svyciprop(~I(AGGWS203=="BMI>=30"), dstrat, method="logit") table<-svytable(~AGGWS203+verzJaar, dstrat) table summary(table) prop.table(table,2) 2.5% 97.5% I(AGGWS203=="BMI>=30") 0.111 0.105 0.12 verzJaar AGGWS203 2008 2012 2016 BMI<18,5 0.02756960 0.02577414 0.02541825 18,5=<BMI<20 0.06758334 0.06184161 0.06702521 20=<BMI<25 0.50251900 0.51578342 0.51061529 25=<BMI<30 0.30021364 0.28369539 0.28057149 BMI>=30 0.10211443 0.11290544 0.11636976
Surveys analyseren/Regressie (in R) reg1 <- svyglm(AGGWS201~verzJaar, design=dstrat,family=gaussian(link="identity")) summary(reg1) reg2 <- svyglm(AGGWS201~verzJaar+lftcat8+geslacht, design=dstrat,family=gaussian(link="identity")) summary(reg2) anova(reg1,reg2) table(data$lftcat8) data$lftcat8.2<-factor(data$lftcat8,labels=c(1,2,3,4,5,6,7,8)) data$lftcat8.2<-as.numeric(levels(data$lftcat8.2)[data$lftcat8.2]) #maak een numerieke variabele dstrat <- svydesign(id=~1,strata=~Strata, weights=~weegfactor1, data=data) reg3 <- svyglm(AGGWS201~verzJaar+lftcat8.2+geslacht, design=dstrat,family=gaussian(link="identity")) summary(reg3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.29159 24.25239 -0.094 0.925 verzJaar 0.01342 0.01205 1.114 0.265 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -15.93039 23.59157 -0.675 0.5 verzJaar 0.01927 0.01172 1.644 0.1 lftcat8.2 0.62824 0.01786 35.170 <2e-16 *** geslachtVrouw -0.60116 0.07404 -8.119 4.94e-16
Vragen. Presentatie op: http://www. quantitativeskills. com/ggd/wegen