Wegen 2016 17 september 2018.

Slides:



Advertisements
Verwante presentaties
Informatie over voeding zoeken en bespreken
Advertisements

Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Statistische uitspraken over onbekende populatiegemiddelden
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
HC2MFE Meten van verschillen
Toetsen van verschillen tussen twee of meer groepen
Demografische veranderingen op het platteland
Marktonderzoek als proces
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Cyclische elementen in vragenlijsten
Demografie, human capital, en de vraag naar woningen
Onderzoekersforum CQ-index
Gezondheid en leefstijl in krachtwijken: een verkenning
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
Gebieden als Powerpoint shapes
Beschrijvende en inferentiële statistiek
Jan Talmon Medische Informatica Universiteit Maastricht
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Non-parametrische technieken
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Belgen en diabetes kennis in 2004 en 2008 Wat is er veranderd? Nobody’s Unpredictable.
Statistiek voor Historici
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Deze diapresentatie werd vervaardigd door de Capaciteitsgroep Methodologie en Statistiek. De presentatie mag alleen worden gecopieerd voor eigen gebruik.
Microdatamiddag, 8 november 2007 Representativiteit Fannie Cobben Afdeling Methodologie Voorburg.
Ronnie Slijkhuis Onderzoekersforum CQI The Internet: Valid or Flawed?
WOT statistiek Inleiding
Steekproefonderzoek -- methodologie
Inleiding in de statistiek voor de gedragswetenschappen
Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Baarde en de goede Hoofdstuk 11: Data-analyse
Cursus Regressie-analyse Rijkswaterstaat, 13 februari
Inleiding in de statistiek voor de gedragswetenschappen
Leydi Johana Breuls “In hoeverre speelt de sociale samenstelling van een sportclub een rol in de beslissing van leden om te stoppen?“ 01 Waarom?
Doping gebruik in de algemene bevolking Dike van de Mheen, Tim Schoenmakers.
Care: ZORGEN VOR MORGEN? Gezondheidsstatistieken Centraal Bureau voor de Statistiek Oranjestad, April 2006.
Wat voor inkomen heb je & waar blijft je geld?
Presentatie titel Rotterdam, 00 januari 2007 Draaitabellen in Excel Rotterdam, 6 december 2011 drs. ing. M.M.A. Scheepers Instituut voor Management Opleidingen.
Methoden & Technieken van Onderzoek
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Hagenaars en sport Onderzoek sportdeelname december 2015 Versie.
College 9 zHoe gaat het met de afname? zData-invoer zEerste analyses.
Volwassenen- en ouderenmonitor GGD Gelderland-Zuid Ir. Meta Moerman & drs. ir. Jolanda Terpstra (epidemiologen)
De incidentie-trend van dementie Analyse van Nederlandse eerstelijns data Emma F. van Bussel PhD student en huisarts in opleiding.
Nederlandse Vereniging van Wiskundeleraren Woensdag 8 juni 2016 Lieke Stroucken, coördinatrice CBS in de klas, Centraal Bureau voor de Statistiek, Voorburg;
De ultieme flexicurity tool? Deeltijd-WW Dimitris Pavlopoulos (VU) Katja Chkalova (CBS en UvA)
Hier de titel van de presentatie
Correctiefactoren bij roeiwedstrijden
Prepare for analysis: 2 planfiles maken, 1 per weegfactor
Gezinsomstandigheden, opvoedingsfactoren en sociale en cognitieve competenties van jonge kinderen   Dr. Geert Driessen   Universiteit van Nijmegen, Postbus.
Paper OnderwijsResearchDagen ORD 2008
Wegen en corrigeren voor design effecten in gezondheidsenquêtes
Nieuwe methoden voor de analyse van gezondheidsenquêtes bij GGD’en
Disclosure belangen NHG spreker
Toetsen van verschillen tussen twee of meer groepen
Evaluatie armoedebeleid Amsterdam
Voorspellende analyse
LEER BRIDGE MET BERRY WESTRA DEEL 4
Weging Woningmarktmodule 2018
Transcript van de presentatie:

Wegen 2016 17 september 2018

De ochtend Inleiding over wegen & designeffecten – Daan Uitenbroek Hoe doe je analyses in complex samples (kruistabellen, gemiddelden, regressieanalyse) – Henriëtte Dijkshoorn Surveys Combineren/trendanalyse – Daan Uitenbroek Vragen  –Henriëtte Dijkshoorn & Daan Uitenbroek

Hier de titel van de presentatie 17 september 2018 Wegen en complex samples bekeken 22-04-2013 Daan Uitenbroek, GGD Amsterdam, www.quantitativeskills.com 17 september 2018 GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Gewichten samenstellen, waarom 1) Vanwege de design (design correctie) Uit je GGD regio neem je alle gemeenten In iedere gemeente sample je 3 scholen Dan neem je in iedere school alle klassen En vervolgens sample je drie leerlingen per klas Wij hebben alleen te maken met strata (fixed), niet met clusters (random) 2) Vanwege de response (post-stratificatie correctie) Jongeren responderen minder dan ouderen Mannen minder dan vrouwen Allochtonen minder dan autochtonen GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Gewichten samenstellen, hoe: 1) Inverse insluitkansen Je hebt 10 mensen gesampled in een populatie van 100, dan is de insluitkans 0,1 (10/100) en de inverse insluitkans is dan 1/insluitkans, Is de enige methoden bij heel complexe designs. Is ingewikkeld bij niet zo complexe designs 2) De empirische methode Je vergelijkt de verdeling van groepen in de steekproef met de verdeling van die groepen in de bevolking, en berekend correctiefactoren door het nemen van ratio's. GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Ontwerp Amsterdamsegezondheidsenquête 2012 Leeftijd Totaal Bevolking 19-34 jaar 35-64 jaar 65 jaar of ouder Stadsdeel Centrum 700 600 455 1755 86499 Noord (GGD) 92917 Noord (TNO) 1400 1200 900 3500 Oost 132421 Zuidoost 86057 Zuid 143258 West 143964 Nieuw-West 149397 Wijkaanpakbuurten (per stadsdeel) 500 1000 19.285 GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Het weegmodel dat is toegepast (door CBS in 2012) is: Primaire eenheid (2128) + GGD(28) x Geslacht (2) x Leeftijd (12) + GGD(28) x Burgerlijke staat (4) + Gemeente ingedikt (391) x Burgerlijke staat (2) + Gemeente ingedikt (391) x Geslacht (2) + GGD(28) x Stedelijkheidsgraad (5) + GGD(28) x Huishoudgrootte (5) + GGD(28) x Geslacht (2) x Leeftijd (3) x Burgerlijke staat (2) + GGD(28) x Etniciteit (3)+ GGD(28) x Inkomen(5). GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Het weegmodel dat is toegepast (door CBS 2012 vervolg) is verder: Geslacht (2): man, vrouw Leeftijd (13): 17-18, 19-24, 25-29, 30-34, 35-39, 40-44, 45-49,50- 54, 55-59, 60-64, 65-69, 70-74, 75+ Leeftijd (6): 17-34, 35-49, 50-64, 65-74, 75-84, 85+ Burgerlijke staat (4): gehuwd, gescheiden, verweduwd, nooit gehuwd geweest, Burgerlijke staat (2): gehuwd, niet gehuwd Stedelijkheidsgraad (5): zeer sterk stedelijk, sterk stedelijk, matig stedelijk, weinig stedelijk, niet stedelijk Huishoudgrootte (5): 1, 2, 3, 4, 5 of meer personen Etniciteit (3): autochtoon, westerse allochtoon, niet-westerse allochtoon Inkomen (5): gestandaardiseerd huishoudinkomen opgedeeld in 5 kwintielen. GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Waaraan te denken als je gewichten toepast Je gebruikt maar één set gewichten per analyse Iedere “rij” of “record” dus één persoon heeft dan maar één gewicht Als er meerdere gewichten zijn heeft dit te maken met het feit dat sommige mensen in de ene analyse wel meedoen, maar niet in de andere analyse Grote gewichten zijn altijd groter dan één en kunnen heel groot zijn (voor NL op donderdag 18 april 2013 13:51:27 maximaal 16.788.361) Kleine –proportie- gewichten die we dus liever niet gebruiken zitten rond de één Grote gewichten kunnen min of meer probleemloos worden gebruikt voor subgroep analysen, kleine gewichten niet Een gewicht van nul betekend dat die persoon niet meedoet in de analyse Bij het vergelijken van twee enquêtes (in tijd of plaats) gebruik je de bij die enquête behorende gewichten Bij het combineren van enquêtes uit dezelfde tijd en plaats moet je nieuwe gewichten ontwikkelen GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Wegen in de formules Mean(x)=som(xi)/n Gewogen Mean(x)=som(xi*wi)/som(wi) Gewogen SS=som(sqr(xi-mean(x))*wi) Gewogen Variantie=1/(som(wi)-1)*gewogen SS Etc. etc. GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Design effecten DEFF v^=v*deff; effectieve n^=waargenomen n/deff DEFFT sqrt(DEFF) s.e.^=s.e*defft DEFF >1 meer variantie DEFF<1 minder variantie DEFF altijd >0 Deff wordt veroorzaakt door: Stratificatie 0<1 Clustering >1 Wegen >1 En de combinatie Voor veel statistieken geld: ^C2, ^F, ^t = C2,F,t/Defft GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken Monitor Design (bij benadering) wi, range DEFF Zuid Holland Zuid, 2006 Leeftijd 19+, 4% uit 14 gemeenten 1,00-1,00 1,00 Groningen, 2006. Leeftijd 20+, 2% uit 25 gemeenten Groningen, 2002. In de leeftijd 20-64 1% in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. 0,33-1,64 1,14 Amstelland 2002 Leeftijd Gestratificeerd design 0,34-1,63 1,21 Noord Kennemerland, 2006. Omstreeks 480 per gemeente uit 8 gemeenten, 19-65 jaar 0,14-2,97 1,71 Gooi en Vechtstreek, 2004. Omstreeks 1500 per gemeente uit 9 gemeenten, leeftijd 19+ 0,24-3,17 1,72 Hollands Midden, 2005. Omstreeks 500 per gemeente, 13 gemeenten. Leeftijd 19 t/m 64 jaar. 0,42-3,92 1,80 Amsterdam, 2004. Circa 200 per groep uit 20 groepen naar 5 leeftijden en 4 etnische groepen, 18 jaar en ouder 0,04-3,21 1,85 Amsterdam, 2008. Circa 200 uit 56 groepen naar 4 leeftijden en 14 stadsdelen, extra 600 per groep uit 4 leeftijdsgroepen 0,06-7,7/ 0,2-5,0 2,02/ 1,93 Uitenbroek DG. Design, wegen en het designeffect in GGD gezondheidsenquêtes. Tijdschrift voor Gezondheidswetenschappen (TSG). 2009(2): 64-8. GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken SPSS Complex Samples is waarlijk complex Wat kan je doen: Een complexe design stop je in SPSS en die trekt de steekproef, en berekend de insluitkansen Maakt automatisch de gewichten met de inverse insluitkansen Vervolgens hou je rekening met post-stratificatie (de non response) GGD Amsterdam

Hier de titel van de presentatie 17 september 2018 17 september 2018 Wegen bekeken SPSS Complex Samples gaan we niet complex doen CBS heeft een planfile gestuurd waar we rekening houden met: De gewichten (samengesteld met inverse insluitkansen en poststratificatie) maar behandeld als geheel posstratificatie Let op: gewichten vergroten de variantie! Strata: primaire eenheden (buurten gecombineerd met leeftijd) en leeftijd. Let op: strata verkleinen de variantie! 1 * Officieel CBS. CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan1.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid leeftijdsgroep /ESTIMATOR TYPE=WR. GGD Amsterdam

Surveys Combineren/trendanalyse GET FILE='M:\data\RGI\agm2008.sav'. DATASET NAME DataSet1 WINDOW=FRONT. FILE='M:\data\RGI\agm2012.sav'. DATASET NAME DataSet2 WINDOW=FRONT. FILE='M:\data\RGI\agm2016.sav'. DATASET NAME DataSet3 WINDOW=FRONT. DATASET ACTIVATE DataSet1. Compute verzJaar=2008. Compute Strata=geslacht. DATASET ACTIVATE DataSet2. Compute verzJaar=2012. Compute Strata=geslacht+2. DATASET ACTIVATE DataSet3. Compute verzJaar=2016. Compute Strata=geslacht+10. RENAME VARIABLES (ewCBSGGD = weegfactor1).

Surveys Combineren DATASET ACTIVATE DataSet1. ADD FILES /FILE=* /FILE='DataSet2'. EXECUTE. /FILE='DataSet3'. FREQUENCIES VARIABLES=verzJaar /ORDER=ANALYSIS. SAVE OUTFILE='M:\data\RGI\agm200820122016.sav' /COMPRESSED. verzJaar   Frequency Percent Valid Percent Cumulative Percent Valid 2008,00 6511 28,3 2012,00 7615 33,1 61,4 2016,00 8869 38,6 100,0 Total 22995

Surveys analyseren/plan file * Analysis Preparation Wizard. CSPLAN ANALYSIS /PLAN FILE='M:\data\RGI\daansplan.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=Strata /ESTIMATOR TYPE=WR.

Surveys analyseren/crosstabs GET FILE='M:\data\RGI\agm200820122016.sav'. DATASET NAME DataSet1 WINDOW=FRONT. CSTABULATE /PLAN FILE='M:\data\RGI\daansplan.csaplan' /TABLES VARIABLES=AGGWS203 BY verzJaar /CELLS POPSIZE COLPCT /STATISTICS CIN(95) COUNT /MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.

Surveys analyseren/Regressie * Complex Samples General Linear Model. CSGLM AGGWS201 WITH verzJaar /PLAN FILE='M:\data\RGI\daansplan.csaplan' /MODEL verzJaar /INTERCEPT INCLUDE=YES SHOW=YES /STATISTICS PARAMETER SE CINTERVAL TTEST /PRINT SUMMARY VARIABLEINFO SAMPLEINFO /TEST TYPE=F PADJUST=LSD /MISSING CLASSMISSING=EXCLUDE /CRITERIA CILEVEL=95. Parameter Estimatesa Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -2,292 24,251 -49,825 45,242 -,094 21957,000 ,925 verzJaar ,013 ,012 -,010 ,037 1,114 ,265 a. Model: AGGWS201 Body Mass Index = (Intercept) + verzJaar Parameter Estimatesa Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -2,292 24,251 -49,825 45,242 -,094 21957,000 ,925 verzJaar ,013 ,012 -,010 ,037 1,114 ,265 a. Model: AGGWS201 Body Mass Index = (Intercept) + verzJaar Als verzJaar(0,4,8) dan Intercept=24.67;verzJaar=0.013 Als verzJaar(0,1,2) dan Intercept=24.67;verzJaar=0.054

Surveys analyseren/Regressie * Complex Samples General Linear Model. CSGLM AGGWS201 BY geslacht WITH verzJaar lftcat8 /PLAN FILE='M:\data\RGI\daansplan.csaplan' /MODEL geslacht verzJaar lftcat8 /INTERCEPT INCLUDE=YES SHOW=YES /STATISTICS PARAMETER SE CINTERVAL TTEST /PRINT SUMMARY VARIABLEINFO SAMPLEINFO /TEST TYPE=F PADJUST=LSD /MISSING CLASSMISSING=EXCLUDE /CRITERIA CILEVEL=95. Parameter Estimate Std. Error 95% Confidence Interval Hypothesis Test Lower Upper t df Sig. (Intercept) -16,532 23,587 -62,764 29,701 -,701 21957,000 ,483 [geslacht=1] ,601 ,074 ,456 ,746 8,119 ,000 [geslacht=2] ,000b . verzJaar ,019 ,012 -,004 ,042 1,644 ,100 lftcat8 ,628 ,018 ,593 ,663 35,171 a. Model: AGGWS201 Body Mass Index = (Intercept) + geslacht + verzJaar + lftcat8 b. Set to zero because this parameter is redundant. 0.019/0.013=1.46

Surveys analyseren/crosstabs (in R) #install.packages("foreign") library(foreign) setwd("c:/users/daan/ggd") data<-read.spss("agm200820122016.sav", to.data.frame = TRUE) names(data) install.packages("survey") #library(survey) dstrat <- svydesign(id=~1,strata=~Strata, weights=~weegfactor1, data=data) svyciprop(~I(AGGWS203=="BMI>=30"), dstrat, method="logit") table<-svytable(~AGGWS203+verzJaar, dstrat) table summary(table) prop.table(table,2)   2.5% 97.5% I(AGGWS203=="BMI>=30") 0.111 0.105 0.12 verzJaar   AGGWS203 2008 2012 2016 BMI<18,5 0.02756960 0.02577414 0.02541825 18,5=<BMI<20 0.06758334 0.06184161 0.06702521 20=<BMI<25 0.50251900 0.51578342 0.51061529 25=<BMI<30 0.30021364 0.28369539 0.28057149 BMI>=30 0.10211443 0.11290544 0.11636976

Surveys analyseren/Regressie (in R) reg1 <- svyglm(AGGWS201~verzJaar, design=dstrat,family=gaussian(link="identity")) summary(reg1) reg2 <- svyglm(AGGWS201~verzJaar+lftcat8+geslacht, design=dstrat,family=gaussian(link="identity")) summary(reg2) anova(reg1,reg2) table(data$lftcat8) data$lftcat8.2<-factor(data$lftcat8,labels=c(1,2,3,4,5,6,7,8)) data$lftcat8.2<-as.numeric(levels(data$lftcat8.2)[data$lftcat8.2]) #maak een numerieke variabele dstrat <- svydesign(id=~1,strata=~Strata, weights=~weegfactor1, data=data) reg3 <- svyglm(AGGWS201~verzJaar+lftcat8.2+geslacht, design=dstrat,family=gaussian(link="identity")) summary(reg3) Coefficients:   Estimate Std. Error t value Pr(>|t|) (Intercept) -2.29159 24.25239 -0.094 0.925 verzJaar 0.01342 0.01205 1.114 0.265 Coefficients:   Estimate Std. Error t value Pr(>|t|) (Intercept) -15.93039 23.59157 -0.675 0.5 verzJaar 0.01927 0.01172 1.644 0.1 lftcat8.2 0.62824 0.01786 35.170 <2e-16 *** geslachtVrouw -0.60116 0.07404 -8.119 4.94e-16

Vragen. Presentatie op: http://www. quantitativeskills. com/ggd/wegen