Hier de titel van de presentatie Wegen en complex samples bekeken Daan Uitenbroek, GGD Amsterdam, www.quantitativeskills.com 9 december 2017 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Gewichten samenstellen, waarom 1) Vanwege de design (design correctie) Uit je GGD regio neem je alle gemeenten In iedere gemeente sample je 3 scholen Dan neem je in iedere school alle klassen En vervolgens sample je drie leerlingen per klas Wij hebben alleen te maken met strata (fixed), niet met clusters (random) 2) Vanwege de response (post-stratificatie correctie) Jongeren responderen minder dan ouderen Mannen minder dan vrouwen Allochtonen minder dan autochtonen GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Gewichten samenstellen, hoe: 1) Inverse insluitkansen Je hebt 10 mensen gesampled in een populatie van 100, dan is de insluitkans 0,1 (10/100) en de inverse inluitkans is dan 1/insluitkans, Is de enige methoden bij heel complexe designs. Is ingewikkeld bij niet zo complexe designs 2) De empirische methode Je vergelijkt de verdeling van groepen in de steekproef met de verdeling van die groepen in de bevolking, en berekend correctiefactoren door het nemen van ratio's. GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Ontwerp Amsterdamsegezondheidsenquête 2012 Leeftijd Totaal 19-34 jaar 35-64 jaar 65 jaar of ouder Stadsdeel Centrum 700 600 455 1755 Noord (GGD) Noord (TNO) 1400 1200 900 3500 Oost Zuidoost Zuid West Nieuw-West Wijkaanpakbuurten (per stadsdeel) 500 1000 19.285 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 Bevolking Steekproef mannen 18-34 2551 28,1% 198 18,5% 35-65 5175 57,0% 621 58,1% 65+ 1349 14,9% 249 23,3% 9075 100,0% 1068 48,3% 41,8% vrouwen 2614 26,9% 319 21,5% 5286 54,4% 836 56,3% 1820 18,7% 329 22,2% 9720 1484 18795 2552 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 mannen bevolking steekproef gewicht resultaat 18-34 2551 198 12,88384 35-65 5175 621 8,333333 65+ 1349 249 5,417671 9075 1068 48,3% 41,8% vrouwen 2614 319 8,194357 5286 836 6,322967 1820 329 5,531915 9720 1484 18795 2552 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 (fout) mannen bevolking steekproef gewicht resultaat 18-34 28,1% 18,5% 1,52 35-65 57,0% 58,1% 0,98 65+ 14,9% 23,3% 0,64 100,0% vrouwen 26,9% 21,5% 1,25 54,4% 56,3% 0,97 18,7% 22,2% 0,84 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 mannen bevolking steekproef gewicht gew.st.pr. 18-34 13,6% 7,8% 1,75 28,1% 35-65 27,5% 24,3% 1,13 57,0% 65+ 7,2% 9,8% 0,74 14,9% 48,3% 41,8% vrouwen 13,9% 12,5% 1,11 26,9% 32,8% 0,86 54,4% 9,7% 12,9% 0,75 18,7% 51,7% 58,2% GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Cel wegen: Voordelen Leidt gegarandeerd tot een representatieve steekproef voor de factoren waarop je weegt Geeft een representatieve steekproef voor alle subgroepen van die factoren En voor alle kruisingen van die factoren Leidt tot unbiased schatters Is de “goldstandard” op wegen gebied GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Cel wegen: Nadelen Vereist dat je de cel waarden hebt op bevolkings- en steekproefniveau voor alle mogelijke combinaties van weegfactoren Vereist een grote steekproef en een grote bevolking omdat je veel cellen hebt die alle gevuld moeten worden Geeft vaak een groot design effect, onbetrouwbare schatters GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Cel wegen: Alternatieven Eerste keus cel wegen (en het fixen van wegen, bijvoorbeeld door het combineren van cellen of factoren) Als cel wegen écht niet mogelijk is, en pas daarna, een alternatief. Twee alternatieven: raking/ regressie technieken (de meeste zijn marge weeg technieken: Deze technieken gaan er meestal vanuit dat weegfactoren onafhankelijk zijn Er zijn uitzonderingen die de steekproef samenhang tussen factoren gebruiken) Graham Kalton & Ismael Flores-Cervantes. Weighting Methods. Journal of Official Statistics 2003;19:81-97. GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 Leeftijd Bevolking Steekproef 18-34 5165 27,5% 517 20,3% 1,36 35-65 10461 55,7% 1457 57,1% 0,97 65+ 3169 16,9% 578 22,6% 0,74 18795 2552 Geslacht M 9075 48,3% 1068 41,8% 1,15 V 9720 51,7% 1484 58,2% 0,89 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Diemen 2005 Leeftijd Man Vrouw 18-34 198 319 1,36 35-65 621 836 0,97 65+ 249 329 0,74 1,15 0,89 2552 gewogen bevoking 309,9 384,8 694,7 27,2% 27,5% 698,5 724,8 1423,3 55,8% 55,7% 213,9 217,8 431,7 16,9% 1222,2 1327,5 2549,7 47,9% 52,1% bevolking 48,3% 51,7% GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Amsterdam 2004 Leeftijd Bevolking Steekproef 18-34 208205 35,3% 282 16,4% 2,16 35-65 310761 52,7% 1151 66,9% 0,79 65+ 70226 11,9% 287 16,7% 0,71 589192 1720 Etni NL 317842 53,9% 517 30,1% 1,79 niet NL 271350 46,1% 1203 69,9% 0,66 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Amsterdam 2004 Leeftijd NL Niet NL 18-34 71 211 2,16 35-65 337 814 0,79 65+ 109 178 0,71 1,79 0,66 gewogen bevolking 274,6 299,5 574,1 33,4% 35,3% 476,7 422,5 899,2 52,3% 52,7% 139,7 83,7 223,5 13,0% 11,9% 891,1 805,6 1696,7 52,5% 47,5% 53,9% 46,1% GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Amsterdam 2004 Leeftijd NL Niet NL 18-34 71 211 35-65 337 814 65+ 109 178 4,24 1,46 1,47 0,51 1,2 0,41 gewogen bevolking 301,04 308,06 609,1 35,4% 35,3% 495,39 415,14 910,5 52,9% 52,7% 130,8 72,98 203,8 11,8% 11,9% 927,2 796,2 1723,4 53,8% 46,2% 53,9% 46,1% GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Marge wegen en cell wegen gecombineerd Mannen Hoge SES Lage SES 18-34 R1 35-65 R2 65+ R3 Vrouwen R4 R5 R6 C1 C2 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Het weegmodel dat is toegepast (door CBS) is: Primaire eenheid (2128) + GGD(28) x Geslacht (2) x Leeftijd (12) + GGD(28) x Burgerlijke staat (4) + Gemeente ingedikt (391) x Burgerlijke staat (2) + Gemeente ingedikt (391) x Geslacht (2) + GGD(28) x Stedelijkheidsgraad (5) + GGD(28) x Huishoudgrootte (5) + GGD(28) x Geslacht (2) x Leeftijd (3) x Burgerlijke staat (2) + GGD(28) x Etniciteit (3)+ GGD(28) x Inkomen(5). GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Het weegmodel dat is toegepast (door CBS) is verder: Geslacht (2): man, vrouw Leeftijd (13): 17-18, 19-24, 25-29, 30-34, 35-39, 40-44, 45-49,50- 54, 55-59, 60-64, 65-69, 70-74, 75+ Leeftijd (6): 17-34, 35-49, 50-64, 65-74, 75-84, 85+ Burgerlijke staat (4): gehuwd, gescheiden, verweduwd, nooit gehuwd geweest, Burgerlijke staat (2): gehuwd, niet gehuwd Stedelijkheidsgraad (5): zeer sterk stedelijk, sterk stedelijk, matig stedelijk, weinig stedelijk, niet stedelijk Huishoudgrootte (5): 1, 2, 3, 4, 5 of meer personen Etniciteit (3): autochtoon, westerse allochtoon, niet-westerse allochtoon Inkomen (5): gestandaardiseerd huishoudinkomen opgedeeld in 5 kwintielen. GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Waaraan te denken als je gewichten toepast Je gebruikt maar één set gewichten per analyse Iedere “rij” of “record” dus één persoon heeft dan maar één gewicht Als er meerdere gewichten zijn heeft dit te maken met het feit dat sommige mensen in de ene analyse wel meedoen, maar niet in de andere analyse Grote gewichten zijn altijd groter dan één en kunnen heel groot zijn (voor NL op donderdag 18 april 2013 13:51:27 maximaal 16.788.361) Kleine –proportie- gewichten die we dus liever niet gebruiken zitten rond de één Grote gewichten kunnen min of meer probleemloos worden gebruikt voor subgroep analysen, kleine gewichten niet Een gewicht van nul betekend dat die persoon niet meedoet in de analyse Bij het vergelijken van twee enquêtes (in tijd of plaats) gebruik je de bij die enquête behorende gewichten Bij het combineren van enquêtes uit dezelfde tijd en plaats moet je nieuwe gewichten ontwikkelen GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Wegen in de formules Mean(x)=som(xi)/n Gewogen Mean(x)=som(xi*wi)/som(wi) Gewogen SS=som(sqr(xi-mean(x))*wi) Gewogen Variantie=1/(som(wi)-1)*gewogen SS Etc. etc. GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Design effecten Worden veroorzaakt door: Stratificatie 0<1 Clustering >1 Wegen >1 En de combinatie DEFF v^=v*deff; effectieve n^=waargenomen n/deff DEFFT sqrt(DEFF) s.e.^=s.e*defft DEFF >1 meer variantie DEFF<1 minder variantie DEFF altijd >0 Voor veel statistieken geld: ^C2, ^F, ^t = C2,F,t/Defft GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Monitor Design (bij benadering) wi, range DEFF Zuid Holland Zuid, 2006 Leeftijd 19+, 4% uit 14 gemeenten 1,00-1,00 1,00 Groningen, 2006. Leeftijd 20+, 2% uit 25 gemeenten Groningen, 2002. In de leeftijd 20-64 1% in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. 0,33-1,64 1,14 Amstelland 2002 Leeftijd Gestratificeerd design 0,34-1,63 1,21 Noord Kennemerland, 2006. Omstreeks 480 per gemeente uit 8 gemeenten, 19-65 jaar 0,14-2,97 1,71 Gooi en Vechtstreek, 2004. Omstreeks 1500 per gemeente uit 9 gemeenten, leeftijd 19+ 0,24-3,17 1,72 Hollands Midden, 2005. Omstreeks 500 per gemeente, 13 gemeenten. Leeftijd 19 t/m 64 jaar. 0,42-3,92 1,80 Amsterdam, 2004. Circa 200 per groep uit 20 groepen naar 5 leeftijden en 4 etnische groepen, 18 jaar en ouder 0,04-3,21 1,85 Amsterdam, 2008. Circa 200 uit 56 groepen naar 4 leeftijden en 14 stadsdelen, extra 600 per groep uit 4 leeftijdsgroepen 0,06-7,7/ 0,2-5,0 2,02/ 1,93 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken SPSS Complex Samples is waarlijk complex Wat kan je doen: Een complexe design stop je in SPSS en die trekt de steekproef, en berekend de insluitkansen Maakt automatisch de gewichten met de inverse insluitkansen Vervolgens hou je rekening met post-stratificatie (de non response) GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken SPSS Complex Samples gaan we niet complex doen CBS heeft een planfile gestuurd waar we rekening houden met: De gewichten (samengesteld met inverse insluitkansen en poststratificatie) maar behandeld als geheel posstratificatie Let op: gewichten vergroten de variantie! Strata: primaire eenheden (buurten gecombineerd met leeftijd) en leeftijd. Let op: strata verkleinen de variantie! 1 * Officieel CBS. CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan1.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid leeftijdsgroep /ESTIMATOR TYPE=WR. GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Complex samples methoden vergeleken, met en zonder leeftijd KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,191 1,671 1 Zeer goed tot goed 578374,345 5208,621 2,125 Total 767224,738 3900,630 . CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan2.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid /ESTIMATOR TYPE=WR. KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,335 1,672 1 Zeer goed tot goed 578374,345 5208,799 2,125 Total 767224,738 3900,698 . GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Complex samples methoden vergeleken, WOR of WR KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,191 1,671 1 Zeer goed tot goed 578374,345 5208,621 2,125 Total 767224,738 3900,630 . CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan2.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid /ESTIMATOR TYPE=WR. KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,335 1,653 1 Zeer goed tot goed 578374,345 5208,799 2,102 Total 767224,738 3900,698 . GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Complex samples methoden vergeleken, zonder strata KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,191 1,671 1 Zeer goed tot goed 578374,345 5208,621 2,125 Total 767224,738 3900,630 . CSPLAN ANALYSIS /PLAN FILE='M:\data\agm\daansplan4.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WOR /PRINT PLAN /DESIGN /ESTIMATOR TYPE=WR. KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4800,630 1,805 1 Zeer goed tot goed 578374,345 7766,751 4,725 Total 767224,738 7608,743 . GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Complex samples methoden vergeleken, geslacht als extra strata KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,191 1,671 1 Zeer goed tot goed 578374,345 5208,621 2,125 Total 767224,738 3900,630 . CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan5.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=PrimaireEenheid geslacht /ESTIMATOR TYPE=WR. KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,137 1,653 1 Zeer goed tot goed 578374,345 5005,325 1,941 Total 767224,738 3542,806 . GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Methoden vergeleken, geslacht en PrimaireEenheid als één variabele KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,137 1,653 1 Zeer goed tot goed 578374,345 5005,325 1,941 Total 767224,738 3542,806 . autorecode PrimaireEenheid/into PEgeslacht. if geslacht eq 2 PEgeslacht=PEgeslacht+200. CSPLAN ANALYSIS /PLAN FILE='m:\data\agm\daansplan6.csaplan' /PLANVARS ANALYSISWEIGHT=weegfactor1 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA=PEgeslacht /ESTIMATOR TYPE=WR. KLGGA208 Algemene gezondheid in 2 categorieen Estimate Standard Error Design Effect Population Size 0 Gaat wel, Slecht tot zeer slecht 188850,393 4619,137 1,653 1 Zeer goed tot goed 578374,345 5005,325 1,941 Total 767224,738 3542,806 . GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Analyse: Kruistabel in Complex Samples GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Statistisch testen Kruistabel Tests of Independence Chi-Square Adjusted F df1 df2 Sig. gezondheid algemeen * bmicat Pearson 32,423 19,660 1 1680 ,000 Likelihood Ratio 31,634 19,181 The adjusted F is a variant of the second-order Rao-Scott adjusted chi-square statistic. Significance is based on the adjusted F and its degrees of freedom. Estimate 95% Confidence Interval Lower Upper gezondheid algemeen * bmicat Odds Ratio 1,976 1,458 2,679 Relative Risk For cohort bmicat = ,00 1,329 1,155 1,529 For cohort bmicat = 1,00 ,672 ,569 ,795 Risk Difference ,164 ,090 ,238 -,164 -,238 -,090 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Wegen of niet wegen, dat is het probleem De a-priori beslissingsregel voor de hele bevolking: We doen preventie bij de aandoening waar we de sterkste samenhang (!!!!!) vinden tussen gedrag en gezondheid en die ook nog vaak voorkomt (!!) GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Het onderzoek 15% response bij vrouwen 90% response bij mannen GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken De data (ongewogen) GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Niet wegen (ie gewicht=1) & constant houden GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Wegen (mannen*1; vrouwen*6) tov constant houden GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Bij constant houden blijft er een weegeffect binnen de categorien Afhankelijke variabele: Eén of meer lichamelijke beperkingen Gecorrigeerd voor geslacht en leeftijd gewogen OR Ongewogen OR Stadsdeel Centrum 1 (ref) West 2,813 2,335 Nieuw-West 3,393 2,548 Zuid 1,186 1,158 Oost 1,905 2,058 Noord 2,865 2,35 Zuidoost 3,681 2,647 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken De weegtest Amsterdam 2012 19+jr bevolking schatting verschil In % 19-34 226581 221338,4 -5242,6 -2,3 35-64 321984 323121,4 1137,4 0,4 64+ 89582 91400,4 1818,4 2,0 alle 638147 635860,2 -2286,8 -0,4 GGD Amsterdam 9 december 2017
Hier de titel van de presentatie 9 december 2017 Wegen bekeken Einde Vragen? GGD Amsterdam 9 december 2017