Wegen en corrigeren voor design effecten in gezondheidsenquêtes

Wegen en corrigeren voor design effecten in gezondheidsenquêtes
GGD Amsterdam Wegen en corrigeren voor design effecten in gezondheidsenquêtes Daan Uitenbroek GGD Amsterdam Quantitativeskills/Quakunde Daan Uitenbroek, Designeffecten

Daan Uitenbroek, Designeffecten
De presentatie Bronnen over wegen en designeffecten Wegen, waarom en hoe in het kort Oorzaken van designeffecten Hoe groot zijn designeffecten Corrigeren voor designeffecten Met de nadruk op SPSS-Complex Samples Daan Uitenbroek, Designeffecten

Bronnen Deze presentatie en nog wat andere zaken: Literatuur: Uitenbroek DG. Design, wegen en het designeffect in GGD gezondheidsenquêtes Verschijnt in TSG, Engels talige versie op Quantitativeskills.com van den Brink C. e.a. Richtlijn wegen voor epidemiologen. Bilthoven, RIVM: 2009. Kish L. Weighting for Unequal Pi. J Off Statistics 1992;8: Kish L. Methods for Design Effects. J Off Stat 1995;11:55-77. SPSS Complex Samples manual, gratis op: Wesvar Manual, gratis op: Daan Uitenbroek, Designeffecten

Wegen, waarom en hoe Gezondheidsenq-van een GGD 2002 De sign pi design Ni Be volking Pi bevolking ni Steek proef pi steekproef Aalsmeer 750 0,143 16559 0,088 483 0,148 Amstelveen 1500 0,286 55283 0,295 935 Haarlemmermeer 87232 0,466 907 0,278 Ouder amstel 9234 0,049 447 0,137 Uithoorn 19060 0,102 492 0,151 Totaal 5250 1,000 187368 3264 wi= Pi/pi ni*wi p^i Wi=Ni/ni ni*Wi P^i Aalsmeer 0,597 288,5 0,088 34,3 16559,0 Amstelveen 1,030 963,0 0,295 59,1 55283,0 Haarlemmermeer 1,675 1519,6 0,466 96,2 87232,0 Ouder amstel 0,360 160,9 0,049 20,7 9234,0 Uithoorn 0,675 332,0 0,102 38,7 19060,0 Gemiddeld/totaal 0,867 3264 1,000 .-. 187368 Daan Uitenbroek, Designeffecten

Wat voor design effecten en wat betekent dat
Het design effect ontstaat bij wegen doordat je Kleine groepen relatief belangrijk maakt (precisie verlies) Grotere groepen relatief minder belangrijk (precisie winst) Verlies a is groter dan winst b, je algemene schatters worden minder precies Gevolg: Betrouwbaarheidsintervallen worden breder Verschillen worden minder snel significant Design effect (variantie inflatie) -> deff -> var (y)^ = var (y)*deff -> effectieve N^ = (1/design effect) * gerealiseerde N Design factor (error inflatie) -> deft -> x * deft * s.e.(x) Deft=√deff Daan Uitenbroek, Designeffecten

Wat betekent dat in de praktijk, hoe belangrijk is dat
Tabel 1. Voorbeelden van designs van gezondheidsenquêtes uitgevoerd door GGD’en. Monitor Design (bij benadering) wi, range DEFF Zuid Holland Zuid, 2006 Leeftijd 19+, 4% uit 14 gemeenten 1,00-1,00 1,00 Groningen, 2006. Leeftijd 20+, 2% uit 25 gemeenten Groningen, 2002. In de leeftijd % in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. 0,33-1,64 1,14 Amstelland 2002 Zie tabel 2 0,34-1,63 1,21 Noord Kennemerland, 2006. Omstreeks 480 per gemeente uit 8 gemeenten, jaar 0,14-2,97 1,71 Gooi en Vechtstreek, 2004. Omstreeks 1500 per gemeente uit 9 gemeenten, leeftijd 19+ 0,24-3,17 1,72 Hollands Midden, 2005. Omstreeks 500 per gemeente, 13 gemeenten. Leeftijd 19 t/m 64 jaar. 0,42-3,92 1,80 Amsterdam, 2004. Circa 200 per groep uit 20 groepen naar 5 leeftijden en 4 etnische groepen, 18 jaar en ouder 0,04-3,21 1,85 Amsterdam, 2008. Circa 200 uit 56 groepen naar 4 leeftijden en 14 stadsdelen, extra 600 per groep uit 4 leeftijdsgroepen 0,06-7,7/ 0,2-5,0 2,02/ 1,93 Daan Uitenbroek, Designeffecten

Wat betekent dat in de praktijk, hoe belangrijk is dat
Tabel 2. Design voor de gezondheidsenquête Amstelland de Meerlanden, berekening designeffect, gewichten en effect van design op vaststellen van het percentage inwoners dat geluidshinder van vliegtuigen ervaart. ni omvang design Ni Bevolking Ni * Ni / ni mi steekproef Wi Aantal in steekproef met hinder Geschat aantal in bevolking met hinder Aalsmeer 750 16559 365578,6 483 34,3 89 3063 Amstelveen 1500 55283 935 59,1 182 10780 Haarlemmermeer 87232 907 96,2 110 10555 Ouder amstel 9234 113689 447 20,7 58 1191 Uithoorn 19060 484378,1 492 38,7 88 3393 Totaal 5250 187367 3264 528 28982 Designeffect DEFF = Σ (Ni2/ ni) * n/N2 = * 5250 / ( *187367) = 1,21 (DEFFT= √ 1.21 = 1.1) Gemiddelde ongewogen=528/3264=0,1617; Gemiddelde gewogen=28982/187367=0,1542 95% BI ongewogen = 16,2 ± 1,96 * √ (p(1-p )/m) = 16,2 ± 1,96 * √ (0,162(1-0,162 )/3264)*100=16,2 ± 1,26 95% BI gewogen = 15,4 ± 1,96 * √ (p(1-p )/m*DEFF) = 15,4 ± 1,96 * √ (0,154 (1-0,154)/3264*1,21)*100=15,4 ± 1,36 Deze tabel is gebaseerd op tabel 2.1 uit Ten Brinke JM., Verhagen CE. Hoe gezond is de regio? Gezondheidspeiling 2002; en tabel 5.3 uit: Hoe gezond is de regio? Supplement. Gezondheidspeiling Beide: Amstelveen: GGD Amstelland de Meerlanden. Daan Uitenbroek, Designeffecten

Berekenen en toepassen designeffect
De rekenwijze verschilt per statistiek, Je hebt dus meerdere verschillende designeffecten binnen een studie. Berekening voor designeffect Deff voor één gemiddelde op de hand (zoals in de voorgaande dia) met SISA-weights (SISA onemean voor de betrouwbaarheidsintval) Berekening Deff voor de vergelijking van twee gemiddelden (t-test) op de hand met SISA-weights (SISA t-test voor de significantie van het verschil) Daan Uitenbroek, Designeffecten

Berekenen en toepassen designeffect
Voor alle andere statistieken met een speciaal programma Epi Info Complex Samples (gratis, redelijk vriendelijk maar beperkt) SPSS Complex Samples (kost geld, zeer vriendelijk en uitgebreid) Survey in R (gratis, uitgebreid, maar zeer zeker niet vriendelijk) Wesvar (tegenwoordig gratis, uitgebreid, niet zeer vriendelijk) STATA, SAS, Sudaan etc etc, ken ik niet, weet ik niet Daan Uitenbroek, Designeffecten

Voorbeeld met SISA weights
Daan Uitenbroek, Designeffecten

Betrouwbaarheidsinterval met SISA Onemean

Zó doe je het in Epi-Info
Je kunt Epi-Info downloaden via: Save je data in SPSS als een DB-IV file neem tenminste de variabelen strata, cluster en een weight variabele mee. Heb je geen strata neem dan compute strata=1, iedere respondent komt van hetzelfde strata. Heb je geen clusters neem dan het respondent nummer, iedere respondent is een eigen cluster. Je kan zoveel afhankelijke variabelen meenemen als je maar wil. Open in EpiInfo het “analysis” menu. Doe options->set-> statistics advanced Importeer je data in EpiInfo analysis als een DB-IV file. EpiInfo neemt de variabelen namen over maar niet de labels. Dus hou goed bij wat variabelen waarden betekenen. Kies een van de drie “complex sample procedures”. Specificeer de afhankelijke variabele, waar je in geïnteresseerd bent. Eventueel de onafhankelijke variabele, bijvoorbeeld bij een kruistabel, hangt van de procedure af Specificeer de strata, de cluster en het gewicht Druk op analyse Daan Uitenbroek, Designeffecten

SPSS Complex Samples Advies van de werkgroep Voordelen, een zeer uitgebreid en gebruikersvriendelijk pakket dat betrekkelijk eenvoudig te leren is. Efficient in gebruik. Nadelen, het kost geld, hoe je daarover denkt hangt van jou af Wat ga ik nu doen Wat heb je nodig/moet je weten om het te laten werken Vervolgens ga ik het demonstreren aan de hand van een data set uit de Amsterdamse Gezondheidsmonitor 2004 Daan Uitenbroek, Designeffecten

SPSS Complex Samples Complex Samples maakt niet de gewichten. Gewichten moet je maken met spreadsheets. SISA weights (wordt nog verbeterd, tips en suggesties krijg ik graag) Wat je nodig hebt is: Een data set met inhoudelijke variabelen (roken, alcohol gebruik, geslacht etc.) In die data set een (of meerdere) variabelen “weight” Een of meerdere variabelen “strata” Een planfile die het design omschrijft (in epi info is dat een stuk duidelijker, daar heb je één strata en één cluster. Strata betreft alle gefixte design effecten, cluster alle random design effecten) Daan Uitenbroek, Designeffecten

SPSS Complex Samples het kan waarachtig complex
Wat kan je doen: Uit je GGD regio neem je alle gemeenten In iedere gemeente sample je 3 scholen Dan neem je in iedere school alle klassen En vervolgens sample je drie leerlingen per klas Wat gaan we nu doen: Een demonstatie van Complex Samples voor het eenvoudigste design: 1 strata 1 set gewichten Meestal het design dat wordt gebruikt bij Gezondheids Enquêtes Daan Uitenbroek, Designeffecten

SPSS Complex Samples gewichten voor het één strata voorbeeld
1 strata over 2 dimensies, een met 2 categorien en een met 3 categorien gender age population sample Wi=Ni/ni 1 male young 34705 165 210,3 2 female 25659 560 45,8 3 middle 21773 557 39,1 4 27967 205 136,4 5 old 22471 185 121,5 6 29318 193 151,9 Daan Uitenbroek, Designeffecten

SPSS Complex Samples één strata, soms moeilijk
Voorbeeld Gezondheidsprofiel Groningen, 2002: In de leeftijd % in 21 gemeenten en 2% in 4 gemeenten; in de leeftijd 65+ 2% in 22 gemeenten, 4% in 2 gemeenten en 5% in 1 gemeente. Voorbeeld Rotterdam 2008, …… uitspraken doen over de groep Kaapverdianen en Antillianen in Rotterdam zijn ……. …… het Cluster Jeugd en op verzoek van deelgemeente Hoek van Holland een relatief kleine …… …… 16 tot en met 54 jaar en 55 jaar en ouder is in Hoek van Holland een steekproef van 200 …… …… deelraad Pernis is voor Pernis een aparte steekproef getrokken van 200 personen …… …… In 2008 is ervoor gekozen om de steekproef voor Rotterdam per buurt op te hogen …… …… een steekproef van tot en met 54 jarigen getrokken.…… …… Van alle 55-plusser is een steekproef van 3000 getrokken…… Daan Uitenbroek, Designeffecten

SPSS Complex Samples bron van gewichten hoeft te zijn
strata regio Gesl. Lft. ni Ni 1 Heyplaat (wel in Rotterdam) Man 19-54 23 356 2 . Vrouw 26 373 3 Hoogvliet Zuid (wel in Rotterdam) 20 4218 4 28 4622 5 Rotterdam 16-18 268 9249 6 Rotterdam jongeren 342 8868 7 Rotterdam ouderen 55+ 748 61713 8 Hoek van Holland (niet in Rotterdam) man 58 175 9 Hoek van Holland 44 2067 10 63 1452 11 vrouw 103 185 Daan Uitenbroek, Designeffecten

SPSS Complex Samples moet bvk. wel uitsluitend en uniek zijn
strata Regio/ethn. Gesl. Lft. ni Ni 1 Antillianen Man 16-54 28 5501 2 55+ 34 686 3 Vrouw 42 6238 4 47 868 5 Stadsdriehoek 19-54 19 4458 6 26 3859 7 Oude Westen 10 2416 8 21 2226 9 Cool + CS-Kwartier 20 1755 17 1385 Daan Uitenbroek, Designeffecten

SPSS Complex Samples dan heb je een strata variabele nodig
Een variabele met hele nummers, labels zogezegd, van 1, 2, 3. Meestal laat je de strata en gewichten overlappen Je kunt meer strata hebben dan gewichten Meestal niet minder if ((geslacht=1) and (lft=1) and (etn=1)) strata= 1. if ((geslacht=1) and (lft=1) and (etn=2)) strata= 2. if ((geslacht=1) and (lft=2) and (etn=1)) strata= 3. if ((geslacht=1) and (lft=2) and (etn=2)) strata= 4. Enz. Daan Uitenbroek, Designeffecten

SPSS Complex Samples de weeg syntax ziet er dan zo uit
De gewicht syntax voor SPSS complex samles ziet er dan zo uit, Het zijn de grote gewichten Wi, die aangeven hoeveel respondenten een gewicht representeerd, dus decimale getallen altijd groter dan 1. if ((geslacht=1) and (lftcat=1)) strata=210,3. if ((geslacht=1) and (lftcat=2)) strata=45,8. if ((geslacht=2) and (lftcat=1)) strata=136,4. if ((geslacht=2) and (lftcat=2)) strata=121,5. Daan Uitenbroek, Designeffecten

SPSS Complex Samples vervolgens heb je een plan file nodig
CSPLAN ANALYSIS /PLAN FILE='M:\data\aa\nieuwplan.csaplan' /PLANVARS ANALYSISWEIGHT=weight2 /SRSESTIMATOR TYPE=WR /PRINT PLAN /DESIGN STRATA= strata /ESTIMATOR TYPE=WR. Daan Uitenbroek, Designeffecten

SPSS Complex Samples plan file kan je maken in SPSS

SPSS Complex Samples dan je analyse in complex samples
CSTABULATE /PLAN FILE = 'M:\data\aa\nieuwplan.csaplan' /TABLES VARIABLES = rook1 /CELLS POPSIZE TABLEPCT /STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT /MISSING SCOPE = TABLE CLASSMISSING = EXCLUDE. Daan Uitenbroek, Designeffecten

SPSS Complex Samples Resultaat, rechte telling

SPSS Complex Samples en dan een kruistabel
* Complex Samples Crosstabs. CSTABULATE /PLAN FILE = 'M:\data\a\ggd.csaplan' /TABLES VARIABLES = BMI BY sf01 /CELLS POPSIZE ROWPCT COLPCT /STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT /TEST ODDSRATIO RELRISK INDEPENDENCE /MISSING SCOPE = TABLE CLASSMISSING = EXCLUDE. Daan Uitenbroek, Designeffecten

SPSS Complex Samples zo een kruistabel syntax maak je ook in SPSS

Kruistabel in Complex Samples

Statistisch testen Kruistabel
Tests of Independence Chi-Square Adjusted F df1 df2 Sig. gezondheid algemeen * bmicat Pearson 32,423 19,660 1 1680 ,000 Likelihood Ratio 31,634 19,181 Measures of Association The adjusted F is a variant of the second-order Rao-Scott adjusted chi-square statistic. Significance is based on the adjusted F and its degrees of freedom. Estimate 95% Confidence Interval Lower Upper gezondheid algemeen * bmicat Odds Ratio 1,976 1,458 2,679 Relative Risk For cohort bmicat = ,00 1,329 1,155 1,529 For cohort bmicat = 1,00 ,672 ,569 ,795 Risk Difference ,164 ,090 ,238 -,164 -,238 -,090 Statistics are computed only for 2-by-2 tables with all cells observed. Daan Uitenbroek, Designeffecten

SPSS Complex Samples een efficient programma

Samenvatting wegen en design effecten in gezondheidsenquêtes
Als je gaat wegen krijg je design effecten, de betrouwbaarheid van je studie wordt minder Je krijgt bredere betrouwbaarheidsintervallen Verschillen zijn minder snel significant Voor een gemiddelde is het nog wel op de hand te doen Voor alle andere statistieken adviseren wij een gespecialiseerd programma De werkgroep wegen adviseerd SPSS Complex Samples Dit programma maakt niet de gewichten, gebruik een spreadsheet Het is goed te gebruiken voor een betrouwbaarheidsinterval of een vergelijking tussen twee groepen, bij een omvangrijke analyse, zeker efficient. Er zijn goede mogelijkheden voor complexere designs(/EMOVO) En multivariate statistiek (bijv Logistische regressie) Daan Uitenbroek, Designeffecten

Wegen en corrigeren voor design effecten in gezondheidsenquêtes

Verwante presentaties

Presentatie over: "Wegen en corrigeren voor design effecten in gezondheidsenquêtes"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Wegen en corrigeren voor design effecten in gezondheidsenquêtes

Verwante presentaties

Presentatie over: "Wegen en corrigeren voor design effecten in gezondheidsenquêtes"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback