Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Tevredenheids onderzoek Door Lizanne Jespers HBO-V studente Maart 2014
Open-Tops in Bergen aan Zee De Fysische Eigenschappen
CPB-studie Vernieuwingsimpuls 16 mei 2013 Sander Gerritsen Erik Plug Karen van der Wiel.
Laurens van der Maaten IKAT / ROB
Kwaliteit van leven bij dementie
Inkomenseffecten van woningbouw workshop evaluatieonderzoek 28 maart 2013 Dr. R. Willemse Teamleider beleidsonderzoek Rekenkamer Rotterdam.
Marktonderzoek als proces
Werkwijze invoeren metadata in P2G volgens de standaard LOM Sylvia Moes (VU) en Chris Nieuwenhoven (UvT)
Modellering ruimtelijke gevolgen van infrastructuur op GrondGebruik met de LandUseScanner.
Wouter van der Zwan Lezing Draaitabellen Wouter van der Zwan
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Statistiek voor Historici
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
VOB 21 april 2009 Dr. Hilde Goris
Advanced Algorithms Groep: EII7AAb
‘Ik moet meer lezen met mijn ogen en minder met mijn hart.’
Hoofdstuk 3 – Gegevens verzamelen
Hoofdstuk 6: Controle structuren
De onderkant van de Belgische pensioenbescherming In welke mate lopen (rust)gepensioneerden een risico op armoede? Hanne Vandermeerschen Pensioencolloquium.
Jan Talmon Medische Informatica Universiteit Maastricht
Jong geleerd, fout gedaan?
Bevolkingsgegevens van voornamen en familienamen uit de Gemeentelijke Basis Administratie Gerrit Bloothooft Utrecht Institute of Linguistics - OTS.
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
De geschiedenis van de deling
Gegevensverwerving en verwerking
Peter Schwartz The art of the long view stappenplan
Een fundamentele inleiding in de inductieve statistiek
Onderzoeksmethode Oftewel: met welke specifieke onderzoeksmethode kan ik het best mijn onderzoeksvraag beantwoorden.
Hoofdstuk 7 Anderen motiveren
Voorspellende analyse
Enquête SimForTree (maart 2007) Eerste verwerking (7 respondenten)
Effect modificatie Algemeen principe Bepalen van effect modificatie
Spatial subgroup mining
Gebruik van registraties binnen steekproefonderzoek
Hoofdstuk 7 Motiveren van medewerkers
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Social Medicine CQ-index: betrouwbaarheid en validiteit voor allochtone bevolkingsgroepen Karien Stronks afd. Sociale Geneeskunde AMC/UvA Onderzoekersforum.
Validiteit, betrouwbaarheid en casemixcorrectie
Stand van zaken ontwikkelingen
Enquête.
Klik hier als u voor de eerste keer op de website komt.
1 Nederlands Tweeling Register koppelen met Achmea.
ELSI-update Jasper Bovenberg 28 maart ELSI-Update: Algemeen Wettelijk Kader Toegevoegd: WGBO Wet Algemene Bepalingen BSN Wet Gebruik BSN in de zorg.
TomTom WORK Truck Navigatie woensdag 24 september 2014.
Coderen.
Succesfactoren voor aansluiting en studiesucces
Welke acties ondernemen Groningers om voorzieningen te behouden? Carola Simon 26 mei 2014, werkconferentie Innovaties in het sociale domein.
UvA-Q = [ DIF & SEF & DEF ] Wat?! En waarom?!
Doel onderzoek : ALGEMEEN : De kwaliteit van leven in de verschillende zorggroepen. Is er een verband tussen : veranderingen in fysieke, psychische en.
Baarde en de goede Hoofdstuk 11: Data-analyse
3/23/2015 | 1 Healthwise Congres ‘Kwaliteit van Leven’ E-Health workshop - Eveline Hage Over de mogelijkheden van e-Health in ouderenwelzijn On?
Nieuwe financiering FAVV: stand van zaken dd 09/05.
Goede voorbereiding is het halve werk
Het optimale design versus de weerbarstige praktijk Prof. Dr. Jan Busschbach
3/30/2015 | 1 Bibliotheekinstructie Nederlands 2014.
AUTEURS drs. Marja Ruigrok Fernando McDougal MSc DATUM AMSTERDAM, Maart 2007 Een kwantitatief onderzoek naar het fenomeen webloggen in Nederland In samenwerking.
Design je eigen web-pagina Met behulp van Photoshop.
Wat zegt de COS over steekproeven en data-analyse?
20 mei Symposium Statistical Auditing Slide 1 Wat zegt de COS over steekproeven en data-analyse? Paul van Batenburg.
Parametric release Wat is dat?.
Methoden & Technieken van Onderzoek Maurice Scheepers Kamer H4.318
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Leraareffectiviteit – wat weten we (niet)? Daniel Muijs, University of Southampton.
Sterfte van daklozen in Rotterdam Wilma Nusselder, Marcel Slockers, Ed van Beeck Erasmus MC, instituut Maatschappelijke Gezondheidszorg CEPHIR seminar.
Inloggen >> Gegevensaanlevering en controle in Peridos In Release 3.3 van Peridos is er een nieuwe module gebouwd voor het aanleveren en bekijken van gegevens.
Social media. Agenda Over ons Facebook Twitter Linkedin Instagram.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
Shared Savings in de Geïntegreerde Eerstelijns Zorg Pilot Enschede Arthur Hayen.
Nadere Effect Analyse Methode voor effectbepaling Imagine the result.
Transcript van de presentatie:

Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014

2 Overzicht Achtergrond informatie Doel van simulatie Details simulatie Simulatie resultaten Conclusies

3 Achtergrond informatie Doel: Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc). De beschikbare literatuur over het koppelen van data beschrijft meestal zeer specifieke koppelprojecten. De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze (bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is). De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten zal opleveren.

4 Achtergrond informatie We houden rekening met de volgende factoren:  Variaties binnen de registraties Omvang Populatie dekking en kenmerken Kwaliteit van variabelen (afhankelijk van hoe belangrijk een variabele is voor het onderzoek)  Variaties tussen de te koppelen data Omvang van de populatie overlap Beschikbaarheid van koppelingsvariabelen

5 Doel van simulatie Vraag die we willen beantwoorden: Welke linking methode is geschikt bij bepaalde omvang van data sets en de omvang van fouten?

6 Simulatie gegevens Er zijn 3 simulatie onderdelen:  Genereren van simulatie data sets  Ontwikkelen van koppelingsscenario’s  Selecteren van koppelingsmethode

7 Simulatie gegevens Genereren van simulatie data  Drie data sets met verschillende omvang en populatie dekking die representatief te zijn voor biobank/registraties: Grote data set ( records, algemene populatie dekking zoals beschreven in StatLine CBS) Medium data set ( records, specifieke populatie dekking zoals beschreven op IKNL website over Kanker Statistiek) Klein data set (1.600 records, zeer specifieke populatie dekking geïmiteerd van OMEGA vrouwen cohort )  Elke data set bevat: achternaam, geboortedatum, geslacht, postcode  Achternamen zijn gegenereerd met behulp van de meest populaire Nederlandse achternamen volgens het Meertens Instituut

8 Simulatie gegevens Ontwikkelen van koppelingsscenario’s Bepalen omvang van overlap (shared population: 10%, 60%, 90%), omvang van fouten (10%, 20%, 30%) Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht) Typische fouten in Nederlandse registraties (vooral o.b.v. CBS ervaring, zie Arts, Bakker & van Lith, 2000) Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en Christen & Pudjijono, 2009)

9 Simulatie gegevens

10 Simulatie gegevens Koppelingsmethode, bij voorkeur: Simpel maar doeltreffend, en geschikt voor encryptie Geselecteerde koppelingsmethode voor evaluatie:  Probabilistisch met afstand maat (Jaro-Winkler)  Probabilistisch met afstand maat, geschikt voor encryptie (Bigram)  Basic probabilistisch  Basic deterministisch

11 Simulatie resultaten: Sensitiviteit Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate

12 Simulatie resultaten: Precisie Precisie (aantal correcte links/total links gevonden), per error rate

13 Belangrijkste conclusies Onze conclusies op grond van de simulatie resultaten: 1.Probabilistische methode is meer geschikt dan deterministisch methode indien: de kwaliteit van de variabelen laag is (in ons geval: 30% fout) meer variabelen beschikbaar zijn als koppelvariabelen, en bij voorkeur discriminerende variabelen 2.Deterministische methode is aan te raden voor het koppelen van data van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons geval 10%).