Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdHans Boer Laatst gewijzigd meer dan 10 jaar geleden
1
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014
2
2 Overzicht Achtergrond informatie Doel van simulatie Details simulatie Simulatie resultaten Conclusies
3
3 Achtergrond informatie Doel: Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc). De beschikbare literatuur over het koppelen van data beschrijft meestal zeer specifieke koppelprojecten. De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze (bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is). De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten zal opleveren.
4
4 Achtergrond informatie We houden rekening met de volgende factoren: Variaties binnen de registraties Omvang Populatie dekking en kenmerken Kwaliteit van variabelen (afhankelijk van hoe belangrijk een variabele is voor het onderzoek) Variaties tussen de te koppelen data Omvang van de populatie overlap Beschikbaarheid van koppelingsvariabelen
5
5 Doel van simulatie Vraag die we willen beantwoorden: Welke linking methode is geschikt bij bepaalde omvang van data sets en de omvang van fouten?
6
6 Simulatie gegevens Er zijn 3 simulatie onderdelen: Genereren van simulatie data sets Ontwikkelen van koppelingsscenario’s Selecteren van koppelingsmethode
7
7 Simulatie gegevens Genereren van simulatie data Drie data sets met verschillende omvang en populatie dekking die representatief te zijn voor biobank/registraties: Grote data set (160.000 records, algemene populatie dekking zoals beschreven in StatLine CBS) Medium data set (16.000 records, specifieke populatie dekking zoals beschreven op IKNL website over Kanker Statistiek) Klein data set (1.600 records, zeer specifieke populatie dekking geïmiteerd van OMEGA vrouwen cohort ) Elke data set bevat: achternaam, geboortedatum, geslacht, postcode Achternamen zijn gegenereerd met behulp van de meest populaire Nederlandse achternamen volgens het Meertens Instituut
8
8 Simulatie gegevens Ontwikkelen van koppelingsscenario’s Bepalen omvang van overlap (shared population: 10%, 60%, 90%), omvang van fouten (10%, 20%, 30%) Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht) Typische fouten in Nederlandse registraties (vooral o.b.v. CBS ervaring, zie Arts, Bakker & van Lith, 2000) Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en Christen & Pudjijono, 2009)
9
9 Simulatie gegevens
10
10 Simulatie gegevens Koppelingsmethode, bij voorkeur: Simpel maar doeltreffend, en geschikt voor encryptie Geselecteerde koppelingsmethode voor evaluatie: Probabilistisch met afstand maat (Jaro-Winkler) Probabilistisch met afstand maat, geschikt voor encryptie (Bigram) Basic probabilistisch Basic deterministisch
11
11 Simulatie resultaten: Sensitiviteit Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate
12
12 Simulatie resultaten: Precisie Precisie (aantal correcte links/total links gevonden), per error rate
13
13 Belangrijkste conclusies Onze conclusies op grond van de simulatie resultaten: 1.Probabilistische methode is meer geschikt dan deterministisch methode indien: de kwaliteit van de variabelen laag is (in ons geval: 30% fout) meer variabelen beschikbaar zijn als koppelvariabelen, en bij voorkeur discriminerende variabelen 2.Deterministische methode is aan te raden voor het koppelen van data van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons geval 10%).
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.