Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdChristian de Haan Laatst gewijzigd meer dan 7 jaar geleden
1
Kennismiddag Open Data 7 november 2016, Den Haag
Privacy bescherming Eric Schulte Nordholt Kennismiddag Open Data 7 november 2016, Den Haag
2
Inhoud Inleiding Noodzaak van statistische beveiliging
Tabellen (Inleiding tabellen, Frequentietabellen, Kwantitatieve tabellen, Beveiligingsmethoden, Software, Conclusies tabellen) Microdata (Soorten microdata, Organisatie toegang tot microdata, Conclusies microdata) Afsluiting
3
Inleiding (1) Traditionele output van een statistisch bureau: Tabellen
Grafieken Echter: Groeiende behoefte aan informatie Groeiende behoefte aan microdata IT-mogelijkheden Mogelijkheden voor analyse Steeds meer samenwerkingsverbanden
4
Inleiding (2) Eerste stap: Grotere tabellen
Beveiligingsrisico’s voor kwantitatieve tabellen (t-ARGUS) Online publicatie van tabellen / geaggregeerde data Eerst beveiligen, dan publiceren (voorbeelden: StatLine, Census hub) Eerst tabellen aanvragen, dan beveiligen (voorbeelden: Factfinder van het U.S. Census Bureau, TableBuilder van het ABS)
5
Inleiding (3) Tweede stap: PUF (Public Use Files)
MUC (Microdata files Under Contract) Derde stap: On-site Remote access Het CBS moet de privacy van individuele bedrijven en personen beschermen (AP)
6
Noodzaak van statistische beveiliging (1)
Wetten Internationaal (EU) Nationaal (in Nederland) Respecteren respondent Huidige respons Toekomstige respons Respecteren eigenaren van registraties
7
Noodzaak van statistische beveiliging (2)
Nederlandse wetten: Wet op de economische statistieken 1936 (→ CBS-wet) Wet Bescherming Persoonsgegevens (WBP) 2001 CBS-wet 2004 Autonome overheidsorganisatie Vrije toegang tot andere overheidsdata Statistische beveiliging is een wettelijke plicht Toegang verlenen tot microdata voor wetenschappelijk onderzoek Wet Openbaarheid van Bestuur (WOB)
8
Noodzaak van statistische beveiliging (3)
Linken Registraties Surveys Datamining technieken Gemakkelijker zoeken (
9
Noodzaak van statistische beveiliging (4)
Pas beveiligingstechnieken zodanig toe dat De resulterende data veilig zijn Het informatieverlies minimaal is Problemen Definitie veilige data Definitie informatieverlies Disclosure risk Maximum tolerable risk No data Released data Original data Data utility
10
Tabeldata = geaggregeerde data
Inleiding tabellen (1) Tabeldata = geaggregeerde data Typen tabellen: Frequentietabellen Kwantitatieve tabellen Losse tabellen Gekoppelde tabellen Hiërarchische tabellen …
11
Inleiding tabellen (2) Voorbeeld van differencing (niet-hiërarchische indelingen: zorgkantoorregio versus provincie) Eemnes
12
Inleiding tabellen (3) Het beveiligingsprobleem bij publiceren van zowel vierkanten als bestaande regionale indelingen heeft Europese aandacht LAU 2 Grid squares Unit(s) at risk
13
Frequentietabellen (1)
Celwaarde = aantal Opspanvariabelen identificerend en gevoelig Celwaarde zelf is niet gevoelig, gevoeligheid zit in verdeling over opspanvariabelen
14
Frequentietabellen (2)
Beoordeling naar leeftijd Lage celwaarde hoeft geen probleem te zijn Slechte spreiding over gevoelige categorieën wel A B C D E < 45 1 2 3 45+ 5
15
Kwantitatieve tabellen (1)
Celwaarde = som van doelvariabele over alle bijdragers Opspanvariabelen identificerend (en soms gevoelig) Celwaarde zelf is gevoelige informatie over bijdragers
16
Kwantitatieve tabellen (2)
Minimaal aantal bijdragers per cel Een bijdrager mag niet domineren Dominantieregel of wel (n, k)-regel: Grootste n bijdragers niet meer dan k% van celtotaal Betere regel is de p%-regel: Geen enkele bijdrage mag nauwkeuriger dan met een relatieve fout van p% teruggerekend kunnen worden
17
Beveiligingsmethoden
Redesign van tabel Hergroeperen Hercoderen Afronden Simpel Gecontroleerd Onderdrukken
18
Software Gebruik t-ARGUS voor:
Bepalen primair onveilige cellen (gevoeligheidsmaten) Effect van redesign Bepalen secundaire onderdrukkingen Tot 4-dimensionale tabellen Gekoppelde tabellen Andere technieken (afronden, CTA)
19
Conclusies tabellen Conclusies:
Tabellen vormen een groot deel van onze output Risico’s op onthulling beperken Frequentietabellen versus kwantitatieve tabellen Beveiligingsmethoden Vele methoden in t-ARGUS beschikbaar
20
Soorten microdata Vier voorbeelden van microdata:
Public use microdata files (PUFs ‘voor iedereen’) Microdata under contract (MUCs ‘voor onderzoekers’) Microdata voor on-site (‘onderzoekers werken in CBS-gebouwen’) Microdata voor remote access (‘onderzoekers werken op eigen instituut’)
21
Organisatie toegang tot microdata (1)
PUFs (1994-) Strenge beveiliging, kan met m-ARGUS Niet geschikt voor onderzoekers, wel voor educatieve doeleinden Voorbeeld 1: Volkstellingsbestanden 1960, 1971, 2001 en 2011 ( en Voorbeeld 2: CBS in de klas (
22
Organisatie toegang tot microdata (2)
MUCs (1994-) Beperkte beveiliging, kan ook met m-ARGUS Alleen voor onderzoekers werkzaam bij instellingen genoemd in de wet (b.v. universiteiten, planbureaus) of op de CCS-lijst (niet voor administratief gebruik, onderzoeksdoel, resultaten worden openbaar) Via WSA / DANS Op cd-roms, één versie per jaar, geen onderhandelingen Voornamelijk persoons- en huishoudensenquêtes Nu nog als overblijfsel in contracten (‘DANS-bestand’)
23
Organisatie toegang tot microdata (3)
On-site (1998-) On-site betekent: een beveiligde omgeving (safe setting) Contract met onderzoeker en universiteit of onderzoeksinstelling Naast de standaard statistische software pakketten kan speciale (b.v. eigen) software worden geïnstalleerd Check op ‘wat naar buiten gaat’ Sinds 2005 bij het Centrum voor Beleidsstatistiek Ook voor bedrijfsgegevens (vroeger: CEREM) Nuttig voor incidenteel onderzoek en als ‘overloopfaciliteit’ Verschuiving naar remote access
24
Organisatie toegang tot microdata (4)
Remote access (2006-) Remote access is als on-site, maar loopt via een citrixverbinding (naast username en paswoord ook biometrische identificatie) Pilot met de Universiteit van Tilburg in 2005 Groot succes (‘performance als op eigen desktop PC’) Alle(en) data nodig voor betreffende onderzoek (doelbinding) Groeiende hoeveelheid outputchecks op mogelijkheid onthulling Nu algemeen beschikbaar voor universiteiten en onderzoeksinstellingen (ook in het buitenland)
25
Organisatie toegang tot microdata (5)
Samenwerkingscontracten Voor geselecteerde partners komen microdata buiten het CBS beschikbaar Er moet daadwerkelijk sprake zijn van samenwerking (‘wat heeft het CBS er aan’) Vaak bij gezamenlijk onderzoek / publicatie Alle(en) data nodig voor betreffende onderzoek worden beschikbaar gesteld (doelbinding) Risico op precedentwerking beperken via het contract
26
Conclusies microdata Conclusies:
Microdata voorzien in een grote behoefte Risico’s op onthulling beperken Verschillende gebruikers → verschillende microdata Regels voor verschillende soorten microdata Vele methoden in m-ARGUS beschikbaar
27
Afsluiting Meer informatie is te vinden op: Zijn er vragen of opmerkingen? Is verdere communicatie gewenst (b.v. lezingen op locatie)? Is er behoefte aan opleidingen?
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.