Kennismiddag Open Data 7 november 2016, Den Haag Privacy bescherming Eric Schulte Nordholt Kennismiddag Open Data 7 november 2016, Den Haag
Inhoud Inleiding Noodzaak van statistische beveiliging Tabellen (Inleiding tabellen, Frequentietabellen, Kwantitatieve tabellen, Beveiligingsmethoden, Software, Conclusies tabellen) Microdata (Soorten microdata, Organisatie toegang tot microdata, Conclusies microdata) Afsluiting
Inleiding (1) Traditionele output van een statistisch bureau: Tabellen Grafieken Echter: Groeiende behoefte aan informatie Groeiende behoefte aan microdata IT-mogelijkheden Mogelijkheden voor analyse Steeds meer samenwerkingsverbanden
Inleiding (2) Eerste stap: Grotere tabellen Beveiligingsrisico’s voor kwantitatieve tabellen (t-ARGUS) Online publicatie van tabellen / geaggregeerde data Eerst beveiligen, dan publiceren (voorbeelden: StatLine, Census hub) Eerst tabellen aanvragen, dan beveiligen (voorbeelden: Factfinder van het U.S. Census Bureau, TableBuilder van het ABS)
Inleiding (3) Tweede stap: PUF (Public Use Files) MUC (Microdata files Under Contract) Derde stap: On-site Remote access Het CBS moet de privacy van individuele bedrijven en personen beschermen (AP)
Noodzaak van statistische beveiliging (1) Wetten Internationaal (EU) Nationaal (in Nederland) Respecteren respondent Huidige respons Toekomstige respons Respecteren eigenaren van registraties
Noodzaak van statistische beveiliging (2) Nederlandse wetten: Wet op de economische statistieken 1936 (→ CBS-wet) Wet Bescherming Persoonsgegevens (WBP) 2001 CBS-wet 2004 Autonome overheidsorganisatie Vrije toegang tot andere overheidsdata Statistische beveiliging is een wettelijke plicht Toegang verlenen tot microdata voor wetenschappelijk onderzoek Wet Openbaarheid van Bestuur (WOB)
Noodzaak van statistische beveiliging (3) Linken Registraties Surveys Datamining technieken Gemakkelijker zoeken (https://www.cbs.nl/opendata)
Noodzaak van statistische beveiliging (4) Pas beveiligingstechnieken zodanig toe dat De resulterende data veilig zijn Het informatieverlies minimaal is Problemen Definitie veilige data Definitie informatieverlies Disclosure risk Maximum tolerable risk No data Released data Original data Data utility
Tabeldata = geaggregeerde data Inleiding tabellen (1) Tabeldata = geaggregeerde data Typen tabellen: Frequentietabellen Kwantitatieve tabellen Losse tabellen Gekoppelde tabellen Hiërarchische tabellen …
Inleiding tabellen (2) Voorbeeld van differencing (niet-hiërarchische indelingen: zorgkantoorregio versus provincie) Eemnes
Inleiding tabellen (3) Het beveiligingsprobleem bij publiceren van zowel vierkanten als bestaande regionale indelingen heeft Europese aandacht LAU 2 Grid squares Unit(s) at risk
Frequentietabellen (1) Celwaarde = aantal Opspanvariabelen identificerend en gevoelig Celwaarde zelf is niet gevoelig, gevoeligheid zit in verdeling over opspanvariabelen
Frequentietabellen (2) Beoordeling naar leeftijd Lage celwaarde hoeft geen probleem te zijn Slechte spreiding over gevoelige categorieën wel A B C D E < 45 1 2 3 45+ 5
Kwantitatieve tabellen (1) Celwaarde = som van doelvariabele over alle bijdragers Opspanvariabelen identificerend (en soms gevoelig) Celwaarde zelf is gevoelige informatie over bijdragers
Kwantitatieve tabellen (2) Minimaal aantal bijdragers per cel Een bijdrager mag niet domineren Dominantieregel of wel (n, k)-regel: Grootste n bijdragers niet meer dan k% van celtotaal Betere regel is de p%-regel: Geen enkele bijdrage mag nauwkeuriger dan met een relatieve fout van p% teruggerekend kunnen worden
Beveiligingsmethoden Redesign van tabel Hergroeperen Hercoderen Afronden Simpel Gecontroleerd Onderdrukken
Software Gebruik t-ARGUS voor: Bepalen primair onveilige cellen (gevoeligheidsmaten) Effect van redesign Bepalen secundaire onderdrukkingen Tot 4-dimensionale tabellen Gekoppelde tabellen Andere technieken (afronden, CTA)
Conclusies tabellen Conclusies: Tabellen vormen een groot deel van onze output Risico’s op onthulling beperken Frequentietabellen versus kwantitatieve tabellen Beveiligingsmethoden Vele methoden in t-ARGUS beschikbaar
Soorten microdata Vier voorbeelden van microdata: Public use microdata files (PUFs ‘voor iedereen’) Microdata under contract (MUCs ‘voor onderzoekers’) Microdata voor on-site (‘onderzoekers werken in CBS-gebouwen’) Microdata voor remote access (‘onderzoekers werken op eigen instituut’)
Organisatie toegang tot microdata (1) PUFs (1994-) Strenge beveiliging, kan met m-ARGUS Niet geschikt voor onderzoekers, wel voor educatieve doeleinden Voorbeeld 1: Volkstellingsbestanden 1960, 1971, 2001 en 2011 (http://www.dans.knaw.nl/nl en https://international.ipums.org/international/) Voorbeeld 2: CBS in de klas (http://www.cbs.nl/nl-NL/menu/informatie/onderwijs/home/default.htm)
Organisatie toegang tot microdata (2) MUCs (1994-) Beperkte beveiliging, kan ook met m-ARGUS Alleen voor onderzoekers werkzaam bij instellingen genoemd in de wet (b.v. universiteiten, planbureaus) of op de CCS-lijst (niet voor administratief gebruik, onderzoeksdoel, resultaten worden openbaar) Via WSA / DANS Op cd-roms, één versie per jaar, geen onderhandelingen Voornamelijk persoons- en huishoudensenquêtes Nu nog als overblijfsel in contracten (‘DANS-bestand’)
Organisatie toegang tot microdata (3) On-site (1998-) On-site betekent: een beveiligde omgeving (safe setting) Contract met onderzoeker en universiteit of onderzoeksinstelling Naast de standaard statistische software pakketten kan speciale (b.v. eigen) software worden geïnstalleerd Check op ‘wat naar buiten gaat’ Sinds 2005 bij het Centrum voor Beleidsstatistiek Ook voor bedrijfsgegevens (vroeger: CEREM) Nuttig voor incidenteel onderzoek en als ‘overloopfaciliteit’ Verschuiving naar remote access
Organisatie toegang tot microdata (4) Remote access (2006-) Remote access is als on-site, maar loopt via een citrixverbinding (naast username en paswoord ook biometrische identificatie) Pilot met de Universiteit van Tilburg in 2005 Groot succes (‘performance als op eigen desktop PC’) Alle(en) data nodig voor betreffende onderzoek (doelbinding) Groeiende hoeveelheid outputchecks op mogelijkheid onthulling Nu algemeen beschikbaar voor universiteiten en onderzoeksinstellingen (ook in het buitenland)
Organisatie toegang tot microdata (5) Samenwerkingscontracten Voor geselecteerde partners komen microdata buiten het CBS beschikbaar Er moet daadwerkelijk sprake zijn van samenwerking (‘wat heeft het CBS er aan’) Vaak bij gezamenlijk onderzoek / publicatie Alle(en) data nodig voor betreffende onderzoek worden beschikbaar gesteld (doelbinding) Risico op precedentwerking beperken via het contract
Conclusies microdata Conclusies: Microdata voorzien in een grote behoefte Risico’s op onthulling beperken Verschillende gebruikers → verschillende microdata Regels voor verschillende soorten microdata Vele methoden in m-ARGUS beschikbaar
Afsluiting Meer informatie is te vinden op: http://neon.vb.cbs.nl/casc/index.htm Zijn er vragen of opmerkingen? Is verdere communicatie gewenst (b.v. lezingen op locatie)? Is er behoefte aan opleidingen?