Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden
2 Voorstelronde Presentatie Bart Custers: onderzoeksvoorstel Presentatie Toon Calders: building classifiers Presentatie Bart Schermer: legal requirements Terugkoppeling en discussie Vragen over presentaties Rol van het valorisatiepanel Discussie Afsluiting en gezamenlijke lunch
3 Information overflow
4 Regressie Classificatie Clusteren
5 De weg vinden in bergen data (2) 2 gebruikelijke oplossingen: Vooraf niet alles verzamelen… Administratieve lasten Overzicht raakt verloren Beveiligingsproblemen Privacyproblemen … en achteraf analyseren Niet alleen controle op bekende verdachten (zwarte lijsten, second offenders) Maar ook controle op nieuwe verdachten (risicoprofielen, first offenders) 5 Verzamel antecedenten data Bouw risicoprofielen op basis van historische data Probleem 2: Historische data kunnen echter discriminerende patronen bevatten Probleem 1: Database kan discriminerende gegevens bevatten
6 Informatietheorie stelt dat de disseminatie van informatie onomkeerbaar is: Informatie is eenvoudig te vermenigvuldigen Informatie is eenvoudig te verspreiden Klassieke (a priori) focus op toegang tot informatie beperken werkt dus niet Beter: (a posteriori) focus op transparantie en verantwoording 1 Probleem 3: Toegangsbeperkingen zijn geen geweldige oplossing
7 Ongewenste/verboden selectie Stigmatisering bepaalde groepen Confrontatie met ongewenste info Eenzijdige info-voorziening Doelbinding voorbijgaan Onbetrouwbaarheid (false positives/false negatives) Stelling: “Als je niets te verbergen hebt, heb je niets te vrezen” is onjuist Discriminatie
8 Mogelijke toepassingen Terreurfondsen opsporen Opsporen fraude/criminaliteit Direct marketing/customisation Verzekeringen ▪ In VS nu veel mensen onverzekerd vanwege hoge premies door risico Medische toepassingen ▪ In IJsland grote DNA database aangelegd Beleid/strategie bepalen
9 Car breakdown Pizza delivery
10 Probleem: We willen wel positieve aspecten Overzicht/inzicht grote hoeveelheden data Maar geen negatieve aspecten Discriminatie, privacy, onbetrouwbaarheden, etc. Oplossing: Bouw reeds vooraf in analysemethode ethische en juridische regels in
11 In hoeverre kunnen we juridische en ethische regels integreren in data mining algoritmen om discriminerende effecten te voorkomen? Input kan discriminerende data bevatten Output kan discriminerende patronen opleveren Simpelweg verwijderen gevoelige data is geen oplossing
12 Analyzing the possibilities to translate laws and rules into a format understandable for computers that may be verified Integrating this formalization in the current state- of-the-art algorithms for discovering models Providing feedback of the technological possibilities for concrete recommendations for formalizing legislation.
13 Bart CustersUniversiteit Leiden Toon CaldersTU Eindhoven Bart SchermerUniversiteit Leiden Sicco VerwerTU Eindhoven VacatureUniversiteit Leiden Duur: 1 oktober 2009 – 1 oktober 2010
14
15 Voorstelronde Presentatie Bart Custers: onderzoeksvoorstel Presentatie Toon Calders: building classifiers Presentatie Bart Schermer: legal requirements Terugkoppeling en discussie Vragen over presentaties Rol van het valorisatiepanel Discussie Afsluiting en gezamenlijke lunch