Big Data & little privacy COSIC Big Data & little privacy Prof. Bart Preneel COSIC KU Leuven en iMinds, Belgium Bart.Preneel(at)esat.kuleuven.be Oktober 2014 © COSIC KU Leuven, Bart Preneel
Groei van het internet
The data supply chain [Jim Adler] https://www.usenix.org/sites/default/files/conference/protected-files/adler_sec13_slides.pdf
Internet toepassingen: advertenties
Draagbare en implanteerbare toestellen IMEC: NERF – stimulering van hersenen Deep Brain stimulatie [Sources: J. Rabaey, Nat.Institutes of Health, Neurology Journal] Gezondheid
Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP) Beschikbaar op: www.genome.gov/sequencingcosts
© COSIC KU Leuven, Bart Preneel Are our current ICT systems secure enough to take the risk to collect Big Data? © COSIC KU Leuven, Bart Preneel
Trends van cyberbeveiliging weinig betrouwbare cijfers beschikbaar evolutie van “hacking voor het plezier” professionele criminaliteit met financiële motieven overheden zichtbaarheid van aanvallen vermindert verdediging verbetert maar onvoldoende industriële spionage verschuiving naar “social engineering” van cybermisdaad naar cyberoorlog
Computer Virus Bron: F-Secure Proof of concept: 1970s Eerste bedreiging: midden 1980s Explosie: midden 1990s 6.3 miljoen in 2011 Industrie gestopt met tellen in 2012 Kaspersky heeft in 2013 bijna 1 miljard malware objecten gedetecteerd en geneutralizeerd 100K malware voor mobiele telefoons in 2013 Bron: F-Secure
Een visser email (“phishing”)
Phishing 1% van alle email houdt verband met phishing Elke maand meer dan 25,000 nieuwe phishing sites (sinds 2006) Verliezen voor financiële industrie: meer dan 1 miljard EUR per jaar Gebruikers soms naïef maar, soms kunnen ook experten echte en valse sites niet onderscheiden Snelle respons - monitoren van het internet door derde partijen
Botnet Aanvaller controleert 100.000 computers Toepassing: verhuur voor SPAM, inbraken, over-belasten van computers
SPAM (ongevraagde commerciële massa-email) 65% van alle emails is SPAM 7% in 2001; 90-95% rond 2005; 82% in 2010 90-200 miljard SPAM berichten per dag 5% bevat malware 40% van alle accounts op sociale media worden aangemaakt door spammers Anti-spam maatregelen kosten miljarden EURO per jaar Als alle gebruikers SPAM zouden negeren, zou SPAM snel stoppen helaas is er een kleine minderheid van de gebruikers die reageren Bill Gates (2004): Spam Will Be 'Solved' In 2 Years
Latest trend: on-line casinos SPAM 2013 statistics SPAM content [Source: M86 security lab] Latest trend: on-line casinos SPAM by botnet [Source: M86 security lab]
Waarom is het zo moeilijk om cyberbeveiliging te verbeteren? Complexiteit: technologisch, juridisch Economisch drijfveren: beveiligingsmarkt functioneert niet optimaal Menselijke factor
Technologische complexiteit IC: 2 miljard elementen Windows/Linux/OS X: 20-200 miljoen lijnen code Applicatie: 1-20 miljoen lijnen code Internet: 1.5 miljard PCs en 2 miljard smartphones/tablets Mobiele telefonie: 6 miljard gebruikers Beveiligen van een complex systeem: moeilijk, duur en traag Bijkomend probleem: zeer snelle evolutie
Juridische complexiteit wetgeving is nationaal industrie is internationaal aanvallen gebeuren internationaal internationale “coördinatie” niet optimaal NATO, OECD, Council of Europe, EU (ENISA) snelle evolutie van technologie
Economische problemen in ICT wereld is marktaandeel belangrijker dan beveiliging succes vergt quasi-universele adoptie gebruiker kan veilige en onveilige producten niet onderscheiden gebruiker is niet bereid om veel te betalen voor beveiliging of privacy waarom zou je betalen voor het vermijden van schade als je niet zelf het slachtoffer is? (“tragedy of the commons”) botnets betalingssystemen zwakheden in software
Menselijke factor mens is altijd een zwakke schakel bereidwilligheid/naïviteit beslissingen niet rationeel veilige systemen zijn meestal niet gebruiksvriendelijk Any sufficiently advanced technology is indistinguishable from magic [Arthur C Clarke 1961]
Snowden onthullingen NSA: “Collect it all, know it all, exploit it all” Meest eigenschappen had men kunnen extrapoleren van open bronnen Maar toch… massieve schaal en impacts zowel organisatorisch als technisch zeer gesofisticeerd redundantie: ten minste 3 manieren om aan de gegevens van Google te geraken veel andere landen hierbij betrokken (buiten “five eyes) – schaalvoordeel medewerking van industrie door omkoping en “security letters”, … M.i.v. industriële spionage Ondermijnen van cryptografische standaarden (Bullrun)
Snowden onthullingen (2) Meest spectaculair: “active defense” netwerken Quantum insertion: antwoord voor de website zelf FoxAcid: speciale malware toestellen malware ondermijnen van de bevoorradingsketen Vertaling: complete controle over netwerken en systemen, zelfs systemen die nooit aan het internet gekoppeld worden Kan niet langer ontkend worden
Wat hebben we geleerd Met de huidige kennis van ICT technologie kunnen zelfs gesofisticeerde organisaties zich niet afdoende beschermen tegen de georganiseerde misdaad en tegen de aanvallen van een groeiend aantal natiestaten Bedrijven hebben de publieke ruimte ingenomen social netwerken (e)mail Reclame bibliotheken en zoekopdrachten discussie fora Overheden krijgen toegang tot die schat aan gegevens bij bedrijven De kans is heel klein dat dit snel gaat veranderen
Does Big Data lead to Big Privacy Losses? © COSIC KU Leuven, Bart Preneel
Wat is privacy? Abstract en subjectief concept, moeilijk te definiëren Hangt af van culturele aspecten, discipline, belanghebbende, contekst Europa: discretie US: transparantie
Privacy definities Het recht om alleen gelaten te worden” vrijheid van intrusie en confidentialiteit [Warren and Brandeis, “The Right to Privacy”, Harvard Law Review, Vol. IV. No. 5, December 15, 1890] “Informationele zelf-determinatie” individuele controle op gebruik en verspreiding [Westin, 1970] [German constitutional court, 1983] Privacy als praktijk constructie van identiteit; transparentie en feedback [Agre, 1999] [Guerses, 2011]
Juridische aanpak: data protection Data controller Proportioneel Toestemming Recht op inzage en correctie
Privacy problemen: Places/Players/Perils [Jim Adler]
Privacy problemen Lekken van gevoelige informatie Manipulatie Profilering Discriminatie Voorspellen Mass surveillance
World’s Biggest Data Breaches http://www. informationisbeautiful
Lekken van gevoelige informatie Slecht nieuws: technieken om data te deanonymiseren zijn niet effectief
Privacy problemen: manipulatie “the filter bubble”
Privacy problemen: profilering
Privacy problemen: profilering “computer algoritme” niet transparant niet altijd correct recht op inzage en correctie? leidt profilering van wat afwijkt tot conformisme? zorgt dit voor onderdrukken van ‘maatschappelijk afwijkende en/of ongewenst’ gedrag?
Privacy problemen: discriminatie prijsdiscriminatie discriminatie op basis van gezondheidsrisico’s drugs, roken, alcohol, voeding, beweging, discriminatie naar ras, religie, sexuele oriëntatie voorbeeld: http://dataprivacylab.org/projects/onlineads/1071-1.pdf.
Privacy problemen: voorspellen Thoughtcrime n. A crime committed by having unorthodox, unofficial, controversial or socially unacceptable thoughts. George Orwell Wat sociaal aanvaardbaar is, kan sterk veranderen..
Mass surveillance: meta data Meta data is niet de inhoud van de conversatie maar URLs, websites, email adressen, telefoonnummers, locaties,… dit laat toe om netwerken te ontdekken en sociale relaties te onhullen 6 June 2013: NSA verzamelt elk dag telefoongegevens van miljoenen klanten van Verizon EU: data retention directive (2006/24/EC) ongeldig verklaard door EU Court of Justic in april 2014
Mass surveillance: meta data (2) NSA verzamelt per dag 5 miljard gegevens over de locatie van mobiele telefoons Co-traveler
We kill people based on meta data The meta data debate It’s only meta data We kill people based on meta data … but that’s not what we do with this metadata Former National Security Agency (NSA) and Central Intelligence Agency (CIA) Director Michael Hayden (Reuters/Larry Downing)
Het privacy debat Solove: “Als je privacy belangrijk vindt, is dat omdat je iets te verbergen hebt” Solove: “het probleem met dit argument is de onderliggende veronderstelling dat privacy gaat over slechte dingen”
Source: http://www.myconfinedspace.com/
Het privacy debat Privacy is een sociaal goed; beslissingen over wat je vrijgeeft zijn geen zuiver individuele beslissingen [Solove] “Een maatschappij is maar goed om in te leven naarmate het aan de burgers de vrijheid geeft t.o.v. de intrusies van anderen. Een maatschappij zonder privacybescherming zou verstikkend zijn” [Diffie and Landau] “Communicatie is fundamenteel voor de mens; vertrouwelijke communicatie is fundamenteel voor onze nationale veiligheid en voor onze democratie”
Het privacy debat voor Big Data Big Data: Seizing Opportunities, Preserving Values, Executive Office of the President (USA), May 2014 Afwegen van sociale voordelen en risico’s Welke informatie mag nooit verzameld worden? enkel met toestemming verzameld worden? altijd verzameld worden? Hangt dit af van de toepassing? Wat is toestemming voor Internet of things? Melvin Kranzberg’s First Law of Technology (1986) “Technology is neither good nor bad; nor is it neutral.”
Architecture is politics [Mitch Kaipor’93] © K.U.Leuven COSIC, Bart Preneel 10 April 2017
Governance en architecturen Overheden: willen toegang tot alle data maar niet voor anderen Lijkt onhaalbaar op dit ogenblik Industrie: conflicterende vereisten overheid wil toegang en achterdeurtjes DRM voor media en software privacy van gebruiker Individu: heeft geen echte keuzes Nood aan her-denken van gecentralizeerde architectuur met Big Data vertrouwen in 1 server leidt tot hacks of misbruik
Governance en Architecturen: Terug naar de basis: minimal disclosure zo weinig mogelijk data centralizeren in de cloud als centraal verzameld: vercijfer met een sleutel in de handen van de eigenaar van de data of een derde partij nog altijd (in beperkte mate) operaties op vercijferde data met cryptografie ook lokale berekeningen met bewijs van correctheid waarbij enkel het resutaat wordt vrijgegeven dit vraagt wel een oplossing specifiek voor elke toepassing: betaalrijden, slimme meters, gezondheidszorg,..
Betaalrijden: centrale oplossing overheid betaling GPS rekening data GSM netwerk Post dienst-verlener massale datacollectie bij dienstverlener
Betaalrijden op een privacy-vriendelijke manier persoonlijke gegevens blijven in het domein van de gebruiker vercijferde GPS data GPS Post rekening Aanpassing tarieven GSM netwerk bedrag per maand dienstverlener
Einde Bedankt voor uw aandacht