informatica Welkom! 25 February, Les C-5
informatica Extra stof Data mining 2 Les C-5
informatica Inhoud van de les Wat is big data? Wat houdt data mining in? Wat zijn de voordelen ervan? Welke technieken zijn er voor data mining? Waar moet je voor opletten bij verbanden in data mining? Wat is het verschil tussen correlatie en causaliteit? Wat zijn de effecten voor de privacy? Les C-5 3 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Big Data Datasets zo groot dat ze als geheel niet makkelijk te verwerken of te analyseren zijn. We praten over een aanmaak van ca. 2,5 exabytes (= 10^9 gigabytes) per dag sinds – De groei is exponentieel met ongeveer 40% toename per jaar. Waar komt die groei vandaan? Les C-5 4 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Oorzaken Big Data A.Het uploaden van grotere bestanden zoals afbeeldingen en video’s. –Facebook, YouTube B.Steeds meer sensordata (RFID’s) –Pinnen –Elektronische aankopen –‘Slimme meter’ Sensordata gaat gekoppeld met Internet of Things. Les C-5 5 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Internet of Things Fysieke objecten die aan een netwerk (internet) zijn verbonden. Denk aan: –Temperatuurregeling in huis –hartslagmeters –pakketjes bij de post –Communicatie zelfrijdende auto’s –“Hello Barbie” We spreken van Internet of Things als dit soort apparaten in de meerderheid aanwezig zijn t.o.v. pc’s, tablets en smartphones. Les C-5 6 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Eisen aan Big Data Niet elke database noemen we big data. Eigenschappen die een rol spelen zijn: Volume –de omvang van de data is groter dan software aan kan. Snelheid –opvragen en verwerken van data is (nagenoeg) onmogelijk. Diversiteit –de ongestructureerde vorm van de data, zodat die niet in een traditionele database kan worden opgeslagen. –verschillende opslagformaten van data. Waarheidsgetrouw –niet alle data is even betrouwbaar. Les C-5 7 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Wat is data mining? Verwarrende naam! Je ‘mijnt’ geen data, maar patronen die je in data vindt. Denk aan: –soort boodschappen die je koopt –soorten video’s die je op YouTube kijkt Les C-5 8 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Waar wordt DM gebruikt? commercieel –Albert Heijn Bonuskaart Social media –Facebook –YouTube onderzoek (beslissings)onder- steunend Les C-5 9 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Voorbeeld: data mining Welk van de onderstaande voorbeelden is wèl relevant voor data mining, en welke niet? A.De database met alle (geld)transacties van klanten van Amazon. B.De database met klik- en aankoopgedrag van klanten van Amazon. Les C-5 10 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Voorbeeld Je kan een dataset hebben van mensen en de financiële- en huwelijksstatus. Stel dat je hieruit patronen wilt zoeken of mensen een hogere hypotheek willen. Hoe doe je dat? Les C-5 11 NaamLeeftijdInkomen (per jaar) Sparen (per jaar) Gehuwd?Hogere hypotheek Sylvia JaNee Jeanette Ja Natalie Nee? Fiene Nee Elsje Ja? Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Algoritmes datamining Er kunnen heel veel patronen zijn in big data. Je wil dus een ‘recept’ gebruiken om patronen te vinden (oftewel: een algoritme). Omdat de machine met deze algoritmes zelf leert patronen te leggen, wordt het ook wel machine learning genoemd. Een paar van deze algoritmes zijn: Beslissingsboom Rule induction Neurale netwerken Les C-5 12 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Beslissingsboom Het is een volgorde van vragen die tot een beslissing leiden. Bij een beslissingsboom ga je elke eigenschap af (inkomen, sparen, etc.) Van hieruit kijk je wat waarschijnlijker is, een hogere hypotheek of niet. Les C-5 13 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Beslissingsbomen Les C-5 14 Dit is een mogelijke boom. Dit is een andere mogelijke boom. Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Rule Induction Les C-5 15 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Neurale netwerken Verbindingen leggen tussen eigenschappen, en kijken hoe goed ze relaten aan elkaar. Neurale netwerken zitten ook in menselijke hersenen. Hiervoor heb je: Neuronen (zenuwcellen) – ook wel de informatie- en signaalverwerkers. Verbindingen (synapse) - die de zenuwen aan elkaar koppelt (en verbanden legt). Les C-5 16 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Neurale netwerken Deze netwerken kun je in drie lagen opdelen. Input-laag: de karakteristieken die je hebt. Verborgen laag: gegenereerd door de machine. Hier worden verbanden gekoppeld. Output-laag: de resultaten die je uit de gegevens voorspelt. Les C-5 17 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Verbanden Bij het zoeken naar patronen en verbanden, heb je het snel te maken met de volgende begrippen: Correlatie Als er een verband is tussen twee grootheden. Vraag en aanbod in economie. Causaliteit Een oorzaak – gevolg verband. “I drank too much wine, I must take a piss.” (Matrix Reloaded) Les C-5 18 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Vraag Welke stelling is waar? A.Als er causaliteit is, is er ook correlatie. B.Als er correlatie is, is er ook causaliteit. Correlatie is makkelijker aan te tonen! Als er correlatie is, weten we niet zeker of er een causaal verband is. Les C-5 19 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Oefening Bedenk bij welk van de volgende situaties er mogelijk sprake is van een correlatie en/of een causaal verband. Licht toe waarom. (zie blad) Les C-5 20 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Gevaar: causaliteit? Data analyse kan eenvoudig correlaties aantonen. Causaliteit is zeer moeilijk tot onmogelijk aan te tonen. Toch wordt deze fout regelmatig gemaakt: hte-voeding-beinvloedt-IQ-van-jonge-kinderen- ELSEVIER288941W/ hte-voeding-beinvloedt-IQ-van-jonge-kinderen- ELSEVIER288941W/ Les C-5 21 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Privacy Hoe meer data verzameld wordt over mensen, hoe meer en betere patronen gemaakt kunnen worden. Hierdoor kunnen derden steeds beter voorspellen wat je wil. Waar liggen de grenzen? Les C-5 22 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Gevaar: privacy Voorbeeld: Een meisje in Amerika kocht veel minder geurende shampoos en lotions bij een supermarkt. Data mining herkende het patroon van inkopen met zwangere vrouwen. Conclusie: supermarkt wist met 70% zekerheid dat ze zwanger zou zijn. (en dat was ze ook) (en daar was haar vader niet blij mee) Les C-5 23 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Gevaar: privacy Grote sociale netwerkdiensten beschikken over héél veel gegevens van ons –Facebook, Google, Apple, WhatsApp Als de FBI bij deze gegevens kan, kan de FBI: –berichten nalezen van individuele gebruikers –gesprekken en locaties volgen (ook van onschuldigen) –patronen gaan opsporen naar ‘potentiële’ criminelen of terroristen, en voortijdig optreden. (maar er ook compleet naast zitten) Les C-5 24 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Voordeel boven privacy Datamining wordt tegenwoordig al door de politie gebruikt om voorspellingen te maken in patronen van inbraak of geweldsmisdrijven. – predicts-fights-crim/279https://datafloq.com/read/los-angeles-police-department- predicts-fights-crim/279 – Voorbeeld: LAPD (politie van Los Angeles) 33% afname in inbraken 21% afname in geweldsmisdrijven 12% afname in vandalisme Les C-5 25 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Data fishing Ook wel: data snooping of equation fitting. Simpel gezegd: je zoekt naar een gewenst antwoord, en probeert de data zó te manipuleren dat je gewenste antwoord uitkomt. Hoe manipuleer je data? –zelf vervalste data invoeren. –ongewenste data uit je onderzoek (of de database) te halen. Voorbeeld: Diederik Stapel Voormalig hoogleraar psychologie (55 van 130 onderzoeken gemanipuleerd) Les C-5 26 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing
informatica Inhoud van de les Wat is big data? Wat houdt data mining in? Wat zijn de voordelen ervan? Welke technieken zijn er voor data mining? Waar moet je voor opletten bij verbanden in data mining? Wat is het verschil tussen correlatie en causaliteit? Wat zijn de effecten voor de privacy? Les C-5 27 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing Vragen?