Informatica Welkom! 25 February, 2016 1 Les C-5. informatica Extra stof Data mining 2 Les C-5.

Slides:



Advertisements
Verwante presentaties
sociale media: de nieuwe realiteit
Advertisements

Test computertermen: Deze test gaat over de vorige les. Je krijgt steeds een vraag te zien waarop je het juist antwoord moet aanklikken. Is je antwoord.
Tevredenheid met behandelaar en behandeling.
Het tweede werkstuk.
Een ontroerend verhaal met een sterke boodschap !!!
Uitleg bijwoordelijke bepaling (bwb)
Klik op de app om de e-learningapplicatie te starten.
Uitleg meewerkend voorwerp (mv)
Uitleg lijdend voorwerp (lv)
Havo5 WA Extra opgaven.
Sander Mager Roel Lafeber CE2A. Sinds een aantal maanden ben ik erg fanatiek de game ‘’Candy Crush’’ aan het spelen. Een klasgenootje van mij speelde.
Naam: Mijn info : Klik op “Naam”. Vul je naam in. Doe hetzelfde met “sport” Hier kun je een foto / tekening Invoegen.
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
BIG DATA Jeroen Wolfs. Agenda •Big data •Check-out & big data •Toepassingen van big data in eCommerce.
Deze Tantra komt uit het noorden van Indië, of je nu bijgelovig bent of niet. Neem toch een paar minuten de tijd. Ze bevat sommige boodschappen die goed.
Bas Rutgers Inleverdatum:
Marktonderzoek als proces
Opdrachttaak kennissystemen:
Kats en coaching doe, leer, ontwikkel jezelf
Schatgraven in Gegevensbergen
Muziek downloaden PVGE Computerclub 5 JANUARI 2012.
CRM vs SCRM Yana Callaert – 3 MAS. Marketing Bij traditionele marketing verloopt de communicatie vooral in één richting; het bedrijf adverteert en de.
Een lessenserie van drie lessen
Media en creativiteit Herfst les 7. Mindmapping Mindmapping is ontwikkeld door de psycholoog Tony Buzan. Hij paste mindmapping in een groter geheel van.
TRAINING SOCIALE VAARDIG-HEDEN
SPAM SPAM. Heeft u veel SPAM? Kan uw provider het niet tegenhouden?
Ontwikkeld door Anne Coppens en Carlo Verhaar les 2 - media I-C1#, datum.
Uitleg bijvoeglijke bepaling (bvb)
Data Maarten Terpstra en Peter le Clerq. 1.Wij denken dat bedrijven in toenemende mate data gebruiken voor toepassingen in marketing, sales, service,
Hacken Gabriela & Shivam.
OFC28 mediawijsheid les 7 leren door te maken
GEMAAKT DOOR: Jay,Jeffrey en Thomas
Samenvatting Havo 5.
Ordenen van gegevens Inleiding informatiesystemen © Sander Cox.
Online filmpjes maken. (
Online filmpjes maken. (
Presenteren en communiceren
ANW Module 2 Leven Door Gabriella, Melanie, Elise en Fabienne van v4.
Phone Challenge Workshop Mbo niveau l Jouw telefoonkosten l Film ‘Een dag vol data’ l Dataquiz l Abonnementen vergelijken l De Mobiel Profiel.
Iedereen gebruikt social media.
Loopbaan oriëntatie en begeleiding
1 Phone Challenge Workshop 2015 Niveau 1+2 mbo. Introductie.
Zo doen we dat op De Wissel. Inhoud  Onze visie  Onze doelen  Afspraken  Tips  Facebook  Twitter  Youtube  Tot slot.
De PR van Inner Wheel Stilzwijgend of met tromgeroffel?
Groepsdynamica & Interactief communiceren
Ouderavond Mediawijsheid Basisschool ‘t Rendal 20 januari 2014.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
GEMEENTEMUSEUM: WONDERKAMERS Door: Manon, Julia, Iris Klas: 4H2.
MIJN WEBSHOP YANAH PRUYM, MEB D. HOME PAGINA
Sociale Media Doelen van Sociale Media voor kennisoverdracht:  Betrokkenheid  Vindbaarheid  Bereikbaarheid  Community bouwen Zichtbaarheid  Mensen.
Hoe maak ik een PowerPoint presentatie?
Informatica Welkom! 31 January, Les C-1. informatica Module 5.1 Basis van netwerk/internet 2 Les C-1.
Deze spreekbeurt is gemaakt door: bjarne
Social media. Agenda Over ons Facebook Twitter Linkedin Instagram.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Aan de slag met haarlemmermeervoorelkaar.nl een praktische handleiding Stap 1. Aanmelden Ga naar
Centraal Examen Nederlands
De PR van Inner Wheel Stilzwijgend of met tromgeroffel?
Meest voorkomende vragen bij examenteksten.
Big Data woensdag 15 februari 2017.
Open Data PMA 3 december 2015 Om het onderwerp open data wat levendiger te maken willen we een korte presentatie geven, met daarin: een concreet voorbeeld.
Nee Zeggen!.
Hoe de data-explosie al onze vragen gaat beantwoorden
Annick, Amber, Ilsa en Melanie
Big Data.
De diensten die een onderneming kan bieden aan haar klanten, leveranciers en eigen medewerkers zijn direct afhankelijk van haar IT-infrastructuur. In het.
Big Data.
De praktijk: kinderen van 9 – 12 jaar
Online-moraalpolitie
Hoofdstuk 6 Reclame en sociale media
Transcript van de presentatie:

informatica Welkom! 25 February, Les C-5

informatica Extra stof Data mining 2 Les C-5

informatica Inhoud van de les Wat is big data? Wat houdt data mining in? Wat zijn de voordelen ervan? Welke technieken zijn er voor data mining? Waar moet je voor opletten bij verbanden in data mining? Wat is het verschil tussen correlatie en causaliteit? Wat zijn de effecten voor de privacy? Les C-5 3 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Big Data Datasets zo groot dat ze als geheel niet makkelijk te verwerken of te analyseren zijn. We praten over een aanmaak van ca. 2,5 exabytes (= 10^9 gigabytes) per dag sinds – De groei is exponentieel met ongeveer 40% toename per jaar. Waar komt die groei vandaan? Les C-5 4 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Oorzaken Big Data A.Het uploaden van grotere bestanden zoals afbeeldingen en video’s. –Facebook, YouTube B.Steeds meer sensordata (RFID’s) –Pinnen –Elektronische aankopen –‘Slimme meter’ Sensordata gaat gekoppeld met Internet of Things. Les C-5 5 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Internet of Things Fysieke objecten die aan een netwerk (internet) zijn verbonden. Denk aan: –Temperatuurregeling in huis –hartslagmeters –pakketjes bij de post –Communicatie zelfrijdende auto’s –“Hello Barbie” We spreken van Internet of Things als dit soort apparaten in de meerderheid aanwezig zijn t.o.v. pc’s, tablets en smartphones. Les C-5 6 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Eisen aan Big Data Niet elke database noemen we big data. Eigenschappen die een rol spelen zijn: Volume –de omvang van de data is groter dan software aan kan. Snelheid –opvragen en verwerken van data is (nagenoeg) onmogelijk. Diversiteit –de ongestructureerde vorm van de data, zodat die niet in een traditionele database kan worden opgeslagen. –verschillende opslagformaten van data. Waarheidsgetrouw –niet alle data is even betrouwbaar. Les C-5 7 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Wat is data mining? Verwarrende naam! Je ‘mijnt’ geen data, maar patronen die je in data vindt. Denk aan: –soort boodschappen die je koopt –soorten video’s die je op YouTube kijkt Les C-5 8 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Waar wordt DM gebruikt? commercieel –Albert Heijn Bonuskaart Social media –Facebook –YouTube onderzoek (beslissings)onder- steunend Les C-5 9 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Voorbeeld: data mining Welk van de onderstaande voorbeelden is wèl relevant voor data mining, en welke niet? A.De database met alle (geld)transacties van klanten van Amazon. B.De database met klik- en aankoopgedrag van klanten van Amazon. Les C-5 10 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Voorbeeld Je kan een dataset hebben van mensen en de financiële- en huwelijksstatus. Stel dat je hieruit patronen wilt zoeken of mensen een hogere hypotheek willen. Hoe doe je dat? Les C-5 11 NaamLeeftijdInkomen (per jaar) Sparen (per jaar) Gehuwd?Hogere hypotheek Sylvia JaNee Jeanette Ja Natalie Nee? Fiene Nee Elsje Ja? Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Algoritmes datamining Er kunnen heel veel patronen zijn in big data. Je wil dus een ‘recept’ gebruiken om patronen te vinden (oftewel: een algoritme). Omdat de machine met deze algoritmes zelf leert patronen te leggen, wordt het ook wel machine learning genoemd. Een paar van deze algoritmes zijn: Beslissingsboom Rule induction Neurale netwerken Les C-5 12 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Beslissingsboom Het is een volgorde van vragen die tot een beslissing leiden. Bij een beslissingsboom ga je elke eigenschap af (inkomen, sparen, etc.) Van hieruit kijk je wat waarschijnlijker is, een hogere hypotheek of niet. Les C-5 13 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Beslissingsbomen Les C-5 14  Dit is een mogelijke boom. Dit is een andere mogelijke boom.  Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Rule Induction Les C-5 15 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Neurale netwerken Verbindingen leggen tussen eigenschappen, en kijken hoe goed ze relaten aan elkaar. Neurale netwerken zitten ook in menselijke hersenen. Hiervoor heb je: Neuronen (zenuwcellen) – ook wel de informatie- en signaalverwerkers. Verbindingen (synapse) - die de zenuwen aan elkaar koppelt (en verbanden legt). Les C-5 16 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Neurale netwerken Deze netwerken kun je in drie lagen opdelen. Input-laag: de karakteristieken die je hebt. Verborgen laag: gegenereerd door de machine. Hier worden verbanden gekoppeld. Output-laag: de resultaten die je uit de gegevens voorspelt. Les C-5 17 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Verbanden Bij het zoeken naar patronen en verbanden, heb je het snel te maken met de volgende begrippen: Correlatie Als er een verband is tussen twee grootheden. Vraag en aanbod in economie. Causaliteit Een oorzaak – gevolg verband. “I drank too much wine, I must take a piss.” (Matrix Reloaded) Les C-5 18 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Vraag Welke stelling is waar? A.Als er causaliteit is, is er ook correlatie. B.Als er correlatie is, is er ook causaliteit. Correlatie is makkelijker aan te tonen! Als er correlatie is, weten we niet zeker of er een causaal verband is. Les C-5 19 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Oefening Bedenk bij welk van de volgende situaties er mogelijk sprake is van een correlatie en/of een causaal verband. Licht toe waarom. (zie blad) Les C-5 20 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Gevaar: causaliteit? Data analyse kan eenvoudig correlaties aantonen. Causaliteit is zeer moeilijk tot onmogelijk aan te tonen. Toch wordt deze fout regelmatig gemaakt: hte-voeding-beinvloedt-IQ-van-jonge-kinderen- ELSEVIER288941W/ hte-voeding-beinvloedt-IQ-van-jonge-kinderen- ELSEVIER288941W/ Les C-5 21 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Privacy Hoe meer data verzameld wordt over mensen, hoe meer en betere patronen gemaakt kunnen worden. Hierdoor kunnen derden steeds beter voorspellen wat je wil. Waar liggen de grenzen? Les C-5 22 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Gevaar: privacy Voorbeeld: Een meisje in Amerika kocht veel minder geurende shampoos en lotions bij een supermarkt. Data mining herkende het patroon van inkopen met zwangere vrouwen. Conclusie: supermarkt wist met 70% zekerheid dat ze zwanger zou zijn. (en dat was ze ook) (en daar was haar vader niet blij mee) Les C-5 23 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Gevaar: privacy Grote sociale netwerkdiensten beschikken over héél veel gegevens van ons –Facebook, Google, Apple, WhatsApp Als de FBI bij deze gegevens kan, kan de FBI: –berichten nalezen van individuele gebruikers –gesprekken en locaties volgen (ook van onschuldigen) –patronen gaan opsporen naar ‘potentiële’ criminelen of terroristen, en voortijdig optreden. (maar er ook compleet naast zitten) Les C-5 24 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Voordeel boven privacy Datamining wordt tegenwoordig al door de politie gebruikt om voorspellingen te maken in patronen van inbraak of geweldsmisdrijven. – predicts-fights-crim/279https://datafloq.com/read/los-angeles-police-department- predicts-fights-crim/279 – Voorbeeld: LAPD (politie van Los Angeles) 33% afname in inbraken 21% afname in geweldsmisdrijven 12% afname in vandalisme Les C-5 25 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Data fishing Ook wel: data snooping of equation fitting. Simpel gezegd: je zoekt naar een gewenst antwoord, en probeert de data zó te manipuleren dat je gewenste antwoord uitkomt. Hoe manipuleer je data? –zelf vervalste data invoeren. –ongewenste data uit je onderzoek (of de database) te halen. Voorbeeld: Diederik Stapel Voormalig hoogleraar psychologie (55 van 130 onderzoeken gemanipuleerd) Les C-5 26 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing

informatica Inhoud van de les Wat is big data? Wat houdt data mining in? Wat zijn de voordelen ervan? Welke technieken zijn er voor data mining? Waar moet je voor opletten bij verbanden in data mining? Wat is het verschil tussen correlatie en causaliteit? Wat zijn de effecten voor de privacy? Les C-5 27 Inhoud Big Data IoT data- mining algoritmes - beslis- boom - rule ind. - neuraal Gevaar - causaal - privacy - fishing Vragen?