Business Intelligence: DATA MINING

Slides:



Advertisements
Verwante presentaties
SOCIAAL WEERBAAR (v.a. groep 4)
Advertisements

18. Vermogen, verhaal en faillissement
Onderzoek naar competentiegericht beoordelen in het groene onderwijs
Performance management
Autisme en Mindmap Thuis en op School
Van uitleggen leer je het meest
Stijn Hoppenbrouwers Software Engineering les 1 Algemene inleiding en Requirements Engineering.
Elektronisch factureren in de Uitzendbranche Hans Derksen (Adecco) en Dennis Krukkert (TNO) 9 september 2009.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Prestatie: Maak met de hele klas een krant over…
10. Ontslagrecht.
Risico’s en gevaren van techniek
Omzet.
Verordening Brussel I Week 5.
Compressie: het plan Overdragen 2009/2010 Groep 5.
Contract, AV, incoterms, E-commerce en Weens koopverdrag
You, Jet and Excel. Smart reporting.
13 Rechtsgevolgen van een overeenkomst
Schatgraven in Gegevensbergen
Persoonlijkheidspsychologie Sensatie en perceptie
Onderwerp Vraagstelling Theorie Methodiek verslaglegging
Powerpoint in de klas Michiel D. Jansen o.b.s. De Draaimolen.
BI voor Microsoft Dynamics AX
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.
Welkom bij de presentatie van het
1 Het probleem RO Milieu Landbouw SocZekerheid Etc. LerenWerkenWonenPensioenEtc. Overheids- organisatie Burger ??? Regelgeving per domein Vraag op levensmoment.
Secundaire data en online databases
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Microdatagebruikersmiddag
Bedoelde en onbedoelde gevolgen van detentie
Wolter Kaper - Ruby on Rails Webtoepassing ontwerpen Webprogrammeren, week 1.
Voorbereiding post 3 Even schrikken Groep 7-8.
Introductie/Agenda 1 Cor Verbaas 1.Business Analist. 2.Werkzaam bij AEP sinds juni Verantwoordelijk voor de business applicaties binnen AEP. 4.MFGPro.
De hoeden van Edward de Bono Informatieknooppunten in ketens.
Onderhandelingen en l.o.i.
1 Inleiding Hoofdstuk 1.
11. Collectief arbeidsrecht en staking
Digitale duurzaamheid: (ook) een kwestie van organiseren Inge Angevaare, coördinator Nationale Coalitie Digitale Duurzaamheid DEN conferentie - 10 december.
Hoofdstuk 4 – Gegevens analyseren
NSTE-ACS GL ESC Eduard van den Berg, cardio.nl.
Wat je zelf vindt, weet je beter
© 2008 Wolf Knab Websitearchitectuur,
Omgaan met kinderen die een verlies hebben geleden Herma Bode
Dag Van Het Afstudeeronderzoek Presentatie Elaine van der Poorten.
Video opdracht Video maken met de smartphone
Mijn partner heeft Q-koorts, wat nu?
Beleidsinformatie Jeugd
Docent: Ans Sarianamual - oktober 2014
Hoofdstuk 7 ERP-systemen: human resources Enterprise Resource Planning © Pearson Education, 2007; Enterprise Resource Planning door Mary Sumner.
Geisha en samoerai Quiz Japanmuseum SieboldHuis. Vraag 1 Hoe eet men in Japan? A – Met hun handen B – Met stokjes C – Met mes en vork.
Ordenen van gegevens Inleiding informatiesystemen © Sander Cox.
Business Intelligence
Online filmpjes maken. (
TIPS VOOR EEN WINNEND PROFIELWERKSTUK! Zo doe je dat.
Presentatie titel Rotterdam, 00 januari 2007 Draaitabellen in Excel Rotterdam, 6 december 2011 drs. ing. M.M.A. Scheepers Instituut voor Management Opleidingen.
Business Intelligence
Onderzoeksvaardigheden 3
Onderzoeksvaardigheden
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Relaties Een diepere kijk. Waarom horen mensen zo graag bij een groep 3 vragen aan Herman De Dijn.
Wat vinden jongeren belangrijk? Cliëntenraad GGZ Kinderen en Jeugd.
Lesbrief 2 Magazijnen.
Open Data PMA 3 december 2015 Om het onderwerp open data wat levendiger te maken willen we een korte presentatie geven, met daarin: een concreet voorbeeld.
Secundaire data en online databases
Elk van de belangrijkste enterprisetoepassingen biedt naast het verzorgen van de dagelijkse transacties ook ondersteuning voor besluitvorming op alle niveaus.
Voorspelling van criminele carrières door 2-dimensionale extrapolatie
Doelen, verlangens, behoeftes en drijfveren
Transcript van de presentatie:

Business Intelligence: DATA MINING ‘Graven in Criminele Carrières’ Tim Cocx, 2009

Tim Cocx, tcocx@liacs.nl Data ‘flood’ Steeds meer gegevens worden gegenereerd! (data) Bank, telecom, andere zakelijke transacties ... Wetenschappelijke data: astronomie, biologie Web, tekst, en E-commerce. 4/4/2017 Tim Cocx, tcocx@liacs.nl

Gevolgen en mogelijkheden Twee keer zoveel data werd gemaakt in 2002 als in 1999 (~30% gegroeid) Gevolg: heel weinig van deze gegevens worden ook daadwerkelijk ooit door een mens bekeken!! Alleen google heeft al 1/3 van de hele mensheid aan Word-documenten op geslagen! Daarom: Automatische technieken nodig om nog wat nuttigs met de gegevens te doen. Maar ook: Opdoen van kennis die ‘we’ nog niet eerder hadden. 4/4/2017 Tim Cocx, tcocx@liacs.nl

Enter: Business Intelligence BI 2.0 Die Hele Grote Database Data Warehouse Offline herinrichten Business Inelligence Querying ? Data Mining Alarmbellen Die Belangrijke Rapportage OLAP 4-4-2017 Tim Cocx, 2009

OLAP Behoefte af te stappen van gedetailleerde vragen. Geef mij alle koffie opbrengsten USA van 2006 Geef mij alle koffie opbrengsten USA van 2007 Geef mij….. En nu van Europa En nu van Nederland En nu van Snacks En nu van de 100% Halal kipfrikadel 4-4-2017 Tim Cocx, 2009

OLAP Dit kan dus handiger Software tools die mbv data warehouse de gegevens handig presenteren. Selecteer ‘dimensies’ en ‘data’ Dimensie: Regio & product-type Data: verkoopcijfers Presenteer in (2-dimensionaal) tabelletje 4-4-2017 Tim Cocx, 2009

OLAP Dus: OLAP is heel handig om veel informatie snel overzichtelijk te krijgen. Nadelen: Iemand weten de juiste vragen te stellen. Kan heel lastig zijn. Die iemand moet worden betaald. Die iemand moet aan het werk zijn. De rapportages moeten gelezen en geïnterpreteerd worden. 4-4-2017 Tim Cocx, 2009

Data Mining Oplossing: Data mining Nadeel Computergestuurd proces. Automatische vragen. Automatische analyses Automatische response Nadeel Nog steeds interpretatie nodig Heel belangrijk 4-4-2017 Tim Cocx, 2009

Tim Cocx, tcocx@liacs.nl Data mining Data mining is 1 van de moderne speerpunten binnen Business Intelligence 4/4/2017 Tim Cocx, tcocx@liacs.nl

Data mining: definitie Data mining is het automatische proces van het vinden van Valide (= waar), Nieuwe, mogelijk bruikbare En uiteindelijk begrijpelijke patronen in data. 4/4/2017 Tim Cocx, tcocx@liacs.nl

Data mining en andere wetenschappen Business Inelligence Machine Leren Visualisatie Data Mining Computer Statistiek Databases 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Classificatie # poten Vleugels Type mond Staart # kinderen 5 nee mond 1 Voorspellen van klasse van dit dier Zoogdier Vis Insect Vogel, etc Antwoord: Zeester  Asteroidea 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Clustering Grote tabel met alle dieren en hun eigenschappen: Pokemon Vogels Vissen Zoogdieren 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Associaties Alle boodschappenmandjes Albert Heijn in december. Uitvinden welke producten vaak samen verkocht worden (handige reclame!) 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Afwijking detectie Omgekeerd van hiervoor: geen algemene waarheden vinden, maar afwijkingen daarvan Alle banktransacties en hun kenmerken Het automatisch vinden van zwart geld (anders dan standaard) Het automatisch vinden van witwas praktijken 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl ‘Link’ analyse Aan de hand van telefoontjes criminele netwerken vaststellen: 4/4/2017 Tim Cocx, tcocx@liacs.nl

Text mining Welke emails gaan over hetzelfde onderwerp? Wat zijn de belangrijke deelconcepten Terrorisme Reclame-matching Search engine Kan ik een betoog automatisch structureren uit een tekst? Omgekeerde van Rationale Welk document is door wie geschreven? 4-4-2017 Tim Cocx, 2009

Beroemde succesverhalen Succes ligt vaak in combinatie van methodieken: ENRON Mega energieconcern USA Door grootschalige fraude omgevallen Bewijsvoering tegen directie mbv textmining en linkanalyse tot stand gekomen. 4-4-2017 Tim Cocx, 2009

Beroemde succesverhalen @ @ 4-4-2017 Tim Cocx, 2009

Tim Cocx, tcocx@liacs.nl Mijn onderzoek: DALE Data Assistance for Law Enforcement Project ingediend bij NWO Organisatie van de staat om wetenschappelijk onderzoek te financieren. Samenwerking met het KLPD (nationale politie) Data mining toepassen op de data verzameld door alle Nederlandse korpsen. Onder andere: relaties tussen misdaden, drugs-emails vergelijken en criminele carrières. 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Onderzoeksgebied Informatica Sociologie Criminele Carriere Onderzoek Psychologie Criminologie Rechten 4/4/2017 Tim Cocx, tcocx@liacs.nl

Criminele Carrieres: wat zijn het? 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Doel van analyse Analyse 4/4/2017 Tim Cocx, tcocx@liacs.nl

‘Afstanden’ tussen criminelen Hoe verder criminelen van elkaar staan: hoe minder hun carrières op elkaar lijken. Afstand 0  precies dezelfde carrières Afstand 1  maximaal verschillende carrières 1 / 2 1 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl De vier factoren Aard Frequentie Zwaarte Duur 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Landelijke HKS Database met de alle strafbladen van Nederland Ongeveer 1.000.000 plegers. Bevat alle overtredingen van personen die na 1995 een misdrijf begaan hebben. Bevat naast de misdaden ook gegevens over leeftijden, woonplaats, afkomst ed. geanonimiseerd! 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Voorspelling Het zou fijn zijn als er van een beginnende crimineel een voorspelling gemaakt kon worden over zijn carriere. Jaar 6? Jaar 3 Jaar 2 Jaar 1 4/4/2017 Tim Cocx, tcocx@liacs.nl

Verschillende Manieren Verschillende methoden leiden tot verschillende uitkomsten Welke is de beste? 4/4/2017 Tim Cocx, tcocx@liacs.nl

Tim Cocx, tcocx@liacs.nl Uitkomsten Methode 4 is de beste. Bij 3 beschikbare jaren kunnen we een carrière met 89% nauwkeurigheid voorspellen! Alarmbellen bij de politie Andere aparte uitkomsten in relaties tussen misdaadkenmerken: Drugssmokkel en drugsverslaving Verkeersmisdrijven en buiten de randstad Joyriden en overtreden arbeidswet 4/4/2017 Tim Cocx, tcocx@liacs.nl

Data mining: waarschuwing Privacy Mogen de gegevens wettelijk / ethisch wel voor dit doel gebruikt worden? Interpretatie Weet de ‘lezer’ wel hoe de gegevens tot stand zijn gekomen? Begrijpt hij de teksten / plaatjes wel? Statistische validiteit De ‘waarheid’ wordt opgeleverd met zekere betrouwbaarheid Mogen individuen op basis daarvan ‘gediscrimineerd’ worden? Bij 90%? Bij 98%? Bij 99.99%? 4-4-2017 Tim Cocx, 2009

Tim Cocx, tcocx@liacs.nl Ondervraging 4/4/2017 Tim Cocx, tcocx@liacs.nl