Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement.

Slides:



Advertisements
Verwante presentaties
The Need for Speed Richard R. Budding.
Advertisements

Universiteit Leiden. Bij ons leer je de wereld kennen. Wetenschappelijke literatuur Bibliotheekinstructie als onderdeel Studievaardigheden Hans Fransen,
Maar niet elke koning is even belangrijk!
BIG DATA Jeroen Wolfs. Agenda •Big data •Check-out & big data •Toepassingen van big data in eCommerce.
Verbinden met energie Sporen naar de toekomst met GPX op basis van ICT en energie.
Geld verdienen met trends
Marktonderzoek als proces
Ontwikkelruimte onderzocht In gesprek over onderzoeksstappen VU, 13 september 2010.
Soft Systems Methodology Een doelbewuste aanpak voor action research
Learning analytics: de docent
Voortgangspresentatie
Schatgraven in Gegevensbergen
Pieter Adriaans Niels Netten (Maarten van Someren)
BI voor Microsoft Dynamics AX
Bestuurlijke Informatiesystemen
Gegevensverwerving en verwerking
Databases I (H. 1) Wiebren de Jonge Vrije Universiteit, Amsterdam Voorlopige versie 2003.
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.
Kennisuitwisseling in LOK Landelijk onderwijsweb Kennistechnologie Evert van de Vrie Kennisuitwisseling in LOK Landelijk onderwijsweb Kennistechnologie.
MAO-model voor publieksvergroting: Theoretische uiteenzetting en practische implicaties Mia Stokmans Universiteit van Tilburg, Faculteit Communicatie.
The art of game design Hoofdstuk 20 en 21.
De fysiotherapeutische behandeling bij patiënten met een CVA, opgenomen in de Nederlandse ziekenhuizen; Een beschrijvende studie van de huidige zorg.
ICT & Organisatie 3: Business Applications
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Universiteit Leiden. Bij ons leer je de wereld kennen. Omgaan met Wetenschappelijke informatie onderdeel Studievaardigheden Hans Fransen, Universiteitsbibliotheken.
Valkuilen bij snelle groei van de organisatie

Steeds Vaardiger: Marketing&Communicatie VWC conferentie 7 oktober 2008.
Quality Function Deployment
Business Marketing Management
Petra Dewilde Annelies Duerinckx
Data Maarten Terpstra en Peter le Clerq. 1.Wij denken dat bedrijven in toenemende mate data gebruiken voor toepassingen in marketing, sales, service,
Projectwijzer 3 H1 Accountmanagement en CRM Middenkader Engineering.
Het nut van Business Planning
CRM H1 Accountmanagement en CRM Commercieel medewerker.
Hoofdstuk 1 Inleiding Begrijp je financiële verslagen Hoe succesvol is de onderneming? Financieel ondernemingsmanagement voor de ondernemer? Ethiek en.
Hoofdstuk 11 Persoonlijke verkoop, databasemarketing en customer relationship management.
Agenda Inleiding en Lagerhuis: Proces management en proces keten optimalisatie gaat ons helpen inzicht te krijgen in de impact van toekomstige veranderingen.
Presentatie titel Rotterdam, 00 januari 2007 Draaitabellen in Excel Rotterdam, 6 december 2011 drs. ing. M.M.A. Scheepers Instituut voor Management Opleidingen.
Mediamonitoring Oplossingen. Duizenden klanten in meer dan 100 Landen.
Business Intelligence
De toekomst van arbeid? Maarten van Riemsdijk The way we are living is changed fundamentally By how we use and implement technical knowledge LIVING TECHNOLOGY.
Methoden & Technieken van Onderzoek
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Business Intelligence in Credit Management Noordwijkerhout, 24 maart 2011 Dennis van Essen | EMEA Sales.
1 Bart van Muijen – Sales & Operations Manager UPDATE PV.
Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden.
Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?
Presentatie voor de Soester Zakenkring - Organisatie & Innovatie - Waarde Winst Inspiratie.
The Research Process: the first steps to start your reseach project. Graduation Preparation
Marktonderzoek Zonder inzicht in het gedrag van de klanten/markt kan er geen marketingbeleid gevoerd worden.
Hoe maak je een presentatie die mensen kan overtuigen van jouw idee.
DOELEN VAN W&T ONDERWIJS
Justian Knobbout Promovendus bij het lectoraat Digital Smart Services
Metadata Het organiseren van informatie Tjalling Gelsema.
Oefening met atlas en kaarten
Disclosure belangen NHG spreker
Big Data woensdag 15 februari 2017.
Grip & Controle op digitalisering
Innovatie met IBM Cloud Orchestrator.
Opdracht voor Module 4 effectief en efficient lesgeven
Presentatie titel Measurement education in the junior primary –
Onderzoekend leren in de natuurwetenschappen
Werkwijze Hoe zullen we als groep docenten te werk gaan?
OPENINGSCASE: PNC-banken en enterprisetoepassingen
Eenvoudige data-analyse: beschrijvende statistische
Onderzoekend leren in de natuurwetenschappen
Jasper Kuijs Ooms Makelaars.
– Software development fundamentals
Transcript van de presentatie:

Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement

Inhoud Data Mining: Waarom? Wat is data mining? Voorbeelden Valkuilen Challenges Knowledge Discovery in Databases (KDD) Process Model Cross Industry Standard Process for Data Mining (CRISP-DM) Samenvatting Vragen Bronnen / Literatuur

Waarom Data mining? (1) Vanuit een commercieel oogpunt: CRM ( Customer Relationship Management) Vanwege kostenbesparingen de communicatie afgestemmen op een specifieke doelgroep Explosieve groei van beschikbare data klantgegevens (bank / creditkaart) transactiegegevens … Nieuwe technologieën voor dataverzameling RFID chips Streepjescodes … Computers: Meer data opslagcapaciteit Meer rekencapaciteit

Waarom Data mining? (2) Vanuit een wetenschappelijk oogpunt: Enorme hoeveelheden data: bijvoorbeeld: Satellietbeelden Experimenten simulaties CERN: Gigabites per seconde DNA onderzoek Traditionele analyse methoden zijn minder geschikt voor het verwerken van grote hoeveelheden “ruwe” data Datamining helpt wetenschappers: Classificering en segmentering van data Formuleren van hypothesen

Waarom data mining? (3) “We are drowning in data, but starving for knowledge!” (Jiawei Han ) Doel: (semi-) automatisch analyseren van data

Wat is data mining? Data mining: (knowledge discovery from data) Extractie van interessante (niet-triviale, impliciete, vooraf ongekende en mogelijk bruikbare) patronen of kennis uit grote hoeveelheden data Alternatieve benamingen: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc

Voorbeelden van Data mining toepassingen Marketing: het vinden van profielen van klanten die met een grote mate van waarschijnlijkheid reageren op een direct mail actie Analyseren van foto’s van de sterrenhemel Onderzoek naar geneesmiddelen: de mogelijk dodelijke bijwerking van Vioxx (een ontstekingsremmer) is ontdekt door data mining, om die reden is het geneesmiddel in 2004 van de markt gehaald. Financiële sector: Markt trends zichtbaar maken Schatten van de kredietwaardigheid van klanten Bio-informatica: DNA onderzoek …en nog vele anderen!

Data mining Machine Learning/ Pattern Recognition Statistics/ AI Data Mining Database systems Data mining maakt gebruik van concepten uit de kunstmatige intelligentie, patroon herkenning, statistiek en database systemen Traditionele technieken zijn minder geschikt vanwege: Hoeveelheid data Data heeft meerdere dimensies Data is heterogeen, van verschillende bronnen afkomstig.

Data mining:

Valkuilen data mining: “Torturing the data until they confess” Drogreden Cum hoc ergo propter hoc: als je maar genoeg gegevens analyseert zul je vroeg of laat ongetwijfeld een statistische correlatie tussen twee variabelen vinden, maar dat hoeft niet te betekenen dat er ook een oorzakelijk verband bestaat tussen de twee betreffende variabelen.Cum hoc ergo propter hoc

Challenges of Data Mining Scalability Dimensionality Complex and heterogeneous data Data quality Data ownership and distribution Privacy preservation Streaming data

Knowledge Discovery in Databases (KDD) Process Model data Target data Processed data Transformed data Patterns Knowledge Selection Preprocessing & cleaning Transformation & feature selection Data mining Interpretation Evaluation Fayyad et al.

Cross Industry Standard Process for Data Mining (CRISP-DM) (1) A data mining process model that describes commonly used approaches that expert data miners use to tackle problems. It is the leading methodology used by data miners Advantages: Industry neutral Tool neutral Closely related to the Knowledge Discovery in Databases Process Model Anchors the data mining process

Cross Industry Standard Process for Data Mining (CRISP-DM) Breaks the process of data mining into six major phases: Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Cross Industry Standard Process for Data Mining (CRISP-DM) (2)

CRISP-DM: Business Understanding Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Business objective Assess situation Data mining goals Project plan

CRISP-DM: Data understanding Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Collect data Describe data Explore data Verify data quality

CRISP-DM: Data preparation Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS Select data Clean data Construct data Integrate data Format data

CRISP-DM: Modeling Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Select modeling Techniques Design the test Build model Assess model

CRISP-DM: Evaluation Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Evaluate results Review process Determine next steps

CRISP-DM: Deployment Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Plan deployment Plan monitoring and maintenance Final report Review project

Data mining kan: Voorspellen Classificatie Regressie Deviatie Detectie Beschrijven Clustering Associatie regels ontdekken Sequentiële patronen ontdekken Op basis van een aantal variabelen voorspellingen doen over andere variabelen of toekomstige waarden van variabelen Zoeken naar begrijpbare patronen die de data beschrijven

Voorspellen: Classificatie Uw bevindt zich in de blauwe wereld. Mensen in de 'blauwe wereld' zijn over het algemeen vrij ambitieus en streven een succesvolle carrière na. Dit wordt bereikt door middel van een grote inzet, gebruikmakend van analytische capaciteiten, assertiviteit en intelligentie, maar ook door bedachtzaamheid en het maken van weloverwogen beslissingen. Mensen in de 'blauwe wereld' houden graag de touwtjes in eigen handen en hebben behoefte aan overzicht. Ook houdt men van luxe en mooie dingen: dat men succesvol is in de carrière mag best gezien worden. U woont het liefst in een eigen vrijstaande woning, bij voorkeur in een rustige, eventueel landelijke omgeving. De woning dient hoogwaardig te zijn, van hoge kwaliteit, evenals de directe woonomgeving. De buren zijn bij voorkeur 'ons soort mensen'. Voor meer informatie: The SmartAgent CompanyThe SmartAgent Company Voorbeeld:

Voorspellen: Regressie Voorspel de waarde van een gegeven continue variabele gebaseerd op de waarden van andere variabelen. Samenhang tussen 2 of meer variabelen Voorbeelden: Voorspel de verkoopscijfers van een nieuw product gebaseerd op de hoeveelheid geld besteed aan reclamecampagnes. Voorspel de koers van een aandeel op basis van voorgaande koersgegevens.

Voorspellen: Deviatie Detectie Ontdek significante afwijkingen van het normale gedrag Voorbeeld: fraude met kredietkaarten opsporen

Beschrijven: Clustering Gebaseerd op de Euclidische afstand in de ruimte: Afstanden binnen de clusters minimaliseren en Afstanden tussen de clusters maximaliseren Uitgaven aan strip- boeken Uitgaven aan studieboeken

Beschrijven: Associatie regels ontdekken Voorbeeld: Als een klant in een supermarkt luiers én melk in zijn winkelwagentje heeft liggen, zal hij waarschijnlijk ook een krat bier kopen!

Beschrijven: Sequentiële patronen ontdekken Voorbeeld: “20% van de kijkers van het RTL Nieuws om half 8, kijken daarna nog naar het NOS journaal om 8 uur.” identificeren van genen in DNA- sequenties

Samenvatting Data mining is nuttig: Wanneer de hoeveelheid data te groot is om manueel geanalyseerd te worden Als er vele mogelijke hypotheses zijn Data mining biedt aan: Verzameling tools om modellen en patronen te herkennen Intelligente zoek-technieken Resultaten van data mining: Samenvatting van de data Onverwachte patronen Model

Vragen?

Literatuur / bronnen Tan, Steinbach, Kumar: Introduction to Data Mining users.cs.umn.edu/~kumar/dmbook/index.php users.cs.umn.edu/~kumar/dmbook/index.php introduction.html 8/slides/les1.pdf Data mining and the knowledge discovery process (Summer Course 2005) H.H.L.M. Donkers, IKAT Computer Science Universiteit Maastricht