Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement.

Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement www.med.hro.nl/scmma/keuzevakken.html

Inhoud Data Mining: Waarom? Wat is data mining? Voorbeelden Valkuilen Challenges Knowledge Discovery in Databases (KDD) Process Model Cross Industry Standard Process for Data Mining (CRISP-DM) Samenvatting Vragen Bronnen / Literatuur

Waarom Data mining? (1) Vanuit een commercieel oogpunt: CRM ( Customer Relationship Management) Vanwege kostenbesparingen de communicatie afgestemmen op een specifieke doelgroep Explosieve groei van beschikbare data klantgegevens (bank / creditkaart) transactiegegevens … Nieuwe technologieën voor dataverzameling RFID chips Streepjescodes … Computers: Meer data opslagcapaciteit Meer rekencapaciteit

Waarom Data mining? (2) Vanuit een wetenschappelijk oogpunt: Enorme hoeveelheden data: bijvoorbeeld: Satellietbeelden Experimenten simulaties CERN: Gigabites per seconde DNA onderzoek Traditionele analyse methoden zijn minder geschikt voor het verwerken van grote hoeveelheden “ruwe” data Datamining helpt wetenschappers: Classificering en segmentering van data Formuleren van hypothesen

Waarom data mining? (3) “We are drowning in data, but starving for knowledge!” (Jiawei Han http://www.cs.uiuc.edu/~hanj/ )http://www.cs.uiuc.edu/~hanj/ Doel: (semi-) automatisch analyseren van data

Wat is data mining? Data mining: (knowledge discovery from data) Extractie van interessante (niet-triviale, impliciete, vooraf ongekende en mogelijk bruikbare) patronen of kennis uit grote hoeveelheden data Alternatieve benamingen: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc

Voorbeelden van Data mining toepassingen Marketing: het vinden van profielen van klanten die met een grote mate van waarschijnlijkheid reageren op een direct mail actie Analyseren van foto’s van de sterrenhemel Onderzoek naar geneesmiddelen: de mogelijk dodelijke bijwerking van Vioxx (een ontstekingsremmer) is ontdekt door data mining, om die reden is het geneesmiddel in 2004 van de markt gehaald. Financiële sector: Markt trends zichtbaar maken Schatten van de kredietwaardigheid van klanten Bio-informatica: DNA onderzoek …en nog vele anderen!

Data mining Machine Learning/ Pattern Recognition Statistics/ AI Data Mining Database systems Data mining maakt gebruik van concepten uit de kunstmatige intelligentie, patroon herkenning, statistiek en database systemen Traditionele technieken zijn minder geschikt vanwege: Hoeveelheid data Data heeft meerdere dimensies Data is heterogeen, van verschillende bronnen afkomstig.

Data mining:

Valkuilen data mining: “Torturing the data until they confess” Drogreden Cum hoc ergo propter hoc: als je maar genoeg gegevens analyseert zul je vroeg of laat ongetwijfeld een statistische correlatie tussen twee variabelen vinden, maar dat hoeft niet te betekenen dat er ook een oorzakelijk verband bestaat tussen de twee betreffende variabelen.Cum hoc ergo propter hoc

Challenges of Data Mining Scalability Dimensionality Complex and heterogeneous data Data quality Data ownership and distribution Privacy preservation Streaming data

Knowledge Discovery in Databases (KDD) Process Model data Target data Processed data Transformed data Patterns Knowledge Selection Preprocessing & cleaning Transformation & feature selection Data mining Interpretation Evaluation Fayyad et al.

Cross Industry Standard Process for Data Mining (CRISP-DM) (1) A data mining process model that describes commonly used approaches that expert data miners use to tackle problems. It is the leading methodology used by data miners Advantages: Industry neutral Tool neutral Closely related to the Knowledge Discovery in Databases Process Model Anchors the data mining process

Cross Industry Standard Process for Data Mining (CRISP-DM) Breaks the process of data mining into six major phases: Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment Cross Industry Standard Process for Data Mining (CRISP-DM) (2)

CRISP-DM: Business Understanding Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Business objective Assess situation Data mining goals Project plan

CRISP-DM: Data understanding Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Collect data Describe data Explore data Verify data quality

CRISP-DM: Data preparation Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS Select data Clean data Construct data Integrate data Format data

CRISP-DM: Modeling Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Select modeling Techniques Design the test Build model Assess model

CRISP-DM: Evaluation Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Evaluate results Review process Determine next steps

CRISP-DM: Deployment Business understanding Data understanding Data Preparation Modeling Evaluation Deployment TASKS: Plan deployment Plan monitoring and maintenance Final report Review project

Data mining kan: Voorspellen Classificatie Regressie Deviatie Detectie Beschrijven Clustering Associatie regels ontdekken Sequentiële patronen ontdekken Op basis van een aantal variabelen voorspellingen doen over andere variabelen of toekomstige waarden van variabelen Zoeken naar begrijpbare patronen die de data beschrijven

Voorspellen: Classificatie Uw bevindt zich in de blauwe wereld. Mensen in de 'blauwe wereld' zijn over het algemeen vrij ambitieus en streven een succesvolle carrière na. Dit wordt bereikt door middel van een grote inzet, gebruikmakend van analytische capaciteiten, assertiviteit en intelligentie, maar ook door bedachtzaamheid en het maken van weloverwogen beslissingen. Mensen in de 'blauwe wereld' houden graag de touwtjes in eigen handen en hebben behoefte aan overzicht. Ook houdt men van luxe en mooie dingen: dat men succesvol is in de carrière mag best gezien worden. U woont het liefst in een eigen vrijstaande woning, bij voorkeur in een rustige, eventueel landelijke omgeving. De woning dient hoogwaardig te zijn, van hoge kwaliteit, evenals de directe woonomgeving. De buren zijn bij voorkeur 'ons soort mensen'. Voor meer informatie: The SmartAgent CompanyThe SmartAgent Company Voorbeeld: www.denationalewoontest.nlwww.denationalewoontest.nl

Voorspellen: Regressie Voorspel de waarde van een gegeven continue variabele gebaseerd op de waarden van andere variabelen. Samenhang tussen 2 of meer variabelen Voorbeelden: Voorspel de verkoopscijfers van een nieuw product gebaseerd op de hoeveelheid geld besteed aan reclamecampagnes. Voorspel de koers van een aandeel op basis van voorgaande koersgegevens.

Voorspellen: Deviatie Detectie Ontdek significante afwijkingen van het normale gedrag Voorbeeld: fraude met kredietkaarten opsporen

Beschrijven: Clustering Gebaseerd op de Euclidische afstand in de ruimte: Afstanden binnen de clusters minimaliseren en Afstanden tussen de clusters maximaliseren Uitgaven aan strip- boeken Uitgaven aan studieboeken

Beschrijven: Associatie regels ontdekken Voorbeeld: Als een klant in een supermarkt luiers én melk in zijn winkelwagentje heeft liggen, zal hij waarschijnlijk ook een krat bier kopen!

Beschrijven: Sequentiële patronen ontdekken Voorbeeld: “20% van de kijkers van het RTL Nieuws om half 8, kijken daarna nog naar het NOS journaal om 8 uur.” identificeren van genen in DNA- sequenties

Samenvatting Data mining is nuttig: Wanneer de hoeveelheid data te groot is om manueel geanalyseerd te worden Als er vele mogelijke hypotheses zijn Data mining biedt aan: Verzameling tools om modellen en patronen te herkennen Intelligente zoek-technieken Resultaten van data mining: Samenvatting van de data Onverwachte patronen Model

Vragen?

Literatuur / bronnen Tan, Steinbach, Kumar: Introduction to Data Mining http://www- users.cs.umn.edu/~kumar/dmbook/index.php http://www- users.cs.umn.edu/~kumar/dmbook/index.php http://www.dataminingarticles.com/data-mining- introduction.html http://www.cram.nl/ieni/950508.htm http://wwwis.win.tue.nl/~tcalders/teaching/datamining0 8/slides/les1.pdf Data mining and the knowledge discovery process (Summer Course 2005) H.H.L.M. Donkers, IKAT Computer Science Universiteit Maastricht

Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement.

Verwante presentaties

Presentatie over: "Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement.

Verwante presentaties

Presentatie over: "Presentatie titel Rotterdam, 00 januari 2007 Inleiding Data Mining Rotterdam, 10 januari 2012 drs. ing. M.M.A. Scheepers Ten behoeve van Keuzevak Kennismanagement."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback