Knowledge Discovery from Data (KDD)

Slides:



Advertisements
Verwante presentaties
Sinds 1959 heeft deze rally van Oldtimers plaats tussen Barcelona en Sitges. Since 1959, has this rally of Old-timers place between Barcelona and Sitges.
Advertisements

Update on EduStandard: public-private platform in Dutch education Henk Nijstad, Kennisnet / november 2013.
Requirements -People are able to make their own memorial page, called a memori -The website will be build first in Dutch for extension.nl, then copied.
Een alternatief voorstel Naar aanleiding van bestudering van de IAASB voorstellen denkt de NBA na over een alternatief. Dit alternatief zal 26 september.
Deltion College Engels C1 Gesprekken voeren [Edu/002]/ subvaardigheid lezen thema: Order, order…. can-do : kan een bijeenkomst voorzitten © Anne Beeker.
Smart Style on the Semantic Web Lynda Hardman CWI, Multimedia and Human-Computer Interaction TU/e, Multimedia and Internet Technology.
MASTERPROJECT M1 · Groep Equilibrium Marieke Steenbeeke Rick van Veghel Tim de Veen MASTERPROJECT M1 ZERO ENERGY BUILDING Previous weeks · Zero.
Hoogwaardig internet voor hoger onderwijs en onderzoek Amsterdam, 23 November 2005 Walter van Dijk SURFnet Development of LCPM decision-making models and.
ETHOS PROJECT: PROGRESS Follow-up & feedback end of year 1.
Teams on the frontline Geert Stroobant De Heide - Balans
Ronde (Sport & Spel) Quiz Night !
Copyright © 2008 Tele Atlas. All rights reserved. Zet uw Business Data op de kaart: Locaties in eTOM ®
QAD Reporting & Analytics
PTC-AWARD – TOWELMACHINE – 10 NOV VENDOR – MMID - TOWELMACHINE.
Vaardig? Een spectrum aan vaardigheden! Van informatie- naar media- naar exploratievaardig? Of e-Research & e-learning literate? Collaboration literate??
Accessible Instructional Materials. § Discussion: Timely access to appropriate and accessible instructional materials is an inherent component.
Process Mining: Discovery and Analysis of process-aware environments using event logs Eindhoven University of Technology Department of Computer Science.
High quality internet for higher Education and Research 1 TF-LCPM: Exchanging new ideas New ideas within SURFnet Sharing with other NRENs
Corporate Communications February 2011 Succesvol met Outsourcing Gerben Edelijn, CEO Thales Nederland.
Beyond Big Grid – Amsterdam 26 september 2012 Enquette 77 ingevulde enquettes, waarvan 60 met gebruikservaring = Mainly Computer Science.
Identification Documents Port of Ghent All documents in this leaflet are copies of identification/legitimation documents that authorise persons to access.
SQL injections en meer... PERU. web application vulnerabilities Cross Site Scripting (21.5%) SQL Injection (14%) PHP includes (9.5%) Buffer overflows.
1 HOORCOLLEGE Customer Relationship Management
Woensdag 23 juli 2014 volgende vorige algemeen ziekenhuis Sint-Jozef Malle Dementia pathway: a condition specific approach Patrick De Wit, MD Thierry Laporta,
In samenwerking met het Europees Sociaal Fonds en het Hefboomkrediet The role of APEL in career coaching and competence management Competence navigation.
Specialismen Analyse en verificatie van protocollen Analyse van Petri-netten Component-specificatie Web-based information systems (Query)talen voor Web.
Software Engineering Sommerville, Ian (2001) Software Engineering, 6 th edition Ch.1-3
Enterprise Application Integration Walter Moerkerken Ilona Wilmont Integratie Software Systemen 8 mei 2006.
Pieter Adriaans Maarten van Someren
Microsoft Partner Programma
1 Welkom. Gezondheid bij SABIC Innovative Plastics We dachten dat we het goed deden, maar… Henri Hendrickx Manager SABIC-IP Arbodienst / Medical Lead.
Netwerk Algorithms: Shortest paths1 Shortest paths II Network Algorithms 2004.
De digitale coach Het verbeteren van een plan van aanpak Steven Nijhuis, coördinator projecten FNT Deze presentatie staat op:
1 Van Harvard naar MIPS. 2 3 Van Harvard naar MIPS Microprocessor without Interlocked Pipeline Stages Verschillen met de Harvard machine: - 32 Registers.
PLAYBOY Kalender 2006 Dit is wat mannen boeit!.
Vrije Universiteit amsterdamPostacademische Cursus Informatie Technologie Universal Modeling Language … why you need models? Models are necessary to communicate,
Automation SolutionsMFG/Pro Dutch usergroup 8 februari 2007 ISA S88 & S95 Het gebruik van deze normen in de productie.
Tussentoets Digitale Techniek. 1 november 2001, 11:00 tot 13:00 uur. Opmerkingen: 1. Als u een gemiddeld huiswerkcijfer hebt gehaald van zes (6) of hoger,
Hidden Markov Models Introductie Project: 1. Initializatie 2. Training.
Geheugen, distributie en netwerken Netwerken: de basis voor distributie van gegevens en taken (processen) –bestaan zo’n 40 jaar, zeer snelle ontwikkeling.
Ontwikkeling van een organisatie door evolutie en revolutie
Motivation One secret for success in organizations is motivated and enthusiastic employees The challenge is to keep employee motivation consistent with.
Deltion College Engels C1 Schrijven [Edu/002] thema: CV and letter of application can-do : kan complexe zakelijke teksten schrijven © Anne Beeker Alle.
Deltion College Engels B1 Gesprekken voeren [Edu/005] thema: applying for a job can-do : kan een eenvoudig sollicitatiegesprek voeren © Anne Beeker Alle.
Deltion College Engels C1 Gesprekken voeren [Edu/004]/ thema: There are lies, damned lies and statistics... can-do : kan complexe informatie en adviezen.
Deltion College Engels B2 Schrijven [Edu/004] thema: (No) skeleton in the cupboard can-do: kan een samenhangend verhaal schrijven © Anne Beeker Alle rechten.
Deltion College Engels En Projectopdracht [Edu/001] thema: research without borders can-do/gesprekken voeren : 1. kan eenvoudige feitelijke informatie.
Deltion College Engels C1 Spreken/Presentaties [Edu/006] thema ‘I hope to convince you of… ‘ can-do : kan een standpunt uiteenzetten voor een publiek van.
Deltion College Engels B1 Schrijven [Edu/004]/ subvaardigheid lezen thema: reporting a theft can-do : kan formulieren waarin meer informatie gevraagd wordt,
Telecommunicatie en Informatieverwerking UNIVERSITEIT GENT Didactisch materiaal bij de cursus Academiejaar
Telecommunicatie en Informatieverwerking UNIVERSITEIT GENT Didactisch materiaal bij de cursus Academiejaar
© Copyright VIMC 2009 Telecom Expense Management A Discussion Ed Vonk
Future (toekomst) Je krijgt 2 verschillende vormen van Future.
Rational Unified Process RUP Jef Bergsma. Iterations –Inception –Elaboration –Construction –Transition De kernbegrippen (Phases)
Blended Learning. content Waarom wij e-learning hebben gebruikt Demo van de module Voorlopige resultaten van effecten op gebruikers.
© Shopping 2020 TITLE Date Subtitle Logo Gastheer Logo Voorzitter.
Rotary Days Planned September Rotary Days can take any form, as long as they are fun and appealing to the non-Rotary public. Here are just a few.
Combining pattern-based and machine learning methods to detect definitions for eLearning purposes Eline Westerhout & Paola Monachesi.
EML en IMS Learning Design
Major/minor Kwantitatieve methoden (HIR) Predoctoraal traject (HIR) Minor Business Research (TEW/MBE) maart 2014.
De financiële functie: Integrale bedrijfsanalyse©
Sustainable employability in Tourism The human factor October 24, 2014 Where Europe Meets the Americas.
Ondernemer in de btw René N.G. van der Paardt. Met Fuchs is de grens van het ondernemerschap wel bereikt? De vaste inrichting in de btw zou hetzelfde.
Logistics: a driver for innovation Low costs High value Flexibility now and later Superior technology Timwood - T > No transport - I > No Inventory - M.
Grammar Unit 5 HD 5.1 t/m 5.9.
Het geheim van Linked Data Marcel ReuversGeonovum CB-NL 20 november 2014.
Sharing best practices By Exar - Reinbouwgroep 28 november 2014 Peter Reinders.
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Finance Matters CoP Case studies
IBM Software A vehicle manufacturer deploys business rules in one hour instead of a week IBM Operational Decision Manager software helps speed new business.
Transcript van de presentatie:

Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data. kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ... en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...

Architecture Source Systems Data Warehouse ERP CRM Data Marts Legacy Query and (Multidimensional) Analysis (OLAP, Mining) Reporting Dashboards Performance management Source Systems Client/ Notification Portal Score cards Data Warehouse ERP CRM Data Marts Legacy Other Data Extract Transform Load (ETL) External Metadata

Verification driven analysis (Analyst proposes possible patterns, Verification by the analyst) Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques Discovery driven data mining (Automated search for patterns, Verification partly automatic) Classification Segmentation Associations Sequence analysis

Data mining versus KDD Knowledge Discovery From Data (KDD): “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996) Data Mining: stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP)

Het KDD traject t Dumps of operational data Interpretation and Evaluation Data Transformation (Binning, alpha to numeric, etc) Data Mining Dumps of operational data t Data Cleaning Understanding what data is needed for the application Data Selection Patterns Knowledge Application Transformed Data Preprocessed Data Source Data Data Mining Mart

Data preprocessing Het nemen van een steekproef Types van data Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference) Types van data Continu (inkomen) categorisch Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het gemiddelde Extreme waarden (outliers) Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = 10000 Euro per maand (correcte observatie) Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant niet aangekocht gedurende vorige 3 maand)

Data mining Een systeem waarmee het mogelijk is om op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools). Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse, ...). Data mining is ontdekking-gebaseerd.

Data mining taken Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie Descriptieve data mining Associatie analyse Sequentie analyse Clustering ...

Predictieve data mining: classificatie Voorspellen van een discrete doelvariabele op basis van andere variabelen Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-detectie, churn voorspelling, … Technieken: Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken

Classificatie: beslissingsbomen inkomen > 50.000 € nee ja job > 3 jaar hoge schuld ja nee ja nee weinig hoog hoog weinig risico risico risico risico

Training set versus Test set Classification algorithm training data Classifier (model) if age < 31 or Car Type =Sports then Risk = High

Training set versus Test set Classifier (model) test data

Prediction Classifier (model) new data

Scorecard voor credit scoring Characteristic Name Attribute Scorecard Points AGE 1 Up to 26 100 AGE 2 26 - 35 120 AGE 3 35 - 37 185 AGE 4 37+ 225 GENDER 1 Male 90 GENDER 2 Female 180 SALARY 1 Up to 500 SALARY 2 501-1000 140 SALARY 3 1001-1500 160 SALARY 4 1501-2000 200 SALARY 5 2001+ 240 Let cut-off = 500 So, a new customer applies for credit …… AGE 32 120 points GENDER Female 180 points SALARY £1,150 160 points Total 460 points REFUSE CREDIT

Predictieve data mining: regressie Doelvariabele is continu Voorbeelden: Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers Technieken: Lineaire regressie Neurale netwerken

Descriptieve data mining: associatie-analyse Detecteren van frequent voorkomende patronen tussen items Voorbeeld: If a customer buys spaghetti, then the customer also buys red wine in 70% of the cases. Toepassingen Market basket analysis Web usage mining Recommender systems … Transaction ID Items 0001 0002 0003 0004 0005 … 0052 0053 Bread, Milk, Apple Bread, Milk, Eggs, Pen Cold Drink, Chocolate, Milk Bread, Orange Fish, Vegetables Paper, Pencil Meat, Oil, Milk

Associatie-regels: voorbeeld Transaction Items 01 02 03 04 Wine Bread Milk Wine Beer Butter Milk Bread Beer Butter Milk Wine Bread Butter Milk 05 06 Bread Eggs Butter Milk Wine Bread Beer 07 Wine Bread Butter E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has confidence=3/4 +

Market basket analyse Detecteren welke producten vaak samen aangekocht worden implicaties voor store layout shelve organisation target marketing product bundling

Diapers and Beer example Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights. After moving the beers next to the diapers, the beer sales increased by 15% on Fridays. Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers?

Descriptieve data mining: sequentie analyse Detecteren van temporele patronen Voorbeeld Klant koopt eerst product X, daarna, product Y, daarna product Z 60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days.

Web usage mining Web usage mining Implicaties voor Voorbeelden: Minen van web logs voor het ontdekken van navigatie-patronen van een web site Implicaties voor Verbeteren van web site ontwerp Identificeren van prime advertisement locaties Voorbeelden: 40% of clients who accessed the Web page with URL /company/products/product1.html, also accessed /company/products/product2.html 30% of clients who accessed /company/announcements/special-offer.html, placed an online order in /company/products/product1

Descriptieve data mining: clustering Identificeren van homogene groepen van subjecten Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit Voorbeeld: marktsegmentatie

Post processing Visualiseren van de patronen (bv. met behulp van OLAP) Interpreteren van de patronen Valideren van de patronen: constrasteren van de patronen met domeinkennis Integreren van de patronen in nieuwe systemen

Waarschuwing data mining Een bepaald verband wijst niet noodzakelijk op causaliteit (opletten voor transitiviteit!)

Data Mining bloopers Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi). Explanation: Correlation does not imply causality ! A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi). Explanation: The field was mandatory in the entry systems and hitting 111111 was the easiest way to get to the next field !

Nieuwe data mining toepassingen: bestrijden van terrorisme “Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004) Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, e-mails websites and housing” “A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004) Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE)

Problemen en uitdagingen Civil liberties? Privacy? “They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759) Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs? MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named. How to create a testbed data set?

Algemeen voorbeeld organisatie van beslissingsproces Switch operationeel informatiesysteem voor het beheren van de logistiek van een luchthaven. gate allocation flight data air traffic control Operationele DB billing bagage handling airport security catering fuel 1 Interne informatie Evolutie bagagevolumes Evoluties aantal vluchten (land, bestemming, periode, ...) DW DB Evolutie vertragingen Externe informatie Evoluties aantal passagiers (land, bestemming, maatschappij, transit, ...) Analoge gegevens van andere luchthavens

ter ondersteuning van beslissingen OLAP Data mining DW DB kennis ter ondersteuning van beslissingen 2 maatschappij-profiel OLAP Data mining DM DB kennis Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S. Verona – Brussel met snelle transit Brussel -> V.S.