De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Knowledge Discovery from Data (KDD)

Verwante presentaties


Presentatie over: "Knowledge Discovery from Data (KDD)"— Transcript van de presentatie:

1 Knowledge Discovery from Data (KDD)
Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data. kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen, ... en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...

2 Architecture Source Systems Data Warehouse ERP CRM Data Marts Legacy
Query and (Multidimensional) Analysis (OLAP, Mining) Reporting Dashboards Performance management Source Systems Client/ Notification Portal Score cards Data Warehouse ERP CRM Data Marts Legacy Other Data Extract Transform Load (ETL) External Metadata

3 Verification driven analysis
(Analyst proposes possible patterns, Verification by the analyst) Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques Discovery driven data mining (Automated search for patterns, Verification partly automatic) Classification Segmentation Associations Sequence analysis

4 Data mining versus KDD Knowledge Discovery From Data (KDD): “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996) Data Mining: stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP)

5 Het KDD traject t Dumps of operational data
Interpretation and Evaluation Data Transformation (Binning, alpha to numeric, etc) Data Mining Dumps of operational data t Data Cleaning Understanding what data is needed for the application Data Selection Patterns Knowledge Application Transformed Data Preprocessed Data Source Data Data Mining Mart

6 Data preprocessing Het nemen van een steekproef Types van data
Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference) Types van data Continu (inkomen) categorisch Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het gemiddelde Extreme waarden (outliers) Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = Euro per maand (correcte observatie) Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant niet aangekocht gedurende vorige 3 maand)

7 Data mining Een systeem waarmee het mogelijk is om op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools). Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse, ...). Data mining is ontdekking-gebaseerd.

8 Data mining taken Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie Descriptieve data mining Associatie analyse Sequentie analyse Clustering ...

9 Predictieve data mining: classificatie
Voorspellen van een discrete doelvariabele op basis van andere variabelen Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-detectie, churn voorspelling, … Technieken: Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken

10 Classificatie: beslissingsbomen
inkomen > € nee ja job > 3 jaar hoge schuld ja nee ja nee weinig hoog hoog weinig risico risico risico risico

11 Training set versus Test set
Classification algorithm training data Classifier (model) if age < 31 or Car Type =Sports then Risk = High

12 Training set versus Test set
Classifier (model) test data

13 Prediction Classifier (model) new data

14 Scorecard voor credit scoring
Characteristic Name Attribute Scorecard Points AGE 1 Up to 26 100 AGE 2 120 AGE 3 185 AGE 4 37+ 225 GENDER 1 Male 90 GENDER 2 Female 180 SALARY 1 Up to 500 SALARY 2 140 SALARY 3 160 SALARY 4 200 SALARY 5 2001+ 240 Let cut-off = 500 So, a new customer applies for credit …… AGE points GENDER Female 180 points SALARY £1, points Total points REFUSE CREDIT

15 Predictieve data mining: regressie
Doelvariabele is continu Voorbeelden: Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers Technieken: Lineaire regressie Neurale netwerken

16 Descriptieve data mining: associatie-analyse
Detecteren van frequent voorkomende patronen tussen items Voorbeeld: If a customer buys spaghetti, then the customer also buys red wine in 70% of the cases. Toepassingen Market basket analysis Web usage mining Recommender systems Transaction ID Items 0001 0002 0003 0004 0005 0052 0053 Bread, Milk, Apple Bread, Milk, Eggs, Pen Cold Drink, Chocolate, Milk Bread, Orange Fish, Vegetables Paper, Pencil Meat, Oil, Milk

17 Associatie-regels: voorbeeld
Transaction Items 01 02 03 04 Wine Bread Milk Wine Beer Butter Milk Bread Beer Butter Milk Wine Bread Butter Milk 05 06 Bread Eggs Butter Milk Wine Bread Beer 07 Wine Bread Butter E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has confidence=3/4 +

18 Market basket analyse Detecteren welke producten vaak samen aangekocht worden implicaties voor store layout shelve organisation target marketing product bundling

19 Diapers and Beer example
Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights. After moving the beers next to the diapers, the beer sales increased by 15% on Fridays. Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers?

20 Descriptieve data mining: sequentie analyse
Detecteren van temporele patronen Voorbeeld Klant koopt eerst product X, daarna, product Y, daarna product Z 60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days.

21 Web usage mining Web usage mining Implicaties voor Voorbeelden:
Minen van web logs voor het ontdekken van navigatie-patronen van een web site Implicaties voor Verbeteren van web site ontwerp Identificeren van prime advertisement locaties Voorbeelden: 40% of clients who accessed the Web page with URL /company/products/product1.html, also accessed /company/products/product2.html 30% of clients who accessed /company/announcements/special-offer.html, placed an online order in /company/products/product1

22 Descriptieve data mining: clustering
Identificeren van homogene groepen van subjecten Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit Voorbeeld: marktsegmentatie

23 Post processing Visualiseren van de patronen (bv. met behulp van OLAP)
Interpreteren van de patronen Valideren van de patronen: constrasteren van de patronen met domeinkennis Integreren van de patronen in nieuwe systemen

24 Waarschuwing data mining
Een bepaald verband wijst niet noodzakelijk op causaliteit (opletten voor transitiviteit!)

25 Data Mining bloopers Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi). Explanation: Correlation does not imply causality ! A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi). Explanation: The field was mandatory in the entry systems and hitting was the easiest way to get to the next field !

26 Nieuwe data mining toepassingen: bestrijden van terrorisme
“Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004) Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, s websites and housing” “A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004) Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE)

27 Problemen en uitdagingen
Civil liberties? Privacy? “They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759) Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs? MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named. How to create a testbed data set?

28 Algemeen voorbeeld organisatie van beslissingsproces
Switch operationeel informatiesysteem voor het beheren van de logistiek van een luchthaven. gate allocation flight data air traffic control Operationele DB billing bagage handling airport security catering fuel 1 Interne informatie Evolutie bagagevolumes Evoluties aantal vluchten (land, bestemming, periode, ...) DW DB Evolutie vertragingen Externe informatie Evoluties aantal passagiers (land, bestemming, maatschappij, transit, ...) Analoge gegevens van andere luchthavens

29 ter ondersteuning van beslissingen
OLAP Data mining DW DB kennis ter ondersteuning van beslissingen 2 maatschappij-profiel OLAP Data mining DM DB kennis Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S. Verona – Brussel met snelle transit Brussel -> V.S.


Download ppt "Knowledge Discovery from Data (KDD)"

Verwante presentaties


Ads door Google