De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare.

Verwante presentaties


Presentatie over: "1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare."— Transcript van de presentatie:

1 1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare patronen in data. kan worden gebruikt voor vele taken: classificatie, associatieregels opstellen,... en voor het uitvoeren van elke taak kunnen meerdere technieken worden gebruikt: beslissingsbomen, neurale netwerken, a priori algoritmen,...

2 2 Data Marts CRM Legacy ERP Source Systems Extract Transform Load (ETL) Data Warehouse Architecture External Other Data Metadata Client/ Notification Portal Score cards Query and (Multidimensional) Analysis (OLAP, Mining) Reporting Dashboards Performance management

3 3 Verification driven analysis (Analyst proposes possible patterns, Verification by the analyst) Query and basic reporting OLAP Automation of Enterprise Reporting Statistical techniques Discovery driven data mining (Automated search for patterns, Verification partly automatic) Classification Segmentation Associations Sequence analysis

4 4 Data mining versus KDD Knowledge Discovery From Data (KDD) : “...the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” (Fayyad, 1996) Data Mining : stap van het KDD proces waarbij patronen uit data geëxtraheerd worden door het uitvoeren van computationele algoritmes Computer gestuurde ontdekking van (onverwachte) patronen in plaats van gestuurd door de eindgebruiker (cf. OLAP)

5 5 Het KDD traject Understanding what data is needed for the application Data Cleaning Interpretation and Evaluation Data Transformation (Binning, alpha to numeric, etc) Data Mining Data Selection Source Data Knowledge Application Preprocessed Data Transformed Data Patterns Data Mining Mart Dumps of operational data tt

6 6 Data preprocessing Het nemen van een steekproef Credit scoring: enkel informatie omtrent goedgekeurde aanvragen, met andere woorden de data is vertekend (reject inference) Types van data Continu (inkomen) categorisch Nominaal: huwelijksstatus Ordinaal: credit rating (AAA, AA, A, BBB, BB, …., D) Binair: geslacht Ontbrekende waarden (missing values) Hoe opvangen? Bijvoorbeeld door vervangen door het gemiddelde Extreme waarden (outliers) Bv. Leeftijd=400 jaar (foute observatie) versus inkomen = Euro per maand (correcte observatie) Beslissing omtrent doelvariabele Credit scoring: hoe definieer je een wanbetaler? (bv. 90 dagen betalingsachterstand volgens Basel II richtlijn) Churn management: hoe definieer je klantverloop? (bv. Klant niet aangekocht gedurende vorige 3 maand)

7 7 Data mining Een systeem waarmee het mogelijk is om op basis van gegevens in het DW onvermoede patronen (verbanden) op te sporen (data mining- tools). Daarbij worden vooral diverse statistische technieken aangewend (bv. beslissingsbomen voor classificatie, associatieregels opstellen voor associatie-analyse,...). Data mining is ontdekking-gebaseerd.

8 8 Data mining taken Predictieve data mining: voorspellen van een doelvariabele op basis van andere variabelen Classificatie Regressie Descriptieve data mining Associatie analyse Sequentie analyse Clustering...

9 9 Predictieve data mining: classificatie Voorspellen van een discrete doelvariabele op basis van andere variabelen Voorbeelden: Credit scoring, bankroetvoorspelling, OCR, fraude-detectie, churn voorspelling, … Technieken: Statistisch (Logistieke regressie) Beslissingsbomen Neurale netwerken

10 10 Classificatie: beslissingsbomen inkomen > € neeja job > 3 jaarhoge schuld ja neeja nee weinighooghoogweinig risicorisicorisico risico

11 11 Training set versus Test set training data Classification algorithm Classifier (model) if age < 31 or Car Type =Sports then Risk = High

12 12 Training set versus Test set test data Classifier (model)

13 13 Prediction new data Classifier (model)

14 14 Scorecard voor credit scoring So, a new customer applies for credit …… AGE32120 points GENDERFemale180 points SALARY £1, points Total460 points Let cut-off = 500 REFUSE CREDIT Characteristic Name Attribute Scorecard Points AGE 1Up to AGE AGE AGE GENDER 1Male90 GENDER 2Female180 SALARY 1Up to SALARY SALARY SALARY SALARY

15 15 Predictieve data mining: regressie Doelvariabele is continu Voorbeelden: Voorspellen van aandelenkoersen Voorspellen van verkoopscijfers Technieken: Lineaire regressie Neurale netwerken

16 16 Descriptieve data mining: associatie- analyse Detecteren van frequent voorkomende patronen tussen items Voorbeeld: If a customer buys spaghetti, then the customer also buys red wine in 70% of the cases. Toepassingen Market basket analysis Web usage mining Recommender systems … Transaction ID Items … Bread, Milk, Apple Bread, Milk, Eggs, Pen Cold Drink, Chocolate, Milk Bread, Orange Fish, Vegetables … Paper, Pencil Meat, Oil, Milk

17 17 Associatie-regels: voorbeeld E.g. itemset {Bread,Butter,Milk} has support= 3/7 The rule Bread,Butter ==> Milk has confidence=3/4 TransactionItems Wine Bread Milk Wine Beer Butter Milk Bread Beer Butter Milk Wine Bread Butter Milk Bread Eggs Butter Milk Wine Bread Beer 07Wine Bread Butter +

18 18 Market basket analyse Detecteren welke producten vaak samen aangekocht worden implicaties voor store layout shelve organisation target marketing product bundling

19 19 Diapers and Beer example Some years ago Wal-Mart was using data mining technology to analyse their sales figures. The result of the analysis showed that diapers were often purchased along with beers on Friday nights. After moving the beers next to the diapers, the beer sales increased by 15% on Fridays. Possible explanation: Men, on their way home from work, were asked to buy diapers, and since the weekend was just about to start anyway, why not buy some beers?

20 20 Descriptieve data mining: sequentie analyse Detecteren van temporele patronen Voorbeeld Klant koopt eerst product X, daarna, product Y, daarna product Z 60% of clients who placed an online order in company/products/product1.html, also placed an online order in /company1/products/product4 within 15 days.

21 21 Web usage mining Minen van web logs voor het ontdekken van navigatie-patronen van een web site Implicaties voor Verbeteren van web site ontwerp Identificeren van prime advertisement locaties Voorbeelden: 40% of clients who accessed the Web page with URL /company/products/product1.html, also accessed /company/products/product2.html 30% of clients who accessed /company/announcements/special- offer.html, placed an online order in /company/products/product1

22 22 Descriptieve data mining: clustering Identificeren van homogene groepen van subjecten Maximaliseren van intra cluster similariteit en inter cluster dissimilariteit Voorbeeld: marktsegmentatie

23 23 Post processing Visualiseren van de patronen (bv. met behulp van OLAP) Interpreteren van de patronen Valideren van de patronen: constrasteren van de patronen met domeinkennis Integreren van de patronen in nieuwe systemen

24 24 Waarschuwing data mining Een bepaald verband wijst niet noodzakelijk op causaliteit (opletten voor transitiviteit!)

25 25 Data Mining bloopers Everyone who ate pickles in the year 1743 is now dead. Therefore, pickles are fatal ( from Ronny Kohavi). Explanation: Correlation does not imply causality ! A bank discovered that almost 5% of their customers were born on 11 november 1911 (from Ronny Kohavi). Explanation: The field was mandatory in the entry systems and hitting was the easiest way to get to the next field !

26 26 Nieuwe data mining toepassingen: bestrijden van terrorisme “Predict terrorist attacks by looking for telltale patterns of activity in passport applications, visas, work permits, driver's licenses, car rentals, airline ticket purchases and arrests, as well as credit transactions and education, medical and housing records” (CBS News, Feb. 2004) Some US initiatives and systems in development or use: Total Information Awareness (TIA) program: build a centralized database containing private transactional data on all Americans, including “records on credit-card purchases, plane flights, s websites and housing” “A new government report reveals that federal agencies have undertaken 199 data-mining efforts, 131 of which are already operational. A surprising number resemble clones of the controversial Total Information Awareness project, which was intended to peruse exabytes of data on Americans assembled from every source possible as a means to snare terrorists” (CNet news, June 2004) Computer Assisted Passenger Prescreening System (CAPPS II) Multistate Anti-terrorism Information Exchange System (MATRIX) Student and Exchange Visitor Information System (SEVIS) U.S. Visitor and Immigrant Status Indicator Technology (US-VISIT) Secure Collaborative Operational Prototype Environment (SCOPE)

27 27 Problemen en uitdagingen Civil liberties? Privacy? “They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety.” (Benjamin Franklin, 1759) Technical challenges Integrate data from multiple sources Real-time applications Multimedia data mining Skewed distribution Misclassification costs? MATRIX system flagged 120,000 people in Florida “who had a statistical likelihood of being terrorists”, but five of the suspected September 11th hijackers were claimed to be among the top 80 people named. How to create a testbed data set?

28 28 Algemeen voorbeeld organisatie van beslissingsproces Switch operationeel informatiesysteem voor het beheren van de logistiek van een luchthaven. Operationele DB DW DB gate allocation air traffic control billing airport security fuel flight data bagage handling catering Interne informatie Evoluties aantal vluchten (land, bestemming, periode,...) Evoluties aantal passagiers (land, bestemming, maatschappij, transit,...) Evolutie bagagevolumes Evolutie vertragingen Externe informatie Analoge gegevens van andere luchthavens 1

29 29 2 DW DB DM DB OLAP Data mining kennis ter ondersteuning van beslissingen maatschappij-profiel OLAP Data mining kennis Bv. Grote delen van noord-Italië hebben geen goede verbinding met vele grootsteden in V.S. Verona – Brussel met snelle transit Brussel -> V.S.


Download ppt "1 Knowledge Discovery from Data (KDD) Het niet-triviale proces van het identificeren van geldige, nieuwe, potentieel bruikbare en uiteindelijk verstaanbare."

Verwante presentaties


Ads door Google