Download de presentatie
1
Schatgraven in Gegevensbergen
Data Mining: Schatgraven in Gegevensbergen Peter van der Putten ALP Group, LIACS & KiQ Ltd 6 April 2004 Company Profile · An independent British technology vendor with an international focus (active in the UK, Europe, US and Asia) · Founded in 1990 by retail banking people (senior management at TSB and Cap Gemini Ernst & Young) · An innovator in addressing fundamental market nods in CRM · A strongly business-oriented approach to active decision management Purpose of briefing We believe that our vision on Active Decision Management will be the next big thing after analytical CRM, and we would like to inform Gartner about it. The company recently secured venture capital investment which is being used to: · complete the current product development plan; · accelerate marketing and general brand awareness; · provide a platform from which to undertake future development; · and to establish and support alliances with distribution partners (systems integrators, consultancies, and product vendors). We feel the Gartner Analysts can help us achieve these goals, and provide useful feedback for future developments. Proposed Briefing Agenda · Introductions · Presentation of KiQ’s architecture for intelligent and consistent mutlti-channel customer interaction;Fly-by-Wire · Strategic (future) alliances · Discussion
2
Agenda (ovb) College: 1400 -1500 Pauze: 1500 -1515
Practicum: Bespreken:
3
Bronnen van (kunstmatige) intelligentie
Redeneren versus leren Leren uit data: Klantgegevens Beurskoersen Pianomuziek Foto’s van verdachten Websites op het internet Robotwaarnemingen Etc.
4
Data Mining & Knowledge Discovery in Databases
Werkdefinitie Het ontdekken van interessante, nuttige en verborgen kennis in grote hoeveelheden data met intelligente patroonherkenningstechnieken Data mining is een interdisciplinair vakgebied: Kunstmatige intelligentie, machine learning, information retrieval, statistiek, statistische patroonherkenning, econometrie, cognitieve psychologie, neuroscience, etc.
5
Voorbeelden van data mining taken
Zoeken Matching: het zoeken naar best matchende objecten / patronen Voorspellen classificatie: het toekennen van een bekende klasse aan een object (‘nominale/categoriale voorspelling’) predictie/regressie: het voorspellen van een numerieke kenmerk voor een object (‘numerieke voorspelling’) Beschrijven clusteren: het vinden van groepen van objecten (groepen/klassen van te voren niet bekend) rule discovery: het afleiden van interessante regels en verbanden (‘associatieregels’)
6
Zoeken in de patroonruimte
Zoeken naar best matchende patronen / objecten Elk object is een punt in de ‘patroonruimte’. Dimensies zijn de eigenschappen van het object, bvb leeftijd en inkomen voor een klantendatabase, of aantal keren ‘Matej’ en ‘Kezman’ op een webpagina. Patroonruimtes zijn vaak hoogdimensionaal (10 tot duizenden dimensies) bvb. inkomen bvb. leeftijd
7
Voorbeelden van voorspelalgoritmen
Beslisbomen (decision trees) Nabuuralgoritmen (nearest neighbor) Neurale netwerken Good old statistics Genetische algoritmen / evolutionairy computing Artificial Immune Systems …..
8
Voorbeeld voorspel algoritme 1: Decision Trees (Beslisbomen)
Vraag-antwoord spel
9
Decision trees in de patroonruimte
Doel classifier is onderscheid te maken tussen klasse ‘cirkel’ en klasse ‘vierkant’ op basis van leeftijd en inkomen. Decision tree heeft lijnstukken loodrecht op assen beschikbaar Elk lijnstuk stelt een beslissing voor (splitsing in de boom) bvb. inkomen bvb. leeftijd
10
Decision trees in de patroonruimte
Lijnstukken loodrecht op assen beschikbaar Elk lijnstuk stelt een beslissing voor (splitsing in de boom) bvb. inkomen bvb. leeftijd
11
Voorbeeld voorspel algoritme 2: Nearest Neighbour
Data zelf is het voorspellingsmodel, dus geen abstracte representatie zoals een boom oid Voor een gegeven object x zoek die n objecten waarvan de klasse bekend is en die het meest lijken op x Voorspel voor object x de klasse die het meest voorkomt bij de best lijkende objecten
12
Nearest Neighbor in de patroonruimte
Voorspellen = nieuw geval Elk willekeurig complex scheidingsvlak mogelijk Voorwaarde: er moet wel genoeg data aanwezig zijn bvb. inkomen bvb. leeftijd
13
Nearest Neighbor in de patroonruimte
Voorspellen Elk willekeurig complex scheidingsvlak mogelijk Voorwaarde: er moet wel genoeg data aanwezig zijn bvb. inkomen bvb. leeftijd
14
Voorspel algoritme 3: Neurale Netwerken
Geinspireerd door werking neuronen in hersenen (McCullough & Pitts 1943 (!)) Invoer (bvb klantkenmerken) wordt gecodeerd op invoerlaag, activatie stroomt door netwerk over verbindingen en leidt tot uitvoer op output laag (bvb interesse in product) Netwerk leert verbanden (gewicht verbindingen) aan de hand van voorbeelden en leerregel
15
Neurale Netwerken Voorbeeld simpel netwerk (2 lagen)
Interesse in product = leeftijd * gewichtleeftijd + inkomen * gewichtinkomen leeftijd inkomen gewichtleeftijd gewichtinkomen interesse in product
16
Neurale netwerken in de patroonruimte
Voorspellen Simpel netwerk: slechts een lijn beschikbaar Meerlaags netwerk: Elk willekeurig scheidingsvlak mogelijk bvb. inkomen bvb. leeftijd
17
Beslisboom demo in WEKA, Een open source mining tool
18
Beschrijvende data mining: Clusteren
Het vinden van groepen van objecten Binnen een groep (cluster, segment) lijken objecten op elkaar, groepen onderling zijn juist verschillend Toepassingen bvb: Welke verschillende soorten wodkadrinkers bestaan er? Voor een gegeven ziekte, zijn er verschillende groepen patienten te onderscheiden die elk een verschillende behandeling nodig hebben? Etc.
19
Clusteren in de patroonruimte
Clusteren is het vinden van groepen in de patroon ruimte In 2 of 3 dimensionale patroonruimtes zou je de data set kunnen visualiseren en het herkennen van clusters aan een gebruiker kunnen overlaten bvb. inkomen bvb. leeftijd
20
Clusteren in de patroonruimte
Clusteren is het vinden van groepen in de patroon ruimte In 2 of 3 dimensionale patroonruimtes zou je de data set kunnen visualiseren en het herkennen van clusters aan een gebruiker kunnen overlaten Met meer dimensies kan dat niet bvb. inkomen bvb. leeftijd
21
Beschrijvende data mining: associatie regels
Ontdekken van regelmatigheden Vorm: als A en B dan C Voorbeeld: als aardappelen en boerenkool dan worst Belangrijke maten Support regel: hoe vaak komen aardappelen en boerenkool (A,B) voor (hoeveelheid ‘bewijs’) Confidence regel: hoe vaak komt worst dan voor / support (geldt A,B C altijd?)
22
Associatie regel demo in WEKA,
23
Wat is behandeld? Leren versus redeneren Definitie data mining
Overzicht data mining taken Voorbeeldalgoritmen voor voorspelling Voorbeeldalgoritme associatieregels Demo’s in WEKA En nu: pauze en practicum (305)
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.