Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdLouisa van der Laan Laatst gewijzigd meer dan 8 jaar geleden
1
Tentamen Data Mining Voorbereiding
2
Tentamen 4 januari 2016 14:00 – 17:00 zaal 407+174
3
Stof Slides van colleges zie http://datamining.liacs.nl/DaMi/ Practica Handouts Association Analysis (t/m 6.4) zie http://datamining.liacs.nl/DaMi/ Paper Maximally Informative k-Itemsets Boek Weka/Cortana
4
Tentamen Mix van onderwerpen niveau kennis/toepassen Nadruk op grote lijnen technische details niet essentieel toepassen standaard algoritmen op simpele voorbeeld data
5
Vraag: Modeling Er zijn een aantal manieren om tegen data mining aan te kijken, waarvan bijvoorbeeld "prediction" er een is. Geef nog twee voorbeelden van mogelijke "views" op data mining
6
Views on Data Mining Fitting the data Density Estimation Learning being able to perform a task more accurately than before Prediction use the data to predict future data Compressing the data capture the essence of the data discard the noise and details
7
Vraag: Modeling Leg in grote lijnen uit hoe met behulp van compressie de taal van een nieuw document bepaald kan worden, gegeven een aantal collecties van voorbeelddocumenten in verschillende talen.
8
Vraag: Modeling Leg uit welke overwegingen er zijn bij het trekken van een "decision boundary" tussen positieve en negatieve voorbeelden in een classificatie setting. Geef minstens drie voorbeelden van dit soort criteria. goede scheiding tussen positief en negatief simpel model voldoende marge tussen boundary en voorbeelden makkelijk uit te leggen
9
Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. Geef de kruistabel (contingency table) van deze subgroep. Zet daarbij de waarden voor de subgroep (S en het complement S’) links, en de waarden voor de target (T en F) boven. Vul ook de totalen van de kolommen en de rijen in.
10
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1001000 subgroup target
11
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1009001000 subgroup target
12
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 200 S’S’ 800 1009001000 subgroup target
13
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90200 S’S’ 800 1009001000 subgroup target
14
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90200 S’S’ 10800 1009001000 subgroup target
15
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90110200 S’S’ 10790800 1009001000 subgroup target
16
Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. Teken de ROC ruimte voor deze dataset, en teken daarin de locatie van S.
17
S
18
Vraag Geef twee voorbeelden van een kwaliteitsmaat voor binaire targets, en schets de bijbehorende isometrics in de ROC ruimte. Geef ook aan welke isometrics positief zijn. Information Gain
19
Other Measures PrecisionGini index Correlation coefficient Foil gain
20
Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief. Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt.
21
Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief. Geef een suggestie voor hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodelleerd kan worden.
22
Vraag: Entropy De volgende tabel bevat 4 attributen. XYZTXYZT TTTTTTTT TTTTTTTT FTFFFTFF FTFFFTFF TTFFTTFF TFFFTFFF FFTTFFTT FFTFFFTF Bereken de entropy van elk van de attributen Bereken de information gain van Z voor T Geef een bovengrens voor de joint entropy van ZT, en onderbouw je bovengrens Bereken de joint entropy van ZT
23
FP Mining Teken de itemset lattice en geef aan: (M) Maximal, (C) Closed, (N) frequent but not closed/maximal, (I) infrequent. Gegeven minsup = 0,3 Associatieregels: Vind een paar itemsets a, b waarvoor geldt: transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies
24
FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} CDBM B, C, D, M B,C B,C,D B,DB,MC,DC,MD,M B,C,MB,D,MC,D,M Minsup = 0,3 support count ≥ 2 NCNC IINCCM II IM I
25
FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} OK: {Milk} {Cookies} σ(a)=σ(b) Not OK: {Bread} {Milk, Cookies}
26
Clustering nCluster de waarden d.m.v. het k-means algoritme nInitialiseer met random cluster-centra (0,6) en (7,2) nBeschrijf de stappen totdat k-means convergeert objectX1x2 100 278 348 430
27
kMeans nCluster using C1=(0,6), C2=(7,2) nCluster 1: {1,3} nCluster 2: {2,4} nE.g. point 2: nd(2,c1)=sqrt(7 2 +2 2 )=sqrt(53) nd(2,c2)=sqrt(0+6 2 )=sqrt(36) -> c2 nRecompute cluster-centra nC1’: ((0+4)/2,(0+8)/2)=(2,4) nC2’: ((3+7)/2,(0+8)/2)= (5,4) c1 c2 4 2 3 1 objectX1x2 100 278 348 430
28
nCluster using c1’ (2,4) and c2’ (5,4) nC1’={1,4} nC2’={2,3} nE.g., point 4: nd(4,c1’)=sqrt(1 2 +4 2 )=sqrt(17) -> c1’ nd(4,c2’)=sqrt(2 2 +4 2 )=sqrt(20) c1’ c2’ 4 23 1 objectX1x2 100 278 348 430 nRecompute cluster-centra nC1’: ((0+3)/2,(0+0)/2)=(1.5,0) nC2’: ((4+7)/2,(8+8)/2)= (5.5,8) nClusters don’t change anymore nConverged, stop kMeans
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.