Tentamen Data Mining Voorbereiding
Tentamen 4 januari 2016 14:00 – 17:00 zaal
Stof Slides van colleges zie Practica Handouts Association Analysis (t/m 6.4) zie Paper Maximally Informative k-Itemsets Boek Weka/Cortana
Tentamen Mix van onderwerpen niveau kennis/toepassen Nadruk op grote lijnen technische details niet essentieel toepassen standaard algoritmen op simpele voorbeeld data
Vraag: Modeling Er zijn een aantal manieren om tegen data mining aan te kijken, waarvan bijvoorbeeld "prediction" er een is. Geef nog twee voorbeelden van mogelijke "views" op data mining
Views on Data Mining Fitting the data Density Estimation Learning being able to perform a task more accurately than before Prediction use the data to predict future data Compressing the data capture the essence of the data discard the noise and details
Vraag: Modeling Leg in grote lijnen uit hoe met behulp van compressie de taal van een nieuw document bepaald kan worden, gegeven een aantal collecties van voorbeelddocumenten in verschillende talen.
Vraag: Modeling Leg uit welke overwegingen er zijn bij het trekken van een "decision boundary" tussen positieve en negatieve voorbeelden in een classificatie setting. Geef minstens drie voorbeelden van dit soort criteria. goede scheiding tussen positief en negatief simpel model voldoende marge tussen boundary en voorbeelden makkelijk uit te leggen
Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. Geef de kruistabel (contingency table) van deze subgroep. Zet daarbij de waarden voor de subgroep (S en het complement S’) links, en de waarden voor de target (T en F) boven. Vul ook de totalen van de kolommen en de rijen in.
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 200 S’S’ subgroup target
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target
Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target
Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. Teken de ROC ruimte voor deze dataset, en teken daarin de locatie van S.
S
Vraag Geef twee voorbeelden van een kwaliteitsmaat voor binaire targets, en schets de bijbehorende isometrics in de ROC ruimte. Geef ook aan welke isometrics positief zijn. Information Gain
Other Measures PrecisionGini index Correlation coefficient Foil gain
Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief. Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt.
Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief. Geef een suggestie voor hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodelleerd kan worden.
Vraag: Entropy De volgende tabel bevat 4 attributen. XYZTXYZT TTTTTTTT TTTTTTTT FTFFFTFF FTFFFTFF TTFFTTFF TFFFTFFF FFTTFFTT FFTFFFTF Bereken de entropy van elk van de attributen Bereken de information gain van Z voor T Geef een bovengrens voor de joint entropy van ZT, en onderbouw je bovengrens Bereken de joint entropy van ZT
FP Mining Teken de itemset lattice en geef aan: (M) Maximal, (C) Closed, (N) frequent but not closed/maximal, (I) infrequent. Gegeven minsup = 0,3 Associatieregels: Vind een paar itemsets a, b waarvoor geldt: transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies
FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} CDBM B, C, D, M B,C B,C,D B,DB,MC,DC,MD,M B,C,MB,D,MC,D,M Minsup = 0,3 support count ≥ 2 NCNC IINCCM II IM I
FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} OK: {Milk} {Cookies} σ(a)=σ(b) Not OK: {Bread} {Milk, Cookies}
Clustering nCluster de waarden d.m.v. het k-means algoritme nInitialiseer met random cluster-centra (0,6) en (7,2) nBeschrijf de stappen totdat k-means convergeert objectX1x
kMeans nCluster using C1=(0,6), C2=(7,2) nCluster 1: {1,3} nCluster 2: {2,4} nE.g. point 2: nd(2,c1)=sqrt( )=sqrt(53) nd(2,c2)=sqrt(0+6 2 )=sqrt(36) -> c2 nRecompute cluster-centra nC1’: ((0+4)/2,(0+8)/2)=(2,4) nC2’: ((3+7)/2,(0+8)/2)= (5,4) c1 c objectX1x
nCluster using c1’ (2,4) and c2’ (5,4) nC1’={1,4} nC2’={2,3} nE.g., point 4: nd(4,c1’)=sqrt( )=sqrt(17) -> c1’ nd(4,c2’)=sqrt( )=sqrt(20) c1’ c2’ objectX1x nRecompute cluster-centra nC1’: ((0+3)/2,(0+0)/2)=(1.5,0) nC2’: ((4+7)/2,(8+8)/2)= (5.5,8) nClusters don’t change anymore nConverged, stop kMeans