Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174.

Tentamen Data Mining Voorbereiding

Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174

Stof  Slides van colleges  zie http://datamining.liacs.nl/DaMi/  Practica  Handouts Association Analysis (t/m 6.4)  zie http://datamining.liacs.nl/DaMi/  Paper Maximally Informative k-Itemsets  Boek  Weka/Cortana

Tentamen  Mix van  onderwerpen  niveau  kennis/toepassen  Nadruk op grote lijnen  technische details niet essentieel  toepassen standaard algoritmen op simpele voorbeeld data

Vraag: Modeling Er zijn een aantal manieren om tegen data mining aan te kijken, waarvan bijvoorbeeld "prediction" er een is.  Geef nog twee voorbeelden van mogelijke "views" op data mining

Views on Data Mining  Fitting the data  Density Estimation  Learning  being able to perform a task more accurately than before  Prediction  use the data to predict future data  Compressing the data  capture the essence of the data  discard the noise and details

Vraag: Modeling  Leg in grote lijnen uit hoe met behulp van compressie de taal van een nieuw document bepaald kan worden, gegeven een aantal collecties van voorbeelddocumenten in verschillende talen.

Vraag: Modeling  Leg uit welke overwegingen er zijn bij het trekken van een "decision boundary" tussen positieve en negatieve voorbeelden in een classificatie setting. Geef minstens drie voorbeelden van dit soort criteria.  goede scheiding tussen positief en negatief  simpel model  voldoende marge tussen boundary en voorbeelden  makkelijk uit te leggen

Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Geef de kruistabel (contingency table) van deze subgroep. Zet daarbij de waarden voor de subgroep (S en het complement S’) links, en de waarden voor de target (T en F) boven. Vul ook de totalen van de kolommen en de rijen in.

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1001000 subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1009001000 subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 200 S’S’ 800 1009001000 subgroup target

Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Teken de ROC ruimte voor deze dataset, en teken daarin de locatie van S.

Vraag  Geef twee voorbeelden van een kwaliteitsmaat voor binaire targets, en schets de bijbehorende isometrics in de ROC ruimte. Geef ook aan welke isometrics positief zijn. Information Gain

Other Measures PrecisionGini index Correlation coefficient Foil gain

Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt.

Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een suggestie voor hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodelleerd kan worden.

Vraag: Entropy De volgende tabel bevat 4 attributen. XYZTXYZT TTTTTTTT TTTTTTTT FTFFFTFF FTFFFTFF TTFFTTFF TFFFTFFF FFTTFFTT FFTFFFTF  Bereken de entropy van elk van de attributen  Bereken de information gain van Z voor T  Geef een bovengrens voor de joint entropy van ZT, en onderbouw je bovengrens  Bereken de joint entropy van ZT

FP Mining  Teken de itemset lattice en geef aan:  (M) Maximal, (C) Closed, (N) frequent but not closed/maximal, (I) infrequent. Gegeven minsup = 0,3  Associatieregels: Vind een paar itemsets a, b waarvoor geldt: transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies

FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} CDBM B, C, D, M B,C B,C,D B,DB,MC,DC,MD,M B,C,MB,D,MC,D,M Minsup = 0,3  support count ≥ 2 NCNC IINCCM II IM I

FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} OK: {Milk}  {Cookies} σ(a)=σ(b) Not OK: {Bread}  {Milk, Cookies}

Clustering nCluster de waarden d.m.v. het k-means algoritme nInitialiseer met random cluster-centra (0,6) en (7,2) nBeschrijf de stappen totdat k-means convergeert objectX1x2 100 278 348 430

kMeans nCluster using C1=(0,6), C2=(7,2) nCluster 1: {1,3} nCluster 2: {2,4} nE.g. point 2: nd(2,c1)=sqrt(7 2 +2 2 )=sqrt(53) nd(2,c2)=sqrt(0+6 2 )=sqrt(36) -> c2 nRecompute cluster-centra nC1’: ((0+4)/2,(0+8)/2)=(2,4) nC2’: ((3+7)/2,(0+8)/2)= (5,4) c1 c2 4 2 3 1 objectX1x2 100 278 348 430

nCluster using c1’ (2,4) and c2’ (5,4) nC1’={1,4} nC2’={2,3} nE.g., point 4: nd(4,c1’)=sqrt(1 2 +4 2 )=sqrt(17) -> c1’ nd(4,c2’)=sqrt(2 2 +4 2 )=sqrt(20) c1’ c2’ 4 23 1 objectX1x2 100 278 348 430 nRecompute cluster-centra nC1’: ((0+3)/2,(0+0)/2)=(1.5,0) nC2’: ((4+7)/2,(8+8)/2)= (5.5,8) nClusters don’t change anymore nConverged, stop kMeans

Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174.

Verwante presentaties

Presentatie over: "Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174.

Verwante presentaties

Presentatie over: "Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback