De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174.

Verwante presentaties


Presentatie over: "Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174."— Transcript van de presentatie:

1 Tentamen Data Mining Voorbereiding

2 Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174

3 Stof  Slides van colleges  zie http://datamining.liacs.nl/DaMi/  Practica  Handouts Association Analysis (t/m 6.4)  zie http://datamining.liacs.nl/DaMi/  Paper Maximally Informative k-Itemsets  Boek  Weka/Cortana

4 Tentamen  Mix van  onderwerpen  niveau  kennis/toepassen  Nadruk op grote lijnen  technische details niet essentieel  toepassen standaard algoritmen op simpele voorbeeld data

5 Vraag: Modeling Er zijn een aantal manieren om tegen data mining aan te kijken, waarvan bijvoorbeeld "prediction" er een is.  Geef nog twee voorbeelden van mogelijke "views" op data mining

6 Views on Data Mining  Fitting the data  Density Estimation  Learning  being able to perform a task more accurately than before  Prediction  use the data to predict future data  Compressing the data  capture the essence of the data  discard the noise and details

7 Vraag: Modeling  Leg in grote lijnen uit hoe met behulp van compressie de taal van een nieuw document bepaald kan worden, gegeven een aantal collecties van voorbeelddocumenten in verschillende talen.

8 Vraag: Modeling  Leg uit welke overwegingen er zijn bij het trekken van een "decision boundary" tussen positieve en negatieve voorbeelden in een classificatie setting. Geef minstens drie voorbeelden van dit soort criteria.  goede scheiding tussen positief en negatief  simpel model  voldoende marge tussen boundary en voorbeelden  makkelijk uit te leggen

9 Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Geef de kruistabel (contingency table) van deze subgroep. Zet daarbij de waarden voor de subgroep (S en het complement S’) links, en de waarden voor de target (T en F) boven. Vul ook de totalen van de kolommen en de rijen in.

10 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1001000 subgroup target

11 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ 1009001000 subgroup target

12 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 200 S’S’ 800 1009001000 subgroup target

13 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90200 S’S’ 800 1009001000 subgroup target

14 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90200 S’S’ 10800 1009001000 subgroup target

15 Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 90110200 S’S’ 10790800 1009001000 subgroup target

16 Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Teken de ROC ruimte voor deze dataset, en teken daarin de locatie van S.

17 S

18 Vraag  Geef twee voorbeelden van een kwaliteitsmaat voor binaire targets, en schets de bijbehorende isometrics in de ROC ruimte. Geef ook aan welke isometrics positief zijn. Information Gain

19 Other Measures PrecisionGini index Correlation coefficient Foil gain

20 Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt.

21 Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De 10000 voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een suggestie voor hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodelleerd kan worden.

22 Vraag: Entropy De volgende tabel bevat 4 attributen. XYZTXYZT TTTTTTTT TTTTTTTT FTFFFTFF FTFFFTFF TTFFTTFF TFFFTFFF FFTTFFTT FFTFFFTF  Bereken de entropy van elk van de attributen  Bereken de information gain van Z voor T  Geef een bovengrens voor de joint entropy van ZT, en onderbouw je bovengrens  Bereken de joint entropy van ZT

23 FP Mining  Teken de itemset lattice en geef aan:  (M) Maximal, (C) Closed, (N) frequent but not closed/maximal, (I) infrequent. Gegeven minsup = 0,3  Associatieregels: Vind een paar itemsets a, b waarvoor geldt: transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies

24 FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} CDBM B, C, D, M B,C B,C,D B,DB,MC,DC,MD,M B,C,MB,D,MC,D,M Minsup = 0,3  support count ≥ 2 NCNC IINCCM II IM I

25 FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} OK: {Milk}  {Cookies} σ(a)=σ(b) Not OK: {Bread}  {Milk, Cookies}

26 Clustering nCluster de waarden d.m.v. het k-means algoritme nInitialiseer met random cluster-centra (0,6) en (7,2) nBeschrijf de stappen totdat k-means convergeert objectX1x2 100 278 348 430

27 kMeans nCluster using C1=(0,6), C2=(7,2) nCluster 1: {1,3} nCluster 2: {2,4} nE.g. point 2: nd(2,c1)=sqrt(7 2 +2 2 )=sqrt(53) nd(2,c2)=sqrt(0+6 2 )=sqrt(36) -> c2 nRecompute cluster-centra nC1’: ((0+4)/2,(0+8)/2)=(2,4) nC2’: ((3+7)/2,(0+8)/2)= (5,4) c1 c2 4 2 3 1 objectX1x2 100 278 348 430

28 nCluster using c1’ (2,4) and c2’ (5,4) nC1’={1,4} nC2’={2,3} nE.g., point 4: nd(4,c1’)=sqrt(1 2 +4 2 )=sqrt(17) -> c1’ nd(4,c2’)=sqrt(2 2 +4 2 )=sqrt(20) c1’ c2’ 4 23 1 objectX1x2 100 278 348 430 nRecompute cluster-centra nC1’: ((0+3)/2,(0+0)/2)=(1.5,0) nC2’: ((4+7)/2,(8+8)/2)= (5.5,8) nClusters don’t change anymore nConverged, stop kMeans


Download ppt "Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174."

Verwante presentaties


Ads door Google