Tentamen Data Mining Voorbereiding. Tentamen  4 januari 2016  14:00 – 17:00  zaal 407+174.

Slides:



Advertisements
Verwante presentaties
Negatieve getallen Klas 1 | Hoofdstuk 4
Advertisements

SQL deel 2: datamodel ontwerp
Pagina-instelling.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
vwo A/C Samenvatting Hoofdstuk 6
Het elektrisch veld Hoofdstuk 3.
Uitwerking tentamen Functioneel Programmeren 29 januari 2009.
Wouter van der Zwan Lezing Draaitabellen Wouter van der Zwan
Het selecteren van data uit meerdere gekoppelde tabellen
Schatgraven in Gegevensbergen
Background Subtraction for Urban Traffic Monitoring using Webcams Master Thesis Verdediging Begeleider: Rein van den Boomgaard door: Mark Smids 19 maart.
Basishandleiding Limo Meer info online via LIMO Help 1.
Jan Talmon Medische Informatica Universiteit Maastricht
Fibonacci & Friends Met dank aan Gerard Tel.
1 Datastructuren Zoekbomen II Invoegen en weglaten.
Inleiding Adaptieve Systemen
vwo A/C Samenvatting Hoofdstuk 7
vwo C Samenvatting Hoofdstuk 14
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Genetische algoritmen3SAT en GA1 Genetische algoritmen.
Informatie Zoeken en Presenteren Week 15, CMC, 09/12/03.
Opleiding Kunstmatige Intelligentie cursus Databases voor AI
Approximate Cell Decomposition
Effiecient Mining of Spatiotemporal Patterns GDM 2003 Dènis de Keijzer.
Spatial subgroup mining
Les 2 Elektrische velden
Elektriciteit 1 Basisteksten
havo A Samenvatting Hoofdstuk 3
Tweedegraadsfuncties
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Over het tentamen: Voor 3 ects: Voor 2 ects:
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
Liesbeth Van Raemdonck
Lineaire formules Voorbeelden “non”-voorbeelden.
Voorbeeld Bereken de diepte van het water. Aanpak
H4 Differentiëren.
H2 Lineaire Verbanden.
havo B Samenvatting Hoofdstuk 1
Planning With Nonholonomic Constraints By Jeroen Resoort & Ronald Treur.
Verbanden JTC’07.
B vwo vwo B - 11e editie tweede fase Jan Dijkhuis, Roeland Hiele
Baarde en de goede Hoofdstuk 11: Data-analyse
Rogier van der Linde & Davy De Winne, 2014
Stappenplan neerslagreacties
Allard Kamphuisen Hado van Hasselt Wilco Broeders
Les 0 Structured Query Language SQL. Programma Les 0 – Introductieopdracht Les 1 Les 2 Les 3 Schriftelijke toets.
Loopbaan oriëntatie en begeleiding
Let’s go! ›Beginnerspresentatie ›Starten met prospero ›Verschil CMS en web navigator ›Nieuwe content > nieuwe folder aanmaken ›Bestanden uploaden ›Linkobject.
Analyse 3 INFANL01-3 week 2 CMI Informatica.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Pemwjk3. Programma tafeltjesronde over ruimte en materiaal Bespreek de inzichten die naar aanleiding van de tafeltjesronde over ruimte en materialen hebt.
Meetkunde 5L week 19: Vormleer: vlakke figuren – de cirkel vlakke figuren 5L week 19: ‘Vormleer: vlakke figuren – de cirkel’ niet - veelhoeken veelhoeken.
NEXT LW 2 Bijv.nw. 3 Zelfst. nw. 4 PV 5 Ond Taal Team 1 Team 2 Team 3 Team 4 Team 5 Team 6.
Brainstorming Rogier van der Linde, WAT & WAAROM BRAINSTORMEN 2 Genereren van ideeën of oplossingen voor één of meerdere problemen waar je normaal.
DKA4-model In 4 stappen naar het antwoord.. DKA4-model. Delen, keer antwoord op het 4 e getal. Teken een tabel De getallen die bij elkaar horen, onder.
H01: Informatie Digitaal Toetsweek1 : VT41, 50 min.
– Software development fundamentals
Key Process Indicator Sonja de Bruin
Programmeren met Reeksen
Deutschland stellt sich vor
Open Data PMA 3 december 2015 Om het onderwerp open data wat levendiger te maken willen we een korte presentatie geven, met daarin: een concreet voorbeeld.
2 VMBO-T/HAVO deel Driehoeken tekenen Drie zijden gegeven VMBO-T
Moving objects in a geo-DBMS
Minimodules voor de 3e klas
havo B Samenvatting Hoofdstuk 1
Tool IG-2: Onderzoekend leren en waarden in wiskundeonderwijs
Vierhoeken tekenen Vierhoeken tekenen Vierhoeken tekenen
– Software development fundamentals
Gehele getallen vermenigvuldigen en delen
Meetkunde Verzamelingen Klas 8.
Transcript van de presentatie:

Tentamen Data Mining Voorbereiding

Tentamen  4 januari 2016  14:00 – 17:00  zaal

Stof  Slides van colleges  zie  Practica  Handouts Association Analysis (t/m 6.4)  zie  Paper Maximally Informative k-Itemsets  Boek  Weka/Cortana

Tentamen  Mix van  onderwerpen  niveau  kennis/toepassen  Nadruk op grote lijnen  technische details niet essentieel  toepassen standaard algoritmen op simpele voorbeeld data

Vraag: Modeling Er zijn een aantal manieren om tegen data mining aan te kijken, waarvan bijvoorbeeld "prediction" er een is.  Geef nog twee voorbeelden van mogelijke "views" op data mining

Views on Data Mining  Fitting the data  Density Estimation  Learning  being able to perform a task more accurately than before  Prediction  use the data to predict future data  Compressing the data  capture the essence of the data  discard the noise and details

Vraag: Modeling  Leg in grote lijnen uit hoe met behulp van compressie de taal van een nieuw document bepaald kan worden, gegeven een aantal collecties van voorbeelddocumenten in verschillende talen.

Vraag: Modeling  Leg uit welke overwegingen er zijn bij het trekken van een "decision boundary" tussen positieve en negatieve voorbeelden in een classificatie setting. Geef minstens drie voorbeelden van dit soort criteria.  goede scheiding tussen positief en negatief  simpel model  voldoende marge tussen boundary en voorbeelden  makkelijk uit te leggen

Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Geef de kruistabel (contingency table) van deze subgroep. Zet daarbij de waarden voor de subgroep (S en het complement S’) links, en de waarden voor de target (T en F) boven. Vul ook de totalen van de kolommen en de rijen in.

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S 200 S’S’ subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target

Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een coverage heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen. TF S S’S’ subgroup target

Vraag: Subgroup Discovery Ga uit van een dataset met meerdere attributen, waarvan 1 attribuut de target vormt. De dataset bevat 1000 voorbeelden, waarvan 100 positief. Stel dat we een subgroep S op de data geëvalueerd hebben, en het blijkt dat de subgroep een support heeft van 20% van de dataset. Daarnaast blijkt dat 90 positieve gevallen binnen S vallen.  Teken de ROC ruimte voor deze dataset, en teken daarin de locatie van S.

S

Vraag  Geef twee voorbeelden van een kwaliteitsmaat voor binaire targets, en schets de bijbehorende isometrics in de ROC ruimte. Geef ook aan welke isometrics positief zijn. Information Gain

Other Measures PrecisionGini index Correlation coefficient Foil gain

Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een voorbeeld van een beslisboom van diepte 2 (dus maximaal twee splitsingen per pad van de wortel naar een blad) zoals die waarschijnlijk door een algoritme op basis van information gain geproduceerd wordt.

Vraag: Decision Tree Ga uit van een dataset met twee numerieke attributen (x en y) en een binair target. De voorbeelden zijn uniform verdeeld over het gebied [0..10]x[0..10]. Een voorbeeld is positief als het zich bevindt binnen een cirkel met een straal van 3, en met middelpunt (3, 3), anders is het negatief.  Geef een suggestie voor hoe deze data met behulp van een beslisboom makkelijker en preciezer gemodelleerd kan worden.

Vraag: Entropy De volgende tabel bevat 4 attributen. XYZTXYZT TTTTTTTT TTTTTTTT FTFFFTFF FTFFFTFF TTFFTTFF TFFFTFFF FFTTFFTT FFTFFFTF  Bereken de entropy van elk van de attributen  Bereken de information gain van Z voor T  Geef een bovengrens voor de joint entropy van ZT, en onderbouw je bovengrens  Bereken de joint entropy van ZT

FP Mining  Teken de itemset lattice en geef aan:  (M) Maximal, (C) Closed, (N) frequent but not closed/maximal, (I) infrequent. Gegeven minsup = 0,3  Associatieregels: Vind een paar itemsets a, b waarvoor geldt: transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies

FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} CDBM B, C, D, M B,C B,C,D B,DB,MC,DC,MD,M B,C,MB,D,MC,D,M Minsup = 0,3  support count ≥ 2 NCNC IINCCM II IM I

FP Mining transactions 1MilkDiapers 2BreadCookiesMilk 3 DiapersCookies 4MilkDiapersCookies 5BreadCookies Items = {Bread, Cookies, Diapers, Milk} OK: {Milk}  {Cookies} σ(a)=σ(b) Not OK: {Bread}  {Milk, Cookies}

Clustering nCluster de waarden d.m.v. het k-means algoritme nInitialiseer met random cluster-centra (0,6) en (7,2) nBeschrijf de stappen totdat k-means convergeert objectX1x

kMeans nCluster using C1=(0,6), C2=(7,2) nCluster 1: {1,3} nCluster 2: {2,4} nE.g. point 2: nd(2,c1)=sqrt( )=sqrt(53) nd(2,c2)=sqrt(0+6 2 )=sqrt(36) -> c2 nRecompute cluster-centra nC1’: ((0+4)/2,(0+8)/2)=(2,4) nC2’: ((3+7)/2,(0+8)/2)= (5,4) c1 c objectX1x

nCluster using c1’ (2,4) and c2’ (5,4) nC1’={1,4} nC2’={2,3} nE.g., point 4: nd(4,c1’)=sqrt( )=sqrt(17) -> c1’ nd(4,c2’)=sqrt( )=sqrt(20) c1’ c2’ objectX1x nRecompute cluster-centra nC1’: ((0+3)/2,(0+0)/2)=(1.5,0) nC2’: ((4+7)/2,(8+8)/2)= (5.5,8) nClusters don’t change anymore nConverged, stop kMeans