IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 2 Dus… informele transparanten + simplistische uitleg –Vandaag: formules! te grote opdrachten –Kleinere opdrachten 2 en 3 ipv grote opdracht 2 duidelijkere beschrijving –hopelijk ;-) “Vlugge vragen” –Studenten aanwijzen

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 3 Opdracht 1 Ter herinnering: 22 mei 2007 –een week van vandaag! De bedoeling: –de redeneerder(s) kunnen met jullie stellingen omgaan! Hebben jullie vragen?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 4 Het verwerven van kennis

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 5 Kennissysteem Softwaresysteem, die kennis verwerft, op een expliciete manier voorstelt, over deze kennis redeneert en gebruikt om een opdracht uit te voeren.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 6 Waar zijn we beland? machinaal leren niet gesuperviseerd leren scheidend clustering

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 7 Huiswerk 14 Een belangrijk probleem is het clusteren van XML documenten. Welke technieken zou je ervoor gebruiken? Aanbevolen: –“Clustering XML documents by structure” van Theodore Dalamagas, Tao Cheng, Klaas-Jan Winkel, and Timos Sellis In te leveren ten laatste op 29 mei 2007

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 8 Onelijkheidsmaat: objecten (1) “Gelijke objecten moeten samen zijn” In welke mate zijn twee objecten gelijk? Soms: expliciet aangegeven: 7.336.253.923.42 3.836.927.08 6.677.00 2.17 Gelijkenisgraad: Bepaald door studenten van politieke wetenschappen 1 – gelijk, 10 – verschillend symmetrisch

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 9 Maar soms is de ongelijkheidsmaat niet expliciet… ElementMassaSmelt. Kook Aantal iso- topenOntdekkerJaar Zink65.374209075Marggraf1746 Aluminium26.982 660.3225198Wöhler1827 Argon39.948-189-185,73Ramsey1895 Helium4-272,2-268,92Ramsey1895

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 10 Als de ongelijkheidsmaat niet expliciet is Moeten we ons op de eigenschappen van de objecten baseren: –welke eigenschappen van deze twee objecten zijn voor ons van belang? –in welke mate zijn de eigenschappen gelijk? –hoe combineer je de (on)gelijkenissen van de eigenschappen tot een maat?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 11 Voorbeeld: eigenschappen Eleme ntMassa Smelt. °K Kook °K Aantal isotopenOntdekkerJaar Zink65.374209075Marggraf1746 Alumini um 26.982 660.3225198Wöhler1827 Argon39.948-189-185,73Ramsey1895 Helium4-272,2-268,92Ramsey1895

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 12 Ongelijkheidsmaten: getallen Absolute afstand –d(x,y) = |x – y| Euclidische afstand –d(x,y) = (x – y) 2 we schrijven ook ||x - y|| Correlatie –zie les Statistiek Aantal isotopen Smeltpunten

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 13 Ongelijkheidsmaat: namen Fout –d(x,x) = 0 –d(x,y) > 0 vaak: d(x,y) = 1 zodra x  y Ontdekkers

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 14 Ongelijkenismaat: objecten (2) Objecten x en y –waarden van de gekozen eigenschappen: x 1, …, x n en y 1, …, y n :

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 15 Element Smelt. °K Aantal isotopenOntdekker Zink4205Marggraf Aluminium 660.328Wöhler Argon-1893Ramsey Helium-272,22Ramsey ongelijkheidsmaat |x – y| (x – y) 2 0, als x = y 1, anders Voor welke elementen x, y is D(x,y) het kleinst?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 16 Als dan hebben alle eigenschappen even veel invloed op D A.Ik ben met de stelling eens. B.Ik ben met de stelling niet eens.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 17 Scheidend clustering met minimaal opspannende boom 1) Voorbeelden vormen een kliek met ongelijkheidsmaten als gewichten van kanten 2) Bereken de minimaal opspannende boom 3) Verwijder k-1 langste kanten Hier k = 2 4) Stukjes zijn clusters

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 18 A.A en B B.D en E A B C D E 1 3 4 1 54 5 5 5 Als we minimaal opspannende boom gebruiken voor 2 clusters… wie zit dan in dezelfde cluster? 5

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 19 Ter herinnering: Maximale snede Gegeven een graaf G = (V,E), een paar (V1,V2) is een maximale snede als –V1  V2 = V en –de som van de gewichten verbonden aan de kanten tussen V1 en V2 zo groot mogelijk is Vinden van een maximale snede is NP- volledig!

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 20 A B C D E 1 3 4 1 54 5 5 5 A.25 B.26 C.27 D.geen enkele antwoord is juist Wat is het grootste gewicht van de kanten tussen de twee delen van een snede? 5

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 21 Max-Cut 1) Voorbeelden vormen een kliek met ongelijkenismaten als gewichten van kanten 2) Bereken de maximale snede 3) Verwijder de kanten van de snede 4) Als het aantaal delen kleiner is dan k, kies een deel en ga naar stap 2). Anders, stop.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 22 wie zit dan in dezelfde cluster? A B C D E 3 3 4 1 54 5 5 5 A.A en B B.D en E Als we maximale snede gebruiken voor k = 2… 5

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 23 Maximale snede Splitsend clustering: –1 cluster  2 clusters  3 clusters… –We kunnen een dendrograam van maken: C1 C2C3 C4 C5

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 24 Hiërarchisch clustering Kan ook top-down! –ook verdelend clustering genoemd Kan bereikt worden door –In 2 clusters verdelen (hoe dan ook) –een van de clusters kiezen –en herhalen…

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 25 Scheidend clustering grafenteoretisch –minimale opspannende boom –maximale snede statistisch –k gemiddelde, –k centroïden, –vage k gemiddelde –hoe bepaal je het aantal clusters? Wij zijn hier

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 26 K gemiddeld Voorbeeld 1) Kies randomaal K clustercentra 2) Bepaal voor ieder voorbeeld het dichtstbijzijnde clustercentrum

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 27 K gemiddeld 3) Herbereken de clustercentra als massamiddelpunten van de bijbehorende voorbeelden 4) Herhaal tot de clustercentra niet meer veranderen

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 28 Welke van de volgende stellingen zijn juist? A.Eindclusters zijn onafhankelijk van de oorspronkelijke keuze van de clustercentra B.Clusters voor een grotere k verfijnen clusters voor een kleinere k C.Nog A nog B is juist

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 29 Toepassing: beeld- en signaalcompressie Sir Ronald A. Fisher (1890-1962) N*N pixels, iedere pixel m-bit grijswaarde, N=1024, m = 8 Splits het beeld op in blokjes 2*2 pixels Ieder blokje is een vector in R 4 Gebruik K-gemiddelde clustering. Vervang ieder blokje bij “zijn” clustercentrum K = 200 K = 4

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 30 Compressie? Oorspronkelijk: N 2 * m Voor ieder blokje – zijn clustercentrum –N 2 /4 blokjes –per clustercentrum: log 2 (K) bits (kan beter…) –dus, N 2 /4 * log 2 (K) Compressie is dus: log 2 (K)/(4m) Gecomprimeerd beeld: –23,9% (K = 200, m = 8) –6,3% (K = 4, m = 8)

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 31 Wanneer 1.minimale opspannende boom of maximale snede wel kunnen gebruikt worden 2.terwijl k gemiddeld niet?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 32 Antwoord K gemiddeld is niet van toepassing… –op niet numerieke eigenschappen –als de ongelijkheid met de “nieuwe” punten niet te bepalen is bijv. als die expliciet aangegeven is in een tabel –als de ongelijkheidsmaat asymmetrisch is

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 33 Wij willen… Kwaliteit van K gemiddeld maar ook toepasbaar voor –niet numerieke eigenschappen –expliciete ongelijkheidsmaten en minder gevoelig voor de “abnormale” voorbeelden: Centrum ligt buiten het echte cluster

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 34 Oplossing: k centroïden (1) Centroïde (ook wel medoïde genoemd) van een cluster K = voorbeeld x zodanig dat som van de afstanden van andere voorbeelden van K tot x is minimaal

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 35 Gegeven een cluster van België, Frankrijk en Israël, de centroïde is A.België B.Frankrijk C.Israël 7.336.253.923.42 0.00 3.83 6.92 3.836.927.08 0.006.677.00 0.006.672.17

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 36 k centroïden (2) 1)Bepaal willekeurig de initiële plaatsing van de centroïden. 2)Verdeel voorbeelden bij de dichtstbijzijnde centroïden. 3)Herbereken de centroïden 4)Herhaal 2) en 3) tot de verdeling niet meer veranderd.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 37 Beginnende met België en Frankrijk als centroïden, welke clusters produceert het algoritme? In hoeveel stappen? 7.336.253.923.42 0.00 3.83 6.92 3.836.927.08 0.006.677.00 0.006.672.17

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 38 k centroïden, k = 2 2 stappen

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 39 Wat gebeurt er als een voorbeeld bij meerdere clusters kan horen? Vaagheid: in welke mate maakt het voorbeeld deel van een cluster? –Ter herinnering: vage predicaat is een functie van een meeting naar een graad [0,1] van het predicaat –Hier: “is element van” is vaag! Vage K (of vage c) gemiddelde!

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 40 K gemiddelde vs. Vage K gemiddelde (1) K gemiddelde minimaliseert Euclidische afstand Vage K gemiddelde minimaliseert

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 41 K gemiddelde vs. Vage K gemiddelde (2) K gemiddelde past aan: Vage K gemiddelde past aan: K gemiddelde stopt: als de centra niet meer veranderen Vage K gemiddelde stopt als de “bijna” niet meer veranderd (tot  ) en

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 42 1.Kies en op een willekeurige manier. 2.Herhaal: en 3. Stop als

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 43 Vage K gemiddelde in actie m  Clustercentra en de u-waardes worden eerst willekeurig gekozen voorbeelden En het resultaat is:

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 44 Parameters voor vage k gemiddelde: vaagheid (m), nauwkeurigheid (  ) Initiële lidmaatschapsfunctie Voor welke waarden van deze parameters wordt “vage k gemiddelde” gewone “k gemiddelde”?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 45 Wat gebeurt als de voorbeelden on-line komen? Geen enkele techniek werkt! Zelforganiserend netwerk –K gemiddelde –maar voorbeeld per voorbeeld de clustercentra worden in een rooster georganiseerd ook goed als de voorbeelden te veel eigenschappen hebben

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 46 Het idee Kies clustercentra. Klasseer voorbeeld X bij het dichtstbijzijnde clustercentrum Voor alle clustercentra z.d. pas aan

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 47 Parameters Grenswaarde Leertempo Beide parameters dalen naar mate het leerproces vordert.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 48 Welke clusteringtechniek zal je gebruiken? Waarom? A.minimaal opspannende boom B.maximale snede C.k gemiddelde D.k centroïden E.vage k gemiddelde F.zelforganiserende netwerken Kariboe, Noord- am. rendier. Leven in kuddes. Verplaatsen zich veel tussen kuddes. Vind subpopulaties in een radiogemarkeerde kudde.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 49 Tot nu toe Alle technieken konden k clusters vinden. Maar hoe bepaal je het aantal clusters? –Soms is het gegeven: verzekeringsmaatschappij met k makelaars ieder makelaar moet zo mogelijk uniforme klanten hebben –Anders: zoveel dat de clusters goed zijn.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 50 Wanneer is een clusterverdeling goed? Verschilmaat voor een clusterverdeling: Voor k gemiddelde geeft het

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 51 Bepalen van k Bereken clusters voor 1, …, K max. Scenario –Aanname: in de werkelijkheid zijn er K* clusters –Als k < K* (en de clustering met de werkelijkheid overeenkomt) dan W(k) – W(k+1) “vrij groot” –Als k > K* dan is W(k) – W(k+1) “nogal klein” –Dus, kijk naar de helling van de grafiek W(k)

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 52 In de praktijk… J. Debenham, G. Clarke en J. Stillwell 2002

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 53 Problemen Komen de gevonden clusters overeen met de echte? Wat betekent “vrij groot”? W(k) – W(k+1) is niet genormaliseerd –vergelijking met andere datasets is onmogelijk!

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 54 Kunnen we beter doen? Vergelijk met een “referentie data set” –uniforme verdeling binnen de min-max grenzen VoorbeeldenVoorbeelden met grenzen aangeduid Monte Carlo simulatie

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 55 Hoe gaan we vergelijken? Bereken W(k) voor k = 1, …, K Kies B referentie data sets (b = 1, …, B) Cluster ieder van de data sets tov iedere k- waarde. Bereken W(k,b). Bereken de “standaardafwijking” s k (verborgen) Kies de kleinste k z.d.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 56 Wat betekent het in de praktijk? log(W(k,b)) log(W(k)) standaard afwijkingen

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 57 Berekenen van standaardafwijking (zelfstudie)

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 58 Wat hebben we besproken? Scheidend clustering –grafenteoretisch min. opspannende boom maximale snede –statistisch k gemiddelde k centroïden vage k gemiddelde – hoe bepaal je het aantal clusters?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 59 Vragen voor de toekomst? Hoe kan ik een aantal dimensies (eigenschappen) verkleinen? –kies de interessante –als je het a priori niet weet? Bewerk het dataset voor de clustering –normaliseer? (gemiddelde = 0, st.afwijking =1) –logaritme?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 60 Opdracht 2 Doel: relevante groepen objecten te vinden. Middelen: –datasets: staan on-line (kies één) –software: implementeer zelf In te leveren tot 5 juni: –software –verslag

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 61 Opdracht 2: Software Invoer: een willekeurige tab-separated bestand –Het eerste colom: namen, –alle andere – eigenschappen (reële getallen). Omgeving: –mijn laptop –zorg, indien nodig, voor de installatiegids Ik ben wel bereid om een kwartiertje te wachten op een clusteringprogramma maar zeker geen uur!

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 62 Opdracht 2: Verslag Welke dataset hebben jullie gekozen? Voor welke clusteringtechniek(en) hebben jullie gekozen? Waarom? Welke ongelijkheidsmaat hebben jullie gebruikt? NB: ongelijkheidsmaat moet gebaseerd worden op ten minste twee eigenschappen per voorbeeld Hoe wordt het aantal clusters bepaald? Hoe hebben jullie de bovengrens gekozen voor het aantal clusters (K)?

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 63 Opdracht 2: Verslag Wat zijn de resultaten van de clustering? Welke objecten horen samen? Kunnen jullie de clusters omschrijven in termen van de eigenschappen? Wat is de verschilmaat van de clusterverdeling (W)? Kunnen jullie in deze clusters bepaalde bekende groepen herkennen? Bespreek het ontwerp en de implementatie.

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen.

Verwante presentaties

Presentatie over: "IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen.

Verwante presentaties

Presentatie over: "IntroGrafentheorieK gemiddelde en variantenHoe bepaal je k? 1 Onderwijsenquête Resultaten en gevolgen."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback