Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdPepijn Jacobs Laatst gewijzigd meer dan 9 jaar geleden
1
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren1 Machinaal leren
2
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren2 Opdracht 1 Deadline: Vandaag, om 12u!
3
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren3 Waar zijn we nu? machinaal leren gesuperviseerd leren
4
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren4 Gesuperviseerd leren: classificatie classificatie- principes Hoe goed hebben we geleerd?
5
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren5 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Begin met een model. Herhaal. Gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn, of het model inconsistent is.
6
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren6 Bierdrinkerprobleem De bierdrinker proeft verschillende soorten pils geeft aan of het hem smaakt Doel: geef een raad welk pilsje hem zal smaken (classificatieprincipe) gegeven nieuwe pilssoorten voorspel of ze gaan smaken
7
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren7 Belgische pilssoorten Naam%KleurSmaakBliksmaakt? 5%BlondBitterja- 5,2%BlondLichtbitterja+ 4,9%GoudgeelLichtbitterja- 5%GoudgeelBitternee- 5,5%BlondLichtbitterja+ 5,1%BlondLichtbitternee-
8
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren8 Het model dekt alle positieve voorbeelden en geen enkel negatief voorbeeld. Alle mogelijke situaties + - - - - +
9
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren9 Het model dekt alle positieve voorbeelden en geen enkel negatief voorbeeld. + + + + - - - - Alle mogelijke situaties
10
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren10 Meerdere modellen? + + + + - - - - Alle mogelijke situaties
11
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren11 + + + + - - - - Allen de positieve voorbeelden zijn goed Alles behalve de negatieve voorbeelden is goed Zijn dat goede modellen? A.Ja B.Nee
12
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren12 Wat verwachten we van een model? + - - - - + dekt de positieve voorbeelden dekt de negatieve voorbeelden niet + + + + - - - - kan positief/negatief goed voorspellen door een hypothese op te stellen
13
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren13 Hypotheseruimte Vaste taal om modellen om te schrijven –Model is een hypothese in de ruimte –Forceert veralgemening –Vermijdt “nutteloze” modellen Hypotheses kunnen mekaar veralgemenen of verfijnen
14
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren14 Hypotheseruimte Voor ieder attribuut: Hypothese – verzameling voorbeelden: –Blonde 5% soorten [>, 5%, Blond, >, >] –Stella [Stella Artois, 5%, Blond, Bitter, ja] –Speciale hypothese: ? ? > waarde 1waarde n …
15
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren15 Minimale veralgemening [z 1, …, z n ] is een minimale veralgemening van [x 1,…, x n ] en [y 1,…, y n ] –voor ieder paar (x i, y i ) vind z i zodanig dat z i x i, z i y i en voor ieder z (z x i, z y i ) (z z i ) Vanaf hier spreken we van veralgemening ipv minimale veralgemening
16
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren16 Hoeveel > zijn er in de veralgemening van [4,9%, Goudgeel, Lichtbitter] en [5%, Goudgeel, Bitter] ? ? > waarde 1waarde n … Gegeven hypotheseruimte voor ieder attribuut: A.geen B.één C.twee D.drie
17
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren17 “Find S” algoritme Begin met een model. Herhaal. gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn of het model inconsistent is. Begin met ? Herhaal alleen voor positieve vb: veralgemeen het model om het nieuwe vb te dekken Stop als er geen voorbeelden meer zijn Kan niet voorvallen.
18
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren18 Begin met ? Herhaal alleen voor positieve vb veralgemeen het model Stop als er geen voorbeelden meer zijn ? [Jupiler, 5,2%, Blond, Lichtbitter, ja] 5,2%BlondLichtbitterja+ 5,5%BlondLichtbitterja+ [>, >,Blond, Lichtbitter, ja]
19
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren19 Andere hypotheseruimte Positieve en negatieve voorbeelden Wat leert “Find S”? A.informaticus B.student ? > JanMarijke Geert informaticus student wiskundige
20
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren20 Problemen met “Find S” Kan inconsistente situaties missen Kan niet uitdrukbare situaties missen Kan zich niet deterministisch gedragen Kan verkeerde hypothese kiezen tov de negatieve voorbeelden ? Jan MarijkeGeert student
21
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren21 Een betere oplossing… Positieve en negatieve voorbeelden Model: ({a 1, …, a n }, {s 1, …, s m }) –deel van de hypotheseruimte –algemene hypothesen {a 1, …, a n } –specifieke hypothesen {s 1, …, s m } –dekken alle hypothesen die meer specifiek ( ) zijn dan een zekere a i meer algemeen ( ) zijn dan een zekere s j
22
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren22 Hoeveel hypothesen telt het model (>, {Marijke, Geert})? A.5 B.6 ? > JanMarijke Geert informaticus student wiskundige
23
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren23 Versieruimtes algoritme 1 Begin met een model. Herhaal. gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn of het model inconsistent is. Begin met (>,?) Herhaal met (A,S) positieve vb: veralgemeen alle S om het nieuwe vb te dekken negatieve vb: verfijn alle A om het nieuwe vb uit te sluiten Stop als er geen voorbeelden meer zijn of het model inconsistent is.
24
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren24 ? [>, >, >, >, >]
25
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren25 5,2%BlondLichtbitterja+ ? [>, >, >, >, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja]
26
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren26 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >]…[>, >, >, >, nee] [Jupiler, 5,2%, Blond, Lichtbitter, ja]
27
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren27 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >] … [>, >, >, >, nee] 5 biersoorten + 4 alcoholgehaltes + kleur + smaak + geen blik = 12 mogelijkheden [Jupiler, 5,2%, Blond, Lichtbitter, ja]
28
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren28 Maar… [Jupiler, >, >, >, >][>, 5,1%, >, >, >] [Maes, >, >, >, >][>, 5,2%, >, >, >] [Bavik, >, >, >, >][>, 5,5%, >, >, >] [OpsAle, >, >, >, >][>, >, Goudgeel, >, >] [Romy, >, >, >, >][>, >, >, Lichtbitter, >] [>, 4,9%, >, >, >][>, >, >, >, nee] S tot nu toe: {[Jupiler, 5,2%, Blond, Lichtbitter, ja]}
29
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren29 Maar… [Jupiler, >, >, >, >][>, 5,1%, >, >, >] [Maes, >, >, >, >][>, 5,2%, >, >, >] [Bavik, >, >, >, >][>, 5,5%, >, >, >] [OpsAle, >, >, >, >][>, >, Goudgeel, >, >] [Romy, >, >, >, >][>, >, >, Lichtbitter, >] [>, 4,9%, >, >, >][>, >, >, >, nee] S tot nu toe: {[Jupiler, 5,2%, Blond, Lichtbitter, ja]}
30
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren30 Versieruimtes algoritme 2 Begin met (>,?) Herhaal met (A,S) positieve vb: veralgemeen alle S negatieve vb: verfijn alle A Stop als er geen voorbeelden meer zijn of het model inconsistent is. Verfijn alle A z.d. iedere nieuwe algemene hypothese is een veralgemening van een specifieke hypothese. Zoals voor de negatieve vb.
31
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren31 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >] [>, 5,2%, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja]
32
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren32 5,5%BlondLichtbitterja+ ? [>, >, >, >, >] [Jupiler, >, >, >, >] [>, 5,2%, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja]
33
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren33 5,5%BlondLichtbitterja+ ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja]
34
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren34 4,9%GoudgeelLichtbitterja- ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] A.[>, >, Blond, Lichtbitter, >] B.[>, >, Blond, >, ja] C.[>, >, >, Lichtbitter, ja] ?
35
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren35 5,1%BlondLichtbitternee- ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, Blond, Lichtbitter, ja] Hetzelfde hypothese! Blonde lichtbittere pilssoorten in blik!
36
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren36 Versieruimtes Houdt rekening met pos en neg voorbeelden Behandelt pos en neg op hetzelfde manier Kan waarde voorspellen zelfs als het concept niet volledig geleerd is Kan “het meest interessante voorbeeld” kiezen Kan niet tegen ruis Eist veel verschillende eigenschappen Past niet als er meerdere klassen zijn
37
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren37 Waarde voorspellen als het concept niet volledig geleerd is ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] 5%Goudgeel Bitternee Wij weten al dat Bavik niet gaat smaken!
38
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren38 “Het meest interessante voorbeeld” kiezen ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, >, Lichtbitter, ja] Voorbeeld = scheiding van hypotheses Interessante voorbeeld: ~50% vd hypotheses: “positief”, ~50% vd hypotheses: “negatief”
39
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren39 ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, >, Lichtbitter, ja] Welke voorbeeld is beter: of?
40
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren40 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Wat is dat? Hoe bouw je zo’n boom?
41
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren41 Beslisbomen voor classificatie Boom –knopen: eigenschappen –kanten: waarden –bladeren: klassen kleur bitterheid -- blond goudgeel amber - bitterlichtbitter verpakking blik fles -+
42
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren42 ID3(Voorbeelden, Eigenschappen, Klassen) 1.Voorbeelden = - Boom met één knop “Fail” 2. k Klassen v Voorbeelden klasse(v)=k - Boom met één knop k 3. Eigenschappen = - Boom met één knop k, z.d. k het meest voorkomende klasse is in Voorbeelden 4. Anders, kies e Eigenschappen - Waarden van e: w 1, …, w n. - Splits Voorbeelden in V 1, …, V n z.d. v V i klasse(v) = w i - Boom met wortel: e kanten: w 1, …, w n. subbomen: ID3(V 1, Eigenschappen\{e}, Klassen),…, ID3(V n,Eigenschappen\{e}, Klassen)
43
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren43 Wat is de maximale diepte van een beslisboom gebouwd door ID3(Voorbeelden, Eigenschappen, Klassen)?
44
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren44 Kiezen van een eigenschap Doel: zo ondiep mogelijke beslisboom Keuze van e: –afhankelijk van Voorbeelden –moet ons zo veel mogelijk informatie opleveren het is niet hetzelfde informatie als in {gegevens, informatie, kennis}
45
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren45 Informatietheorie in een notendop (1) Zelfinformatie van een gebeurtenis Entropie = verwachting van de zelfinformatie Entropie van een verzameling = entropie tov kans dat een voorbeeld bij een klasse hoort Claude E. Shannon 1916-2001
46
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren46 Informatietheorie in een notendop (2) Entropie van een verzameling, dus Bereken H(Voorbeelden) –10 voorbeelden –2 klassen (5 en 5)
47
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren47 Informatietheorie in een notendop Informatiewinst op eigenschap e die Voorbeelden in V 1, …, V n opsplitst LtijdAlt?SW/HWKlasseLtijdAlt?SW/HWKlasse oudjasoftwareverliesmidneesoftwarewinst oudneesoftwareverliesmidneehardwarewinst oudneehardwareverliesnieuwjasoftwarewinst midjasoftwareverliesnieuwneesoftwarewinst midjahardwareverliesnieuwneehardwarewinst Welke eigenschap geeft meer winst? A. Leeftijd B. SW/HW
48
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren48 Dus Kies e z.d. Gain(Voorbeelden,e) het grootst is. leeftijd alt? verlies oud winst nieuwe mid verlies ja winst nee
49
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren49 Huiswerk 15 ID3 kan verbeterd worden –Verbeterde versies heten C4.5 en C5.0 Bespreek de optimalisaties van C4.5 en/of C5.0. Geef een voorbeeld die de voordelen van C4.5/C5.0 tov ID3 aantoont. In te leveren ten laatste op 5 juni 2007
50
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren50 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Lineaire modellen met kleinste kwadraten. k dichtstbijzijnde buren
51
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren51 Lineaire modellen Classificatieprincipe (model): –lineaire combinatie van de invoer Gegeven een voorbeeld voorspel Coëfficiënten? –Kleinste kwadraten
52
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren52 Kleinste kwadraten Idee: minimaliseer –waar een klasse is van een oefenvoorbeeld –NB: Euclidische afstand Maar hoe? –waar Z een N*(p+1) matrix is N – het aantal oefenvoorbeelden p – het aantal eigenschappen van een voorbeeld –vergeet de vrije coëfficiënt niet! –y – een klasse van een oefenvoorbeeld
53
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren53
54
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren54 Onder welke voorwaarden kunnen we berekenen?
55
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren55 Classificatie en lineaire modellen Schrijf op Z en y –Positieve voorbeelden: y i = 1 –Negatieve voorbeelden: y i = 0 –vergeet de vrije coëfficiënten niet! Bereken Controleer op de nieuwe voorbeelden –x is positief als x 0.5 –x is negatief als x < 0.5
56
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren56 Voorbeelden –positief: (1,3) (3,2) –negatief: (2,1) (3,1) Schrijf op Z en y
57
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren57
58
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren58 Hoe worden de volgende voorbeelden geclassificeerd? A.(1,1) positief, (4,2) negatief B.(1,1) negatief, (4,2) positief C.Beide voorbeelden – negatief D.Beide voorbeelden – positief
59
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren59 Stelling: “Alle oefenvoorbeelden worden correct geclassificeerd” A.Ik ben er mee eens. B.Ik ben er niet mee eens.
60
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren60 Huiswerk 16 Een andere lineaire model aanpak is LDA = Linear Discriminant Analysis Wat is LDA? Hoe wordt die berekend? Voorbelden van succesvolle toepassingen In te leveren ten laatste op 5 juni 2007
61
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren61 Dichtstbijzijnde buren Kijk naar de klassen van k dichtstbijzijnde buren –Euclidische afstand De meerderheid beslist –1:1 wordt willekeurig beslist Succesvol voor –handschriftherkenning (cijfers) –satellietbeelden
62
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren62 Voorbeelden –positief: (1,3) (3,2) –negatief: (2,1) (3,1) Hoe worden de volgende voorbeelden geclassificeerd voor k = 3? A.(1,1) positief, (4,2) negatief B.(1,1) negatief, (4,2) positief C.Beide voorbeelden – negatief D.Beide voorbeelden – positief
63
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren63 k(1,1)(4,2) 1negatiefpositief 3negatief lineair model
64
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren64 Stelling: “Alle oefenvoorbeelden van een willekeurig dataset worden correct geclassificeerd” A.Waar voor alle k. B.Waar voor geen enkele k. C.Waar voor sommige k en niet voor andere.
65
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren65 Problemen Alle voorbeelden moeten in de geheugen zijn –voor grotere voorbeelden: k > 1 – onmogelijk! Aanname: alle richtingen (eigenschappen) zijn –even belangrijk –voor alle voorbeelden –Betere oplossing zie Hastie, Tibshirani 1996.Hastie, Tibshirani 1996
66
IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren66 Wat hebben we vandaag gedaan? Classificatie als een vb van gesuperviseerd leren 4 aanpakken: –versieruimtes –beslisbomen –lineaire modellen (met kl. kwadraten) –k dichtstbijzijnde buren
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.