De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren1 Machinaal leren.

Verwante presentaties


Presentatie over: "IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren1 Machinaal leren."— Transcript van de presentatie:

1 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren1 Machinaal leren

2 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren2 Opdracht 1 Deadline: Vandaag, om 12u!

3 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren3 Waar zijn we nu? machinaal leren gesuperviseerd leren

4 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren4 Gesuperviseerd leren: classificatie classificatie- principes Hoe goed hebben we geleerd?

5 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren5 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Begin met een model. Herhaal. Gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn, of het model inconsistent is.

6 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren6 Bierdrinkerprobleem De bierdrinker proeft verschillende soorten pils geeft aan of het hem smaakt Doel: geef een raad welk pilsje hem zal smaken (classificatieprincipe) gegeven nieuwe pilssoorten voorspel of ze gaan smaken

7 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren7 Belgische pilssoorten Naam%KleurSmaakBliksmaakt? 5%BlondBitterja- 5,2%BlondLichtbitterja+ 4,9%GoudgeelLichtbitterja- 5%GoudgeelBitternee- 5,5%BlondLichtbitterja+ 5,1%BlondLichtbitternee-

8 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren8 Het model dekt alle positieve voorbeelden en geen enkel negatief voorbeeld. Alle mogelijke situaties + - - - - +

9 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren9 Het model dekt alle positieve voorbeelden en geen enkel negatief voorbeeld. + + + + - - - - Alle mogelijke situaties

10 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren10 Meerdere modellen? + + + + - - - - Alle mogelijke situaties

11 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren11 + + + + - - - - Allen de positieve voorbeelden zijn goed Alles behalve de negatieve voorbeelden is goed Zijn dat goede modellen? A.Ja B.Nee

12 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren12 Wat verwachten we van een model? + - - - - + dekt de positieve voorbeelden dekt de negatieve voorbeelden niet + + + + - - - - kan positief/negatief goed voorspellen door een hypothese op te stellen

13 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren13 Hypotheseruimte Vaste taal om modellen om te schrijven –Model is een hypothese in de ruimte –Forceert veralgemening –Vermijdt “nutteloze” modellen Hypotheses kunnen mekaar veralgemenen of verfijnen

14 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren14 Hypotheseruimte Voor ieder attribuut: Hypothese – verzameling voorbeelden: –Blonde 5% soorten [>, 5%, Blond, >, >] –Stella [Stella Artois, 5%, Blond, Bitter, ja] –Speciale hypothese: ? ? > waarde 1waarde n …

15 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren15 Minimale veralgemening [z 1, …, z n ] is een minimale veralgemening van [x 1,…, x n ] en [y 1,…, y n ] –voor ieder paar (x i, y i ) vind z i zodanig dat z i  x i, z i  y i en voor ieder z (z  x i, z  y i )  (z  z i ) Vanaf hier spreken we van veralgemening ipv minimale veralgemening

16 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren16 Hoeveel > zijn er in de veralgemening van [4,9%, Goudgeel, Lichtbitter] en [5%, Goudgeel, Bitter] ? ? > waarde 1waarde n … Gegeven hypotheseruimte voor ieder attribuut: A.geen B.één C.twee D.drie

17 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren17 “Find S” algoritme Begin met een model. Herhaal. gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn of het model inconsistent is. Begin met ? Herhaal alleen voor positieve vb: veralgemeen het model om het nieuwe vb te dekken Stop als er geen voorbeelden meer zijn Kan niet voorvallen.

18 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren18 Begin met ? Herhaal alleen voor positieve vb veralgemeen het model Stop als er geen voorbeelden meer zijn ? [Jupiler, 5,2%, Blond, Lichtbitter, ja] 5,2%BlondLichtbitterja+ 5,5%BlondLichtbitterja+ [>, >,Blond, Lichtbitter, ja]

19 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren19 Andere hypotheseruimte Positieve en negatieve voorbeelden Wat leert “Find S”? A.informaticus B.student ? > JanMarijke Geert informaticus student wiskundige

20 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren20 Problemen met “Find S” Kan inconsistente situaties missen Kan niet uitdrukbare situaties missen Kan zich niet deterministisch gedragen Kan verkeerde hypothese kiezen tov de negatieve voorbeelden ? Jan MarijkeGeert student

21 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren21 Een betere oplossing… Positieve en negatieve voorbeelden Model: ({a 1, …, a n }, {s 1, …, s m }) –deel van de hypotheseruimte –algemene hypothesen {a 1, …, a n } –specifieke hypothesen {s 1, …, s m } –dekken alle hypothesen die meer specifiek (  ) zijn dan een zekere a i meer algemeen (  ) zijn dan een zekere s j

22 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren22 Hoeveel hypothesen telt het model (>, {Marijke, Geert})? A.5 B.6 ? > JanMarijke Geert informaticus student wiskundige

23 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren23 Versieruimtes algoritme 1 Begin met een model. Herhaal. gegeven een voorbeeld pas het model aan. Stop als er geen voorbeelden meer zijn of het model inconsistent is. Begin met (>,?) Herhaal met (A,S) positieve vb: veralgemeen alle S om het nieuwe vb te dekken negatieve vb: verfijn alle A om het nieuwe vb uit te sluiten Stop als er geen voorbeelden meer zijn of het model inconsistent is.

24 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren24 ? [>, >, >, >, >]

25 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren25 5,2%BlondLichtbitterja+ ? [>, >, >, >, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja]

26 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren26 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >]…[>, >, >, >, nee] [Jupiler, 5,2%, Blond, Lichtbitter, ja]

27 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren27 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >] … [>, >, >, >, nee] 5 biersoorten + 4 alcoholgehaltes + kleur + smaak + geen blik = 12 mogelijkheden [Jupiler, 5,2%, Blond, Lichtbitter, ja]

28 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren28 Maar… [Jupiler, >, >, >, >][>, 5,1%, >, >, >] [Maes, >, >, >, >][>, 5,2%, >, >, >] [Bavik, >, >, >, >][>, 5,5%, >, >, >] [OpsAle, >, >, >, >][>, >, Goudgeel, >, >] [Romy, >, >, >, >][>, >, >, Lichtbitter, >] [>, 4,9%, >, >, >][>, >, >, >, nee] S tot nu toe: {[Jupiler, 5,2%, Blond, Lichtbitter, ja]}

29 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren29 Maar… [Jupiler, >, >, >, >][>, 5,1%, >, >, >] [Maes, >, >, >, >][>, 5,2%, >, >, >] [Bavik, >, >, >, >][>, 5,5%, >, >, >] [OpsAle, >, >, >, >][>, >, Goudgeel, >, >] [Romy, >, >, >, >][>, >, >, Lichtbitter, >] [>, 4,9%, >, >, >][>, >, >, >, nee] S tot nu toe: {[Jupiler, 5,2%, Blond, Lichtbitter, ja]}

30 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren30 Versieruimtes algoritme 2 Begin met (>,?) Herhaal met (A,S) positieve vb: veralgemeen alle S negatieve vb: verfijn alle A Stop als er geen voorbeelden meer zijn of het model inconsistent is. Verfijn alle A z.d. iedere nieuwe algemene hypothese is een veralgemening van een specifieke hypothese. Zoals voor de negatieve vb.

31 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren31 5%BlondBitterja- ? [>, >, >, >, >] [Jupiler, >, >, >, >] [>, 5,2%, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja]

32 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren32 5,5%BlondLichtbitterja+ ? [>, >, >, >, >] [Jupiler, >, >, >, >] [>, 5,2%, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja]

33 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren33 5,5%BlondLichtbitterja+ ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja]

34 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren34 4,9%GoudgeelLichtbitterja- ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] A.[>, >, Blond, Lichtbitter, >] B.[>, >, Blond, >, ja] C.[>, >, >, Lichtbitter, ja] ?

35 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren35 5,1%BlondLichtbitternee- ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, Blond, Lichtbitter, ja] Hetzelfde hypothese! Blonde lichtbittere pilssoorten in blik!

36 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren36 Versieruimtes  Houdt rekening met pos en neg voorbeelden  Behandelt pos en neg op hetzelfde manier  Kan waarde voorspellen zelfs als het concept niet volledig geleerd is  Kan “het meest interessante voorbeeld” kiezen  Kan niet tegen ruis  Eist veel verschillende eigenschappen  Past niet als er meerdere klassen zijn

37 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren37 Waarde voorspellen als het concept niet volledig geleerd is ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] 5%Goudgeel Bitternee Wij weten al dat Bavik niet gaat smaken!

38 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren38 “Het meest interessante voorbeeld” kiezen ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, >, Lichtbitter, ja] Voorbeeld = scheiding van hypotheses Interessante voorbeeld: ~50% vd hypotheses: “positief”, ~50% vd hypotheses: “negatief”

39 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren39 ? [>, >, >, >, >] [>, >, >, Lichtbitter, >] [Jupiler, 5,2%, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, ja] [>, >, Blond, Lichtbitter, >] [>, >, >, Lichtbitter, ja] Welke voorbeeld is beter: of?

40 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren40 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Wat is dat? Hoe bouw je zo’n boom?

41 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren41 Beslisbomen voor classificatie Boom –knopen: eigenschappen –kanten: waarden –bladeren: klassen kleur bitterheid -- blond goudgeel amber - bitterlichtbitter verpakking blik fles -+

42 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren42 ID3(Voorbeelden, Eigenschappen, Klassen) 1.Voorbeelden =  - Boom met één knop “Fail” 2.  k  Klassen  v  Voorbeelden  klasse(v)=k - Boom met één knop k 3. Eigenschappen =  - Boom met één knop k, z.d. k het meest voorkomende klasse is in Voorbeelden 4. Anders, kies e  Eigenschappen - Waarden van e: w 1, …, w n. - Splits Voorbeelden in V 1, …, V n z.d.  v  V i  klasse(v) = w i - Boom met wortel: e kanten: w 1, …, w n. subbomen: ID3(V 1, Eigenschappen\{e}, Klassen),…, ID3(V n,Eigenschappen\{e}, Klassen)

43 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren43 Wat is de maximale diepte van een beslisboom gebouwd door ID3(Voorbeelden, Eigenschappen, Klassen)?

44 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren44 Kiezen van een eigenschap Doel: zo ondiep mogelijke beslisboom Keuze van e: –afhankelijk van Voorbeelden –moet ons zo veel mogelijk informatie opleveren het is niet hetzelfde informatie als in {gegevens, informatie, kennis}

45 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren45 Informatietheorie in een notendop (1) Zelfinformatie van een gebeurtenis Entropie = verwachting van de zelfinformatie Entropie van een verzameling = entropie tov kans dat een voorbeeld bij een klasse hoort Claude E. Shannon 1916-2001

46 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren46 Informatietheorie in een notendop (2) Entropie van een verzameling, dus Bereken H(Voorbeelden) –10 voorbeelden –2 klassen (5 en 5)

47 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren47 Informatietheorie in een notendop Informatiewinst op eigenschap e die Voorbeelden in V 1, …, V n opsplitst LtijdAlt?SW/HWKlasseLtijdAlt?SW/HWKlasse oudjasoftwareverliesmidneesoftwarewinst oudneesoftwareverliesmidneehardwarewinst oudneehardwareverliesnieuwjasoftwarewinst midjasoftwareverliesnieuwneesoftwarewinst midjahardwareverliesnieuwneehardwarewinst Welke eigenschap geeft meer winst? A. Leeftijd B. SW/HW

48 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren48 Dus Kies e z.d. Gain(Voorbeelden,e) het grootst is. leeftijd alt? verlies oud winst nieuwe mid verlies ja winst nee

49 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren49 Huiswerk 15 ID3 kan verbeterd worden –Verbeterde versies heten C4.5 en C5.0 Bespreek de optimalisaties van C4.5 en/of C5.0. Geef een voorbeeld die de voordelen van C4.5/C5.0 tov ID3 aantoont. In te leveren ten laatste op 5 juni 2007

50 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren50 Classificatie: technieken versieruimtes beslisbomen statistische modellen inductief leren … Lineaire modellen met kleinste kwadraten. k dichtstbijzijnde buren

51 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren51 Lineaire modellen Classificatieprincipe (model): –lineaire combinatie van de invoer Gegeven een voorbeeld voorspel Coëfficiënten? –Kleinste kwadraten

52 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren52 Kleinste kwadraten Idee: minimaliseer –waar een klasse is van een oefenvoorbeeld –NB: Euclidische afstand Maar hoe? –waar Z een N*(p+1) matrix is N – het aantal oefenvoorbeelden p – het aantal eigenschappen van een voorbeeld –vergeet de vrije coëfficiënt niet! –y – een klasse van een oefenvoorbeeld

53 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren53

54 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren54 Onder welke voorwaarden kunnen we berekenen?

55 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren55 Classificatie en lineaire modellen Schrijf op Z en y –Positieve voorbeelden: y i = 1 –Negatieve voorbeelden: y i = 0 –vergeet de vrije coëfficiënten niet! Bereken  Controleer op de nieuwe voorbeelden –x is positief als  x  0.5 –x is negatief als  x < 0.5

56 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren56 Voorbeelden –positief: (1,3) (3,2) –negatief: (2,1) (3,1) Schrijf op Z en y

57 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren57

58 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren58 Hoe worden de volgende voorbeelden geclassificeerd? A.(1,1) positief, (4,2) negatief B.(1,1) negatief, (4,2) positief C.Beide voorbeelden – negatief D.Beide voorbeelden – positief

59 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren59 Stelling: “Alle oefenvoorbeelden worden correct geclassificeerd” A.Ik ben er mee eens. B.Ik ben er niet mee eens.

60 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren60 Huiswerk 16 Een andere lineaire model aanpak is LDA = Linear Discriminant Analysis Wat is LDA? Hoe wordt die berekend? Voorbelden van succesvolle toepassingen In te leveren ten laatste op 5 juni 2007

61 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren61 Dichtstbijzijnde buren Kijk naar de klassen van k dichtstbijzijnde buren –Euclidische afstand De meerderheid beslist –1:1 wordt willekeurig beslist Succesvol voor –handschriftherkenning (cijfers) –satellietbeelden

62 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren62 Voorbeelden –positief: (1,3) (3,2) –negatief: (2,1) (3,1) Hoe worden de volgende voorbeelden geclassificeerd voor k = 3? A.(1,1) positief, (4,2) negatief B.(1,1) negatief, (4,2) positief C.Beide voorbeelden – negatief D.Beide voorbeelden – positief

63 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren63 k(1,1)(4,2) 1negatiefpositief 3negatief lineair model

64 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren64 Stelling: “Alle oefenvoorbeelden van een willekeurig dataset worden correct geclassificeerd” A.Waar voor alle k. B.Waar voor geen enkele k. C.Waar voor sommige k en niet voor andere.

65 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren65 Problemen Alle voorbeelden moeten in de geheugen zijn –voor grotere voorbeelden: k > 1 – onmogelijk! Aanname: alle richtingen (eigenschappen) zijn –even belangrijk –voor alle voorbeelden –Betere oplossing zie Hastie, Tibshirani 1996.Hastie, Tibshirani 1996

66 IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren66 Wat hebben we vandaag gedaan? Classificatie als een vb van gesuperviseerd leren 4 aanpakken: –versieruimtes –beslisbomen –lineaire modellen (met kl. kwadraten) –k dichtstbijzijnde buren


Download ppt "IntroVersieruimtesBeslisbomenKl. kwadratenDichtstbijzijnde buren1 Machinaal leren."

Verwante presentaties


Ads door Google