De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen.

Verwante presentaties


Presentatie over: "Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen."— Transcript van de presentatie:

1 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen

2 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Lerende classificatiesystemen front item  grab front clear  forward front wall  left Rule base Last block front item  grab front clear  forward front wall  right Rule base front item  grab front clear  forward front wall  right front bin  drop Rule base front item  grab front wall  right front bin  drop Rule base Over de Engelse benaming: “learning classifier systems” ≠ bestuderen van (of leren over) classificatie- systemen! De classificatie- systemen leren zelf!

3 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk John H. Holland “[Learning] Classifier systems are a kind of rule-based system with general mechanisms for processing rules in parallel, for adaptive generation of new rules, and for testing the effectiveness of existing rules. These mechanisms make possible performance and learning without the “brittleness” characteristic of most expert systems in AI.” Holland et al., Induction, 1986 Pionier op het gebied van complexe niet-lineaire systemen. Geestelijk vader van evolutionaire algoritmes. Hoogleraar in de psychologie, in Electrical Engineering en in Computer Science aan de Universiteit van Michigan. Broosheid

4 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Alternatieve kijk Vaste dataVariabele data Batch lerenK-means Online leren EGS, HGSReinforcement leren, LCS

5 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Wat is een LCS? De notie LCS werd voorgesteld door John Holland (1976) in de context van genetische algoritmen (1975). Componenten: 1.Een set van afleidingsregels 2.Een mechanisme om toepasbaarheid (“strength”) van afleidingsregels te leren (individueel leren) 3.Een mechanisme om nieuwe afleidingsregels te ontdekken (evolutie) Later: –ZCS ≈ gestripte versie van LCS (Wilson, 1995) –XCS ≈ tweakable ZCS (Wilson et al., 1996) –XCSR ≈ XCS met reëelwaardige input (Wilson, 2000) –ZCS Redux ≈ optimaal getunede ZCS Een lerend classificatiesysteem (LCS) is een zich voortdurend aanpassend systeem van afleidingsregels

6 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Iets over regel-gebaseerde systemen.. -RULES- kopen <= middelen behoefte middelen <- liquide_gelden middelen <- krijgt_krediet krijgt_krediet <= wil_krediet  kredietwaardig wil_krediet <= behoefte  ¬liquide_gelden ¬kredietwaardig <= lopende_kredieten kredietwaardig <= lopende_kredieten  goede_jaarcijfers behoefte <= plan_verhoging_produktie  produktietekort behoefte <= personeelstekort  machine_ontlast_personeel ¬behoefte <= tijdelijk_produktietekort ¬behoefte <= tijdelijk_personeelstekort produktietekort <- tijdelijk_produktietekort -FACTS- lopende_kredieten goede_jaarcijfers...

7 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regel-elicitatie in expert-systemen Expertsysteem ≈ verzameling logische regels. Regel: –ALS conditie DAN conclusie –ALS conditie DAN actie –ALS conditie DAN classificatie Sommige regels zijn beter (meer van toepasing op het domein) dan andere. –Geef dat aan met een getalletje S (fitness, strength, plausibility, reliability, applicability) Elicitatie van regels (m.b.t. bepaald domein) is moeilijk Zou het niet mooi zijn om een ES automa -tisch te leren?

8 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels in learning classifier systems (LCS) In ALS-DAN vorm: ALS match 0#001 DAN 1001 (toepasbaarheid 43) ALS match 1#0## DAN 0111 (toepasbaarheid 22) ALS match 0001# DAN 1010 (toepasbaarheid 88)... In LCS vorm: 0#001 : 1001 : 43 1#0## : 0111 : # : 1010 : bitstring kan van alles zijn: nieuw gegeven actie classificatie # betekent: don’t care (matcht alles) Officiele term: “strength”

9 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Typische regel-bank (rule-base) 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 51 1#01# : 1101 : 22 #001# : 1010 : 78 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 14 0#011 : 1001 : 53 1#01# : 1101 : 22 0###1 : 1101 : 03 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 84 #001# : 1000 : 34 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 #001# : 1010 : 57 0#011 : 1101 : 31 1#0## : 0101 : 22 0#011 : 1001 : 53 1#01# : 1101 : 92 #001# : 1010 : 81 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 53 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 77 0###1 : 1101 : 55 #001# : 1010 : 14 0#001 : 1001 : 43 1#0## : 0101 : 72 1#111 : 1100 : # : 1010 : 18 0#011 : 1001 : 11 1#01# : 1101 : 22 #001# : 1010 : 88 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1000 : 53 #001# : 1110 : 07 0#011 : 0001 : 71 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 13 1#0## : 0101 : 22 De regel-bank bevat een constant aantal regels, in de orde van

10 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Typische regel-bank (rule-base) 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 51 1#01# : 1101 : 22 #001# : 1010 : 78 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 14 0#011 : 1001 : 53 1#01# : 1101 : 22 0###1 : 1101 : 03 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 84 #001# : 1000 : 34 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 #001# : 1010 : 57 0#011 : 1101 : 31 1#0## : 0101 : 22 0#011 : 1001 : 53 1#01# : 1101 : 92 #001# : 1010 : 81 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 53 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 77 0###1 : 1101 : 55 #001# : 1010 : 14 0#001 : 1001 : 43 1#0## : 0101 : 72 1#111 : 1100 : # : 1010 : 18 0#011 : 1001 : 11 1#01# : 1101 : 22 #001# : 1010 : 88 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1000 : 53 #001# : 1110 : 07 0#011 : 0001 : 71 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 13 1#0## : 0101 : 22 De regel-bank bevat een constant aantal regels, in de orde van In elke situatie is er meestal (maar niet altijd) een match.

11 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Classifier System (Holland, 1976) 1. Detectoren geven input, en zetten deze in de message list. 2. Selecteer de regels waarvan de antecedent matcht met de input. 3. Selecteer uit match-set de beste regels; 6. Als er acties onder messages zijn, voer die uit, en 7. Beloon / straf regels in actie-set met reactie van omgeving. 5. Plaats nieuwe conclusies en (mogelijk) nieuwe acties 4. Draag gedeelte van regelkrediet actie-set over aan activerende classifiers

12 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Aanpassing door omgevingsinvloeden 1.Uitvoeren van regels (d.m.v. match-set en actie-set) 2.Regelkwaliteit leren (d.m.v. reinforcement) 3.Exploreren van nieuwe regels (d.m.v. kruising en mutatie) 4.Ondertussen verandert de omgeving voortdurend …

13 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Problemen met LCS (1976) LCS is, op zich genomen, (onnodig?) complex. Meer een manifest, dan een volledige specificatie van een compleet algoritme. Ook wiskundig niet goed begrepen. In de ’80-er jaren werd er geëxperimenteerd met varianten (Samuel, GOFER-1, ALECSYS). Problemen: –Matige overdekking van de zoekruimte. (Als gevolg wordt het cover-mechanisme wordt [te] vaak aangesproken.) –Overgeneralisatie. (Regels met #’s krijgen te veel krediet.)

14 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Zeroth-level Classifier System Stewart W. Wilson, Ph.D. President, Prediction Dynamics®, Concord, MA 01742, USA Adjunct Professor, Department of Industrial and Enterprise Systems Engineering The University of Illinois at Urbana-Champaign Associate, VGO Associates, Newbury, MA Wilson, S.W., "ZCS: a zeroth level classifier system". Evolutionary Computation, 2(1), 1-18 (1994). “A basic classifier system, ZCS, is presented that keeps much of Holland's original framework but simplifies it to increase understandability and performance. ZCS's relation to Q-learning is brought out, and their performances compared in environments of two difficulty levels. Extensions to ZCS are proposed for temporary memory, better action selection, more efficient use of the genetic algorithm, and more general classifier representation.”

15 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS (Wilson, 1995)

16 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Krediet-toekenning in ZCS 1.Alle regels in huidige actie-set, A, doneren een deel, β, van hun huidige sterkte in een “fonds,” de “bucket”, B. (β dicht boven 0.) Totaal (dus): B = s(A) β. De bucket, B, wordt uniform verdeeld over de oude actieset, O, met discount γ. Elke regel uit O krijgt (dus): γ B / |O|. 3.De reward (kan ook negatief zijn), r, wordt uniform verdeeld over A. Elke regel uit A krijgt (dus): β r / |A|. 4.De regelsterkte van regels uit M \ A, i.e. niet-actieve matchende regels, wordt met een deel τ, genaamd tax, verminderd. Implicit “bucket brigade” Wilson (1994): “We found that if γ is omitted or set near 1.0, then dithering, lack of urgency in attaining rewards, and looping behavior occur, which smaller values of γ greatly reduce.”

17 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Parameters βleerfactor voor regel-sterkte in de impliciete bucket-brigade 0.20 γdiscount factor for het doorgeven van rewards aan eerder actieve classifiers 0.71 τnegatieve leerfactor voor classifiers in M \ A 0.10 ρde kans op genetische manipulatie in een ZCS cyclus 0.25 φ covering parameter; covering als s(M) / |M| < φ s(P) / |P| 0.50 Notatie Pclassifier populatie Mmatching classifiers Aactieve classifiers Ooude A s(X) totale regel-sterkte van X |X| aantal ementen in X

18 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods1 Leeg Steen Voedsel Robot

19 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Situatie.F.....S

20 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Matching set.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Situatie.F.....S

21 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Action set.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Fitness- proportionele selectie: regels voor D winnen “Fitness sharing” (Wilson, 1994)

22 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods1: resultaten Random (~ 27 stappen) Perfect (~ 1.7 stappen) Lopend gemiddelde Kort gemiddelde (50 trials)

23 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods7 Leeg Steen Voedsel

24 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods7: resultaten Random (~ 42 stappen) Perfect (~ 2 stappen) Lopend gemiddelde Kort gemiddelde

25 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task

26 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task Input: bitstring ter lengte vier Positie 1kopje links Positie 2kopje rechts Positie 3bots links Positie 4bots rechts Actie: bitstring ter lengte twee 10naar links 01naar rechts 11grijp Voorbeeld-situaties: 0010, 0100, Onmogelijk: 1010, 1111 Voorbeelden van goede acties: 0010     10

27 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task De robot kan geen muren “zien”. (Alleen maar botsen.) De robot kan niet zien wat er direct onder hem staat. (Alleen direct naast.) De robot weet niet wat de vier input-signalen (cup left, cup right, hit left, hit right) betekenen. De robot weet niet wat de drie output- acties (left, right, grab) doen. De robot ontvangt pas feedback (in de vorm van een reward) als het laatste kopje is opgepakt.

28 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels met geheugen-registers conditie : register : actie : nieuw register : sterkte Voorbeelden: #00# : 1 : 11 : 1 : 57 0#01 : 1 : 00 : 0 : 31 11#0 : 0 : 10 : 1 : 17 #1## : 0 : 01 : 1 : 26 Kopje rechts Niet boven kopje Be- weeg naar rechts Bove n kopje Probeer nu zelf een regel op te stellen voor het grijpen van een kopje … Ook wel: toestanden (“states”)

29 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Flake, p. 378: “We could have made the problem easier for the ZCS by having the detector return twice as much information: one string for the current state and another string for the previous state. Encoding the information in this way is exactly the information that the ZCS needs to solve the problem. But by being given only the current state and a single bit of memory, the ZCS must actually learn what feature is important to remember. Thus, how to remember is built into the system but what to remember is entirely up to the ZCS. While it would be easier for the ZCS if we just gave it the information that it needs, it is educational to use the memory register instead. Why? For many problems, human designers simply do not know what information is required to solve a problem. By giving the ZCS the ability to form its own memories, we have removed one more design decision from the human. In a sense, we are forcing the ZCS to learn what to learn.” Denk na over de rol het register-bit..

30 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task Elk experiment bestaat uit veel proeven Een proef bestaat uit het starten van de robot in de initiële configuratie tot beide cups worden opgepikt. In een typisch experiment, zijn ong. de eerste 100 proeven zeer inefficiënt: de robot neemt vaak honderden stappen voordat deze de kopjes oppakt. Daarna vindt de ZCS uiteindelijk een relatief efficiëntere techniek. Soms leert de ZCS alleen hoe bekers op te halen door deze vanaf de linkerkant te benaderen. In andere experimenten bots de ZCS eerst een paar keer (intentioneel!) tegen de muur voordat beiden kopjes worden opgepakt.

31 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Problemen met ZCS Door begrensde rule base kan ZCS onmogelijk de gehele zoekruimte States x Actions → Payoffs representeren. Gevolg: bij suboptimale initiële regelverzamelingen kan ZCS onbedoeld te vroeg convergeren. (Wilson: “path habits”). Globale kruising (“panmictic crossover”) beschadigt opgebouwde specialisaties in niches.

32 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS (Extended classifier system) Wilson (1995). “Classifier fitness based on accuracy” in Evolutionary Computation 3(2), pp XCS was bedoeld om de volgende zaken te bewerkstelligen: –Het beschermen van regels met lage rewards in niches met lage rewards. –Het beschermen van regels met lage rewards die regels met hoge reward faciliteren. –Het selectief recombineren door het locaal toepassen van GA in actie-sets. –Het onderhouden van een redelijk complete representatie van States x Actions → Payoffs

33 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: aanpak Maak, bij regels, onderscheid tussen expected payoff, P, en fitness, F. De fitness correspondeert met de nauwkeurigheid van voorspellen (“acuratesse”). Regel-schema: conditie:actie:payoff:accuratesse:error De accuratesse is afgeleid van de voorspellingsfout: accuratesse = α( ε 0 / ε ) ν (Let op: accuratesse inderdaad omgekeerd evenredig aan fout.)

34 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: bepaling van fitness Update voorspellingsfout: ε j = ε j + β(|P ─ pj|) ─ ε j ) Update (daarna!) de voorspelling: p j = p j + β(|P ─ p j |) Update accuracy: κ j = α( ε 0 / ε ) ν Bepaal de relatieve accuracy: κ j ~ κ j Bepaal fitness volgens de zg. moyenne adaptive modifée (MAM) procedure: in het begin F j = gemiddelde van huidige en voorgaande relatieve accuracy κ j. Na 1/β perioden of meer, F j = F j + β(| κ j ─ F j |). Door MAM wordt in het begin F j snel (en daarna steeds langzamer) aangepast.

35 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: toepassingen De meerderheid van de lerende classificatiesystemen is XCS Zie bv. Lanzi et al. (2000). Learning Classifier Systems: From Foundations to Applications. Springer. Data mining. Gemakkelijk leesbare oplossingen in de vorm van regelverzamelingen. Vooral geschikt voor langzaam veranderende data- verzamelingen. Technische (beurs-) koersanalyse. In combinatie met andere technieken. Systeembesturing. Browne et al. (2004). The Development of an Industrial Learning Classifier System for Data-Mining in a Steel Hot Strip Mill. “Many industrial control problems are very noisy and dynamic making the effective use of traditional control methods difficult. This contribution describes how an LCS can be used to control such plants and how the logic produced can enable the engineers to learn more about the system.”

36 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux XCS verschoof accent naar regel-accuratesse voor fitness. Bull and Hurst. “Zcs Redux” in: Evolutionary Computation, 10(2), pp. 185–205. “This paper re-examines the use of a particular payoff-based learning classifier system – ZCS. By using simple difference equation models of ZCS, we show that this system is capable of optimal performance subject to appropriate parameter settings.” Herwaardering van ZCS: payoff als fitness werkt, mits –grotere regelpopulaties –preciese afstemming van leerparameters –toepassen van zg. “fitness sharing”

37 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Fitness sharing: laat regels met dezelfde consequent delen in de rewards

38 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Rule base blijft voldoende gedifferentieerd. Voor elke niche zijn er nog steeds gespecaliseerde regels. # Rules

39 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Lichtelijk gewijzigd probleem 800

40 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Fitness # Rules Selectiedruk valt weg.

41 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux # Rules Regel #:0 domineert onterecht elke correcte regel voor input 1.

42 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux in multi-step omgevingen

43 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: multi-step Steps to Food β = 0.2 γ = 0.71 β = 0.8 γ = 0.02 Gemiddeld 1.9 stappen naar food

44 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: multi-step P = 400 β = 0.2 P = 800 β = 0.8 Gemiddeld 20 stappen naar food Steps to Food

45 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: evenredige niche vorming # Rules Fitness Niche from Food

46 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Verder … Veel belangrijke uitbreidingen en variaties op lerende classificatiesystemen (LCS) bleven onbesproken: Gebruik in sequentiële (multi-step) taken. Omgaan met niet-Markov omgevingen. Leren in de aanwezigheid van ruis. Omgaan met continu-waardige acties (Wilson’s XCSR). Leren van relationele concepten. Leren van hyper-heuristieken....


Download ppt "Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen."

Verwante presentaties


Ads door Google