Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen.

Slides:



Advertisements
Verwante presentaties
Het publiceren van onderzoeksdata Frits K. van Evert.
Advertisements

- Inhoud Artificial Intelligence - Inhoud Wat is AI? OorsprongReasoningLearning • Wat is Artificial Intelligence.
REBELS: Race and Ethnicity Based Education; Local Solutions
Unieke elementen van opleiden
Opdrachttaak kennissystemen:
1 Facilitating Online Learning Conversations Exploring tool affordances in higher education Jakko van der Pol IVLOS, UU/ Onderwijscentrum VU.
Inleiding adaptieve systemen
Inleiding adaptieve systemen
De paradigmashift in het onderwijs
Classificatie digitale leer- en hulpmiddelen Ververs Foundation seminar 29 januari 2009 Door: Ellen van den Berg, Peter Blijleven & Leanne Jansen.
Beyond Big Grid – Amsterdam 26 september 2012 Enquette 77 ingevulde enquettes, waarvan 60 met gebruikservaring = Mainly Computer Science.
Cursusinschrijving 2e jaar CKI Voorlichtingsbijeenkomst voor eerstejaars CKI Maartje Vermeulen, studieadviseur CKI.
Inleiding Adaptieve Systemen
Cognitive Dynamics Voorlichting Master CKI
1e Bachelor Toegepaste Psychologie A
Verandering van persoonlijkheidstypen & angst gedurende de adolescentie. Joyce Akse, Rutger Engels, Quinten Raaijmakers, Wim Meeus & William Hale Josje.
I wanna grow old with you Music: Westlife Another day Without your smile Another day just passes by But now I know How much it means For you to stay.
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen Mei 2005.
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
Overzicht samenvatting en discussie hc1 t/m hc4 samenvatting en discussie hc1 t/m hc4 inleiding tot de rest van het vak inleiding tot de rest van het vak.
1 Cecile Crobach October MSc Thesis: Onderwijs en Onderzoek Combineren van onderzoek en praktijk Onderwijsdag TBM 2012.
Afstuderen bij Natuurkundige Informatica Faculteit Exacte Wetenschappen 20 November 1998 vrije Universiteit Divisie Natuurkunde en Sterrenkunde.
Wat weten we over computersimulaties in het onderwijs?
Effectiviteit van de VAST-game Een Serious Game voor uitspraak Engels
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Wat denken leerlingen nu ècht? Fokke Hoeksema, Petra Hendrikse en Nellie Verhoef.
Persoonlijke Verkoop. Commerciële actie - Classificatie Afleveren van producten Bestellingen opnemen - intern Bestellingen opnemen - extern Informatieverstrekking.
Esther Meerwijk, UMC Utrecht
Computer-Mediated Communication Master IK, CIW, MMI L.M. Bosveld-de Smet Hoorcollege 1; di. 7 sept. 2004;
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
1 Is MST Kosten - Effectief?  Jan J. v. Busschbach, Ph.D. –Viersprong Institute for studies on Personality Disorders –Erasmus MC Afdeling Medisch Psychologie.
1 Digitalisering in Europees perspectief Veranderende context... veranderende vaardigheden? New skills for new jobs is het EU-credo.
De aantrekkelijke stad
Neurale Netwerken Genetische Algorithmen
1 e-Books & i-Papers Rik Min researcher Centre for Telematics and Information Technology (CTIT) & Faculty of Educational Science and Technology (EDTE)
Copyright met toestemming gebruikt van Stichting Licentie © 1999 Integrity's Hosanna! Music 1/12 JOSHUA GENERATION (Ron Kenoly) Refrein: We are ready for.
LES 3. Serious games Applied games ”a mental contest, played with a computer in accordance with specific rules that uses entertainment to further government.
3D modellen van de Nederlandse Ondergrond
Inleiding computersystemen en netwerken Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 2.1 Programmeren (2.9) assembler,
APP Platform Rivium, 5 maart 2013 Rik Vietsch.
Culturele Antropologie
Amsterdam Airport Schiphol 1 Ludo W. van Meeuwen 1,3, Saskia Brand-Gruwel 1, Jeroen J.G. van Merriënboer 1,2, & Jeano J.P.R. de Bock 3 1 Open University.
Karel Vlieghe - Utrecht 29 januari 2005 Veranderscenario’s voor e-Learning systemen Evolutie van e-Learning systemen door de jaren heen.
Minderjarigen, ‘oude’ en ‘nieuwe’ media: een blik op de toekomst Recente ontwikkelingen in de sectoren van het mediarecht, de intellectuele rechten en.
Mavo 4.  Goal(s)  Letter Puzzle  Write a letter  Check the letters  Do assignments 4A, 5A, 6A & 7 in Student Book page 50  Evaluation.
Flexible Learning in European Retail Presentatie 5 de Meeting in Ceske Budejovice.
Online tool for self eValuatioN of Key Competences in adulT AGE Anja Zonneveld PLATO, Universiteit Leiden Grundtvig Project VINTAGE -online tool for self.
OpleidingsCentrum voor Bowlers Clinic Appingedam KISS.
Religie: weg naar geluk?. “ “how to gain, how to keep, how to recover happiness is in fact for most men at all times the secret motive of all they do”
Amsterdam Airport Schiphol 1 Ludo van Meeuwen 1,3, Saskia Brand-Gruwel 1, Jeroen van Merriënboer 1,2, & Jeano de Bock 3 1 Open University of the Netherlands,
Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden.
Disruption in Retailing Customer will buy differently Prof Dr Cor Molenaar RSM/ErasmusUniversity eXQuo consultancy.
Presentatie afstudeeropdracht Datum: 02 april 2011 Naam: Azar Lalmohamed Studie: BPMIT.
1 “Just to be sure” 3D scanning and reversed engineering for offshore and shipbuilding.
OPEN brainstorm.
Jeroen Strijbosch Gebruikersdag
Prof. dr. Fons Coomans UNESCO Chair ‘Human Rights and Peace’
Localizing the SDGs – Brussels, 16/5/2017
Gewoon Speciaal ICT, 5 oktober 2016 Odeth Bloemberg, schoolpsycholoog
Zelfmanagement of toch positieve gezondheid? Een dissident geluid
This, that, these, those Aanwijzende voornaamwoorden
Process Mining.
The Wonderful World of RNA
Universiteit van Amsterdam
VIP²-GGZ: Forum 26/02/2016 prof. dr. Geert Dom, voorzitter Bureau VIP²-GGZ.
What is ProRail’s Life Cycle (cost) Management?
Implementatie van de Europese netwerkcodes in België
English 23 April 2018.
Gebruikersbijeenkomst SOWISO
The next step in educational online platforms (from the perspective of the Verwonderpaspoort) Nick Degens & Eelco Braad Research Group User-Centered Design.
Artificiele Intelligentie (versie 03/11/05)
Transcript van de presentatie:

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Lerende classificatiesystemen front item  grab front clear  forward front wall  left Rule base Last block front item  grab front clear  forward front wall  right Rule base front item  grab front clear  forward front wall  right front bin  drop Rule base front item  grab front wall  right front bin  drop Rule base Over de Engelse benaming: “learning classifier systems” ≠ bestuderen van (of leren over) classificatie- systemen! De classificatie- systemen leren zelf!

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk John H. Holland “[Learning] Classifier systems are a kind of rule-based system with general mechanisms for processing rules in parallel, for adaptive generation of new rules, and for testing the effectiveness of existing rules. These mechanisms make possible performance and learning without the “brittleness” characteristic of most expert systems in AI.” Holland et al., Induction, 1986 Pionier op het gebied van complexe niet-lineaire systemen. Geestelijk vader van evolutionaire algoritmes. Hoogleraar in de psychologie, in Electrical Engineering en in Computer Science aan de Universiteit van Michigan. Broosheid

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Alternatieve kijk Vaste dataVariabele data Batch lerenK-means Online leren EGS, HGSReinforcement leren, LCS

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Wat is een LCS? De notie LCS werd voorgesteld door John Holland (1976) in de context van genetische algoritmen (1975). Componenten: 1.Een set van afleidingsregels 2.Een mechanisme om toepasbaarheid (“strength”) van afleidingsregels te leren (individueel leren) 3.Een mechanisme om nieuwe afleidingsregels te ontdekken (evolutie) Later: –ZCS ≈ gestripte versie van LCS (Wilson, 1995) –XCS ≈ tweakable ZCS (Wilson et al., 1996) –XCSR ≈ XCS met reëelwaardige input (Wilson, 2000) –ZCS Redux ≈ optimaal getunede ZCS Een lerend classificatiesysteem (LCS) is een zich voortdurend aanpassend systeem van afleidingsregels

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Iets over regel-gebaseerde systemen.. -RULES- kopen <= middelen behoefte middelen <- liquide_gelden middelen <- krijgt_krediet krijgt_krediet <= wil_krediet  kredietwaardig wil_krediet <= behoefte  ¬liquide_gelden ¬kredietwaardig <= lopende_kredieten kredietwaardig <= lopende_kredieten  goede_jaarcijfers behoefte <= plan_verhoging_produktie  produktietekort behoefte <= personeelstekort  machine_ontlast_personeel ¬behoefte <= tijdelijk_produktietekort ¬behoefte <= tijdelijk_personeelstekort produktietekort <- tijdelijk_produktietekort -FACTS- lopende_kredieten goede_jaarcijfers...

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regel-elicitatie in expert-systemen Expertsysteem ≈ verzameling logische regels. Regel: –ALS conditie DAN conclusie –ALS conditie DAN actie –ALS conditie DAN classificatie Sommige regels zijn beter (meer van toepasing op het domein) dan andere. –Geef dat aan met een getalletje S (fitness, strength, plausibility, reliability, applicability) Elicitatie van regels (m.b.t. bepaald domein) is moeilijk Zou het niet mooi zijn om een ES automa -tisch te leren?

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels in learning classifier systems (LCS) In ALS-DAN vorm: ALS match 0#001 DAN 1001 (toepasbaarheid 43) ALS match 1#0## DAN 0111 (toepasbaarheid 22) ALS match 0001# DAN 1010 (toepasbaarheid 88)... In LCS vorm: 0#001 : 1001 : 43 1#0## : 0111 : # : 1010 : bitstring kan van alles zijn: nieuw gegeven actie classificatie # betekent: don’t care (matcht alles) Officiele term: “strength”

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Typische regel-bank (rule-base) 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 51 1#01# : 1101 : 22 #001# : 1010 : 78 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 14 0#011 : 1001 : 53 1#01# : 1101 : 22 0###1 : 1101 : 03 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 84 #001# : 1000 : 34 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 #001# : 1010 : 57 0#011 : 1101 : 31 1#0## : 0101 : 22 0#011 : 1001 : 53 1#01# : 1101 : 92 #001# : 1010 : 81 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 53 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 77 0###1 : 1101 : 55 #001# : 1010 : 14 0#001 : 1001 : 43 1#0## : 0101 : 72 1#111 : 1100 : # : 1010 : 18 0#011 : 1001 : 11 1#01# : 1101 : 22 #001# : 1010 : 88 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1000 : 53 #001# : 1110 : 07 0#011 : 0001 : 71 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 13 1#0## : 0101 : 22 De regel-bank bevat een constant aantal regels, in de orde van

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Typische regel-bank (rule-base) 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 51 1#01# : 1101 : 22 #001# : 1010 : 78 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 14 0#011 : 1001 : 53 1#01# : 1101 : 22 0###1 : 1101 : 03 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 84 #001# : 1000 : 34 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 #001# : 1010 : 57 0#011 : 1101 : 31 1#0## : 0101 : 22 0#011 : 1001 : 53 1#01# : 1101 : 92 #001# : 1010 : 81 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 88 0#011 : 1001 : 53 0###1 : 1101 : 13 1#111 : 1100 : # : 1010 : 18 0#001 : 1000 : 53 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 43 1#0## : 0101 : 22 #001# : 1010 : 77 0###1 : 1101 : 55 #001# : 1010 : 14 0#001 : 1001 : 43 1#0## : 0101 : 72 1#111 : 1100 : # : 1010 : 18 0#011 : 1001 : 11 1#01# : 1101 : 22 #001# : 1010 : 88 0#001 : 1101 : 51 1#010 : 1111 : 15 ####0 : 1010 : 18 0#001 : 1000 : 53 #001# : 1110 : 07 0#011 : 0001 : 71 1#0## : 0111 : 22 #01#1 : 1010 : 87 0#001 : 1001 : 13 1#0## : 0101 : 22 De regel-bank bevat een constant aantal regels, in de orde van In elke situatie is er meestal (maar niet altijd) een match.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Classifier System (Holland, 1976) 1. Detectoren geven input, en zetten deze in de message list. 2. Selecteer de regels waarvan de antecedent matcht met de input. 3. Selecteer uit match-set de beste regels; 6. Als er acties onder messages zijn, voer die uit, en 7. Beloon / straf regels in actie-set met reactie van omgeving. 5. Plaats nieuwe conclusies en (mogelijk) nieuwe acties 4. Draag gedeelte van regelkrediet actie-set over aan activerende classifiers

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Aanpassing door omgevingsinvloeden 1.Uitvoeren van regels (d.m.v. match-set en actie-set) 2.Regelkwaliteit leren (d.m.v. reinforcement) 3.Exploreren van nieuwe regels (d.m.v. kruising en mutatie) 4.Ondertussen verandert de omgeving voortdurend …

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Problemen met LCS (1976) LCS is, op zich genomen, (onnodig?) complex. Meer een manifest, dan een volledige specificatie van een compleet algoritme. Ook wiskundig niet goed begrepen. In de ’80-er jaren werd er geëxperimenteerd met varianten (Samuel, GOFER-1, ALECSYS). Problemen: –Matige overdekking van de zoekruimte. (Als gevolg wordt het cover-mechanisme wordt [te] vaak aangesproken.) –Overgeneralisatie. (Regels met #’s krijgen te veel krediet.)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Zeroth-level Classifier System Stewart W. Wilson, Ph.D. President, Prediction Dynamics®, Concord, MA 01742, USA Adjunct Professor, Department of Industrial and Enterprise Systems Engineering The University of Illinois at Urbana-Champaign Associate, VGO Associates, Newbury, MA Wilson, S.W., "ZCS: a zeroth level classifier system". Evolutionary Computation, 2(1), 1-18 (1994). “A basic classifier system, ZCS, is presented that keeps much of Holland's original framework but simplifies it to increase understandability and performance. ZCS's relation to Q-learning is brought out, and their performances compared in environments of two difficulty levels. Extensions to ZCS are proposed for temporary memory, better action selection, more efficient use of the genetic algorithm, and more general classifier representation.”

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS (Wilson, 1995)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Krediet-toekenning in ZCS 1.Alle regels in huidige actie-set, A, doneren een deel, β, van hun huidige sterkte in een “fonds,” de “bucket”, B. (β dicht boven 0.) Totaal (dus): B = s(A) β. De bucket, B, wordt uniform verdeeld over de oude actieset, O, met discount γ. Elke regel uit O krijgt (dus): γ B / |O|. 3.De reward (kan ook negatief zijn), r, wordt uniform verdeeld over A. Elke regel uit A krijgt (dus): β r / |A|. 4.De regelsterkte van regels uit M \ A, i.e. niet-actieve matchende regels, wordt met een deel τ, genaamd tax, verminderd. Implicit “bucket brigade” Wilson (1994): “We found that if γ is omitted or set near 1.0, then dithering, lack of urgency in attaining rewards, and looping behavior occur, which smaller values of γ greatly reduce.”

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Parameters βleerfactor voor regel-sterkte in de impliciete bucket-brigade 0.20 γdiscount factor for het doorgeven van rewards aan eerder actieve classifiers 0.71 τnegatieve leerfactor voor classifiers in M \ A 0.10 ρde kans op genetische manipulatie in een ZCS cyclus 0.25 φ covering parameter; covering als s(M) / |M| < φ s(P) / |P| 0.50 Notatie Pclassifier populatie Mmatching classifiers Aactieve classifiers Ooude A s(X) totale regel-sterkte van X |X| aantal ementen in X

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods1 Leeg Steen Voedsel Robot

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Situatie.F.....S

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Matching set.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Situatie.F.....S

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Action set.....F.S : U : 43..S....S : D : 41 F..#.S.. : D : 11 #..S.##. : L : 54...F.S.. : D : 65.##S...S : D : 64.S..SF.. : D : S.. : D : 12 #..###.S : U : 93..S....S : D : 14...##S.. : D : 11..###... : L : 54..F.S#.. : U : 43 #.....## : D : 02..S..... : D : 11 S..##S.. : L : S. : U : 63.F...### : R : 23...S.SFS : R : S : D : 12..F.S... : U : 03.###.SS. : D : 14..S...S. : D : 81.######F : L : S.. : U : 01...##..S : R : 71.F..S... : R : 11 ##...S.. : D : 12 ##...#.. : D : 35...S.S.F : D : 38.F.##..S : D : 71.#.....# : L : 12.##....S : R : 68 #...###. : D : 12.F.#...S : D : 40.# : R : 53 Fitness- proportionele selectie: regels voor D winnen “Fitness sharing” (Wilson, 1994)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods1: resultaten Random (~ 27 stappen) Perfect (~ 1.7 stappen) Lopend gemiddelde Kort gemiddelde (50 trials)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods7 Leeg Steen Voedsel

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Woods7: resultaten Random (~ 42 stappen) Perfect (~ 2 stappen) Lopend gemiddelde Kort gemiddelde

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task Input: bitstring ter lengte vier Positie 1kopje links Positie 2kopje rechts Positie 3bots links Positie 4bots rechts Actie: bitstring ter lengte twee 10naar links 01naar rechts 11grijp Voorbeeld-situaties: 0010, 0100, Onmogelijk: 1010, 1111 Voorbeelden van goede acties: 0010     10

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task De robot kan geen muren “zien”. (Alleen maar botsen.) De robot kan niet zien wat er direct onder hem staat. (Alleen direct naast.) De robot weet niet wat de vier input-signalen (cup left, cup right, hit left, hit right) betekenen. De robot weet niet wat de drie output- acties (left, right, grab) doen. De robot ontvangt pas feedback (in de vorm van een reward) als het laatste kopje is opgepakt.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Regels met geheugen-registers conditie : register : actie : nieuw register : sterkte Voorbeelden: #00# : 1 : 11 : 1 : 57 0#01 : 1 : 00 : 0 : 31 11#0 : 0 : 10 : 1 : 17 #1## : 0 : 01 : 1 : 26 Kopje rechts Niet boven kopje Be- weeg naar rechts Bove n kopje Probeer nu zelf een regel op te stellen voor het grijpen van een kopje … Ook wel: toestanden (“states”)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Flake, p. 378: “We could have made the problem easier for the ZCS by having the detector return twice as much information: one string for the current state and another string for the previous state. Encoding the information in this way is exactly the information that the ZCS needs to solve the problem. But by being given only the current state and a single bit of memory, the ZCS must actually learn what feature is important to remember. Thus, how to remember is built into the system but what to remember is entirely up to the ZCS. While it would be easier for the ZCS if we just gave it the information that it needs, it is educational to use the memory register instead. Why? For many problems, human designers simply do not know what information is required to solve a problem. By giving the ZCS the ability to form its own memories, we have removed one more design decision from the human. In a sense, we are forcing the ZCS to learn what to learn.” Denk na over de rol het register-bit..

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Two-cup collection task Elk experiment bestaat uit veel proeven Een proef bestaat uit het starten van de robot in de initiële configuratie tot beide cups worden opgepikt. In een typisch experiment, zijn ong. de eerste 100 proeven zeer inefficiënt: de robot neemt vaak honderden stappen voordat deze de kopjes oppakt. Daarna vindt de ZCS uiteindelijk een relatief efficiëntere techniek. Soms leert de ZCS alleen hoe bekers op te halen door deze vanaf de linkerkant te benaderen. In andere experimenten bots de ZCS eerst een paar keer (intentioneel!) tegen de muur voordat beiden kopjes worden opgepakt.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Problemen met ZCS Door begrensde rule base kan ZCS onmogelijk de gehele zoekruimte States x Actions → Payoffs representeren. Gevolg: bij suboptimale initiële regelverzamelingen kan ZCS onbedoeld te vroeg convergeren. (Wilson: “path habits”). Globale kruising (“panmictic crossover”) beschadigt opgebouwde specialisaties in niches.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS (Extended classifier system) Wilson (1995). “Classifier fitness based on accuracy” in Evolutionary Computation 3(2), pp XCS was bedoeld om de volgende zaken te bewerkstelligen: –Het beschermen van regels met lage rewards in niches met lage rewards. –Het beschermen van regels met lage rewards die regels met hoge reward faciliteren. –Het selectief recombineren door het locaal toepassen van GA in actie-sets. –Het onderhouden van een redelijk complete representatie van States x Actions → Payoffs

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: aanpak Maak, bij regels, onderscheid tussen expected payoff, P, en fitness, F. De fitness correspondeert met de nauwkeurigheid van voorspellen (“acuratesse”). Regel-schema: conditie:actie:payoff:accuratesse:error De accuratesse is afgeleid van de voorspellingsfout: accuratesse = α( ε 0 / ε ) ν (Let op: accuratesse inderdaad omgekeerd evenredig aan fout.)

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: bepaling van fitness Update voorspellingsfout: ε j = ε j + β(|P ─ pj|) ─ ε j ) Update (daarna!) de voorspelling: p j = p j + β(|P ─ p j |) Update accuracy: κ j = α( ε 0 / ε ) ν Bepaal de relatieve accuracy: κ j ~ κ j Bepaal fitness volgens de zg. moyenne adaptive modifée (MAM) procedure: in het begin F j = gemiddelde van huidige en voorgaande relatieve accuracy κ j. Na 1/β perioden of meer, F j = F j + β(| κ j ─ F j |). Door MAM wordt in het begin F j snel (en daarna steeds langzamer) aangepast.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk XCS: toepassingen De meerderheid van de lerende classificatiesystemen is XCS Zie bv. Lanzi et al. (2000). Learning Classifier Systems: From Foundations to Applications. Springer. Data mining. Gemakkelijk leesbare oplossingen in de vorm van regelverzamelingen. Vooral geschikt voor langzaam veranderende data- verzamelingen. Technische (beurs-) koersanalyse. In combinatie met andere technieken. Systeembesturing. Browne et al. (2004). The Development of an Industrial Learning Classifier System for Data-Mining in a Steel Hot Strip Mill. “Many industrial control problems are very noisy and dynamic making the effective use of traditional control methods difficult. This contribution describes how an LCS can be used to control such plants and how the logic produced can enable the engineers to learn more about the system.”

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux XCS verschoof accent naar regel-accuratesse voor fitness. Bull and Hurst. “Zcs Redux” in: Evolutionary Computation, 10(2), pp. 185–205. “This paper re-examines the use of a particular payoff-based learning classifier system – ZCS. By using simple difference equation models of ZCS, we show that this system is capable of optimal performance subject to appropriate parameter settings.” Herwaardering van ZCS: payoff als fitness werkt, mits –grotere regelpopulaties –preciese afstemming van leerparameters –toepassen van zg. “fitness sharing”

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Fitness sharing: laat regels met dezelfde consequent delen in de rewards

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Rule base blijft voldoende gedifferentieerd. Voor elke niche zijn er nog steeds gespecaliseerde regels. # Rules

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Lichtelijk gewijzigd probleem 800

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux Fitness # Rules Selectiedruk valt weg.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux # Rules Regel #:0 domineert onterecht elke correcte regel voor input 1.

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux in multi-step omgevingen

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: multi-step Steps to Food β = 0.2 γ = 0.71 β = 0.8 γ = 0.02 Gemiddeld 1.9 stappen naar food

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: multi-step P = 400 β = 0.2 P = 800 β = 0.8 Gemiddeld 20 stappen naar food Steps to Food

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk ZCS Redux: evenredige niche vorming # Rules Fitness Niche from Food

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Verder … Veel belangrijke uitbreidingen en variaties op lerende classificatiesystemen (LCS) bleven onbesproken: Gebruik in sequentiële (multi-step) taken. Omgaan met niet-Markov omgevingen. Leren in de aanwezigheid van ruis. Omgaan met continu-waardige acties (Wilson’s XCSR). Leren van relationele concepten. Leren van hyper-heuristieken....