Agententechnologie Les 5: reactieve en hybriede agenten dr. Patrick De Causmaecker dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Reactief?! Symbolische representaties en beslissingen gebaseerd op syntactische manipulatie is een niet werkende methode Intelligent gedrag is onlosmakelijk verbonden met de omgeving waarin de agent verblijft Intelligent gedrag komt voort uit de interactie van eenvoudige acties dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
De “subsumption” architectuur (Brooks) Uitgangspunten over intelligentie: Kan ontstaan zonder expliciete representaties Kan ontstaan zonder abstracte redeneren Is een emergente eigenschap van complexe systemen Twee basis ideeën: Situering en belichaming Intelligentie en emergentie dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 De architectuur Twee karakteristieken Beslissingen via taak uitvoerend gedrag (behaviours als eindige-toestandsmachines) Geen symbolische representaties of redenering Vorm : situatie -> actie De verschillende behaviours kunnen simultaan afvuren Ze komen in een hiërarchie van lagen, de laagste lagen hebben voorrang op de hogere De see(…) blijft bestaan, maar bevat geen ingewikkelde bewerking van de sensorsignalen dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 De actieselectie R: gedragsregels <: voorrangsrelatie function action(p:P):A var fired : (R) var selected:A begin fired <-{(c,a)|(c,a) in R en p in c} for each (c,a) in fired do if there is no (c’,a’) < (c,a) in fired then return a end-if end-for return null End function action dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Steels dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
Luc Steels: de Mars explorer Het doel is op Mars waardevolle gesteenten te zoeken en ze terug te brengen naar de aarde. We weten niet waar de gesteenten zich bevinden, maar we weten dat ze in hoopjes voorkomen. We beschikken over een aantal autonome voertuigen die rond kunnen rijden en stukjes steen kunnen oppikken en naar het moederschip kunnen brengen. Er zijn veel obstakels die verhinderen dat de voertuigjes communiceren. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Symbolisch? Luc Steels noemt de “klassieke” benadering met logica volstrekt onrealistisch. Hij stelt een methode voor die beperkt is tot Een gradient veld dat de richting van het moederschip aangeeft (bijv. een radiosignaal) Het gebruik van radioactieve kruimels die door de voertuigen geplaatst, gedetecteerd en opgeraapt kunnen worden dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
Individualistische agenten Regels: (1) if detect an obstacle then change direction (2) if carrying samples and at the base then drop samples (3) if carrying samples and not at the base then travel up gradient (4) if detect a sample then pick sample up (5) if true then move randomly Niveaus: (1)<(2)<(3)<(4)<(5) dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Coöperatie Regel 3 verandert in 6: (6) if carrying samples and not at the base then drop two crumbs and travel up gradient Regel 8 wordt toegevoegd: (8) if sense crumbs then pick up 1 crumb and travel down gradient Volgens de prioriteit: (1)<(2)<(6)<(4)<(8)<(5) dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
Maes: Agent Network Architecture (ANA) Agent is een verzameling competentiemodules die overeenkomen met de gedragingen in de subsumption architectuur. Elke module wordt met precondities en postcondities gedefinieerd en heeft een activatieniveau dat de relevantie van de module in de huidige situatie aangeeft Tijdens het uitvoeren worden de modules in een activatienetwerk verbonden via hun pre en post condities dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
Beperkingen van reactieve agenten Agenten moeten voldoende informatie hebben in hun lokale omgeving Hoe kunnen agenten niet-lokale informatie opnemen? Ze hebben een korte termijn visie. Hoe kunnnen ze leren uit ervaring? Emergent gedrag is mooi, maar moeilijk te begrijpen. Hoe ontwerpen we dergelijke systemen? Wat indien de complexiteit veel lagen vereist? -> evoluerende agenten, artificial life dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Hybriede agenten Een manier om de complexiteit te beheersen is te werken met lagen: horizontaal of vertikaal Horizontaal gelaagde agenten zijn in competitie. Het ontwerp lijkt eenvoudig. Een nadeel is de beheersing van de interactie tussen de agenten. Vaak wordt een mediator gebruikt. Zijn werk wordt exponentieel ingewikkelder naarmate het aantal lagen toeneemt. Vertikaal gelaagde agenten beperken de interacties tot de interfaces tussen opeenvolgende lagen dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Hybriede agenten Laag n Input van perceptie … Output actie Laag 2 Laag 1 Laag n Laag n … … Laag 2 Laag 2 Laag 1 Laag 1 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 TouringMachines Sensor input Modelling layer Perception subsystem Action Subsystem Planning layer Reacive layer Action output Control subsystem dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 The TouringMachine Reactive layer: Eenvoudige situatie-actie regels (voorbeeld obstakels vermijden) Planning layer Proactief gedrag, wat doet de agent, het gebruikt een planotheek van schemata voor plannen Modelling layer Stelt de objecten en de andere agenten in het systeem voor. Voorspelt conflicten en postuleert doelen voor de planning layer Het controle systeem bepaalt welk van de layers de agent op een bepaald ogenblik bestuurt, en kan ook de perceptie beperken voor een bepaalde layer dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 InteRRaP Cooperation layer Social knowledge Plan layer Planning Knowledge Behavious layer World model World interface dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Preview: speltheorie Prisoners dilemma Twee mannen zijn beschuldigd van een misdaad en zitten in afzondering Men zegt ze dat 1. Indien één van hen bekent en de andere niet, dan komt degene die bekent vrij, en de ander gaat in de cel voor 3 jaar 2. Indien beide bekennen gaan ze in de cel voor 2 jaar. Ze weten dat, indien geen van hen bekent, ze allebei voor 1 jaar in de cel gaan. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Speltheorie Bekennen is verraad, niet bekennen is samenwerken. Wat zou jij doen indien je één van de misdadigers was? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
4 uitkomsten: utility matrix i verraad i werkt samen j verraad 2 5 j werkt samen 3 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Nash evenwicht Wat mijn tegenstrever ook kiest, ik bereik … In het voorbeeld is het Nash evenwicht (verraad,verraad) (controleer) Dit is niet helemaal in overeenstemming met ons gevoel voor moraliteit Dit optimaliseert ook niet het totale gevoel van welzijn. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 Uitbreidingen Geitereerde Prisoners Dilemma De beste strategie is de eerste keer mee te werken en vervolgens te doen wat je partner deed (variatie:uitwisseling van geld en prijs) Geïtereerde Prisoners Dilemma in een groep Individuen die niet meewerken doen het slecht Een klein percentage vergevingsgezindheid doet goed tegen valkuilen Geïtereerde PD met een eindig aantal iteraties (op voorhand bekend) Wat is het Nash evenwicht? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004