Agententechnologie Les 6: meer-agentinteracties

Agententechnologie Les 6: meer-agentinteracties
dr. Patrick De Causmaecker dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Er bestaan geen één-agentsystemen
dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

dr. Patrick De Causmaecker, KaHo St.-Lieven 2004
Belangrijke factoren Communicatie Invloedssferen Conflicterende belangen dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Nuttigheidsgraden en voorkeuren
Twee agenten : i en j Elke agent heeft zijn eigen voorkeuren en verlangens in verband met de wereld : zelf-interesse. (self-interested) Er is een verzameling mogelijk resulterende toestanden als gevolg van de acties van de agenten:  = {1,  2,  3,…} dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

“Utilities” en “Preferences”
Om de voorkeuren van de twee agenten weer te geven gebruiken we een nuttigheidsfunctie u: ui :  uj :  Deze functies induceren een voorkeurs-ordening : i’  ui ()  ui (’) >i’  ui () >ui (’) De ordening is reflexief, transitief en volledig dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Wat is nuttigheidsgraad (utility)
Kost (geld) Eventueel relatief Subjectieve voorkeur Zie voorbeelden dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Ontmoetingen tussen agenten
Veronderstellingen: Twee agenten Voeren simultaan een actie uit Het resultaat is één van de toestanden uit  . Slechts twee mogelijke acties: C en D (van co-operate (samenwerken) en defect (verraden)) Ac={C,D}  : Ac  Ac   dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Bijvoorbeeld: (D,D)=1,(D,C)=2,(C,D)=3,(C,C)=4 (D,D)=1,(D,C)=1,(C,D)=1,(C,C)=1 (D,D)=1,(D,C)=2,(C,D)=1,(C,C)=2 Het eerste voorbeeld is het meest algemene geval. Veronderstel dat we de volgende nuttigheden kunnen toekennen: ui( 1)=1, ui(2)=1, ui(3)=4,ui(4)=4 uj( 1)=1, uj(2)=4, uj(3)=1,uj(4)=4 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

We vereenvoudigen de notatie: ui(D,D)=1, ui(D,C)=1, ui(C,D)=4,ui(C,C)=4 uj(D,D)=1, uj(D,C)=4, uj(C,D)=1,uj(C,C)=4 En noteren: C,C i C,D i D,C i D,D Wat zou je doen, als je agent i was in deze situatie? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Bekijk nu de volgende situatie: ui(D,D)=4, ui(D,C)=4, ui(C,D)=1,ui(C,C)=1 uj(D,D)=4, uj(D,C)=1, uj(C,D)=4,uj(C,C)=1 En noteren: D,D i D,C i C,D i C,C Wat zou je nu doen, als je agent i was in deze situatie? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De opbrengsten matrix (payoff)
i verraad (D) i werkt mee (C) j verraad (D) 4 1 j werkt mee (C) opbrengst i opbrengst j dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Dominantie De reden waarom de voorgaande problemen zo gemakkelijk op te lossen waren was dat beide agenten over dominante strategieën beschikten: Een verzameling toestanden 1   is (sterk) dominant ten opzichte van een andere verzameling 2   a.s.a. elke toestand 1  1 te verkiezen is boven elke toestand 2  2 In symbolen: c1 ,2  2 : 1 > 2 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Dominante strategieën
We noemen acties nu strategieën. De uitkomst s* van een stategie s is de verzameling toestanden die kunnen resulteren uit het spelen van s. Een stategie s domineert een strategie s’ a.s.a. s* dominant is ten opzichte van s’*. Als s dominant is t.o.v. s’ zal een rationele agent steeds s spelen. Dit laat toe dat we ons beperken tot niet gedomineerde strategieën, en de gedomineerde weglaten dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Zwakke dominantie Als we de strikte ongelijkheid verlaten, en gelijkheid toelaten spreken we van zwakke dominantie In symbolen: 1  1 ,2  2 : 1  2 Zwak gedomineerde strategieën kunnen nog rationele keuzes zijn. We kunnen ze dus niet zonder meer weglaten dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Nash evenwicht Rijden we links of rechts? Vieren we nieuwjaar op 1 januari of op 31 juli? Werkt de vrouw of werkt de man? Twee strategieën s en s’, zijn in Nash evenwicht a.s.a In de veronderstelling dat agent i s speelt, kan j niet beter doen dan s’ te spelen EN In de veronderstelling dat agent j s’ speelt, kan i niet beter doen dan s te spelen. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Nash evenwicht Door het wederzijdse karakter van het evenwicht kan geen van beide agenten afwijken. Geen van de agenten heeft een reden om het evenwicht te verlaten. Spijtig genoeg: Niet elke interactie heeft een Nash evenwicht Sommige interacties hebben meer dan één Nash evenwicht dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Competitieve spelen en som nul spelen
Stel dat de twee spelers diametraal tegenover mekaar staan: ,’  : >i’ a.s.a. ’>j Een dergelijke interactie noemen we strikt competitief Een som nul spel is een interactie waarvoor:   :ui() + u j() = 0 Som nul spelen zijn strikt competitief. Het zijn de hardste spelen die er kunnen bestaan. Schaken, dammen,… vallen eronder. Er is discussie of die zich in de werkelijkheid voordoen Er is immers meestal een hoger belang dat uiteindelijk door beide spelers erkend wordt (bijvoorbeeld nucleaire oorlog) dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

The Prisoners Dilemma Twee mannen zijn beschuldigd van een misdaad en zitten in afzondering Men zegt ze dat 1. Indien één van hen bekent en de andere niet, dan komt degene die bekent vrij, en de ander gaat in de cel voor 3 jaar 2. Indien beide bekennen gaan ze in de cel voor 2 jaar. Ze weten dat, indien geen van hen bekent, ze allebei voor 1 jaar in de cel gaan. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Speltheorie Bekennen is verraad, niet bekennen is samenwerken. Wat zou jij doen indien je één van de misdadigers was? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

4 uitkomsten: utility matrix
i verraad (D) i werkt mee (C) j verraad (D) 2 5 j werkt mee (C) 3 D,C >i C,C >i D,D >i C,D C,D >j C,C >j D,D >j D,C dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Nash evenwicht Wat mijn tegenstrever ook kiest, ik bereik … In het voorbeeld is het Nash evenwicht (verraad,verraad) (controleer) Dit is niet helemaal in overeenstemming met ons gevoel voor moraliteit Dit optimaliseert ook niet het totale gevoel van welzijn. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Moraliteit? De enige manier om tot samenwerking te komen is “irrationaliteit”?! Alternatieven: In de werkelijkheid zien we meerdere vormen van altruïsme. Is deze werkelijkheid dat niet goed beschreven door speltheorie? Tweelingenparadox Rationaliteit? De schaduw van de toekomst dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Werkelijkheid Er zijn voorbeelden van gedrag dat niet uit “zelf-oriëntatie” schijnt voort te spruiten Het opstaan op de bus voor een oudere of voor een vrouw met een kind Hier is sprake van een sociale bonus of een straf ingeval men zelfzuchtig gedrag vertoont. Het eerlijk betalen op de bus, zonder controle Dit kan werken, maar het betekent niet dat de “bedrieger” niet beter af is dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De tweelingenparadox “De andere speler is mijn tweelingbroer, hij zal op dezelfde manier redeneren als ik” cfr Fermi’s paradox: “Where is everybody” Het probleem hier is dat we het dilemma niet echt spelen. Als we onze tweelingbroer kunnen laten denken wat we willen door het zelf te denken is er slechts één speler. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Rationaliteit? In sommige gevallen is het niet zo erg om te verliezen. Betalen op de bus is geen onoverkomelijke aangelegenheid, we kunnen het evengoed doen als de bussen erdoor langer en beter blijven rijden, ook al zijn er profiteurs. In het geval dat het er echt op aan komt handelen we wel rationeel en kiezen we voor verraad Homo Homini Lupus (Plautus, ca 200 vC. ) dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De schaduw van de toekomst
“Iterated Prisoners Dilemma” Het spel wordt verschillende keren gespeeld, verschillende “ronden”. Laten we veronderstellen “zeer lang” of in mathematische termen “oneindig lang”. Als ik nu verraad, dan kan mijn tegenstrever me “straffen” door straks ook te verraden. Als ik nu eens probeer, door mee te werken, dan kan ik niet zo heel veel verliezen, en misschien komen we tot samenwerking. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De toekomst Als we het spel oneindig lang spelen is samenwerking een rationele uitkomst. Maar wat als we veel, maar niet oneindig lang spelen? Wat doen we de laatste ronde? Verraad is hier het meest rationeel. Hierdoor wordt de op één na laatste ronde effectief de laatste. Wat doen we hier? Verraad. … Verraad is de rationele strategie! dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

In de werkelijkheid? Er is altijd een “waarschijnlijkheid” dat we opnieuw zullen spelen.Het eindig aantal keer spelen is dus niet realistisch. Samenwerken kan dus wel rationeel zijn. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De wedstrijd van Axelrod
1984: Robert Axelrod, politieke wetenschappen, wil uitvinden hoe samenwerken tot stand kan komen tussen zelf-geörienteerde agenten. Hij lanceert een wedstrijd: Zend een programma in dat het “iterated prisoners dilemma” speelt Elk programma weet enkel wat de tegenstrever in de voorgaande zetten gedaan heeft Het komt 5 keer uit tegen elke tegenstrever, elke keer voor 200 ronden De winnaar is degene met de beste totale score dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Voorbeelden van inzendingen
ALT-D: verraad altijd (de “optimale” strategie) RANDOM: kies C of D at random, elke keer TIT-FOR-TAT: C in de eerste ronde, en dan Wat de tegenstrever deed in de vorige ronde dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Voorbeelden van inzendingen
TESTER: een beetje uitproberen, of er een straf kwam, zo ja TIT-FOR-TAT, anders twee keer C en weer D… JOSS: probeert ook zwakke tegenstrevers uit te buiten. TIT-FOR-TAT met 10% keuze voor D ipv C. Wat is de theoretisch beste keuze? Wat zou jij indienen? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De winnaar TIT-FOR-TAT, het bleek tevens het eenvoudigste programma te zijn. De reden is dat het het beste scoorde bij alle programma’s, waaronder een aantal zwakkere. Het verloor natuurlijk van ALT-D, maar kon profiteren van andere programma’s die op samenwerking ingesteld waren. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

De redenen van Axelrod TIT-FOR-TAT won omdat Het zonder naijver was Het nooit als eerste verraad pleegde Samenwerking en verraad zijn exact gelijk aanwezig in de reacties van TIT-FOR-TAT Probeer niet te slim te zijn. Sommige strategieën probeerden een model op te bouwen van de tegenstrever, daar bij vergetend dat het model mee bepaald werd door hun eigen gedrag. Vergevingsgezindheid loont Zorg dat de tegenstrever je gedrag kan begrijpen dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Na 20 jaar: The Prisoner's Dilemma Competition dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Andere 2x2 interacties Er zijn juist 24 verschillende spelen, die ontstaan uit de 24 mogelijke volgordes van het type D,C > C,C > D,D > C,D Veel van deze spelen zijn triviaal door dominantie van een strategie: C,C > C,D > D,C > D,D D,D > D,C > C,D > C,C dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Andere voorbeelden Hertenjacht: Twee jagers hebben de keuze tussen de jacht op een hert, gezamenlijk, of de jacht op een konijn (individueel). Hertenjacht is moeilijk, samenwerking is nodig. Het brengt het meeste op, maar vraagt verstandhouding. i D i C j D 7 8 j C 10 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Andere voorbeelden Kiekenspel Start met 2 wagens op 500 meter van de rand van de rots. Blijf op gelijke hoogte. Wie het eerst afwijkt verliest. (Rebel without a cause) i D (oorrijden) i C (afwijken) j D (oorrijden) 1 3 j C(afwijken) 2 dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Afhankelijkheidsrelaties
Er zijn andere benaderingen, gebaseerd op afhankelijkheid: Onafhankelijkheid Unilaterale afhankelijkheid Wederzijdse afhanklijkheid Wederkerige afhankelijkheid Met als onderscheid: lokaal geloof, wederzijds geloof. DepNet (Sichman et al, 1994) gebruikt een redneersysteem om deze afhankelijkheden af te leiden. dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Uitbreidingen Geitereerde Prisoners Dilemma De beste strategie is de eerste keer mee te werken en vervolgens te doen wat je partner deed (variatie:uitwisseling van geld en prijs) Geïtereerde Prisoners Dilemma in een groep Individuen die niet meewerken doen het slecht Een klein percentage vergevingsgezindheid doet goed tegen valkuilen Geïtereerde PD met een eindig aantal iteraties (op voorhand bekend) Wat is het Nash evenwicht? dr. Patrick De Causmaecker, KaHo St.-Lieven 2004

Agententechnologie Les 6: meer-agentinteracties

Verwante presentaties

Presentatie over: "Agententechnologie Les 6: meer-agentinteracties"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Agententechnologie Les 6: meer-agentinteracties

Verwante presentaties

Presentatie over: "Agententechnologie Les 6: meer-agentinteracties"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback