De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker.

Verwante presentaties


Presentatie over: "Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker."— Transcript van de presentatie:

1 dr. Patrick De Causmaecker, KaHo St.-Lieven Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker

2 dr. Patrick De Causmaecker, KaHo St.-Lieven Er bestaan geen één- agentsystemen

3 dr. Patrick De Causmaecker, KaHo St.-Lieven Belangrijke factoren Communicatie Invloedssferen Conflicterende belangen

4 dr. Patrick De Causmaecker, KaHo St.-Lieven Nuttigheidsgraden en voorkeuren Twee agenten : i en j Elke agent heeft zijn eigen voorkeuren en verlangens in verband met de wereld : zelf- interesse. (self-interested) Er is een verzameling mogelijk resulterende toestanden als gevolg van de acties van de agenten: –  = {  1,  2,  3,…}

5 dr. Patrick De Causmaecker, KaHo St.-Lieven “Utilities” en “Preferences” Om de voorkeuren van de twee agenten weer te geven gebruiken we een nuttigheidsfunctie u: –u i :  –u j :  Deze functies induceren een voorkeurs-ordening : –  i  ’  u i (  )  u i (  ’) –  > i  ’  u i (  ) >u i (  ’) De ordening is reflexief, transitief en volledig

6 dr. Patrick De Causmaecker, KaHo St.-Lieven Wat is nuttigheidsgraad (utility) Kost (geld) Eventueel relatief Subjectieve voorkeur Zie voorbeelden

7 dr. Patrick De Causmaecker, KaHo St.-Lieven Ontmoetingen tussen agenten Veronderstellingen: –Twee agenten –Voeren simultaan een actie uit –Het resultaat is één van de toestanden uit . –Slechts twee mogelijke acties: C en D (van co- operate (samenwerken) en defect (verraden)) –Ac={C,D} –  : Ac  Ac  

8 dr. Patrick De Causmaecker, KaHo St.-Lieven Ontmoetingen tussen agenten Bijvoorbeeld: –  (D,D)=  1,  (D,C)=  2,  (C,D)=  3,  (C,C)=  4 –  (D,D)=  1,  (D,C)=  1,  (C,D)=  1,  (C,C)=  1 –  (D,D)=  1,  (D,C)=  2,  (C,D)=  1,  (C,C)=  2 Het eerste voorbeeld is het meest algemene geval. Veronderstel dat we de volgende nuttigheden kunnen toekennen: –u i (  1 )=1, u i (  2 )=1, u i (  3 )=4,u i (  4 )=4 –u j (  1 )=1, u j (  2 )=4, u j (  3 )=1,u j (  4 )=4

9 dr. Patrick De Causmaecker, KaHo St.-Lieven Ontmoetingen tussen agenten We vereenvoudigen de notatie: –u i (D,D)=1, u i (D,C)=1, u i (C,D)=4,u i (C,C)=4 –u j (D,D)=1, u j (D,C)=4, u j (C,D)=1,u j (C,C)=4 En noteren: –C,C  i C,D  i D,C  i D,D Wat zou je doen, als je agent i was in deze situatie?

10 dr. Patrick De Causmaecker, KaHo St.-Lieven Ontmoetingen tussen agenten Bekijk nu de volgende situatie: –u i (D,D)=4, u i (D,C)=4, u i (C,D)=1,u i (C,C)=1 –u j (D,D)=4, u j (D,C)=1, u j (C,D)=4,u j (C,C)=1 En noteren: –D,D  i D,C  i C,D  i C,C Wat zou je nu doen, als je agent i was in deze situatie?

11 dr. Patrick De Causmaecker, KaHo St.-Lieven De opbrengsten matrix (payoff) i verraad (D)i werkt mee (C) j verraad (D) j werkt mee (C) 4 1 opbrengst i opbrengst j

12 dr. Patrick De Causmaecker, KaHo St.-Lieven Dominantie De reden waarom de voorgaande problemen zo gemakkelijk op te lossen waren was dat beide agenten over dominante strategieën beschikten: –Een verzameling toestanden  1   is (sterk) dominant ten opzichte van een andere verzameling  2   a.s.a. elke toestand  1   1 te verkiezen is boven elke toestand  2   2 –In symbolen: c 1,  2   2 :  1 >  2

13 dr. Patrick De Causmaecker, KaHo St.-Lieven Dominante strategieën We noemen acties nu strategieën. De uitkomst s* van een stategie s is de verzameling toestanden die kunnen resulteren uit het spelen van s. Een stategie s domineert een strategie s’ a.s.a. s* dominant is ten opzichte van s’*. Als s dominant is t.o.v. s’ zal een rationele agent steeds s spelen. Dit laat toe dat we ons beperken tot niet gedomineerde strategieën, en de gedomineerde weglaten

14 dr. Patrick De Causmaecker, KaHo St.-Lieven Zwakke dominantie Als we de strikte ongelijkheid verlaten, en gelijkheid toelaten spreken we van zwakke dominantie –In symbolen:  1   1,  2   2 :  1   2 Zwak gedomineerde strategieën kunnen nog rationele keuzes zijn. We kunnen ze dus niet zonder meer weglaten

15 dr. Patrick De Causmaecker, KaHo St.-Lieven Nash evenwicht Rijden we links of rechts? Vieren we nieuwjaar op 1 januari of op 31 juli? Werkt de vrouw of werkt de man? Twee strategieën s en s’, zijn in Nash evenwicht a.s.a –In de veronderstelling dat agent i s speelt, kan j niet beter doen dan s’ te spelen EN –In de veronderstelling dat agent j s’ speelt, kan i niet beter doen dan s te spelen.

16 dr. Patrick De Causmaecker, KaHo St.-Lieven Nash evenwicht Door het wederzijdse karakter van het evenwicht kan geen van beide agenten afwijken. Geen van de agenten heeft een reden om het evenwicht te verlaten. Spijtig genoeg: –Niet elke interactie heeft een Nash evenwicht –Sommige interacties hebben meer dan één Nash evenwicht

17 dr. Patrick De Causmaecker, KaHo St.-Lieven Competitieve spelen en som nul spelen Stel dat de twee spelers diametraal tegenover mekaar staan: – ,  ’   :  > i  ’ a.s.a.  ’> j  Een dergelijke interactie noemen we strikt competitief Een som nul spel is een interactie waarvoor: –   :u i (  ) + u j (  ) = 0 Som nul spelen zijn strikt competitief. Het zijn de hardste spelen die er kunnen bestaan. Schaken, dammen,… vallen eronder. Er is discussie of die zich in de werkelijkheid voordoen Er is immers meestal een hoger belang dat uiteindelijk door beide spelers erkend wordt (bijvoorbeeld nucleaire oorlog)

18 dr. Patrick De Causmaecker, KaHo St.-Lieven The Prisoners Dilemma Twee mannen zijn beschuldigd van een misdaad en zitten in afzondering Men zegt ze dat 1. Indien één van hen bekent en de andere niet, dan komt degene die bekent vrij, en de ander gaat in de cel voor 3 jaar 2. Indien beide bekennen gaan ze in de cel voor 2 jaar. Ze weten dat, indien geen van hen bekent, ze allebei voor 1 jaar in de cel gaan.

19 dr. Patrick De Causmaecker, KaHo St.-Lieven Speltheorie Bekennen is verraad, niet bekennen is samenwerken. Wat zou jij doen indien je één van de misdadigers was?

20 dr. Patrick De Causmaecker, KaHo St.-Lieven uitkomsten: utility matrix i verraad (D)i werkt mee (C) j verraad (D) j werkt mee (C) D,C > i C,C > i D,D > i C,D C,D > j C,C > j D,D > j D,C

21 dr. Patrick De Causmaecker, KaHo St.-Lieven Nash evenwicht Wat mijn tegenstrever ook kiest, ik bereik … In het voorbeeld is het Nash evenwicht (verraad,verraad) (controleer) Dit is niet helemaal in overeenstemming met ons gevoel voor moraliteit Dit optimaliseert ook niet het totale gevoel van welzijn.

22 dr. Patrick De Causmaecker, KaHo St.-Lieven Moraliteit? De enige manier om tot samenwerking te komen is “irrationaliteit”?! Alternatieven: –In de werkelijkheid zien we meerdere vormen van altruïsme. Is deze werkelijkheid dat niet goed beschreven door speltheorie? –Tweelingenparadox –Rationaliteit? –De schaduw van de toekomst

23 dr. Patrick De Causmaecker, KaHo St.-Lieven Werkelijkheid Er zijn voorbeelden van gedrag dat niet uit “zelf-oriëntatie” schijnt voort te spruiten –Het opstaan op de bus voor een oudere of voor een vrouw met een kind Hier is sprake van een sociale bonus of een straf ingeval men zelfzuchtig gedrag vertoont. –Het eerlijk betalen op de bus, zonder controle Dit kan werken, maar het betekent niet dat de “bedrieger” niet beter af is

24 dr. Patrick De Causmaecker, KaHo St.-Lieven De tweelingenparadox “De andere speler is mijn tweelingbroer, hij zal op dezelfde manier redeneren als ik” –cfr Fermi’s paradox: “Where is everybody” Het probleem hier is dat we het dilemma niet echt spelen. Als we onze tweelingbroer kunnen laten denken wat we willen door het zelf te denken is er slechts één speler.

25 dr. Patrick De Causmaecker, KaHo St.-Lieven Rationaliteit? In sommige gevallen is het niet zo erg om te verliezen. Betalen op de bus is geen onoverkomelijke aangelegenheid, we kunnen het evengoed doen als de bussen erdoor langer en beter blijven rijden, ook al zijn er profiteurs. In het geval dat het er echt op aan komt handelen we wel rationeel en kiezen we voor verraad –Homo Homini Lupus (Plautus, ca 200 vC. )

26 dr. Patrick De Causmaecker, KaHo St.-Lieven

27 dr. Patrick De Causmaecker, KaHo St.-Lieven De schaduw van de toekomst “Iterated Prisoners Dilemma” –Het spel wordt verschillende keren gespeeld, verschillende “ronden”. Laten we veronderstellen “zeer lang” of in mathematische termen “oneindig lang”. –Als ik nu verraad, dan kan mijn tegenstrever me “straffen” door straks ook te verraden. –Als ik nu eens probeer, door mee te werken, dan kan ik niet zo heel veel verliezen, en misschien komen we tot samenwerking.

28 dr. Patrick De Causmaecker, KaHo St.-Lieven De toekomst Als we het spel oneindig lang spelen is samenwerking een rationele uitkomst. Maar wat als we veel, maar niet oneindig lang spelen? –Wat doen we de laatste ronde? Verraad is hier het meest rationeel. –Hierdoor wordt de op één na laatste ronde effectief de laatste. Wat doen we hier? Verraad. –… –Verraad is de rationele strategie!

29 dr. Patrick De Causmaecker, KaHo St.-Lieven In de werkelijkheid? Er is altijd een “waarschijnlijkheid” dat we opnieuw zullen spelen.Het eindig aantal keer spelen is dus niet realistisch. Samenwerken kan dus wel rationeel zijn.

30 dr. Patrick De Causmaecker, KaHo St.-Lieven De wedstrijd van Axelrod 1984: Robert Axelrod, politieke wetenschappen, wil uitvinden hoe samenwerken tot stand kan komen tussen zelf-geörienteerde agenten. Hij lanceert een wedstrijd: –Zend een programma in dat het “iterated prisoners dilemma” speelt –Elk programma weet enkel wat de tegenstrever in de voorgaande zetten gedaan heeft –Het komt 5 keer uit tegen elke tegenstrever, elke keer voor 200 ronden –De winnaar is degene met de beste totale score

31 dr. Patrick De Causmaecker, KaHo St.-Lieven Voorbeelden van inzendingen ALT-D: verraad altijd (de “optimale” strategie) RANDOM: kies C of D at random, elke keer TIT-FOR-TAT: –C in de eerste ronde, en dan –Wat de tegenstrever deed in de vorige ronde

32 dr. Patrick De Causmaecker, KaHo St.-Lieven Voorbeelden van inzendingen TESTER: een beetje uitproberen, of er een straf kwam, zo ja TIT-FOR-TAT, anders twee keer C en weer D… JOSS: probeert ook zwakke tegenstrevers uit te buiten. TIT-FOR-TAT met 10% keuze voor D ipv C. –Wat is de theoretisch beste keuze? –Wat zou jij indienen?

33 dr. Patrick De Causmaecker, KaHo St.-Lieven De winnaar TIT-FOR-TAT, het bleek tevens het eenvoudigste programma te zijn. De reden is dat het het beste scoorde bij alle programma’s, waaronder een aantal zwakkere. Het verloor natuurlijk van ALT- D, maar kon profiteren van andere programma’s die op samenwerking ingesteld waren.

34 dr. Patrick De Causmaecker, KaHo St.-Lieven De redenen van Axelrod TIT-FOR-TAT won omdat –Het zonder naijver was –Het nooit als eerste verraad pleegde –Samenwerking en verraad zijn exact gelijk aanwezig in de reacties van TIT-FOR-TAT –Probeer niet te slim te zijn. Sommige strategieën probeerden een model op te bouwen van de tegenstrever, daar bij vergetend dat het model mee bepaald werd door hun eigen gedrag. Vergevingsgezindheid loont Zorg dat de tegenstrever je gedrag kan begrijpen

35 dr. Patrick De Causmaecker, KaHo St.-Lieven Na 20 jaar: The Prisoner's Dilemma Competition

36 dr. Patrick De Causmaecker, KaHo St.-Lieven Andere 2x2 interacties Er zijn juist 24 verschillende spelen, die ontstaan uit de 24 mogelijke volgordes van het type –D,C > C,C > D,D > C,D Veel van deze spelen zijn triviaal door dominantie van een strategie: –C,C > C,D > D,C > D,D –D,D > D,C > C,D > C,C

37 dr. Patrick De Causmaecker, KaHo St.-Lieven

38 dr. Patrick De Causmaecker, KaHo St.-Lieven Andere voorbeelden Hertenjacht: –Twee jagers hebben de keuze tussen de jacht op een hert, gezamenlijk, of de jacht op een konijn (individueel). Hertenjacht is moeilijk, samenwerking is nodig. Het brengt het meeste op, maar vraagt verstandhouding. i Di C j D j C

39 dr. Patrick De Causmaecker, KaHo St.-Lieven Andere voorbeelden Kiekenspel –Start met 2 wagens op 500 meter van de rand van de rots. Blijf op gelijke hoogte. Wie het eerst afwijkt verliest. (Rebel without a cause) i D (oorrijden)i C (afwijken) j D (oorrijden) j C(afwijken) 3 1 2

40 dr. Patrick De Causmaecker, KaHo St.-Lieven Afhankelijkheidsrelaties Er zijn andere benaderingen, gebaseerd op afhankelijkheid: –Onafhankelijkheid –Unilaterale afhankelijkheid –Wederzijdse afhanklijkheid –Wederkerige afhankelijkheid Met als onderscheid: lokaal geloof, wederzijds geloof. DepNet (Sichman et al, 1994) gebruikt een redneersysteem om deze afhankelijkheden af te leiden.

41 dr. Patrick De Causmaecker, KaHo St.-Lieven Uitbreidingen Geitereerde Prisoners Dilemma –De beste strategie is de eerste keer mee te werken en vervolgens te doen wat je partner deed (variatie:uitwisseling van geld en prijs) Geïtereerde Prisoners Dilemma in een groep –Individuen die niet meewerken doen het slecht –Een klein percentage vergevingsgezindheid doet goed tegen valkuilen Geïtereerde PD met een eindig aantal iteraties (op voorhand bekend) Wat is het Nash evenwicht?


Download ppt "Dr. Patrick De Causmaecker, KaHo St.-Lieven 2004 1 Agententechnologie Les 6: meer-agentinteracties dr. Patrick De Causmaecker."

Verwante presentaties


Ads door Google