Inleiding adaptieve systemen

Slides:



Advertisements
Verwante presentaties
Doe jij ook mee? de samenleving dat ben jij,
Advertisements

Het tweede werkstuk.
De schaduw van Jan Harrie Geelen Querido.
Simultaan Tafelrondje
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Aanvullende uitleg zaalregels - clubarbitrage
Hoe ruim ik mijn kamer op?
Uitleg bijwoordelijke bepaling (bwb)
Herkenning? Rot voelen? Leegte opvullen?
Uitleg meewerkend voorwerp (mv)
Opkomen voor jezelf.
De Drama Driehoek.
Beter afspelen.
Welke kenmerken schrijven jij of anderen aan God toe? Roept u maar!
Uitleg lijdend voorwerp (lv)
Sander Mager Roel Lafeber CE2A. Sinds een aantal maanden ben ik erg fanatiek de game ‘’Candy Crush’’ aan het spelen. Een klasgenootje van mij speelde.
Deze Tantra komt uit het noorden van Indië, of je nu bijgelovig bent of niet. Neem toch een paar minuten de tijd. Ze bevat sommige boodschappen die goed.
Schoolplein Rachelle Lisa Chantal Xian Leroy.
Agententechnologie Les 6: meer-agentinteracties
Speltheorie een techniek om situaties met strategische interacties tussen verschillende beslissingnemers te analyseren en de uitkomst te voorspellen.
Waarom is Jezus aan het kruis gestorven?!
Aanvullende uitleg zaalregels - clubarbitrage
TAALPROBLEMEN ODD ONE OUT.
Ik geloof… Dat onze achtergrond en omstandigheden misschien wel van invloed zijn geweest op wie we zijn, maar dat wìj verantwoorde- lijk zijn voor wie.
Inleiding adaptieve systemen
Sportiviteit & Respect HC Twente 26 maart 2014
Werk mijmeringen Sleepy Shores.
HET CURRICULUM VITAE = VISTEKAARTJE NUMMER 2
Inleiding Adaptieve Systemen
Tijd voor wat filosofie Muziek: The Great Pretender (The Platters)
Mario party is een spellen reeks, er komen steeds nieuwe. Mario party is een soort monopoly met spellen. Je speelt het met 2 of 4 spelers. Het doel van.
Mario Kart Mario kart is een serie van race spellen met wapens.
ADP Tussenopdracht: Horseman Student: Kaj Metz Richting: GAR Module: Design & Research Vak: Action Design Principles Docent: Karel Millenaar Datum:
WELKOM OP TOV!.
Antwoord voor jezelf op de volgende vragen met NOOIT, WEINIG of REGELMATIG 1Hoe vaak nodig jij anderen uit voor een bakje koffie? 2Hoe vaak laat jij.
Prisoner’s Dilemma een experiment.
Conditioneel Compatibilisme
Een bericht speciaal voor jouw m’n
Les 3 Uitkomen tegen SA-contracten
Werkverslag. Inhoudsopgave Pag.1 wat hebben we gedaan in deze lessen?
Het verdwenen paard Alisha en Melissa. Ja, hij is super lief. Wat een lief paard.
Uitleg bijvoeglijke bepaling (bvb)
Vrouwen hebben ALTIJD het laatste woord
Spelregeltest Oliveo Handbal
Interpreteren van data
Project Management Fails
N T E R C I E F D E K N A CREATIEF DENKEN.
Masker.
Lucas 15: 11 En Hij zeide: Iemand had twee zonen
Zondag 2 HC Franeker 13 september 2009
Wees eens wat OENiger Open – Eerlijk - Nieuwsgierig
Arthur Japin, de niet-gelovige hoofdredacteur van de #Jezusglossy, over vergeving.
Ik doe mijn presentatie over…
Ik wou dat ik een vulkaan was, dan kon ik de hele dag roken en zou iedereen zeggen: "kijk hij werkt".
Hoe gaat het verder na Bethel?
Uitleg persoonsvorm (pv)
Fantasie Gemaakt door Kristie!.
Wat is het heerlijk om een man te zijn!!
Altijd online!.
V2.5 NdF-h4 1 NdF-h1 1 1e9 1 Hoofdstuk 4 Speelvolgorde in een SA-contract Hoofdstuk 4 Speelvolgorde in een SA-contract.
Vrienden Deze gedichten zijn speciaal voor de vrienden om wie ik geef en de mensen die om mij geven Al deze gedichten komen van
Zaalbriefing
Hoofdstuk 5: Lastige gesprekken met individuele studenten.
Het kwetsbare vertrouwen van ouders in de jgz Justine Pardoen Ouders Online.
Mondriaan Symposium 17 maart WORKSHOP MONDRIAAN SYMPOSIUM 17 MAART 2016 FRANS HEUS Ga toch fietsen! Mondriaan Symposium.
Welke betekenis?. Welke betekenis? Welke betekenis heeft vriendschap voor jou en mij? Rechts definitie Wikipedia.
Welkom op onze thema-avond
Nee Zeggen!.
Speltheorie een techniek om situaties met strategische interacties tussen verschillende beslissingnemers te analyseren en de uitkomst te voorspellen.
Transcript van de presentatie:

Inleiding adaptieve systemen Competitie en coöperatie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Inhoud Twee-persoons competitieve symmetrische niet-nulsom spelen op basis van volledige informatie met simultane zetten en kwantitatieve beloningen Prisoner’s Dilemma ( PD ) Stag Hunt ( SH ) Chicken ( CK ) Begrippen: Pareto-optimale oplossing, Nash-evenwicht Uitbreidingen van het Prisoner’s Dilemma Geïtereerd ( IPD ) Geïtereerd evolutionair ( IEPD ) Geïtereerd ruimtelijk evolutionair ( SIEPD ) Geïtereerd continu ruimtelijk evolutionair ( CSIEPD ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Coöperatieve spelen Agent 2 Agent 1 a1 a2 a3 11 –30 7 6 5 Doel: coördinatie Agent 2 Agent 1 a1 a2 a3 11 –30 7 6 5 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Doel: eigen winst-maximalisatie Competitieve spelen Doel: eigen winst-maximalisatie Agent 2 Agent 1 a1 a2 a3 11, 11 –30, 1 0, 1 1, –30 7, 7 6, 0 1, 0 0, 6 5, 5 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Competitieve spelen Wie doet de vaat? Gedeelde koffiepot Meeliften in groepswerk Wielrenners in een kopgroep NIMBY problematiek (windmolenpark) Vangstquotum in de visserij Handelsoorlog Wapenwedloop Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Prisoner’s dilemma (Speler B) (Mondje dicht) (Verklikken) Speler A Taakstraf (Taakstraf) Levenslang (Vrij en bescherming) Verklikken Vrij en bescherming (Levenslang) Straf (Straf) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Prisoner’s dilemma (Speler B) (Cooperate) (Defect) Speler A Cooperate Taakstraf (Taakstraf) Levenslang (Vrij en bescherming) Defect Vrij en bescherming (Levenslang) Straf (Straf) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Prisoner’s dilemma (Speler B) (Cooperate) (Defect) Speler A Cooperate 3 (3) 0 (5) Defect 5 (0) 1 (1) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Drink je het laatste kopje uit de kan? Zet even nieuwe! Koffiezet dilemma ik ( de ander ) is sociaal lift mee ben sociaal altijd koffie, soms corvee ik doe alle werk, hij profiteert ik profiteer, hij doet corvee niemand heeft meer koffie zo Drink je het laatste kopje uit de kan? Zet even nieuwe! 3 (3) 1 (5) 5 (1) 0 (0) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Hetzelfde dilemma? Prisoner’s dilemma (B) (C) (D) A C 3 ( 3 ) 0 ( 5 ) 5 ( 0 ) 1 ( 1 ) Koffie-dilemma (B) (C) (D) A C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) T = Tempation R = Reward P = Penalty S = Sucker Dilemma? (B) (C) (D) A C R ( R ) S ( T ) D T ( S ) P ( P ) T = Tempation R = Reward S = Sucker P = Penalty Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Hoeveel soorten dilemma’s? (B) (C) (D) A C R ( R ) S ( T ) D T ( S ) P ( P ) In principe zijn er 4! = 24 dilemma’s Alleen lastig als… …but he has motivation to defect I prefer the other to cooperate en en of Reward > Sucker Temptation > Penalty Temptation > Reward Penalty > Sucker Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Welke strategie kies je? Jij bent speler Speler 1. Je speelt één keer, zonder vooraf te (kunnen of willen) communiceren met Speler 2. Wat zou je doen als je wist dat Speler 2 samenwerkt (C)? Wat zou je doen als je wist dat Speler 2 verzaakt (D)? Dus wat zou je i.h.a. doen? Speler 2 Spe-ler 1 C D 3 ( 3 ) 0 ( 5 ) 5 ( 0 ) 1 ( 1 ) Wat zou Speler 2 i.h.a. doen? Zou het uitmaken als Speler 1 en Speler 2 van te voren mochten communiceren? Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Pareto-optimale oplossing ( B ) ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Een oplossing heet Pareto-optimaal als er geen betere oplossing is die de ander niet schaadt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Nash-evenwicht A ( B ) ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Een gecombineerde strategie is een Nash-evenwicht als geen van de spelers reden heeft om eenzijdig een andere keus te maken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Toch is het niet echt een dilemma: Prisoner’s dilemma Het Prisinor’s dilemma heeft één Nash-evenwicht… …maar dat is niet Pareto-optimaal Toch is het niet echt een dilemma: Beide spelers kiezen D Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Normaalvorm (= generieke 2x2 matrix) CC: we werken samen (Reward payoff, R) DC: ik verzaak, de ander is een sukkel (Temptation payoff, T) CD: ik ben coöperatief, de ander verzaakt (Sucker payoff, S) DD: we verzaken beiden (Penalty payoff, P) Naam van het spel ( Speler B ) ( C ) ( D ) Spe-ler A C R ( r ) S ( t ) D T ( s ) P ( p ) Je krijgt verschillende spelen als je gaat variëren met P, R, S, T Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Chicken game

Chicken Ook wel: “sway or dare” DC: ik rij rechtdoor, de ander niet CC: we wijken beiden uit CD: ik wijk uit, de ander rijdt rechtdoor DD: we rijden beiden rechtdoor Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Lijkt Chicken op Prisoner of Koffie? Prisoner’s dilemma (B) (C) (D) A C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Koffie-dilemma (B) (C) (D) A C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) T = Tempation R = Reward P = Penalty S = Sucker T = Tempation R = Reward S = Sucker P = Penalty Chicken is als Koffie, want doodgaan is nog net wat erger dan “Chicken” genoemd worden Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Snowdrift DC: ik blijf zitten, de ander ruimt sneeuw CC: we ruimen beiden sneeuw CD: ik ruim sneeuw, de ander niet DD: we ruimen beiden geen sneeuw (en vriezen dood) Ook hier geldt weer: T > R > S > P. Dus identiek aan Chicken en Koffie Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Ontsnapte wielrenner terughalen DC: de ander haalt groen terug en terwijl hij dat doet, ga ik in z’n wiel zitten CC: we halen hem samen terug CD: ik haal hem terug, met die ander in m’n wiel (en verminder zo m’n winstkansen) DD: niemand haalt iemand terug (en we verliezen allebei de wedstrijd) Je con-current Jij Ook hier geldt weer: T > R > S > P. Dus identiek aan Chicken Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Stag Hunt (Hert of haas) CC: we jagen samen op een hert DC: ik jaag op een haas (jij vruchteloos op een hert) DD: we jagen beiden op een haas CD: jij jaagt op een haas (ik vruchteloos op een hert) Claude Monet. De Jacht (1876) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Stag Hunt (Hert of haas) ik ( de ander ) doet mee pakt de haas doe mee samen een groot hert! ik heb niks, hij eet haas pak de haas ik eet haas, hij heeft niks samen een haasje. R = Reward T = Tempation P = Penalty S = Sucker 5 (5) 0 (3) Prisoner T = Tempation R = Reward P = Penalty S = Sucker Koffie T = Tempation R = Reward S = Sucker P = Penalty 3 (0) 1 (1)

Hier geldt weer: R > T > P > S. Dus: Stag Hunt Samen uit, samen thuis CC: we komen allemaal DC: ik zeg af, de anderen komen DD: we zeggen allemaal af CD: ik kom, de anderen zeggen af Hier geldt weer: R > T > P > S. Dus: Stag Hunt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Battle of the sexes Man: DC: we gaan samen naar voetbal CD: we gaan samen naar ballet DD: ik ga naar voetbal, jij gaat naar ballet CC: ik ga naar ballet, jij gaat naar voetbal Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Battle of the sexes 0 (0) 2 (3) 3 (2) 1 (1) T = Tempation S = Sucker ik ( de ander ) doet mij plezier doet eigen zin doe jou een plezier dubbel pech samen naar ballet doe wat ik zelf wil samen naar voetbal ieder z’n ding T = Tempation S = Sucker P = Penalty R = Reward 0 (0) 2 (3) 3 (2) 1 (1)

Battle of the sexes 0 (0) 1 (3) 3 (1) 2 (2) T = Tempation S = Sucker ik ( de ander ) doet mij plezier doet eigen zin doe jou een plezier dubbel pech samen naar ballet doe wat ik zelf wil samen naar voetbal ieder z’n ding T = Tempation S = Sucker P = Penalty R = Reward 0 (0) 1 (3) T = Tempation P = Penalty S = Sucker R = Reward 3 (1) 2 (2)

Overzicht van 2x2 competitief Prisoner’s dilemma Temptation Reward Penalty Sucker ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Stag Hunt Reward Temptation Penalty Sucker ( C ) ( D ) C 5 ( 5 ) 0 ( 3 ) D 3 ( 0 ) 1 ( 1 ) Chicken Temptation Reward Sucker Penalty ( C ) ( D ) C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) Battle of the sexes Temptation Penalty/ /Sucker Reward ( C ) ( D ) C 0 ( 0 ) 2 ( 3 ) D 3 ( 2 ) 1 ( 1 ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Nash evenwichten Prisoner’s dilemma ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D Temptation Reward Penalty Sucker ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Stag Hunt Reward Temptation Penalty Sucker ( C ) ( D ) C 5 ( 5 ) 0 ( 3 ) D 3 ( 0 ) 1 ( 1 ) Chicken Temptation Reward Sucker Penalty ( C ) ( D ) C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) Battle of the sexes Temptation Penalty/ /Sucker Reward ( C ) ( D ) C 0 ( 0 ) 2 ( 3 ) D 3 ( 2 ) 1 ( 1 ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Nash evenwichten Pareto-optimaal Prisoner’s dilemma Temptation Reward Penalty Sucker ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Stag Hunt Reward Temptation Penalty Sucker ( C ) ( D ) C 5 ( 5 ) 0 ( 3 ) D 3 ( 0 ) 1 ( 1 ) Chicken Temptation Reward Sucker Penalty ( C ) ( D ) C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) Battle of the sexes Temptation Penalty/ /Sucker Reward ( C ) ( D ) C 0 ( 0 ) 2 ( 3 ) D 3 ( 2 ) 1 ( 1 ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Nash evenwichten Pareto-optimaal Prisoner’s dilemma Temptation Reward Penalty Sucker ( C ) ( D ) C 3 ( 3 ) 0 ( 5 ) D 5 ( 0 ) 1 ( 1 ) Stag Hunt Reward Temptation Penalty Sucker ( C ) ( D ) C 5 ( 5 ) 0 ( 3 ) D 3 ( 0 ) 1 ( 1 ) tragedy Chicken Temptation Reward Sucker Penalty ( C ) ( D ) C 3 ( 3 ) 1 ( 5 ) D 5 ( 1 ) 0 ( 0 ) Battle of the sexes Temptation Penalty/ /Sucker Reward ( C ) ( D ) C 0 ( 0 ) 2 ( 3 ) D 3 ( 2 ) 1 ( 1 ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Tragedy of the commons Meerdere deelnemers + indirecte interactie, bv. middels gedeelde reserves. Voorbeeld: overbevissing Als iedereen zich aan het visquotum houdt is er niks aan de hand ( R ) Verleiding ( T ): jij houd je er, als één van de weinigen, niet aan Sukkel ( S ): jij houd je er, als één van de weinigen, wel aan Penalty ( P ): iedereen heeft lak aan het quotum → zee leeg Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Gemixte strategie Stel, speler A besluit C met kans p te spelen. We zeggen dan dat A volgens een gemixte strategie met parameter p speelt. Kortweg: de strategie van A is p. Evenzo noteren we een gemixte strategie van B als q. Vraagstuk: voor welke paren van kansen vormt (p, q) een Nash-evenwicht? p 1 – p q 1 – q Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

PrB(C) is bekend A ( B ) C D R ( r ) S ( t ) T ( s ) P ( p ) Stel, A weet dat B met kans q actie C speelt, i.e., PrB(C) = q Wanneer wordt het voor A interessant om samen te werken? Antwoord: als en slechts als: PayoffA( C | PrB(C) = q ) > PayoffA( D | PrB(C) = q ) Als en slechts als: qR + (1 – q)S > qT + (1 – q)P Als en slechts als: { q > (P – S)/(R – T + P – S), als R – T + P – S > 0 q < (P – S)/(R – T + P – S), als R – T + P – S < 0 S > P, anders Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Nash-evenwicht bij gemixte strategie Neem aan dat 0 < R – T + P – S < 1 In dat geval zagen we dat A Beter kan samenwerken als q > (P – S)/(R – T + P – S) Beter kan verzaken als q < (P – S)/(R – T + P – S) Keuze er niet toe doet als q = (P – S)/(R – T + P – S) Hetzelfde geldt voor B, maar dan symmetrisch q p Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Stag hunt 4 ( 4 ) Drie Nash-evenwichten, waarvan één gemixt 3 ( 1 ) 1 ( 3 ) 2 ( 2 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

De Ander Ik Prisoner’s dilemma Eén Nash-evenwicht, niet gemixt 3 (3) 0 ( 5 ) De Ander 1 (1) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

De Ander Ik Chicken (Snowdrift game) 0 ( 0 ) Drie Nash-evenwichten, waarvan één gemixt -1 ( 1 ) 1 ( -1 ) -5 ( -5 ) De Ander Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

De Ander Ik Battle of the sexes Drie Nash-evenwichten, waarvan één gemixt 3 ( 2 ) 1 ( 1 ) 2 ( 3 ) De Ander 0 ( 0 ) Ik Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Variaties op het Prisoner’s Dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Variaties Het herhaalde Prisoner’s Dilemma (Eng.: Iterated PD, IPD) Een evolutionaire variant van het IPD (EIPD) Een ruimtelijk-evolutionaire variant van het IPD (SEIPD) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Iterated Prisoner’s Dilemma (IPD) Enkele strategieën: Altijd samenwerken (ALL-C) Altijd verzaken (ALL-D) Maar wat doen (RAND) Oog om oog “tit for tat” (TFT) Payoff matrix éénmalige interactie Ik De Ander C D 3 ( 3 ) ( 5 ) 5 ( 0 ) 1 ( 1 ) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Voorbeeld van 2 Episoden van elk 10 Ronden ALL-D 5 1 TFT C 14 9 C D RAND 3 5 1 TFT 26 26 Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Met TFT nooit echt veel slechter af dan tegenstander C D C –5 D D D C D 5 C C C D C –5 D C D 5 C 2 1 Speler 2 kan één keer verzaken, maar moet bij wisseling van strategie altijd zijn winst weer inleveren. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Andere strategieën UNFORGIVING: als tegenstander verzaakt, dan nooit meer meewerken TF2T: tit-for-two-tats: als TFT, maar pas vergelden na twee opeenvolgende defects van tegenstander. PAVLOV: start met C. Wissel strategie als tegenstander verzaakt Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Toernooi Axelrod (1984) organiseerde toernooi tussen ingezonden strategieën And the winner was… Tit For Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Succes en zwakte van TFT Kan onmogelijk uitgebuit worden Presteert nooit slechter dan tegenstander Zwakte: Kort geheugen: blijft bij D hangen in D, tenzij tegenstander C doet Presteert nooit beter dan tegenstander Tit Tat Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Flake: ecological world Initialisatie: Stel K strategieën vast, bv. { ALL-C, ALL-D, RAND, TFT, UNFORGIVING, PAVLOV }. (Hier K = 6.) Stel aantal ronden N vast. (Zeg, N = 200.) Reward i tegen j = Ri,j = gemiddelde opbrengst voor i tegen j over N ronden. Geef iedere strategie i een initieel aandeel Pi z.d.d. som der gewichten = 1.0. Herhaal voor E episoden: Score i = gemiddelde opbrengst voor strategie i. Pas Pi aan op basis van de gewogen score. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Update-formule voor strategie-aandeel De score van Strategie i op tijdstip t is gelijk aan de gemiddelde interactie-opbrengst van i, gewogen naar de populatieomvang van soorten: Het aandeel van Strategie i op een volgend tijdstip t+1 is gelijk aan Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Flake: ecological world (ideal) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Flake: ecological world (noise-free) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Flake: ecological world (noise) Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Spatial iterated PD (SIPD) N.B. Het ruimtelijk IPD zoals te vinden in Netlogo ≠ het ruimtelijk IPD zoals dat beschreven is in het boek van Flake Spatial iterated PD (SIPD) Initiële populatie: 60% coöperatief, rest verzaakt. Strategie per cel: Concurreer met acht buren. Adapteer strategie van meest succesvolle buur. Kleuren: Blauw: blijft C Rood: blijft D Geel: D → C Groen: C → D Interessante parameter: beloning om samen te werken α Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Doebeli et al. (1999): continuous spatial iterated PD (CSIPD) Strategie: bepaal investering I Winst(I) = Baten(I) – Kosten(I) Alle kosten zijn voor jezelf—alle baten gaan naar je buren. Stel, als voorbeeld I1 = 0.3 (voorheen: D) I2 = 0.5 (voorheen: C) 8 buren in grid, waarvan 6 x C Baten =Def 8(1 – e(– I)) Max. winst Kosten =Def 0.7 * I Ik ( Andere 8 ) 6 x C 2 x C C 22 14 D 24 15 Investering → Dit voorbeeld geeft een discrete (= geheeltallige) versie van het Prisoner’s Dilemma Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Waardoor samenwerking? I1 < I2 Als Groen van Rood wil winnen dan moet 6B(I2) + 2B(I1) – 8C(I2) > 4B(I2) + 4B(I1) – 8C(I1) Oftewel: B(I2) – B(I1) > 4(C(I2) – C(I1)) Dit is precies het geval als B (een lineaire factor, hier: 4) harder stijgt dan C ↔ in het begin! I2 I1 I1 I2 I2 I2 I2 I2 I2 Voor exacte uitwerking zie slides master seminar adaptive agents, “real-valued spatial games” Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk

Samenvatting Centraal probleem: Hoe beweeg je individuen tot samenwerken als er verleidingen zijn om te verzaken? Stag Hunt: er zijn equilibria, t.w.: nooit samenwerken, altijd samenwerken en, met gemixte strategie, soms samenwerken. Chicken: er zijn equilibria. Geen symmetrisch equilibrium voor pure strategieën, wel voor scenario’s met gemixte strategieën (!) Prisoner’s: in 2-persoon scenario is er geen Pareto-optimale gedeelde strategie. Samenwerking kan alleen ontstaan als er herhaling, ruimte, continuïteit, reputatie, vertrouwen of super-rationaliteit in het model wordt ingebouwd. Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk