zoeken met opponent-modellen

Slides:



Advertisements
Verwante presentaties
Tevredenheids onderzoek Door Lizanne Jespers HBO-V studente Maart 2014
Advertisements

U moet deze kleur aanspelen. Hoe pakt u dat aan?
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Laurens van der Maaten IKAT / ROB
Alles wat een begin heeft, heeft ook een einde
Voorbereiding Clubbridge Les 12 Omgaan met onregelmatigheden versie VC LES 12.
H 44: Investeringsselectie
Extra ondersteuning voor leesvaardigheid
Atari ! Ik speel KO, als je niets doet heb je nog maar één oog. Amai ! Ik ben dood. Ik gooi deze steen dan maar in dat kost je een hele groep Ik splits.
Speltheorie een techniek om situaties met strategische interacties tussen verschillende beslissingnemers te analyseren en de uitkomst te voorspellen.
GOED OF FOUT - QUIZ.
Efezen 4:7-24 Gaven naar Genade Vs 7-10 Gaven naar Genade Vs 7-10 Gaven van Christus aan de Gemeente Gaven van Christus aan de Gemeente Vs 11: Vs 11: –Apostelen.
Welvaartsverlies Pareto-efficiëntie.
BEKERCOMPETITIE EVALUATIE Freddy Cooreman – 03/03/2007.
Zelfcontrole bij consumenten
Welkom.
1 Hashtabellen Datastructuren. 2 Dit onderwerp Direct-access-tabellen Hashtabellen –Oplossen van botsingen met “ketens” (chaining) –Analyse –Oplossen.
Waarom zijn er zoveel oorlogen ?
Gezond bewegen in het groen: Teek Control!
Wiskunde D op de UvT Herbert Hamers.
Situational Influences on the Use of Communication Technologies A Meta-Analysis and Exploratory Study B. van den Hooff, J. Groot, S. de Jonge.
Jan Talmon Medische Informatica Universiteit Maastricht
Cursus Onderwijseconomie
Meer perspectief Welkom Masterclass – Speel jij een spelletje? René Bekker Bijeenkomst 2 – Nim Tijdstip: vrijdag 13 maart :00-18:00 Locatie: C6.68.
Meten bij marktonderzoek
Mario party is een spellen reeks, er komen steeds nieuwe. Mario party is een soort monopoly met spellen. Je speelt het met 2 of 4 spelers. Het doel van.
Lessons learned uit Bouwen aan Kennis Steven Nijhuis, projectleider HU Onderwijsdagen 2008.
ADP Tussenopdracht: Horseman Student: Kaj Metz Richting: GAR Module: Design & Research Vak: Action Design Principles Docent: Karel Millenaar Datum:
Squash.
Hoofdstuk 12 Beoordeling en ontwikkeling van medewerkers
Een blondje doet mee aan "Wie wordt millionair"
Les 2 Spelen zonder troef
Kolonisten van Catan Peter Zwart. Algemene info Bordspel Voor 3 tot 6 spelers vanaf 10 jaar Speelduur is ongeveer 75 minuten Gemaakt door Klaus Tauber.
Toepassing 30% regeling TU/e Bert Voets 12 juni 2007.
Presentatie: Hoe bouw ik een portefeuille op?
Game concept Samenvatting hoofdstuk 20 & 21. De waarde van esthetiek Het kan spelers aan trekken die het spel anders niet hadden gespeeld Het kan jouw.
Arthur Japin, de niet-gelovige hoofdredacteur van de #Jezusglossy, over vergeving.
Speltheorie/Experimenten
Representatie & Zoeken
Het optimale design versus de weerbarstige praktijk Prof. Dr. Jan Busschbach
Representatie & Zoeken
Samenwerken.
Allard Kamphuisen Hado van Hasselt Wilco Broeders
Golf Basisbegrippen & Uitleg
Loopbaan oriëntatie en begeleiding
HOE WORD JE EEN WINNING TEAM?
Nu is het plan om een map op een van de 2 computers te plaatsen en die te simpel te delen naar die andere computer ook wel SFS (Simple File Sharing) genoemd.
Hoe leert de ruiter NHB DEURNE.
Onderzoeksvaardigheden 3
Slc kwartaal 3. programma Hoe is het gegaan Verwachtingen Tips and tricks Opdrachten slc.
Flip de Proef Hoofdstuk 4 maar dan anders…. Wat is dat? Hoofdstuk 4 gaat over handig tellen. Dat gaan we proberen 's op een andere manier te doen. Ik.
Thema 2 PLANTEN Basisstof 1 -De levenscyclus van een plant
Welkom bij het Spelregelcafé!. 1. Je twijfelt of een bal van je tegenstander in of uit is. Je vraagt een teamgenoot langs de lijn of hij de bal gezien.
Talent in Ontwikkeling
Jo Tondeur, Jasmine Hacquaert (UGent) Jeroen Thys (Groep T) Luc Vandeput (KHLeuven) Wouter Hustinx (PHLimburg) Velov/A’pen, februari 2012 iTeacher Education:
Uitleg  In dit spel is het de bedoeling dat je zoveel mogelijk punten verzamelt door vragen goed te beantwoorden.  In ronde 2, 3 en 4 staat er ook een.
Als je opbrengst niet alleen af hangt van je eigen keuzes
1.
Vakmanschap voor jongeren in het sociale domein
Big Data.
Fabels en feiten 2de bachelor psychologie
Big Data.
Zeeslag Bron: csunplugged.org / csunplugged.nl.
3 vmbo-KGT Samenvatting Hoofdstuk 10
Atari ! Amai ! Ik ben dood. Ik gooi deze steen in, dat kost je zo een
Nim, een strategisch spelletje
SLIMMER DAMMEN Door [Naam] Voorkant: ruimte voor titels, foto’s etc.
Coördineren of commanderen?
Transcript van de presentatie:

zoeken met opponent-modellen Jeroen Donkers IKAT, Vakgroep Informatica, Universiteit Maastricht Promotor: H.J. van den Herik Co-promotor: J.W.H.M. Uiterwijk

Inhoud Het domein Zoeken met opponent-modellen Onderzoeksvraag Theoretische en experimentele resultaten Conclusies

Het domein Kunstmatige Intelligentie = het verrichten van taken door computers die als typisch menselijk worden (werden) gezien Het spelen van bordspelen zoals schaken is een geliefd studiedomein In dit domein zijn al grote successen behaald (denk aan Deep Blue)

Het domein Spelen vormen een gesloten en goed beschreven domein (vanwege de spelregels) We beperken ons hier tot spelen: voor twee spelers (die om de beurt zetten) zonder verborgen informatie zonder kansaspect (dobbelstenen) waarbij als één speler wint, de ander verliest Bijv. Schaken, Lines of Action, Bao

Een voorbeeld: Nim-5 Neem om de beurt 1, 2 of 3 lucifers Degene die de laatste lucifer pakt, wint

Een voorbeeld: Nim-5

Een voorbeeld: Nim-5

Een voorbeeld: Nim-5

Een voorbeeld: Nim-5 Winnaar

Zoekboom De computer speelt het spel door eerst alle mogelijkheden voor beide spelers in een boom-vorm te representeren:

Zoekboom 4 3 2 1 5 2 1 3 Stap 1: uitkomsten bepalen (vanuit speler “groen”)

Zoekboom 5 4 3 2 3 2 1 2 1 1 2 1 1 1 1 Stap 2: uitkomsten terugvoeren 1 1 2 1 2 1 1 2 1 1 3 2 1 1 1 1 2 1 1 1 1 1 –1 Stap 2: uitkomsten terugvoeren +1 +1 –1

Zoekboom 5 1 2 3 4 3 2 1 2 3 1 2 3 1 2 3 2 1 2 1 1 1 2 1 2 1 1 2 1 1 3 2 1 1 1 1 2 1 1 1 1 1 +1 –1 +1 –1

Zoekboom Groen kan altijd winnen! +1 +1 –1 –1 +1 +1 +1 +1 +1 –1 +1 –1 2 3 +1 –1 –1 1 2 3 1 2 3 1 2 +1 +1 +1 +1 +1 –1 +1 –1 2 1 2 1 1 2 1 1 1 3 –1 –1 +1 –1 +1 +1 –1 +1 +1 +1 1 2 1 1 1 +1 –1 –1 –1 –1 1 +1 +1 –1 –1 +1 –1 +1 +1 –1 +1 +1 –1 +1 –1

Zoekboom Stap 3: optimale strategie bepalen +1 +1 –1 –1 +1 +1 +1 +1 +1 2 3 +1 –1 –1 1 2 3 1 2 3 1 2 +1 +1 +1 +1 +1 –1 +1 –1 2 1 2 1 1 2 1 1 1 3 –1 –1 +1 –1 +1 +1 –1 +1 +1 +1 1 2 1 1 1 +1 –1 –1 –1 –1 1 +1 Stap 3: optimale strategie bepalen

Heuristisch zoeken Voor interessante spelen zoals schaak kan de zoekboom onmogelijk volledig worden opgesteld Daarom wordt de boom “afgekapt” op een zekere diepte Bovendien wordt er in de boom “gesnoeid” om de efficiëntie te verhogen

Heuristisch zoeken Bij het afkappen van de boom .25 1 2 3 .25 –1 –1 1 2 3 1 2 3 1 2 .25 .33 .5 .33 .5 –1 .5 –1 Bij het afkappen van de boom wordt een heuristische evaluatiefunctie gebruikt in plaats van de echte uitkomst

Opponent-modellen De evaluatiefunctie bepaalt in grote mate de strategie van een speler De evaluatiefunctie kan daarom als opponent-model dienen Stel dat we de evaluatiefunctie van de tegenstander kennen, kunnen we er dan ons voordeel mee doen?

Opponent-Model Search Iida et al (`93) Carmel & Markovitch (`93) Een zoekmethode die er vanuit gaat dat de evaluatiefunctie van de opponent bekend is: voorspelt eerst welke zet een opponent zou doen met deze evaluatiefunctie kiest dan op basis van de eigen evaluatiefunctie welke eigen zet het beste lijkt

Probabilistic Opponent-Model Search Donkers et al (2000) Het opponent-model is een mix van een aantal opponent-types, ieder met een eigen evaluatiefunctie De werking is verder ongeveer gelijk aan die van Opponent-Model Search: eerst voorspellen en dan een eigen keuze maken

Onderzoeksvraag Onder welke condities kunnen OM search en PrOM search het spelen door computers verbeteren Er is zowel theoretisch als empirisch onderzoek gedaan

Theoretische resultaten Er bestaat een manier om beide zoekmethoden efficiënt te programmeren, maar: PrOM Search kost meer rekentijd dan OM Search voor de zelfde zoekboom Beide methoden kosten veel meer rekentijd dan de traditionele aanpak

Theoretische resultaten OM Search heeft last van risico’s, een aantal daarvan waren al bekend: het opponent-model kan verkeerd zijn de voorspellingen kunnen fout zijn de eigen evaluatiefunctie kan slechter zijn dan die van de tegenstander Maar er is een extra risico:

Theoretische resultaten Overschattingen in de eigen evaluatiefunctie kunnen leiden tot rampen: de opponent wordt gelokt naar een positie waarvan je onterecht verwacht dat die heel aantrekkelijk is de opponent weet wel beter en gaat fluitend met je mee hoe groter de overschatting, hoe liever je er heen wilt...

Experimentele resultaten Wanneer je OM Search onbezonnen toepast, zijn de resultaten zeer slecht, vergeleken met de traditionele aanpak: kost meer rekentijd je verliest vaker, zelfs met perfecte kennis van de opponent PrOM Search is wel veiliger, maar kost ook veel meer rekentijd

Experimentele resultaten OM Search werkt redelijk als: je absolute kennis hebt (eindspel) je perfecte kennis van de opponent hebt je niet zomaar overschattingen maakt je extra tijd hebt om goed te voorspellen PrOM Search presteert dan over het algemeen beter dan OM Search, heel soms zelfs beter dan de traditionele aanpak

Conclusies Onbezonnen toepassen van OM Search en PrOM search is onverstandig Het is niet alleen belangrijk de opponent goed te kennen (Nosce Hostem), je moet ook je eigen evaluatiefunctie goed kennen (Nosce Te Ipsum)

Thales van Milete (640 vC)

Soen Tzoe (500 vC) “Ken uw vijand, ken u zelf en uw overwinning is onbedreigd.”