Download de presentatie
De presentatie wordt gedownload. Even geduld aub
1
zoeken met opponent-modellen
Jeroen Donkers IKAT, Vakgroep Informatica, Universiteit Maastricht Promotor: H.J. van den Herik Co-promotor: J.W.H.M. Uiterwijk
2
Inhoud Het domein Zoeken met opponent-modellen Onderzoeksvraag
Theoretische en experimentele resultaten Conclusies
3
Het domein Kunstmatige Intelligentie = het verrichten van taken door computers die als typisch menselijk worden (werden) gezien Het spelen van bordspelen zoals schaken is een geliefd studiedomein In dit domein zijn al grote successen behaald (denk aan Deep Blue)
4
Het domein Spelen vormen een gesloten en goed beschreven domein (vanwege de spelregels) We beperken ons hier tot spelen: voor twee spelers (die om de beurt zetten) zonder verborgen informatie zonder kansaspect (dobbelstenen) waarbij als één speler wint, de ander verliest Bijv. Schaken, Lines of Action, Bao
5
Een voorbeeld: Nim-5 Neem om de beurt 1, 2 of 3 lucifers
Degene die de laatste lucifer pakt, wint
6
Een voorbeeld: Nim-5
7
Een voorbeeld: Nim-5
8
Een voorbeeld: Nim-5
9
Een voorbeeld: Nim-5 Winnaar
10
Zoekboom De computer speelt het spel door eerst alle mogelijkheden voor beide spelers in een boom-vorm te representeren:
11
Zoekboom 4 3 2 1 5 2 1 3 Stap 1: uitkomsten bepalen (vanuit speler “groen”)
12
Zoekboom 5 4 3 2 3 2 1 2 1 1 2 1 1 1 1 Stap 2: uitkomsten terugvoeren
1 1 2 1 2 1 1 2 1 1 3 2 1 1 1 1 2 1 1 1 1 1 –1 Stap 2: uitkomsten terugvoeren +1 +1 –1
13
Zoekboom 5 1 2 3 4 3 2 1 2 3 1 2 3 1 2 3 2 1 2 1 1 1 2 1 2 1 1 2 1 1 3 2 1 1 1 1 2 1 1 1 1 1 +1 –1 +1 –1
14
Zoekboom Groen kan altijd winnen! +1 +1 –1 –1 +1 +1 +1 +1 +1 –1 +1 –1
2 3 +1 –1 –1 1 2 3 1 2 3 1 2 +1 +1 +1 +1 +1 –1 +1 –1 2 1 2 1 1 2 1 1 1 3 –1 –1 +1 –1 +1 +1 –1 +1 +1 +1 1 2 1 1 1 +1 –1 –1 –1 –1 1 +1 +1 –1 –1 +1 –1 +1 +1 –1 +1 +1 –1 +1 –1
15
Zoekboom Stap 3: optimale strategie bepalen +1 +1 –1 –1 +1 +1 +1 +1 +1
2 3 +1 –1 –1 1 2 3 1 2 3 1 2 +1 +1 +1 +1 +1 –1 +1 –1 2 1 2 1 1 2 1 1 1 3 –1 –1 +1 –1 +1 +1 –1 +1 +1 +1 1 2 1 1 1 +1 –1 –1 –1 –1 1 +1 Stap 3: optimale strategie bepalen
16
Heuristisch zoeken Voor interessante spelen zoals schaak kan de zoekboom onmogelijk volledig worden opgesteld Daarom wordt de boom “afgekapt” op een zekere diepte Bovendien wordt er in de boom “gesnoeid” om de efficiëntie te verhogen
17
Heuristisch zoeken Bij het afkappen van de boom
.25 1 2 3 .25 –1 –1 1 2 3 1 2 3 1 2 .25 .33 .5 .33 .5 –1 .5 –1 Bij het afkappen van de boom wordt een heuristische evaluatiefunctie gebruikt in plaats van de echte uitkomst
18
Opponent-modellen De evaluatiefunctie bepaalt in grote mate de strategie van een speler De evaluatiefunctie kan daarom als opponent-model dienen Stel dat we de evaluatiefunctie van de tegenstander kennen, kunnen we er dan ons voordeel mee doen?
19
Opponent-Model Search
Iida et al (`93) Carmel & Markovitch (`93) Een zoekmethode die er vanuit gaat dat de evaluatiefunctie van de opponent bekend is: voorspelt eerst welke zet een opponent zou doen met deze evaluatiefunctie kiest dan op basis van de eigen evaluatiefunctie welke eigen zet het beste lijkt
20
Probabilistic Opponent-Model Search
Donkers et al (2000) Het opponent-model is een mix van een aantal opponent-types, ieder met een eigen evaluatiefunctie De werking is verder ongeveer gelijk aan die van Opponent-Model Search: eerst voorspellen en dan een eigen keuze maken
21
Onderzoeksvraag Onder welke condities kunnen OM search en PrOM search het spelen door computers verbeteren Er is zowel theoretisch als empirisch onderzoek gedaan
22
Theoretische resultaten
Er bestaat een manier om beide zoekmethoden efficiënt te programmeren, maar: PrOM Search kost meer rekentijd dan OM Search voor de zelfde zoekboom Beide methoden kosten veel meer rekentijd dan de traditionele aanpak
23
Theoretische resultaten
OM Search heeft last van risico’s, een aantal daarvan waren al bekend: het opponent-model kan verkeerd zijn de voorspellingen kunnen fout zijn de eigen evaluatiefunctie kan slechter zijn dan die van de tegenstander Maar er is een extra risico:
24
Theoretische resultaten
Overschattingen in de eigen evaluatiefunctie kunnen leiden tot rampen: de opponent wordt gelokt naar een positie waarvan je onterecht verwacht dat die heel aantrekkelijk is de opponent weet wel beter en gaat fluitend met je mee hoe groter de overschatting, hoe liever je er heen wilt...
25
Experimentele resultaten
Wanneer je OM Search onbezonnen toepast, zijn de resultaten zeer slecht, vergeleken met de traditionele aanpak: kost meer rekentijd je verliest vaker, zelfs met perfecte kennis van de opponent PrOM Search is wel veiliger, maar kost ook veel meer rekentijd
26
Experimentele resultaten
OM Search werkt redelijk als: je absolute kennis hebt (eindspel) je perfecte kennis van de opponent hebt je niet zomaar overschattingen maakt je extra tijd hebt om goed te voorspellen PrOM Search presteert dan over het algemeen beter dan OM Search, heel soms zelfs beter dan de traditionele aanpak
27
Conclusies Onbezonnen toepassen van OM Search en PrOM search is onverstandig Het is niet alleen belangrijk de opponent goed te kennen (Nosce Hostem), je moet ook je eigen evaluatiefunctie goed kennen (Nosce Te Ipsum)
28
Thales van Milete (640 vC)
29
Soen Tzoe (500 vC) “Ken uw vijand, ken u zelf
en uw overwinning is onbedreigd.”
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.