The Logic of Adaptive Behavior Knowledge Representation and Algorithms for the Markov Decision Process Framework In First-Order Domains Martijn van Otterlo Lekenpraatje – 30/05/08
Leren van Beloningen en Straffen -Dog-
Lerende Intelligente Systemen Markov Beslisprobleem Onzekerheid Numerieke beloning Model? Toepassingen: Robot Control Spelletjes Algemeen: acties leren
Representatie & Generalisatie Intelligent Systeem Sensoren Actuatoren Representatie R “Hetzelfde” (generalisatie)
Simpele Representaties S = 1, 2, 3, 4, … Generalisatie niet echt mogelijk Enorm aantal toestanden
Propositionele Representaties Elke sensor geeft ja/nee Generalisatie mogelijk: Bijv: “als een van de achterste 4 sensoren een ja geeft, dan; Niet naar achteren bewegen”. S= Toestand is een geordend lijstje Van antwoorden (ja/nee)
Dit Proefschrift: Objecten en Relaties Eerste-Orde Representatie O: schilderij O: bank O: lamp O: stoel O: vloer R: lamp “naast” stoel R: stoel “op” vloer R: vloer “bruin” O: robot Generalisatie over objecten en relaties
“Samenvatting” Leren van Beloningen en Straffen Markov Beslisproblemen Representatie van de Wereld Generalisatie Objecten en Relaties