Divide and Conquer in Multi-agent Planning Multi-Agent Planning as the Process of Merging Distributed Sub-plans Eithan Ephrati and Jeffrey S. Rosenschein.

Slides:



Advertisements
Verwante presentaties
Bram Nusselein Afdeling Medische Psychologie
Advertisements

BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
De elektronische verzamelaanvraag Ruben Fontaine Markt- en Inkomensbeheer – dienst Aangiftes.
Doublet deel 1 – de basis.
‘SMS’ Studeren met Succes deel 1
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
WAAROM? Onderzoek naar het meest geschikte traject voor de verlenging tot in Sint-Niklaas van het bestaande fietspad naast de Stekense Vaart en de Molenbeek.
BRIDGE Vervolgcursus Vervolg op starterscursus Bridgeclub Schiedam ‘59 info: Maandagavond: 19: – of
H1 Basis Rekenvaardigheden
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
Dynamische tijdbalk Een dynamische tijdbalk geeft een uitvergroot deel van de algemene tijdbalk weer. Hij heet dynamisch omdat hij er voor elke periode.
Boxenstelsel.
Ronde (Sport & Spel) Quiz Night !
Les 10 Hoofdstuk 15: Het speelplan.
Les 2 De antwoorden na een opening van 1 in een kleur
Natuurlijke Werkloosheid en de Phillipscurve
Keuzeondersteunend model voor inbouwpakketten bij herbestemmingsprojecten Eindcolloquium Wiebrand Bunt.
Voorbereiding Clubbridge
Presentatie Machten,Wortels & Ontbinden Deel 1
Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.
Oppervlakten berekenen
Nooit meer onnodig groen? Luuk Misdom, IT&T
Elke 7 seconden een nieuw getal
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Oefeningen F-toetsen ANOVA.
IJspakketten Annette Ficker Tim Oosterwijk
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 College 5 Cees Witteveen.
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
Richard J. Boucherie – Het antwoord of de vraag10 mei Het antwoord of de vraag.
Wie het kleine niet eert ... (quarks, leptonen,….)
Inkomen bij ziekte en arbeidsongeschiktheid
Optuigen van datastructuren
Lokale zoekmethoden Goed in de praktijk:
Werken aan Intergenerationele Samenwerking en Expertise.
Inkomen les 14 Begrippen & 65 t/m Begrippen Primaire sector Bedrijven die zaken aan de natuur onttrekken (landbouw, jacht, bosbouw, visserij)
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Workshop Informatievaardigheden
Tweedegraadsfuncties
Les 2 Spelen zonder troef
DEEL 2 LES 16 De verdieping Les 16 Slembiedingen versie
Verder met Bridge Hoofdstuk 13 Het Volgbod versie DEEL 3
Hoe gaat dit spel te werk?! Klik op het antwoord dat juist is. Klik op de pijl om door te gaan!
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
A H M F K EB C x 91 Van hand veranderen voor de X splitsen en Rechangeren. Met de nieuwe partner op.
Cooperative Transport Planning
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Hartelijk welkom bij de Nederlandse Bridge Academie Hoofdstuk 9 Het eerste bijbod 1Contract 1, hoofdstuk 9.
Hartelijk welkom bij de Nederlandse Bridge Academie Hoofdstuk 10 Het eerste bijbod (2) 1Contract 1, hoofdstuk 10.
Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 3.
Opleiding CMS website Gent Bart Nelis Gent: #239/ docentengang Brussel: /naast bibliotheek
De financiële functie: Integrale bedrijfsanalyse©
Inhoud college Bespreken opdracht Lijnbalancering: TPM
1 Amsterdam, april 2005 Drs. Frits Spangenberg Rotary Extern imago.
Worteltrekken (1) F.J. Schuurman De Meibrink 30 Dinxperlo.
Centrummaten en Boxplot
Tellen van Stemmen … FEB, Studiedag Leraren Wiskunde, 6 mei 2010 Luc Lauwers.
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
13 november 2014 Bodegraven 1. 2 de vorige keer: 1Kor.15:29-34 indien er geen doden opgewekt worden...  vs 29: waarom dopen?  vs.30-32: waarom doodsgevaren.
welke hoef je niet te leren?
2020 Boer of mineralenmanager? 1. Evenwicht? Bodem & vakmanschap Info DMS % %
Transcript van de presentatie:

Divide and Conquer in Multi-agent Planning Multi-Agent Planning as the Process of Merging Distributed Sub-plans Eithan Ephrati and Jeffrey S. Rosenschein Samuel Gerssen David Solinger

Inleiding Multi-agent planning Een globaal doel splitsen in meerdere subdoelen en de meerdere plannen daarvoor weer samenvoegen Dóór meedere agents Vóór meerdere agents

Overzicht Complexiteit Subdoelen Algoritme Voorbeeld Beschouwingen

Complexiteit b = branch factor, d = probleemdiepte 1 voor 1:O(b d ) 1 voor n: O(n  b) d 1 voor n, subgoals:Σ i ((n  b i ) d i ), b i  b/n, d i  d/n n voor n:max i (n  b i ) d i

Subdoelen Het algoritme gaat ervan uit dat het probleem al in grounded subdoelen opgedeeld is. Soms is dit splitsen erg makkelijk, maar soms helemaal niet.

Subdoelen ba c ba 34f d g e h ij f gh ij b j h ih c de acf jh ebd

Subdoelen Stap 1: Iteratief zoeken naar coherente instanties van subdoelen bcfgh ij

Subdoelen Stap 2: Zoeken naar de beste interface punten bcf gh ij bcfgh ij

Het Algoritme Stap 1 Stap 2 Stap 3 Stap 4 Stap 5 Stap 6 Stap 7 Agents maken eigen constraints + plan Elke agent dient lijst met constraints in Alle consistente combinaties worden bepaald Van elke mogelijkheid wordt de cost berekend... …en h’ De mogelijkheid met de laagste h’ wordt definitief De constraintlijst bevat nu alle subgoals

Definities ê 1 (g 1 ) is de verzameling constraints die nodig is voor een plan om tot subgoal g 1 te komen. ê 1 (g 1 ) is onderverdeeld in de subsets E 1 j, bestaande uit de verzameling constraints die realiseerbaar zijn na j stappen. P(E) is de optimale verzameling acties om tot constraint-set E te komen A k is de geaggregeerde set van constraints (alle opties), bestaande uit A j k voor alle j, A k+ is de meest optimale volgend de heuristiek.

Stap 1: elke agent maakt ê i (g i ),een lijst van constraints voor zijn eigen goal g i Stap 2: bij iteratie k declareert elke agent E k * (de gewenste extensie van constraints volgens ê i (g i ) die relevant is en nog niet geaccepteerd door de groep) Stap 3: de maximale consistente extensies van A k+ worden gegenereerd (alle mogelijke combinaties van constraints uit stap 2). De vereniging van de extensies met A k-1 vormen A j k-1. Stap 4: voor elke A j k (elk alternatief) worden de kosten van de extra operations berekend. Stap 5: voor elke A j k (elk alternatief) wordt de h j ’ (de heuristiek) berekend volgens A *. Stap 6: A k+ is de A j k met de beste (=laagste) h’. Terug naar stap 2 tenzij.. Stap 7: Alle ‘best plans’ zijn gevonden.

Het Voorbeeld ba c2 Initial state c b a Goal state b a c 1 c b a 2 Plan 1Plan 2 g1 = {A(a,16), A(b,16), O(a,b,H)} g2 = {A(b,16), A(c,16), O(b,c,H)}

ê 1 (g 1 ) en ê 2 (g 2 ) zijn gedefinieerd E g1 1 = E g2 1 = [C(c), C(b)] E x1 = A 1 1 = [C(c), C(b)] g(A 1 1 ) = 0 (initial state) f’(A 1 1 ) = 99 (individual estimate cost) A 1+ = A 1 1 = [C(c), C(b)] K=0K=1

K= E 1 * = E g1 2 = [A(a i,r(b)), C(c), C(b)] E 2 * = E g2 2 = [A(a i,r(c)), C(c), C(b)] E x1 = A 1 2 = [A(a i,r(b)), A(a i,r(c)), C(c), C(b)] E g1 1 = E g2 1 = [C(c), C(b)] E x1 = A 1 1 = [C(c), C(b)] g(A 1 1 ) = 0 (initial state) f’(A 1 1 ) = 99 (individual estimate cost) A 1+ = A 1 1 = [C(c), C(b)] g(A 1 2 ) = 7 f’(A 1 1 ) = 99 (agents bezig met eigen plan) A 2+ = A 1 2 = [A(a i,r(b)), A(a i,r(c)), C(c), C(b)]

K=2K= E 1 * = E g1 2 = [A(a i,r(b)), C(c), C(b)] E 2 * = E g2 2 = [A(a i,r(c)), C(c), C(b)] E x1 = A 1 2 = [A(a i,r(b)), A(a i,r(c)), C(c), C(b)] g(A 1 2 ) = 7 f’(A 1 1 ) = 99 (agents bezig met eigen plan) A 2+ = A 1 2 = [A(a i,r(b)), A(a i,r(c)), C(c), C(b)] E 1 * = E g1 3 = [A(b,16), C(c), C(b)] E 2 * = E g2 3 = [A(c,16), C(c), C(b)] E x1 = [A(b,16), C(c), C(b)] E x2 = [A(c,16), C(c), C(b)] E x3 = [A(c,16), A(b,16), C(b)] E x4 = [A(c,16), A(b,16), C(c)] g(A 1 3 ) = 31, g(A 2 3 ) = 15 g(A 3 3 ) = 39, g(A 4 3 ) = 39 f’(A 1 3 ) = 71, f’(A 2 3 ) = 83 f’(A 3 3 ) = 49 (=best), f’(A 4 3 ) = 73 A 3+ = A 3 3 = [A(b,16), A(c,16), C(b)]

K=3K= E 1 * = E g1 3 = [A(b,16), C(c), C(b)] E 2 * = E g2 3 = [A(c,16), C(c), C(b)] E x1 = [A(b,16), C(c), C(b)] E x2 = [A(c,16), C(c), C(b)] E x3 = [A(c,16), A(b,16), C(b)] E x4 = [A(c,16), A(b,16), C(c)] g(A 1 3 ) = 31, g(A 2 3 ) = 15 g(A 3 3 ) = 39, g(A 4 3 ) = 39 f’(A 1 3 ) = 71, f’(A 2 3 ) = 83 f’(A 3 3 ) = 49 (=best), f’(A 4 3 ) = 73 A 3+ = A 3 3 = [A(b,16), A(c,16), C(b)] E 1 * = E g1 6 = [A(b,16), C(a), C(b), A(a i,r(a))] E 2 * = E g2 5 = [A(c,16), A(b,16), O(b,c,H)] E x1 = A 1 4 = [A(b,16), C(a), C(b), A(a i,r(a)), A(c,16), O(b,c,H)] g(A 1 4 ) = 41 f’(A 1 4 ) = 60 (rigid policy) f’(A 1 4 ) = 42 (interactive policy) A 4+ = A 1 4 = [A(b,16), C(a), C(b), A(a i,r(a)), A(c,16), O(b,c,H)]

K=4K= E 1 * = E g1 6 = [A(b,16), C(a), C(b), A(a i,r(a))] E 2 * = E g2 5 = [A(c,16), A(b,16), O(b,c,H)] E x1 = A 1 4 = [A(b,16), C(a), C(b), A(a i,r(a)),A(c,16), O(b,c,H)] g(A 1 4 ) = 41 f’(A 1 4 ) = 60 (rigid policy) f’(A 1 4 ) = 42 (interactive policy) A 4+ = A 1 4 = [A(b,16), C(a), C(b), A(a i,r(a)), A(c,16), O(b,c,H)] E 1 * = [A(a,16), A(b,16), O(a,b,H)] = goal E 2 * = [A(b,16), A(c,16), O(b,c,H)] = goal E x1 = A 1 5 = [A(a,16), A(b,16), A(c,16), O(a,b,H), O(b,c,H)] g(A 1 5 ) = 45 Goal achieved Stop

A * Search Kostenfunctie f’ = g + h’ g zijn de tot nu toe gemaakte kosten bijvoorbeeld na stap 1: constraints worden satisfied door M 1 (0,4) kost 4, M 2 (9,12) kost 3, totale kosten 7, dus in stap 2 is g = 7

A * Search Kostenfunctie f’ = g + h’ h’ zijn de verwachte resterende kosten. Aan de hand van de nog niet satisfied constraints worden de kosten van de resterende plannen uitgerekend. Bijvoorbeeld, aan het begin is g = 0 en h’ = kosten van plan 1 + kosten van plan 2 h’ is een goede schatting (gebaseerd op de individuele plannen van a 1 en a 2 )

‘Rigid’ vs. ‘Interactive’ Bij ‘rigid’ policy wordt heel strikt gekeken welke sets van constraints al vervuld zijn, en de kosten van de rest van het originele plan wordt h’. Bij ‘interactive’ policy wordt aan de hand van de reeds vervulde constraints een nieuw optimaal plan gezocht en die kosten worden h’. Bij interactive policy is h’ dus beter dan bij rigid policy, maar het is langzamer.

Optimaliteit Vier zaken die bijdragen aan niet-optimaliteit: Het splitsen op zichzelf Instantiatie van subdoelen Binding van interface punten Zoekalgoritme bij mergen

Optimaliteit kosten iteraties P* P(S)* P(S)

Dynamisch Het algoritme werkt goed in een dynamische omgeving. Bij verandering van het globale doel. Bij tegelijkertijd plannen en uitvoeren.

Dutch auction Wanneer agents liegen De agent met het laagste bod mag de operatie uitvoeren en krijgt daarvoor betaald het één na laagste bod

Dutch auction Werkelijke kosten X Stel agent A bied X-  om te ‘winnen’: –Als de andere agent (B) lager dan X biedt, dan maakt A verlies. –Als B hoger dan X, of X biedt, dan had A net zo goed X kunnen bieden.

Dutch auction Stel agent A bied X+  om meer te ‘verdienen: –Als B lager dan X biedt, dan maakt het voor A niets uit. –Als B hoger dan X, of X biedt en lager dan X+ , dan heeft A onnodig verlies. –Als B hoger dan X+  biedt, dan had A net zo goed X kunnen bieden

Einde Bedankt voor de aandacht. Zijn er nog Vragen ?