跳转到内容

分散式部分可观察马尔可夫决策过程

维基百科,自由的百科全书

分散式部分可观察马尔可夫决策过程(英語:Decentralized partially observable Markov decision processDec-POMDP[1][2]是一种多智慧体协调决策模型。这是一种概率模型,对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。

该模型是马尔可夫决策过程部分可觀察馬可夫決策過程的泛化,适用于分布式多智慧体的情形。[3]

定义

正式定义

Dec-POMDP是一个7元组,其中:

  • 是状态的集合,
  • 是智慧体i的行动集合,其中是联合行动的集合,
  • 是是状态间条件转移概率的集合,
  • 是回报函数,
  • 是智慧体i的观察集合,其中是联合观察的集合,
  • 是一组条件观察概率,
  • 是折现因子

参考文献

  1. ^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836可免费查阅. doi:10.1287/moor.27.4.819.297. 
  2. ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. (原始内容存档 (PDF)于2021-09-16) (英国英语). 
  3. ^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. (原始内容存档于2022-04-24) (英语).