• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

王子豪 (王子豪.) | 张严心 (张严心.) | 黄志清 (黄志清.) | 殷辰堃 (殷辰堃.)

摘要:

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性方面优于基线算法.

关键词:

多智能体 深度强化学习 多智能体深度确定性策略梯度 部分可观测 智能体间通信

作者机构:

  • [ 1 ] [张严心]北京交通大学电子信息工程学院,北京100091
  • [ 2 ] [黄志清]北京工业大学
  • [ 3 ] [殷辰堃]北京交通大学电子信息工程学院,北京100091
  • [ 4 ] [王子豪]北京交通大学电子信息工程学院,北京100091

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

控制与决策

ISSN: 1001-0920

年份: 2023

期: 5

卷: 38

页码: 1267-1277

被引次数:

WoS核心集被引频次:

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: -1

中文被引频次:

近30日浏览量: 0

在线人数/总访问数:354/5049010
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司