收录:
摘要:
为实现海战场环境下多智能体路径规划及目标追踪,以智能体(潜艇或者舰艇)为研究对象,提出一种基于强化学习的深度Q网络算法.通过设计两个结构相同但参数不同的神经网络,分别对其Q实际值和估计值的更新来实现价值函数的收敛.运用ε-贪婪算法设计动作选择机制和基于应用环境设计奖励函数,显著提高LER算法的更新速度和泛化能力等.仿真结果表明,与现有的路径规划算法和多智能体路径规划算法相比,每个智能体能够在陌生环境中有效躲避障碍物,并且通过一定步数的学习实现更加高效的智能规划路线及追踪目标.
关键词:
通讯作者信息:
电子邮件地址: