摘要:
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中.该方法以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程(MDP),构造以舰载机和各设备状态作为输入,调度行为动作作为输出,带权特征向量作为奖赏的在线调度即时决策模型.搭建用于训练的优化深度强化学习网络,改进动作选择策略和网络结构以提升性能,从而实现在线调度决策优化.实验结果表明,利用该方法得到的决策模型能够在线解决突发状况,在静态和动态调度方面,相对于启发式算法和调度规则本文方法在安全性和高效性方面具有优势.
关键词:
通讯作者信息:
电子邮件地址: