收录:
摘要:
基于深度强化学习的舰载机出动回收在线调度方法涉及舰载机出动回收调度领域,解决航母甲板上的大规模舰载机出动回收在线调度问题。本发明通过将出动回收过程抽象为马尔可夫决策过程,将舰载机群当前状态作为输入,调度的行为作为输出,建立带权重的特征向量作为奖赏函数,构造出舰载机出动回收调度模型。为得到安全高效的调度策略,确立多目标调度策略,以舰载机舰面位移、任务调度时间、舰面冲突次数和设备利用率作为目标,利用深度Q学习网络训练调度模型。经过实验测试结果表明,该算法在遇到突发状况时能迅速处理并且对后续任务执行不产生影响,同时得到安全性和灵活性都较高的调度策略。
关键词:
通讯作者信息:
电子邮件地址: