• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

张思远 (张思远.) | 朱晓庆 (朱晓庆.) | 阮晓钢 (阮晓钢.) | 李春阳 (李春阳.) | 刘鑫源 (刘鑫源.)

摘要:

哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器入朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能.

关键词:

四足机器人 状态反馈引导 强化学习 环境探索 仿生步态学习

作者机构:

  • [ 1 ] [李春阳]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
  • [ 2 ] [朱晓庆]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
  • [ 3 ] [张思远]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
  • [ 4 ] [刘鑫源]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
  • [ 5 ] [阮晓钢]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

相关文章:

来源 :

控制与决策

ISSN: 1001-0920

年份: 2024

期: 5

卷: 39

页码: 1461-1468

被引次数:

WoS核心集被引频次:

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: -1

中文被引频次:

近30日浏览量: 0

归属院系:

在线人数/总访问数:387/4970741
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司