基于环境反馈机制的四足机器人运动技能学习 - Details

Author：

张思远 (张思远.) | 朱晓庆 (朱晓庆.) | 阮晓钢 (阮晓钢.) | 李春阳 (李春阳.) | 刘鑫源 (刘鑫源.)

Abstract：

哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器入朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能.

Keyword：

四足机器人状态反馈引导强化学习环境探索仿生步态学习

Author Community：

[ 1 ] [李春阳]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
[ 2 ] [朱晓庆]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
[ 3 ] [张思远]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
[ 4 ] [刘鑫源]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124
[ 5 ] [阮晓钢]北京工业大学信息学部,北京 100124;北京计算智能与智能系统重点实验室,北京 100124

Reprint Author's Address：

Email：

Show more details

Related Keywords：

融合元学习和PPO算法的四足机器人运动技能学习方法
2024，控制理论与应用
基于气味奖励引导的Q-learning环境认知方法
2021，清华大学学报(自然科学版)
基于气味奖励引导的Q-learning环境认知方法
2021，清华大学学报（自然科学版）
仿生学习算法在六足机器人未知环境探索的设计与实现
2013，第25届中国控制与决策会议

Source ：

控制与决策

ISSN： 1001-0920

Year： 2024

Issue： 5

Volume： 39

Page： 1461-1468

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 4

Affiliated Colleges：

学院待认领

Get Fulltext

Library Discovery Baidu Scholar Search WF WF WF WF WF WF WF WF

Type
Departments

All Years Choose Year From to