• 综合
  • 标题
  • 关键词
  • 摘要
  • 学者
  • 期刊-刊名
  • 期刊-ISSN
  • 会议名称
搜索

作者:

陶隽源 (陶隽源.) | 孙金玮 (孙金玮.) | 李德胜 (李德胜.) (学者:李德胜)

收录:

CQVIP PKU CSCD

摘要:

提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题.该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程.该算法利用强化学>--j算法的标准问题一Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值.

关键词:

线性平均 梯度下降法 自动控制技术 强化学习 函数估计

作者机构:

  • [ 1 ] [陶隽源]哈尔滨工业大学
  • [ 2 ] [孙金玮]哈尔滨工业大学
  • [ 3 ] [李德胜]北京工业大学

通讯作者信息:

电子邮件地址:

查看成果更多字段

相关关键词:

来源 :

吉林大学学报(工学版)

ISSN: 1671-5497

年份: 2008

期: 6

卷: 38

页码: 1407-1411

被引次数:

WoS核心集被引频次: 0

SCOPUS被引频次:

ESI高被引论文在榜: 0 展开所有

万方被引频次: 3

中文被引频次:

近30日浏览量: 0

在线人数/总访问数:154/3907811
地址:北京工业大学图书馆(北京市朝阳区平乐园100号 邮编:100124) 联系我们:010-67392185
版权所有:北京工业大学图书馆 站点建设与维护:北京爱琴海乐之技术有限公司