Indexed by:
Abstract:
提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题.该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程.该算法利用强化学>--j算法的标准问题一Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值.
Keyword:
Reprint Author's Address:
Email:
Source :
吉林大学学报(工学版)
ISSN: 1671-5497
Year: 2008
Issue: 6
Volume: 38
Page: 1407-1411
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: 3
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: