随机平稳策略下半Markov决策过程的仿真优化算法 - Details

Author：

代桂平 (代桂平.) | 唐昊 (唐昊.) | 奚宏生 (奚宏生.)

Indexed by：

CQVIP PKU CSCD

Abstract：

基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了＂维数灾＂问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用.

Keyword：

一致化Markov链神经元动态规划随机平稳策略仿真优化等价Markov过程

Author Community：

[ 1 ] [代桂平]北京工业大学
[ 2 ] [唐昊]合肥工业大学
[ 3 ] [奚宏生]中国科学技术大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

窄声束阵列传感器的仿真优化与研制
2018，北京工业大学学报
窄声束阵列传感器的仿真优化与研制
2018，北京工业大学学报
伺服系统动态仿真及优化方法的研究
2009，机械设计与制造
永磁缓速器磁头的磁路分析
2010，机械设计与制造

Source ：

控制理论与应用

ISSN： 1000-8152

Year： 2006

Issue： 4

Volume： 23

Page： 547-551

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

Get Fulltext

DOI Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to