您现在的位置: 精品资料网 >> 企业管理 >> 决策管理 >> 资料信息

马尔可夫决策基础理论教材(PDF 36页)

所属分类:
决策管理
文件大小:
461 KB
下载地址:
相关资料:
基础理论
马尔可夫决策基础理论教材(PDF 36页)内容简介
2. 解的表示形式
2.1 MDP 基本模型及概念
2.1.1 基本模型
2.1.2 状态
2.1.3 行动
2.1.4 状态转移函数
2.1.5 策略与值函数
2.11 显示了一个2-状态POMDP 的例子,其中pk 表示某策略树。
2.2 MDP 典型算法
2.2.1 反向迭代类算法
2.2.1.1 策略迭代
2.2.1.2 值迭代
2.2.2 前向搜索类算法
2.2.2.1 结合与或图的搜索
2.2.2.2 实时动态规划算法
2.3 POMDP 基本模型及概念
2.3.1 基本模型
2.3.2 观察
2.3.3 信念状态
2.3.4 主观贝叶斯更新
2.3.5 策略表示形式
2.3.6 值函数表示形式
2.4 POMDP 典型算法
2.4.1 值迭代算法
2.4.1.1 Witness 算法
2.4.1.2 增量裁剪算法
2.4.1.3 基于点的值迭代算法
2.4.1.4 几种值迭代算法的比较
2.4.2 搜索类算法
2.5 多智能体系统相关决策模型
2.5.1 DEC-POMDP 模型
2.5.2 POSG 模型及策略表示
2.6 多智能体系统典型决策算法
2.6.1 基于动态规划求解POSG
2.6.1.1 含隐式状态的标准型博弈
2.6.1.2 标准型有限视野随机博弈
2.6.1.3 多智能体动态规划操作
2.6.2 基于搜索的MAA*算法
2.6.2.1 启发式搜索
2.6.2.2 启发式函数设计
2.6.2.3 MAA*算法
2.7 Option 理论
2.7.1 半马尔可夫决策过程
2.7.2 Option 及相关定义
2.8 小结
..............................