没有合适的资源?快使用搜索试试~ 我知道了~
Reinforcement Learning-Theory and Algorithm.pdf
需积分: 50 5 下载量 106 浏览量
2021-02-04
12:25:40
上传
评论
收藏 652KB PDF 举报
温馨提示
关于强化学习的基础材料
资源推荐
资源详情
资源评论






















Reinforcement Learning:
Theory and Algorithms
Alekh Agarwal Nan Jiang Sham M. Kakade
October 27, 2019
WORKING DRAFT: Text not yet at the level of publication.

2

Contents
0 Notation 7
1 MDP Preliminaries 9
1.1 Markov Decision Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.1 Interaction protocol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.2 The objective, policies, and values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.3 Bellman consistency equations for stationary policies . . . . . . . . . . . . . . . . . . . . . . 11
1.1.4 Bellman optimality equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Planning in MDPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.1 Q-Value Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Sample Complexity with
a Generative Model 17
2.1 The Generative Model Setting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Sample Complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 A naive approach: accurate model estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 A more refined approach: using a sparse model . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3 Lower Bounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.4 What about the Value of the Policy bπ
?
? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Completing the proof . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Bibliographic Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3 Strategic Exploration in RL 25
3

4 Policy Gradient Methods 33
4.1 The Policy Gradient Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 The Softmax Policy and Relative Entropy Regularization . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 The Natural Policy Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.1 Global Convergence and the Softmax Policy Class . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 Function Approximation and a Connection to Transfer Learning . . . . . . . . . . . . . . . . 46
4.4 Related algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.1 Trust Region Policy Optimization (TRPO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.2 Proximal Policy Optimization (PPO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.3 Conservative Policy Iteration (CPI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5 Bibliographic Remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Value Function Approximation 53
5.1 Approximate Policy Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Approximate Policy Improvement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.1 Greedy policy improvement with `
∞
approximation . . . . . . . . . . . . . . . . . . . . . . 59
5.2.2 Conservative Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6 Strategic Exploration in RL with rich observations 65
6.1 Problem setting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2 Value-function approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.3 Bellman Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.4 Sample-efficient learning for CDPs with a small Bellman rank . . . . . . . . . . . . . . . . . . . . . 70
7 Behavioral Cloning and Apprenticeship Learning 73
7.1 Linear Programming Formulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.1.1 The Primal LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.1.2 The Dual LP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Behavioral Cloning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.2.1 Behavioral Cloning via Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2.2 Behavioral Cloning via Distribution Matching . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.2.3 Sample Efficiency: comparing the approaches . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4

7.3 Learning from Observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.3.1 Learning from Observations via Distribution Matching . . . . . . . . . . . . . . . . . . . . . 78
7.4 Inverse Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
A Concentration 83
5
剩余82页未读,继续阅读
资源评论


teresa_lin
- 粉丝: 489
- 资源: 5
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- RFID技术入门与应用开发基础教程
- AI大模型学习与使用入门基础教程
- Linux编程环境配置与维护
- 大学生实验报告编写基础教程
- DeepSeek:基于深度学习的智能搜索项目基础教程
- 基于Python的实验室管理系统的设计与实现(论文+源码)-kaic.doc
- (源码)基于HTML的视频解析播放系统.zip
- 基于python的五子棋游戏设计与实现(文档+源码)-kaic.docx
- (源码)基于NuvotonM487微控制器的UART通信系统.zip
- (源码)基于C++的植物大战僵尸随机事件墙.zip
- (源码)基于C++的Dreame D9机器人声效播放系统.zip
- (源码)基于AVR单片机的半挂车控制系统.zip
- (源码)基于Arduino的智能小车控制系统.zip
- (源码)基于WebRTC协议的音视频通讯系统.zip
- (源码)基于React框架的Web3工具网站.zip
- (源码)基于原生JavaScript和Echarts的数据可视化面板项目.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
