forked from Eric3911/Related-works-ch
-
Notifications
You must be signed in to change notification settings - Fork 0
/
强化学习教程
113 lines (81 loc) · 2.36 KB
/
强化学习教程
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
强化学习教程:https://leejunhyun.github.io/tag/#/CS294
https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch
https://github.com/PacktPublishing/Hands-On-Reinforcement-Learning-with-Python
https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/
第一章 概述
强化学习问题
强化学习的组成
智能体的组成
强化学习分类
强化学习中的关键概念
编程实现:环境和随机策略
第二章 马尔可夫随机过程
马尔可夫过程
马尔可夫奖励机制
有限马尔可夫决策过程
马尔科夫决策的引申
编程实现:马尔可夫决策过程
第三章 动态规划
动态规划简介
策略评价
策略提升
策略迭代
值迭代
动态规划引申
编程实现:在Gridworld上的策略迭代和值迭代
第四章 无模型方法一:蒙特卡洛
无模型简介
On-policy和off-policy
蒙特卡洛方法简介
蒙特卡洛评价
蒙特卡洛优化
增量算法
编程实现;蒙特卡洛方法
第五章 无模型方法二:时间差分
时间差分简介
时间差分评价
SARAS
Q学习
编程实践:TD算法
第六章:无模型方法三:多步自举
多步自举简介
TD(lambda)
SARAS(lambda)
off-policy下的多步自举
编程实现:n-step TD
第七章:函数近似和深度学习
函数近似
梯度下降算法
深度学习基础
编程实现:深度学习框架
第八章:梯度策略算法
策略梯度简介
策略梯度定理
REINFORCE规则
Actor-Critic算法
TRPO算法
编程实现:AC算法
第九章:深度强化学习
DQN
A3C
DDPG
PPO
编程实践:Atari游戏
第十章:基于模型的强化学习
基于模型的强化学习方法
基于模型的规则
Dyna算法
基于仿真的搜索
第十一章:应用和业务结合
搜索和利用
基于模型的学习方法
分层强化学习
反强化学习和示范学习
多智能体强化学习
记忆和注意力机制
元学习
工程实现:导购的多轮对话标签推荐技术
第十二章:元学习
第十三章:非参数学习和隐函数学习
第十四章:分形几何学习和混沌计算