深度强化学习

本章首先会简单地介绍强化学习的基础知识和基础的强化学习算法,帮助读者快速入门;之后通过三种强化学习算法,以及三种强化学习算法的实战项目帮助读者加深对算法的理解。
本章内容:
1. 从AlphaGo看深度强化学习
2. 强化学习的基本概念(实例讲解)
3. 马尔可夫决策过程(MDP)
4. 最优价值函数和贝尔曼方程
5. 强化学习算法:价值迭代和策略迭代算法
6. 蒙特卡罗方法
7. 时序差分学习算法
8. 值函数近似算法
9. 策略搜索(强化学习方法)
10. Q-Learning算法实现“Frozen Lake”游戏
11. REINFORCE算法实现“CartPole-v1”游戏
12. Actor-Critic算法实现“MountainCar-v0”游戏
13. DQN和DDPG深度强化学习的2个算法