强化学习:Policy-Gradient Method
本文介绍了基于策略梯度的强化学习方法,并以此为基础介绍了通过蒙特卡洛实现策略梯度的REINFORCE算法
强化学习:Policy-Gradient Method Read More »
本文介绍了基于策略梯度的强化学习方法,并以此为基础介绍了通过蒙特卡洛实现策略梯度的REINFORCE算法
强化学习:Policy-Gradient Method Read More »
本文介绍了深度强化学习的一种经典算法:Deep Q-Learning,相比于经典的Q-learning算法,该算法可以处理连续的状态空间
强化学习:Deep Q-Learning Read More »
本文第一部分介绍了关于强化学习问题的基本概念,例如MDP,Bellman方程,State(Action)-Value Function,最优策略等;本文第二部分介绍了求解强化学习问题的一类最基本的算法:动态规划 (例如策略迭代和价值迭代)