强化学习（DQN、TPRO、PPO）-EW帮帮网

DQN--基于价值

强化学习中有开发和探索两个概念

1.开发：就是让agent在已知的（状态-动作）二元分布中根据奖励最大化选择最优动作。

2.探索：让agent在未知二元组分布外，选择其他的动作

开发是让当前期望的奖励最大化，而探索则是让从长远的角度让奖励最大化。在DQN中用到了ϵ−贪心策略，正数ϵ的概率随机选择未知的一个动作，剩下（1 − ϵ）的概率选择已有动过中动作价值最大的动作。在决策过程中，有ϵ 概率选择非贪心的动作，即每个动作被选择的概率为 ϵ/∣A∣，其中|A|表示动作数量，也就是说，每个动作都有同样 ϵ/∣A∣概率的被非贪心的选择。另外还有1−ϵ的概率选择一个贪心策略，因此这个贪心策略被选择的概率则为 1−ϵ + ϵ /∣A∣。在所有的动作集合A中，在某一个时刻，总会有一个动作是智能体认为的最优动作，即a∗=argmax(Q(a,s)) 。

DQN和Q-Learning都是基于价值迭代的算法并且，可能价值迭代不适用我们的场景，因此DQN中的模型学习效果不好，与Q-Learning相比DQN通过建立记忆池减小了数据之间的相关性，同时减小了参数更新的方差，提高的收敛速度。DQN的agent每次从环境中采样得到的四元组数据（状态、动作、奖励、下一状态）存储到回放缓冲区中，训练Q网络的时候再从回放缓冲区中随机采样若干数据来进行训练。