@zqbinggong 2018-05-27T05:26:22.000000Z 字数 541 阅读 1259

Deep RL

《tensorflow实战》

概要

model-based RL: 在强化学习中，可以建立额外的model对环境状态的变化进行预测；但是预测大量且复杂的环境信息非常困难
model-free RL: 直接对策略或者Action的期望进行预测，因此计算效率非常高；通常没办法给出良好的model时，可以供给更多的样本geiRL以弥补没有model预测环境状态的问题
强化学习的研究主要受制于两个因素：（GYM可以很好地解决这两个问题）
- 缺乏高质量的benchmark
- 没有一个通用的环境标准，因而个模型很难横向比较

策略网络

策略网络：即建立一个神神经网络模型，可以通过观察环境状态，直接预测出目前最应该执行的策略，执行这个策略可以获得最大的期望收益（包括现在和未来的reward）
policy-based相比于value-based具有更好的收敛性，通常可以保证收敛到局部最优，且不会发散），同时对高维或者连续值的action非常高效（训练和输出结果都更高效），同时能学习出带有随机性的策略（随机性是指这里学到是采用各个Action的概率）
GYM，提供一个方便的强化学习任务环境，如文字游戏，棋牌游戏，视频图像游戏等；
- environment 即我们的任务或者问题
- agent 编写的策略或算法

估值网络

内容目录

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注