[关闭]
@zqbinggong 2018-05-27T05:26:22.000000Z 字数 541 阅读 928

Deep RL

《tensorflow实战》


概要

  1. model-based RL: 在强化学习中,可以建立额外的model对环境状态的变化进行预测;但是预测大量且复杂的环境信息非常困难
  2. model-free RL: 直接对策略或者Action的期望进行预测,因此计算效率非常高;通常没办法给出良好的model时,可以供给更多的样本geiRL以弥补没有model预测环境状态的问题
  3. 强化学习的研究主要受制于两个因素: (GYM可以很好地解决这两个问题)
    • 缺乏高质量的benchmark
    • 没有一个通用的环境标准,因而个模型很难横向比较

策略网络

  1. 策略网络: 即建立一个神神经网络模型,可以通过观察环境状态,直接预测出目前最应该执行的策略,执行这个策略可以获得最大的期望收益(包括现在和未来的reward)
  2. policy-based相比于value-based具有更好的收敛性,通常可以保证收敛到局部最优,且不会发散),同时对高维或者连续值的action非常高效(训练和输出结果都更高效),同时能学习出带有随机性的策略(随机性是指这里学到是采用各个Action的概率)
  3. GYM, 提供一个方便的强化学习任务环境,如文字游戏,棋牌游戏,视频图像游戏等;
    • environment 即我们的任务或者问题
    • agent 编写的策略或算法

估值网络

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注