[关闭]
@zsh-o 2019-04-29T00:18:40.000000Z 字数 594 阅读 987

劝退门 - RL

脑洞


学强化学习的心路里程

Bellman Equations【Good】 Q-Learning / DQN【Interesting】 Policy Gradient【Wondful】 Actor-Critic【Exciting】 DDPG【Amazing】 TRPO / PPO【GOD! Imposible!!!】

从感觉很有意思【Q-Leaning/DQN】,到感觉可以写篇博客【Actor-Critic】,最后直接被劝退满篇每个单词都认识但就是不知道在说啥【TRPO/PPO】
其实理论部分我从14年的《Deterministic Policy Gradient Algorithms》已经看不懂了。。。

image.png-42.4kB
图片来自OpenAI Spinning Up,看到这个图我决定放弃了,我的强化学习之旅就这样止步于第一步了,溜了溜了,告辞~

Reference

Understanding RL: The Bellman Equations
OpenAI Spinning Up
Medium: [Jonathan Hui] Deep Reinforcement Learning Series
Medium: [Jonathan Hui] RL — Policy Gradient Explained



添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注