查看会员资料

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

当前位置：

查看会员资料

用户名：小人物****

发送消息

Proximal_Policy_Optimization

2下载量：
强化学习可以按照方法学习策略来划分成基于值和基于策略两种。而在深度强化学习领域将深度学习与基于值的Q-Learning算法相结合产生了DQN算法，通过经验回放池与目标网络成功的将深度学习算法引入了强化学习算法。(Reinforcement learning can be divided into value-based learning and strategy based learning according to method learning strategies. In the fiel
所属分类：人工智能/神经网络/深度学习
- 发布日期：2020-06-24
- 文件大小：8192