查看会员资料

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

当前位置：

查看会员资料

用户名：下****

发送消息

ReinforcementLearning

0下载量：
马尔卡夫决策过程理论定义了一个数学模型，可用于随机动态系统的最优决策过程。强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。强化学习就是：追求最大回报G 追求最大回报G就是：找到最优的策略π?。策略π?告诉在状态s，应该执行什么行动a。最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the
所属分类：通讯编程
- 发布日期：2018-01-01
- 文件大小：1024