CDN加速镜像 | 设为首页 | 加入收藏夹
当前位置: 首页 会员管理中心 查看会员资料

查看会员资料

用 户 名:下****

发送消息
  • Email:
    用户隐藏
  • Icq/MSN:
  • 电话号码:
  • Homepage:
  • 会员简介:

最新会员发布资源

  1. ReinforcementLearning

    0下载量:
  2. 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。 强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。 强化学习就是:追求最大回报G 追求最大回报G就是:找到最优的策略π?。 策略π?告诉在状态s,应该执行什么行动a。 最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the
  3. 所属分类:通讯编程

    • 发布日期:2018-01-01
    • 文件大小:1024
搜珍网 www.dssz.com