查看会员资料
用 户 名:莫****
发送消息- Email:用户隐藏
- Icq/MSN:
- 电话号码:
- Homepage:
- 会员简介:
最新会员发布资源
MDPgridworldExample
- 世界是空格自由(0)或障碍物(1)。每转动机器人可以在8个方向移动,或者留在地方。奖励功能,给人一种自由空间,目标定位,高回报。所有其他空格自由具有小的损失,和障碍具有大的负的奖励。值迭代是用来学习的最佳“政策”,即指定一个控制输入到每一个可能的位置的功能。- The world is freespaces (0) or obstacles (1). Each turn the robot can move in 8 directions, or stay in place. A reward