搜索资源列表
flappybird-qlearning-bot
- 基于深度强化学习的Flappy Bird机器人-Flappy Bird Bot using Reinforcement Learning
FlappyLearning-gh-pages
- 搭建强化学习网络学习flappybird,代码为js文件。神经网络可改写重用。(Build reinforcement learning network learning flappybird, code for js file. Neural network can be rewritten and reused.)
1709.04326
- 多智能体设置在机器学习中的重要性日益突出。超过了最近的大量关于深度的工作多agent强化学习,层次强化学习,生成对抗网络和分散优化都可以看作是这种设置的实例。然而,多学习代理人的存在这些设置使得培训问题的非平稳常常导致不稳定的训练或不想要的最终结果。我们提出学习与对手的学习意识(萝拉),一种方法,原因的预期。其他代理的学习。罗拉学习规则包括一个额外的术语,解释了在预期的参数更新的代理政策其他药物。我们发现,利用似然比策略梯度更新的方法,可以有效地计算萝拉更新规则,使该方法适合于无模型强化学习。这
tf-adnet-tracking-master
- 基于强化学习深度学习用于单目标跟踪算法的源码(Based on reinforcement learning, deep learning is used for single target tracking algorithm.)
万门大学强化学习算法代码RW模型+TD模型
- 万门大学,强化学习,rw模型算法代码实现, V(CS) = V(CS) + A * ( V(US) * us - V(CS) * cs ) td模型, V(s{t}) = V(s{t}) + a[R(t+1) + rV{S(t+1)} - V{S(t)}](In the intensive learning of the University of Wan men, the RW algorithm, the python implementation, the algorithm f
万门大学强化学习GridEvalu模型GridPolicy模型
- 万门大学,强化学习,Grid_world_evaluation模型算法代码实现, V(S) = V(S) + A * ( R(S) + r*V(new_S) - V(S) ) Grid_world_Policy模型, P(S) = P(S) + A * ( R(S) + r*P(new_S) - P(S) )(In the intensive learning of the University of Wan men, the Grid_world_evaluation algo
DeepMind-Atari-Deep-Q-Learner-master
- 基于python环境的简明深度强化学习深度Q学习实现代码(Concise deep intensive learning based on Python environment and deep Q learning implementation code)
ddpg
- 深度强化学习中DDPG算法的代码,用Python语言实现(The code of DDPG algorithm in deep reinforcement learning, implemented in Python language)
深度强化学习综述
- 一本介绍深度强化学习的综述文章,对初学者很有帮助。(A review of intensive learning is very helpful for beginners.)
深度学习入门:基于Python的理论与实现.pdf+代码
- 本书是深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术。书中使用Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。书中不仅介绍了深度学习和神经网络的概念、特征等基础知识,对误差反向传播法、卷积神经网络等也有深入讲解,此外还介绍了深度学习相关的实用技巧,自动驾驶、图像生成、强化学习等方面的应用,以及为什么加深层可以提高识别精度等“为什么”的问题。(This book is a true sen
单一任务导航
- 测试深度马尔可夫决策来导航,给出了python的实现代码(MDP based navigation)
tpprl
- 结合深度强化学习和时间点过程算法的实现,主要用python(In combination with deep reinforcement learning and implementation of time point process algorithm, Python is mainly used.)
基于深度强化学习的复杂环境下机器人自主移动算法
- 本算法是通过深度强化学习方法,模拟人类行走策略,建立避免碰撞的模型,训练机器人底盘以人类习惯在复杂变化的环境中主动生成速度和角度信息,从而自动行走。
Proximal_Policy_Optimization
- 强化学习可以按照方法学习策略来划分成基于值和基于策略两种。而在深度强化学习领域将深度学习与基于值的Q-Learning算法相结合产生了DQN算法,通过经验回放池与目标网络成功的将深度学习算法引入了强化学习算法。(Reinforcement learning can be divided into value-based learning and strategy based learning according to method learning strategies. In the fiel
(强化学习入门)David Silver
- 深度学习的中文版本,里面详细介绍了深度学习的各种算法,其中还有一些用到的基础内容,例如矩阵和向量的范数(Chinese version of the depth of learning, which detailed the depth of learning algorithms, some of which used the basics, such as vector and matrix norm)
DEEE_Q_NETWORK
- 深度学习强化学习神经网络Deep Q-learning Network代码(Deep learning dqn code)
FCMADDPG
- 基于深度强化学习的编队控制使用MADDPG算法(Formation control based on deep reinforcement learning)
9.14DQN-QL
- 深度强化学习一个简单的事例,用于深度强化学习而用(Deep reinforcement learning is a simple example for deep reinforcement learning)
ddpg
- 使用深度强化学习中的ddpg算法学习玩游戏,让智能体学习最优策略。(The ddpg algorithm in deep reinforcement learning is used to learn to play games, so that the agent can learn the optimal strategy.)
无人机强化学习控制代码python
- 一个基于深度强化学习的无人机控制代码,python语言写的。