搜索资源列表
policygradientlibrary
- pomdp中关于策略梯度的matlab代码实现,非常详细。-pomdp on strategies to achieve gradient matlab code, very detailed.
bpnnet_154
- L-M算法。除了动量法(基于梯度下降的训练算法)外,学习率自适应调整策略是BP算法改进的另一种途径,它利用Levenberg-Marquardt优化方法,从而使得学习时间更短。其缺点是,对于复杂的问题,该方法需要很大的存储空间。 -L-M algorithm. In addition to momentum (based on the gradient descent algorithm for training), learning rate adaptive strategy is to i
PSO_BP
- 基于粒子群和BP神经网络的混合优化策略算法。将改进PSO算法与BP神经网络结合,用PSO算法取代梯度下降法来优化神经网络的连接权值和阈值。程序简单易懂。-Based on Particle Swarm and the BP neural network algorithm for hybrid optimization strategy. Will improve the PSO algorithm and BP neural network, using PSO algorithm to re
RSGA
- 遗传算法(GA)是一类借鉴生物界自然选择和遗传原理的随机优化搜索算法。其主要特点是群体搜索策略和群体中个体间的信息交换、搜索不依赖于梯度信息。-Genetic algorithms (GA) is a type of reference biological principle of natural selection and random genetic optimization search algorithm. Its main feature is a group of search s
GA
- 经典遗传算法的matlab仿真,遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法,其主要特点是群体搜索策略和群体中个体之间的信息交换,搜索不依赖于梯度信息。-good genetic algorithm matlab code
policygradientlibrary
- 策略梯度,自然策略梯度,行动者-评论家 -policy gradient
1709.04326
- 多智能体设置在机器学习中的重要性日益突出。超过了最近的大量关于深度的工作多agent强化学习,层次强化学习,生成对抗网络和分散优化都可以看作是这种设置的实例。然而,多学习代理人的存在这些设置使得培训问题的非平稳常常导致不稳定的训练或不想要的最终结果。我们提出学习与对手的学习意识(萝拉),一种方法,原因的预期。其他代理的学习。罗拉学习规则包括一个额外的术语,解释了在预期的参数更新的代理政策其他药物。我们发现,利用似然比策略梯度更新的方法,可以有效地计算萝拉更新规则,使该方法适合于无模型强化学习。这
sequence_gan
- TensorFlow实现自然语言处理,基于梯度策略算法(Use TensorFlow to deal with the Natural Language Processing)
Python实现逻辑回归与梯度下降策略
- 建立一个逻辑回归模型来预测一个大学生是否被大学录取(Establish a logistic regression model to predict whether a college student will be admitted to a university)
强化学习
- 使用强化学习实现策略梯度和和马尔科夫决策过程(Implementing Strategic Gradient Sum and Markov Decision Process with Reinforcement Learning)