github 项目 | 强化学习训练机器人打网球

栏目: 数据库 · 发布时间: 4年前

内容简介:当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

当AlphaGO战胜了世界围棋冠军李世石之后,整个工业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域是一个非常令人exciting的。

什么是强化学习

强化学习的基本思想是通过最大化智能体(agent) 从环境中获得的累计奖赏值,以学习到完成目标的最优策略。 强调如何基于环境而行动,以取得最大化的预期利益, 即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 强化学习解决的问题是,针对一个具体问题得到一个最优的决策,使得在该策略下获得的奖励最大。

我们知道拥有智能会有一些聪明的表现。例如像犬等一些动物,我们可能会认为是有一定智能的,我们可以训练一只幼犬听懂饲养员的指令。训练方法是:饲养员手里拿着食物,然后说“坐下”,当幼犬做出符合要求的动作时,就把食物给它。反复进行训练,大概半小时的时间,它就学会听见“坐下”的命令就坐下。这个过程就是动物的学习过程,它的智能就表现在它能在一定时间内发现如何适应环境,获得食物奖赏。

训练幼犬的过程有两个要素:

饲养员需要对幼犬发出指令,比如让它“坐着”,

饲养员手中有动物非常想要的东西,即奖赏。对狗来说,奖赏就是食物。

https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html

github 项目 | 强化学习训练机器人打网球

在 github 上,一位叫Thomas Tracey的小哥,探讨了他在Udacity的Deep Reinforcement Learning Nanodegree的最终项目上所做的工作。

传统的强化学习方法,如 Q-Learning 或策略梯度,很难适应多智能体环境。一个问题是每个agent的 策略随着训练的进展而变化,并且从任何单个 agent的角度来看,环境变得非平稳,而这种方式无法通过agent自身策略的变化来解释。这会带来学习稳定性的挑战,并阻止直接使用过去的体验重放,这对于稳定深度 Q 学习至关重要。另一方面,当需要协调多个agent时,策略梯度方法通常表现出非常高的方差。或者,可以使用基于模型的策略优化,通过反向传播可以学习最优策略,但这需要一个可区分的世界动态模型和关于agent之间相互作用的假设。

这个项目的目标是训练两名强化学习agent打网球。和真正的网球一样,每个球员的目标都是保持球的运转。而且,当你有两个同样匹配的对手时,你往往会看到相当长的交换,球员在网上来回击球。

鉴于此环境的额外复杂性,深度 Q 网络( DQN )算法并不适合。最重要的是,我们需要一种算法,让网球运动员利用其全方位和动力。为此,我们需要探索一种称为基于策略的方法的不同类算法。 基于策略的方法的一些优点: 连续行动空间、随机策略、简单。

作者基于谷歌 deepmind提出的 DDPG 算法实现深度强化学习的连续控制, DDPG 可以被视为深度的延伸 Q-learning 连续任务。 该算法 使用深度函数逼近器的无模型,非策略 Actor-Critic 算法,可以学习高维,连续动作空间中的策略

作者的目标是利用强化学习训练多 agent 学习踢足球

github 地址:https://github.com/tommytracey/DeepRL-P3-Collaboration-Competition

了解更多关注:

github 项目 | 强化学习训练机器人打网球


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

写给大家看的算法书

写给大家看的算法书

【日】杉浦 贤 / 绝云 / 电子工业出版社 / 2016-6 / 59.00元

算法这个词对于非计算机从业人士而言,似乎就是晦涩、神秘的代名词。其实,算法在日常生活中随处可见。做饭用的菜谱是一种算法、查字典的方法是一种算法、给期中考试分数排名也用到了算法。事实上,算法可以说是这个信息爆炸的时代所依存的重要基石之一。 《写给大家看的算法书》对于理解信息处理的基础——算法而言,是一本非常优秀的入门读物。作者采用大量生动的类比,配合简洁易懂的配图,深入浅出地讲解算法,极大地拉......一起来看看 《写给大家看的算法书》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具