向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

栏目: 数据库 · 发布时间: 7年前

内容简介：深度强化学习，可以用来学走路了。Agility Robotics的双足机器人看，它可以正常的往前走。

郭一璞发自凹非寺

量子位报道 | 公众号 QbitAI

深度强化学习，可以用来学走路了。

Agility Robotics的双足机器人 Cassie ，这个没有上半身的机器人，就靠着深度强化学习学会了更灵活的使用自己身体的唯二器官：左腿，和右腿。

看，它可以正常的往前走。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

还能大步快走，差点就跑起来了。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

作为一个传送带运动爱好者，万一踩到了传送带的边缘也不会两脚劈叉，而是稳稳的继续前行。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

甚至，倒着走也一样稳。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

或者学习一下螃蟹，横行霸道。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

这种时候，不怀好意的人类就开始欺负它了，拿木棍戳它的小肚腩。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

站的稳稳地，Cassie没有一点点要倒下的意思。

既然戳肚子正前方没有反应，那我们换个角度，戳肚子的侧面，大概是“腰子”的位置。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

稍稍歪了一下，但影响不大，Cassie该怎么走还是怎么走。

肚子看来干扰不了，那就干扰脚底，放一块木板，绊倒它。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

可惜如意算盘没能实现，Cassie一脚踩在木板上，稍微晃了晃，依然稳步前行，甚至还回踩了一脚。

学走路进行时

新的行走技能，要归功于加拿大不列颠哥伦比亚大学计算机系和俄勒冈州立大学动力机器人实验室两所机构。

让Cassie学会行走，需要用到 强化学习 和 模仿学习（Imitation Learning） 。

强化学习解决马尔可夫决策过程（ Markov Decision Process, MDP）的最优策略，需要用到 策略梯度算法 ；而模仿学习则需要解决参数策略问题。

之后，需要用到关键算法DASS来搞定数据集。每次连续设计迭代时重新定义奖励函数，用确定性行动随机状态（Deterministic Action Stochastic State，DASS）元组来表征策略。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

之后，将DASS于强化学习、模仿学习结合在一起，为机器人设定策略。

现在需要在Cassie机器人上实验了。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

Cassie双足机器人身高大约1米，体重31千克，两条腿上有复杂的传动机制，红色箭头都是主动关节，黄色的箭头都是被动关节。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

需要在神经网络上进行参数化策略优化，这里用到了actor-critic算法和MuJoCo模拟器。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

策略设计过程则是依靠四个基于追踪的策略的起始点。 DASS样本根据箭头的方向，从一个策略传递到下一个策略。

实际操作中，需要先训练几个初始策略，之后参考机器人的运动状态和需要达到的运动速度进行调整，这里只需要5~10k的小数据集就能实现变速行走策略。

最后，就可以让机器人跑起来了。Cassie机器人需要和计算机联网，操作过程中研究者们用到了Ubuntu系统和PyTorch框架来执行学习策略。

实验之后，可以看出使用更大的神经网络，就可以更快的产出更稳定的策略，比如图中的蓝色线条要明显优于红色和绿色。

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

传送门

最后，如果你需要了解更详细的步骤，可以阅读这项研究的论文。

论文：

Iterative Reinforcement Learning Based Design of Dynamic Locomotion Skills for Cassie

Zhaoming Xie, Patrick Clary, Jeremy Dao, Pedro Morais, Jonathan Hurst, Michiel van de Panne

https://arxiv.org/abs/1903.09537

— 完 —

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦，量子位社群分：AI讨论群、AI+行业群、AI技术群；

欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“微信群”，获取入群方式。（技术群与AI+行业群需经过审核，审核较严，敬请谅解）

向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

以上所述就是小编给大家介绍的《向前、向后、横着走，双足机器人Cassie，靠深度强化学习学会了走路丨论文》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

无懈可击的Web设计

西德霍姆 / 刘建宁 / 清华大学出版社 / 2009-4 / 59.90元

一个网站，无论视觉上多么美观，内容多么丰富，如果不能面向最广泛的用户群，那它就不算是真正成功的网站。《无懈可击的Web设计:利用XHTML和CSS提高网站的灵活性与适应性》是Web标准设计领域的公认专家Dan Cederholm的倾力之作，向您描述了基于Web标准的设计策略，以适应各种各样的用户浏览方式。书中每一章的开头都给出了一个基于传统HTML技术的实例，然后对它进行重构，指出它的局限性，并利......一起来看看《无懈可击的Web设计》这本书的介绍吧!

码农工具