资源 | DeepMind开源强化学习研究环境Control Suite

栏目: Python · 发布时间: 6年前

内容简介:资源 | DeepMind开源强化学习研究环境Control Suite

原标题:资源 | DeepMind开源强化学习研究环境Control Suite

选自GitHub

机器之心编译

参与:路雪、李泽南

DeepMind 最近开源的强化学习环境 Control Suite 相比 OpenAI Gym 拥有更多的环境,更易于阅读的代码文档,同时更加专注于持续控制任务。它基于 Python,由 MuJoCo 物理引擎支持,是一套强大的强化学习智能体性能评估基准。

资源 | DeepMind开源强化学习研究环境Control Suite

图 1:基准环境。第一行:Acrobot、Ball-in-cup、Cart-pole、Cheetah、Finger、Fish、Hopper。第二行:Humanoid、Manipulator、Pendulum、Point-mass、Reacher、Swimmer、Walker。

DeepMind Control Suite 是一系列稳定、测试良好、易于使用和修改的持续控制任务。这些任务用 Python 编写,物理模型使用 MJCF 定义。标准化动作、观察和奖励结构使得基准简单,学习曲线易于解释。

  • 工具链接:https://github.com/deepmind/dm_control

  • 演示视频:https://v.qq.com/x/page/i0528t4od2l.html

控制物理世界是通用智能不可缺少的能力,也是先决条件。确实,通用智能唯一的例子就出现在掌控了世界数百万年的灵长类动物身上。

物理控制任务有很多共同特性,应该将它们与行为问题区别对待。不像棋盘游戏、语言和其他符号域(symbolic domain),物理控制任务本质上是状态、时间和动作持续的。它们的动态取决于二阶运动方程,底层状态由位置和速度变量组成,而状态导数是加速度变量。感官信号(即观察结果)通常携带很多有意义的物理单元,随着不同的时间尺度发生改变。

最近十年,强化学习技术在解决视频游戏等困难问题中进展迅速(Mnih, 2015)。街机游戏模式的学习环境(ALE, Bellemare et al. 2012)是这些进展的关键推动因素,提供一系列标准基准用于评估和对比学习算法。DeepMind Control Suite 提供了一套类似的标准基准用于持续控制问题。

OpenAI Gym(Brockman et al., 2016)目前包括的一套持续控制域事实上是持续强化学习中的基准(Duan et al., 2016; Henderson et al., 2017)。与之类似,DeepMind Control Suite 也是一套对持续强化学习算法进行基准测试的任务,同时后者存在一些显著的区别。DeepMind 只专注于持续控制任务,如分离具备类似单元(位置、速度、力等)的观察结果,而不是将其串联成一个向量。我们统一的奖励结构(见下方)提供可解释的学习曲线和整合的套件级性能度量。此外,我们强调使用统一 设计模式 编写的高质量、文档化代码,提供一个可读、透明、易于扩展的代码库。最后,该控件具备 Gym 中所有的域,而且还多出很多。

DeepMind Control Suite 工具包包括:

  • MuJoCo 物理引擎支持的 Python 强化学习环境集,见 suite 子目录。

  • 为 MuJoCo 物理引擎提供 Python binding 的库。

安装和要求

按照以下步骤安装 dm_control:

1. 从 MuJoCo 网站的下载页面下载 MuJoCo Pro 1.50。先安装 MuJoCo Pro,再安装 dm_control,因为 dm_control 的安装脚本要基于 MuJoCo 的头文件生成 Python ctypes binding。默认情况下,dm_control 假设 MuJoCo Zip 压缩包可以提取出~/.mujoco/mjpro150。

2. 运行 pip install git+git://github.com/deepmind/dm_control.git (很快就会有 PyPI 包)或复制该库,运行 pip install /path/to/dm_control/,来安装 dm_control Python 包。安装时,dm_control 在~/.mujoco/mjpro150/include 中从第一步开始查找 MuJoCo 头文件,不过该路径可以配置 headers-dir 命令行参数。

3. 安装 MuJoCo 的许可密钥,运行 dm_control 时会用到。详见 MuJoCo 许可密钥页面(https://www.roboti.us/license.html)。默认情况下,dm_control 在~/.mujoco/mjkey.txt 中查找 MuJoCo 许可密钥文件。

4. 如果许可密钥(如 mjkey.txt)或 MuJoCo Pro 提供的共享库(如 libmujoco150.so 或 libmujoco150.dylib)未按照默认路径安装,那么分别使用 MJKEY_PATH 和 MJLIB_PATH 指定它们的位置。

针对 macOS Homebrew 用户的额外说明

1. 只要你使用的是 Homebrew 安装的 Python 解释器,那么上述 pip 指令应该可以正常工作。

2. 要想运行 OpenGL,请运行 brew install glfw,从 Homebrew 安装 glfw 包。

3. 运行前,需要先用 GLFW 库路径更新 DYLD_LIBRARY_PATH 环境变量。方式:运行 export DYLD_LIBRARY_PATH=$(brew --prefix)/lib:$DYLD_LIBRARY_PATH。

资源 | DeepMind开源强化学习研究环境Control Suite


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

动画的时间掌握

动画的时间掌握

哈罗德•威特克、约翰•哈拉斯 / 中国电影出版社 / 2012-7-1 / 38.00元

动画的时间掌握(修订版),ISBN:9787106035334,作者:(英)哈罗德·威特克 等著一起来看看 《动画的时间掌握》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具