ATMSeer 拯救工程师的发际线

栏目: 数据库 · 发布时间: 7年前

内容简介：（来源：Qianwen Wang,et al./HKUST）

ATMSeer 拯救工程师的发际线

（来源：Qianwen Wang,et al./HKUST）

来自香港科技大学的 Qianwen Wang、浙江大学的 Zhihua Jin 和麻省理工学院的科研人员，近日搞出一件造福业界人士的大事件——在发表于 ACM CHI 会议的一篇工作中，提出了一个实现交互式自动机器学习（Automated Machine-learning，AutoML）可视化的工具 ATMSeer。

利用 ATMSeer 多粒度可视化自动机器学习的结果，从深度和广度上，对自动机器学习的模型、不同组别设定以及超参数三个层级做出探究，让自动机器学习的过程透明化，可实现对结果的理解分析，并且能通过交互接口实时修正自动机器学习过程。此举可谓解放“劳工 ” ，解放日日夜夜被控住的你。

这一切是怎么发生的？ATMSeer 做了什么？让我们一探究竟。

算法工程师的自我救赎

在 ATMSeer 之前，自动机器学习早已诞生。

针对特定任务设计不同的算法并优化超参数，以期得到最佳的模型表现，这是一个漫长的过程，模型的选择、参数的调整，靠灵机一动根本无法解决，只有漫长的岁月与伴随秃头积累的经验，才是真实而惨烈的解决手段。

对此，早有人提出，设计一套自动选择模型及参数的方案，充分利用计算机的算力进行自动机器学习，不是比人类有限的尝试更有效吗？如此，AutoML 应运而生，而这一过程一般都是“黑盒呈现 ” 。研究者一般决定几个 Decision，比如选定哪些模型，超参数范围确定，训练时间设定，然后 AutoML 产生模型，这一套背后的具体过程我们无法得知。

ATMSeer 拯救工程师的发际线

图 | 自动机器学习的一般流程。（来源：Qianwen Wang, et al./HKUST）

因此，几个不容忽视的问题随之而来：AutoML 测试了哪些模型？是否详尽地探索了每个模型并得到该模型的最佳表现？是否暗含弊端与疏漏？工程师不知道这些问题的答案，便难以放心大胆地使用 AutoML，即使采用，也难以对最后筛选的模型、参数进行更适合自己的调整。

由此，Qianwen Wang 等人设计了 ATMSeer。

撕开 ATMSeer 黑盒

ATMSeer 界面包括三个面板：一个控制面板 a，一个概览面板 b，一个 AutoML 分析及调节面板 c。

控制面板 a ：上传数据集，设定 AutoML 流程，能实现 AutoML 过程的起始和暂停。

概览面板 b ：展示如模型的个数、所筛选的超参数等数据，如图 b1 是对 AutoML 的诸如最佳模型、算法模型数量、超参数个数，模型表现分布的一般总结，而 b2 列出了表现 top k 的各个算法模型。

分析及调节面板 c ：从模型、不同组别设定、超参数三个层级上对模型的表现进行分析展示，在模型层级 c1 上，一种算法的所有模型表现被表示成水平直方图，按降序展示表现最佳的模型，直方图的分布也就是模型表现的分布，用户能够比较不同模型的表现，以及每个模型的稳定性；在组别设定层级 c2 上，一个格子代表某种模型一组参数设定（比如格子 1 可以选定 SVM 模型的线性核函数，格子 2 可以选定 SVM 模型的多项式核函数）的训练，柱形高度代表模型的表现，一个格子里不同的柱形方块代表不同次的训练，用户可以从更细小的力度上实现对模型的分析掌控；在超参数层级 c3 上，每个模型被表示成散点图里的圆点，散点图的 x 轴代表一个超参数的值，y 轴代表模型表现。不同的超参数的影响可以直观地被展示出来，有利于用户实现精细的调整。

ATMSeer 拯救工程师的发际线

图 | ATMSeer 工作界面。控制面板 a 用来开始一个 AutoML 进程；概览面板 b 用来观察 AutoML 进程的一般统计数据；包含三个粒度的分析面板 c 用来分析模型表现并实现实时调节。（来源：Qianwen Wang, et al./HKUST）

当用 ATMSeer 可视化自动机器学习时，用户可以实现实时监察和控制，由于分析及调节面板 c 里内嵌交互接口，用户可以直接实时更改参数，进而可以实现一个“跑模型-调参数-跑模型 ” 的工作流程，直接看到自己的调整后的结果。

ATMSeer 登场

1. 如何利用 ATMSeer 进行选择和分析？

如利用分类模型将数据集 arsenic-female-bladder（含有 559 个女性样本，或者为癌症患者，或者为健康人）分类，ATMSeer 展示了不同模型的结果，图中，a 表示模型层级上最佳表现均为 0.939, 但 knn 模型更稳定，一般表现都在 0.8 以上，其他模型存在很差表现的可能；b 说明不同组设定下 knn 表现都在 0.93 左右，也就是不同设定对 knn 表现影响不大，但同一套设定下，表现可能有好有坏，而 c 说明小的 neighbors 参数设置会导致分类结果较差。

ATMSeer 拯救工程师的发际线

图 | 如何利用 ATMSeer 分析和选择模型。（来源：Qianwen Wang, et al./HKUST）

2. 如何利用 ATMSeer 进行自动机器学习的调整？

理解分析了 AutoML 结果之后，如何实时调整 AutoML 的训练呢？如图对 Friedman 数据集 fri_c3_1000_10（含有 1000 个样本点，每个样本为 10 维数据）分类，选定 ET（Extra Trees）模型，虽然 MLP 最佳表现更强，但并不稳定，此时 ET 模型只训练了 3 个，继续训练出 30 个 ET 模型，b 中显示最佳表现可以达到 0.906，并且 gini 指数和交叉熵这两种损失的选择对模型影响不大，进一步由 c 可知，超参数 max_features 影响模型表现，调整为 0.7-1.0，训练另外 50 个模型，模型表现上升至 0.922。

ATMSeer 拯救工程师的发际线

图 | 如何利用 ATMSeer 进行 AutoML 的调整。（来源：Qianwen Wang, et al./HKUST）

在此之前，也不是没有可视化机器学习模型的工具，但能够如此应用广泛而又有深度地衡量各个机器学习模型表现，实现可视化并能够实时调整者无出其右。这不仅有利于解放业界人士的机械式体力劳动，对于那些业界新手以及需要用到机器学习的跨界新人来说，更是一个实用利器。

参考：

https://arxiv.org/pdf/1902.05009.pdf

ATMSeer 拯救工程师的发际线

以上所述就是小编给大家介绍的《ATMSeer 拯救工程师的发际线》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

编程精粹

Steve Maguire / 人民邮电出版社 / 2009.2 / 45.00元

编写高质量的、没有bug的程序，是每位程序员所追求的目标。但随着软件规模越来越大，功能日趋复杂，这一目标变得越来越困难。本书揭示了微软公司应对质量挑战、开发出世界级代码的技术内幕，作者在自己不断探索、实践和思考的基础上，系统总结了多年来指导微软各团队的经验，将其凝聚为许多切实可行的编程实践指导，可谓字字珠玑。正因如此，本书被公认为与《代码大全》齐名的编程技术名著，曾于1993年荣获有软件开......一起来看看《编程精粹》这本书的介绍吧!

码农工具