MIT、浙大等打造AutoML可视化工具：模型自选、超参数自调

wshyb0

2019-06-05

【新智元导读】MIT、香港科技大学和浙江大学的研究人员开发了一种交互式工具，首次实现让用户对自动化机器学习（AutoML）系统的工作方式和流程进行查看和控制，提高系统定制化程度，向打开机器学习“黑盒子”的目标迈进了一大步。

为特定任务设计机器学习模型（如图像分类，疾病诊断和股市预测等）是一个艰巨而耗时的过程。研究人员首先要从多种不同的算法中进行选择来构建模型。然后在模型开始训练之前，手动调整“超参数”，确定模型的整体结构。

近期出现的自动机器学习（AutoML）系统可以对算法和超参数进行迭代式的测试和修改，并在此过程中选择最适合的模型。但系统的运行机制是不透明的，相当于一个“黑盒子”，也就是说系统选择了什么技术、什么模型，用户是看不见的。因此，用户就可能不信任模型给出的结果，而且很难根据自己的搜索需求来对系统进行定制。

定制化AutoML工具：模型自选，超参数自调

近日，在ACM CHI计算系统中人的因素会议上，麻省理工学院，香港科技大学和浙江大学的研究人员共同研发出一种工具，将AutoML方法的分析和控制权给到用户手中。

MIT、浙大等打造AutoML可视化工具：模型自选、超参数自调

该工具名为ATMSeer，它将AutoML系统、数据集和有关用户任务的一些信息作为输入，然后在用户友好型的界面内实现可视化搜索过程，界面中还能提供更多关于模型性能的深入信息。

“使用ATMSeer，用户可以自己选择和观察AutoML系统是如何工作的，”该研究论文的共同作者之一Kalyan Veeramachaneni说道，他是麻省理工学院信息与决策系统实验室（LIDS）的首席研究科学家，负责将数据引入AI团队。 “用户可以只选择一些性能最好的模型，或者结合其他因素或某些领域的专业知识，来指导AutoML系统去搜索某些特定模型。”

在对AutoML新手的案例研究中，研究人员发现大约85％使用ATMSeer的人对系统选择的模型充满信心。几乎所有参与者都表示，该工具让使用AutoML系统变得更舒服了。

ATMSeer会生成一个用户友好的界面，显示有关所选模型性能的深入信息，以及可调整的算法和参数的选项。

MIT、浙大等打造AutoML可视化工具：模型自选、超参数自调

ATMSeer自动机器学习定制化工具的用户友好型交互界面

“数据可视化是实现人与机器之间更好协作的有效方法。ATMSeer体现了这一理念，”论文合作者之一、香港科技大学的Wang Qianwen说。 “ATMSeer主要会让机器学习从业者受益，无论他们从事什么领域，专业水平如何，都能获益。ATMSeer可以缓解手动选择机器学习算法和调整超参数的不便。”

便捷可视化工具实现“可视即可调”

ATMSeer工具的核心是一款定制的AutoML系统，名为“自动调整模型”（ATM），由Veeramachaneni等研究人员在2017年开发。与传统的AutoML系统不同的是，ATM在尝试拟合模型时会对所有搜索结果进行完整的编目。

ATM将任何数据集和编码预测任务作为输入。系统随机选择算法类别，比如神经网络，决策树、随机森林和逻辑回归，并选择模型的超参数，如决策树的大小或神经网络层数等。

然后，系统针对数据集运行模型，迭代式调整超参数，并衡量模型性能。ATM利用掌握到了模型性能来选择另一个模型。最后，由系统针对任务输出几个表现最理想的模型。

诀窍在于，每个模型基本上可以被视为带有一系列变量的数据点：这里说的变量包含算法，超参数和性能。在此基础上，研究人员设计了一套系统，在指定的图形和图表上绘制数据点和变量。以此为起点，开发了一系列新技术，能够实时重新配置数据。 “亮点在于，使用这些工具，你能够可视化的任何东西，都可以修改。”史密斯说。

类似的可视化工具专门用于分析一种特定的机器学习模型，并能够在有限的搜索空间内实现定制化。“因此，这些工具可以为分析和观察AutoML的运行流程提供了有限的支持，还需要对许多搜索模型的配置进行分析。相比之下，ATMSeer支持分析使用各种算法生成的机器学习模型。”

将AutoML控制权交给用户，使用体验和信心明显提升

ATMSeer的可视化界面由三部分组成。用户可以通过控制面板上传数据集和AutoML系统，并启动或暂停搜索过程。下图是一个概览面板，显示了基本统计数据，如搜索的算法和超参数的数量，还有按降序排列的最佳模型的“排行榜”。Veeramachaneni表示：“如果你不是特别在意技术细节的专家，这可能是你最感兴趣的点。”

ATMSeer包含一个“AutoML Profiler”，其中的面板包含有关算法和超参数的深入信息，这些信息都可以进行调整。面板可以将所有算法类别表示为直方图形式，用条形图显示算法性能分数的分布，范围为0到10，具体取决于其超参数。用一个单独的面板呈现散点图，显示不同超参数和算法类型的性能折衷。

对没有AutoML经验的机器学习专家的案例研究表明，让用户掌握控制权确实有助于提高AutoML应用的性能和效率。对生物学、金融等不同科学领域的13位研究生的研究也表明，确定用户对AutoML的搜索的自定义关键有三点：搜索的算法数量、系统运行时间以及查找表现最好的模型。研究人员表示，这些信息可用来为用户量身定制系统。

研究人员表示，目前对AutoML的应用缺乏足够的灵活性。“现在所有这些信息都集中在一个地方，如果人们能够清楚看到幕后发生的事情，有能力控制这些流程，未来对AutoML的应用将跨入一个崭新的阶段。”

参考链接：

https://techxplore.com/news/2019-06-black-automated-machine.html

论文链接：

https://arxiv.org/pdf/1902.05009.pdf

机器学习可视化麻省理工

安科网

MIT、浙大等打造AutoML可视化工具：模型自选、超参数自调

wshyb0

定制化AutoML工具：模型自选，超参数自调

便捷可视化工具实现“可视即可调”

将AutoML控制权交给用户，使用体验和信心明显提升

wshyb0

相关推荐

用Python构建和可视化决策树

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

wshyb0