涨姿势!走近“元学习”

全文共3682字,预计学习时长9分钟

涨姿势!走近“元学习”

https://openai.com/blog/solving-rubi

元学习(Meta-Learning)描述了设计和训练深度神经网络相关的更高级别组件的抽象过程。在涉及神经网络体系结构的自动设计时,经常引用“自动机器学习(AutoML)”、“小样本学习(Few-Shot Learning)”或“神经网络架构搜索(Neural Architecture Search)”等。

有关深度学习的文献中,“元学习”这一术语经常出现。源于如《Learning to learn by gradient descent by gradient descent》等拥有滑稽题目的论文中,OpenAI成功推出能单手解魔方的机械手,这一点就已经证明了该想法是成熟的。元学习是最有希望推动深度学习和人工智能发展的范例,且前途无可限量。

OpenAI展示的机器人手经过了强化学习训练,具有突破性能力,这点燃了人工智能世界。这一成功的基础是2018年7月发布的一项类似研究。该研究任务是用一只机器手在匹配视觉提示的配置中定位一个块。这种从块的定位到魔方求解的发展是通过元学习算法控制训练数据在模拟,即自动域随机化(AutomaticDomain Randomization,简称 ADR)中的分布来完成的。

涨姿势!走近“元学习”

域随机化—数据增强

域随机化(Domain randomization)是一种Sim2Real迁移解决数据增强问题的算法。函数近似(以及深度学习)的核心功能是将其在训练中学到的知识运用到从未涉及过的测试数据中。虽然深度卷积神经网络不会出现误分类这样令人惊讶的错误,因为其几乎不会引起明显的对抗性噪声注入,但如果不进行特殊的修改,深度卷积神经网络就无法将仿真图像(如左下图所示)训练成真实的视觉数据(如右下图所示)。

涨姿势!走近“元学习”

《用机械手解决魔方问题》作者: Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin,Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, RaphaelRibas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, LilianWeng, Qiming Yuan, Wojciech Zaremba, Lei Zhang

当然,有两种方法可以调整模拟数据和真实数据的分布。第一种方法名为SimGAN,由苹果公司研究人员开发。SimGAN通过对抗性损失来训练生成对抗网络(GenerativeAdversarial Network)的生成器,使模拟图像尽可能逼真,并通过引入额外的判别网络来对比真实图片和仿真图片。这一研究通过眼球注视评价和手势估计评价方面得出了较为积极的结论。另一种方法并非是使模拟数据尽可能真实,而是使其尽可能多样化。

后一种方法称为域随机化。Tobin等人在2017年的论文中较为详细地阐述了这一观点:

涨姿势!走近“元学习”

《域随机化把深度神经网络从模拟环境迁移到真实世界》作者Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, WojciechZaremba, Pieter Abbeel

域随机化似乎是实现Sim2Real的关键,它允许深度神经网络在模拟训练时将其应用于真实数据。与大多数算法不同,域随机化有许多需要调整的参数,图中显示的色块、环境亮度以及阴影大小等等都是随机的。这些具有随机性的环境特征都拥有从下到上的区间以及某种抽样分布。例如,当随机抽取一幅图时,图中光线较亮的概率是多少呢?

OpenAI最初在Dactyl研究中,通过机械手实现块的定向。而在实验之前,域随机化数据课程将接受人工编码。这类域随机化超越了视觉世界,物理模拟系统中的随机化组件能够使机器人的手指灵活精确地移动。与视觉随机化的观点类似,这些物理随机化包括立方体的大小/质量和机械手手指的摩擦力等等(更多细节请参看《用机械手解决魔方问题》一文的附录 B )。

从Dactyl到魔方求解器的关键在于,域随机化是一门课程,在其定义下,随机化强度是自动的,而非人工设计的,以下几行ADR算法明确定义了这一点:

涨姿势!走近“元学习”

图像来自《用机械手解决魔方问题》。如果代理的性能超过了参数性能阈值,那么随机化的强度则会提高(由带有 phi 定义环境参数分布的 delta 给出)

自行设计数据的人工智能

自行设计数据的 AI 的最佳示例之一是配对开放式开拓者算法(PairedOpen-Ended Trailblazer,简称 POET)算法,该算法由 Uber AI 实验室的研究人员开发。

涨姿势!走近“元学习”

《配对开放式开拓者算法:不断产生日益复杂且多样化的学习环境及其解决方案》作者:Rui Wang, Joel Lehman, Jeff Clune, Kenneth O. Stanley

POET通过同时优化代理和步行学习环境,来训练双足步行代理。POET和OpenAI求解魔方的机械手不同,因为前者使用了一种进化算法,来维持步行者的群体和环境。在本研究中,拥有代理的群体和环境是构建复杂性演化的关键要素。尽管基于群体的学习适应一组代理,而强化学习用于训练单个代理,但POET和自动域随机化是非常类似的。两者都以自动化的方式开发了一系列越来越具挑战性的训练数据集。Bipedal的行走环境并不会因为人工编码的功能而改变,而是作为步行者群体在不同环境中表现的结果,在需要加大地形挑战时发出信号。

涨姿势!走近“元学习”

数据还是模型?

元学习的研究通常集中在数据和模型架构上,但也有例外。比如元学习优化器,似乎仍然属于模型优化的范畴。如自动域随机化等在数据空间中的元学习,已经以数据增强的形式得到了深入研究。

尽管我们已经看到了如何增强和随机化物理数据,但在图像数据的上下文中,数据增强是最容易理解的。这些图像增强通常包括水平翻转和小幅度的旋转或平移。这种增强在图像分类,对象检测,或超分辨率等任何计算机视觉管道中都是典型的。

课程学习(Curriculum Learning)是另一种数据级优化,涉及数据在学习模型中呈现的顺序。例如,在给学生授课时,可以先采用简单的例子,如2+2=4,然后再引入2³ = 8等相对有难度的概念。课程学习的元学习控制器根据难度和数据呈现的顺序来查看数据排序。Hacohen和Weinshall在ICML 2019会议上展示了其最新研究,十分新颖有趣。(如下图所示)。

涨姿势!走近“元学习”

《论课程学习在训练深度网络中的力量》由Guy Hacohen 和 Daphan Weinshall 合著. 在最左侧的灰色条表示 Vanilla SGD 数据选择,优于课程学习方法。

受深度学习研究趋势的影响,神经网络架构搜索,即元学习模型,通常比数据级优化更受关注。AlexNet结构是在大型GPU计算的大数据集上使用深度卷积网络的先驱。将该基础结构扩展到ResNet结构具有明显的性能优势。ResNet结构后得到了DenseNet等人工设计的进一步发展,随后被AmoebaNet、efficient entnet等元学习技术超越。图像分类基准进展的时间轴可以查阅paperswithcode.com。

元学习神经体系结构试图描述一个体系结构空间,然后根据一个或多个目标度量寻找最佳的体系结构。

涨姿势!走近“元学习”

高级元学习者

神经结构搜索应用了广泛的算法来搜索结构、随机搜索(RandomSearch)、网格搜索(Grid Search)、贝叶斯优化(Bayesian Optimization)、神经网络进化(Neuro-evolution)、强化学习(Reinforcement Learning)和可微搜索(Differentiable Search)。与OpenAI的自动域随机化技术相比,这些搜索算法都相对比较复杂。自动域随机化可能会随着高级搜索算法而得到改进。例如,加州大学伯克利分校(UCBerkeley)、以及AutoAuGment(Google提出的一种数据增强工具)的研究人员证明,基于人口的搜索在数据增强方面是有用的。

涨姿势!走近“元学习”

元学习的表现能力如何?

元学习在神经结构搜索中经常遇到的一个问题是搜索空间具有局限性。神经架构搜索始于一个可能架构的人工设计编码。这种人工编码限制了搜索可能产生的发现。然而,要使搜索完全可计算,则必须有所权衡。

当前的架构搜索将神经架构视为有向无环图(DAGs),并试图对节点之间的连接进行优化。Gaier和Ha的《权重不可知神经网络》和Xie等人的《探索用于图像识别的随机连接神经网络》等论文表明,构建DAG神经结构是复杂的,而且没有得到很好的理解。

一个有趣的问题是,什么时候神经结构搜索能够优化节点上的操作、优化节点之间的连接,然后可以自由地发现新的激活函数、优化器或批标准化(BatchNormalization)等标准化技术。

思考元学习控制器的抽象程度是很有趣的。例如,OpenAI的魔方解算机械手本质上有3个“智能”组件:魔方解算器,视觉模型和操作机械手的控制网络。元学习控制器能够充分理解这种模块化并设计符号和深度学习系统之间的混合系统吗?

元学习的数据增强也受到了限制。大多数数据增强搜索(甚至自动域随机化)都被限制在元学习控制器可用的一组转换中。这些转换可能包括图像的亮度或模拟中阴影的强度。增加数据增强自由度的方法之一,是将这些控制器与能够探索独特数据点的生成模型结合起来。这些衍生模型可以设计新的图像,而不仅仅只是是旋转现有图像或使图像更暗或更亮。虽然这非常有趣,但其似乎与BigGAN或VQ-VAE-2等目前最先进的生成模型不同,可用于ImageNet分类中的数据增强。

涨姿势!走近“元学习”

迁移和元学习

不同于“自动机器学习”用于描述模型或数据集的优化,“元学习”经常被用来描述迁移和小样本学习的能力。这种定义与用自动域随机化方法解决的Sim2Real域适应问题是相符的。然而,这一定义也描述了从ImageNet分类迁移到识别缺陷的学习。

涨姿势!走近“元学习”

魔方解算机械手的一个有趣之处在于,它具有适应扰动的能力。例如,尽管在手上戴了橡胶手套,将手指绑在一起,并覆盖立方体的遮挡(必须完全破坏视觉模型,因此传感必须由Giiker立方体的传感器完成),机械手仍能继续工作。这种迁移元学习是策略网络中用于训练机械手控制的LSTM层作用的结果。笔者认为,这种“元学习”的使用与自动机器学习优化相比,更像是记忆增强网络的一个特征。在笔者看来,这说明统一元学习和确定术语的单一定义是具有一定难度的。

涨姿势!走近“元学习”

结论

机械手的发明显然是非常成功的,因为它展示了机械手的协调能力。然而,这项研究更有趣的部分是元学习数据随机化。这种算法与设计训练数据同时进行。JeffClune在其有关人工智能的论文中描述了这种范式,这种算法包含元学习体系结构,元学习算法本身,以及生成有效的学习环境,这对深度学习和人工智能的发展来说,是一个巨大的机遇。

涨姿势!走近“元学习”

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

相关推荐