阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

fengzhimohan

2018-04-28

ICLR 2018 将于 4 月 30 日在加拿大温哥华开幕，之前机器之心对此届大会的三篇获奖论文分别进行了介绍。在这篇文章中，我们介绍了阿里巴巴的一篇 ICLR 2018论文。

论文原文地址：https://arxiv.org/abs/1802.00150

引言

循环神经网络 (RNN) 在语言模型、机器翻译、语音识别、生成图像标题等很多应用上都取得了非常好的效果。然而，这些模型常常是建立在高维的嵌入 (embedding) 或者多层的循环单元中，包含了大量的参数，使得无法在资源有限的移动端部署。此外，RNN 的计算依赖于与当前的隐状态，只能被顺序执行，因此在执行推断时会造成比较大的延时。在拥有大规模并发请求的服务器端，比如语音识别或者机器翻译等应用，为了满足线上苛刻的响应时间要求，需要部署大量的机器。在这项工作中，我们考虑通过量化参数到二值 {-1,+1} 上来解决上述问题。考虑将模型的权重量化成 1 比特，相对于全精度，直接带来 32 倍的内存压缩。而对 1 比特参数的矩阵乘法，如果不考虑具体实现，相对于全精度乘法，理论上也会带来 32 倍的加速。然而，如果把模型的权重和激活都量化成 1 比特，在循环神经网络中，会带来很大的精度损失。因此，很自然的折中方案就是采用多比特量化（如图 1 所示）。

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Figure 1 多比特量化乘法示意

现有的多比特量化方法

1) 均匀 (Uniform) 量化采用下列的 k 比特量化方案:

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

这样基于规则的量化方法非常容易实现, 但是对于非均匀数据的量化效果很差，而非均匀分布数据在深度神经网络却更为常见。

2) 均衡 (Balanced) 量化通过数据预处理来解决均匀量化的弊端。该方法首先产生 2^k 个间隔，每个间隔大致包含等量的数据。然后该方法将每个间隔的中心线性映射到对应的量化编码中。尽管看起来更有效，但是该方法还是基于规则，而这种规则并不能保证对所有的数据分布都起效果。

3) 贪婪法 (Greedy) 近似通过去解下面的带离散约束的分解问题来实现量化:

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

对于 k=1, 上述问题存在闭式解。贪婪近似通过逐步量化余量 (residue) 并将其推广到 k 比特 (k>1) 的情形：

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

每个子步都有最优解

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

贪婪法非常高效，尽管不能得到一个高精度的解，但是将量化问题建模成一个优化问题的形式还是非常具有启发性的。

4) 改进版 (Refined) 贪婪近似进一步拓展贪婪法以降低量化误差。在上述第 j 步最小化问题中，该方法加上额外一步最小二乘来修正系数

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

在原文量化卷积神经网络权重的实验中，修正版贪婪法被证实比原始的贪婪法更有效。然而，正如我们下面要讲的，修正版的贪婪法在量化精度方面仍然不能令人满意。

除了上述通用的多比特量化方案以外，还有文章还提出了三值量化，与 1 比特的二值量化相比，三值量化多了可行状态 0。三值量化通过解如下问题

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

来实现编码。

实验结果

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 1 不同方法近似 PTB 数据集上训练好的 LSTM 的权重。其中 FP 表示全精度

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 2 不同方法近似 PTB 数据集上训练好的 GRU 的权重

我们在语言模型上进行量化实验，分别测试了 LSTM 和 GRU 两种架构。因为实验是去预测下一个单词，其效果采用单字复杂度来衡量 (perplexity per word, 简写成 PPW)。为了检验所有的算法量化精度，我们首先对训练好的全精度权重做近似 (没有量化激活或者重训练)，结果如表 1 和表 2 所示。注意到均匀量化和均衡量化是基于规则的，其目标并不在于最小化误差，因此这两种方法会得到差很多的结果。我们还在其他数据集上重复了上述实验，对于两种循环神经网络结构 LSTM 和 GRU，结果都与此处相似。

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 3 PTB 数据集上多比特量化 LSTM 和 GRU 的测试 PPW，其中均匀量化和均衡量化为现有论文中的结果，改进版贪婪法为我们自己实现的结果。

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 4 WikiText-2 数据集上多比特量化 LSTM 和 GRU 的测试 PPW。

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 5 Text-8 数据集上多比特量化 LSTM 和 GRU 的测试 PPW

我们还进行了权重和激活同时量化的实验，结果如表 3、4 和 5 所示。从中可以看到，本文提出的交替方向法明显好过现有其他量化方法。即使与表现最好的改进版贪婪法相比，交替方向法实现类似的精度大概可以少用一个比特。

我们还在 CPU 中实现了矩阵向量的二值乘法，其结果如表 6 所示。

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

Table 6 CPU 中二值乘法与全精度乘法的时间比较

小结

在这个工作中，我们主要考虑神经网络的多比特量化压缩加速问题。我们发现，如果编码的实系数固定，那么离散的二值编码 {-1,+1} 可以通过二叉搜索树高效的求解。基于这个发现，我们相应地提出交替方向法。我们将该方法用于量化语言模型中的 LSTM 和 GRU 结构，与全精度模型相比，通过 2 比特量化，我们可以减少约 16 倍的内存消耗，以及在 CPU 上实现约 6 倍的真实推断加速，而只产生少量的准确率损失。通过 3 比特量化，该方法在准确率上可以实现几乎没有损失甚至超过原始模型，并减少约 10.5 倍的内存消耗，以及在 CPU 上实现约 3 倍的真实推断加速。这些结果都远远优于现有量化方法的结果。

神经网络模型阿里巴巴比特

安科网

阿里巴巴论文：基于交替方向法的循环神经网络多比特量化

fengzhimohan

fengzhimohan

相关推荐

机器学习的未来就在这里：高斯过程和神经网络是等价的

面向深度学习的五大神经网络模型及其应用

【干货】图神经网络的十大学习资源分享

神经网络：高深莫测又妙趣横生的完整历史！

建神经网络模型，哪种优化算法更好？35000次测试告诉你

图神经网络快速爆发，最新进展都在这里了

神经网络“炼丹炉”内部构造长啥样？牛津大学博士小姐姐论文解读

2019年Philip S. Yu团队的图神经网络综述

9大主题卷积神经网络（CNN）的PyTorch实现

什么时候以及为什么基于树的模型可以超过神经网络模型？

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

浅谈CNN和RNN

图神经网络的究竟有多强大？道翰天琼认知智能机器人平台API接口大脑为您揭秘。

谷歌用算力爆了一篇论文，解答有关无限宽度网络的一切

Pytorch_第十篇_卷积神经网络（CNN）概述

一文了解卷积神经网络基础，建议收藏

用神经网络给照片补光，谷歌这项研究却实现了「鬼片」效果

图神经网络越深，表现就一定越好吗？

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

人工智能迁移学习如何工作在AI模型和培训过程起到那些作用

fengzhimohan