比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

黄刚的技术

2019-04-23

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

大数据文摘出品

编译：sailnj

CNN卷积神经网络问世以来，在计算机视觉领域备受青睐，与传统的神经网络相比，其参数共享性和平移不变性，使得对于图像的处理十分友好，然而，近日由Facebook AI、新家坡国立大学、360人工智能研究院的研究人员提出的一种新的卷积操作OctConv使得在图像处理性能方面得到了重大突破与提升，OctConv和CNN中的卷积有什么不同呢？

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

论文下载地址：

https://arxiv.org/pdf/1904.05049.pdf

CNN网络中的卷积层主要用来提取图像特征，如下图所示，利用卷积核（也称滤波器）对输入图像的每个像素进行卷积操作得到特征图，由于图像中相邻像素的特征相似性，卷积核横扫每个位置，独立的存储自己的特征描述符，忽略空间上的一致性，使得特征图在空间维度上存在大量的冗余。

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

图1 普通卷积操作示意图

OctConv主要基于于处理多空间频率的特征映射并减少空间冗余的问题提出的。

原文地址：

https://export.arxiv.org/pdf/1904.05049

下面文摘菌将从论文的四个部分展开对OctConv原理的阐述。

Why?—OctConv之诞生

文章摘要（Abstract)部分指出，在自然图像中，信息以不同的频率传输，其中高频率通常以细节进行编码，而较低频率通常以总体结构进行编码，同理卷积层的输出可以看做不同频率的信息混合，在论文中，研究者提出通过频率对特征融合图进行分解，并设计出了一种新的Octave卷积（OctConv）操作，旨在存储和处理在空间上变化缓慢的较低分辨率的特征图，从而降低内存和计算成本。与现存的多尺度方法不同，OctConv是一种单一、通用、即插即用的卷积单元，可以直接代替普通卷积，而无需调整网络结构。

OctConv与那些用于构建更优拓扑或者减少分组或深度卷积中信道冗余的方法是正交和互补的。

实验表明，通过使用OctConv替代普通卷积，能很好的提高语音和图像识别任务中的精度，同时降低内存和计算成本，一个配备有OctConv的ResNet-152能够以仅仅22.2 GFLOP在ImageNet数据集上达到82.5%的top-1分类准确率。

What?—初探OctConv

论文Introduction（介绍）部分基于CNN现存的空间维度冗余问题引出了下图：

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

图2 论文思路阐述图

（a）动机：研究表明，自然图像可以分解为低空间频率和高空间频率两部分；（b）卷积层的输出图也可以根据空间频率进行分解和分组；（c）所提出的多频特征表示将平滑变化的低频映射存储字低分辨率张量中，以减少空间冗余；（d）所提出的OctConv直接作用于这个表示。它会更新每个组的信息，并进一步支持组之间的信息交换。

具体解释为：如图 2(a) 所示，自然图像可以分解为描述平稳变化结构的低空间频率分量和描述快速变化的精细细节的高空间频率分量。类似地，我们认为卷积层的输出特征映射也可以分解为不同空间频率的特征，并提出了一种新的多频特征表示方法，将高频和低频特征映射存储到不同的组中，如图 2(b) 所示。因此，通过相邻位置间的信息共享，可以安全地降低低频组的空间分辨率，减少空间冗余，如图 2(c) 所示。

How?—再探OctConv

论文Method（方法）部分：octave feature 减少了空间冗余，比原始表示更加紧凑。然而，由于输入特征的空间分辨率不同，传统卷积不能直接对这种表示进行操作。避免这个问题的一种简单方法是将低频部分上采样到原始的空间分辨率，将它与连接起来，然后进行卷积，这将导致额外的计算和内存开销。为了充分利用紧凑的多频特征表示，我们提出 Octave Convolution，它可以直接在分解张量X={X^H，X^L}上运行，而不需要任何额外的计算或内存开销。

Octave Convolution的设计目标是有效地处理相应张量中的低频和高频分量，同时使得Octave特征表示的高频分量和低频分量之间能够有效通信。设X,Y为分解输入和输出张量，那么输出的高频和低频信号将由下式给出：

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

其中H→H，L→L表示自身的更新，L→H，H→L表示高频与低频分量之间的通信，如图3所示绿色箭头表示信息更新，红色箭头表示两个频率之间的信息交换。

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

图3 Octave Convolution示意图

同理，我们将卷积核分解为高频和低频W={W^H,W^L}，W^H=W^H→H+W^L→H；W^L=W^L→L+W^H→L，如图4所示：

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

图3 Octave Convolution kernel示意图

对于低频特征所使用的低频所占比例a的不同，当a=0时（即没有低频成分），OctConv就会退化为普通卷积。经过实验评估k×k Octave 卷积核与普通卷积核等价，即二者具有完全相同的参数量。

To do—Just do it

论文的实验部分：研究人员验证了提出的Octave卷积对于2D和3D网络的效能和效率，首先展示了ImageNet图像分类的控制变量研究，然后将其与当前最优的方法进行了比较。之后研究人员使用Kinetics-400和Kinetics-600数据集，展示了提出的OctConv也适用于3D CNN。

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

图4 ImageNet上的控制变量结果图

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

上表为论文中的表8，视频中的动作识别、控制变量研究结果统计。

卷积卷积神经网络机器学习

黄刚的技术

0 关注 0 粉丝 0 动态

相关推荐

9大主题卷积神经网络（CNN）的PyTorch实现

大家还记得这张图吗？深度系统介绍了 52 个目标检测模型，纵观 2013 年到 2020 年，从最早的 R-CNN、OverFeat 到后来的 SSD、YOLO v3 再到去年的 M2Det，新模型层出不穷，性能也越来越好！上文聚焦于源码和论文，对于各种卷

demm 2020-09-18

理解卷积神经网络中的自注意力机制

计算机视觉中的编解码结构的局限性以及提升方法。卷积神经网络广泛应用于深度学习和计算机视觉算法中。虽然很多基于CNN的算法符合行业标准，可以嵌入到商业产品中，但是标准的CNN算法仍然有局限性，在很多方面还可以改进。由于其简单和准确，该体系结构被广泛使用。顾名

sunxinyu 2020-09-17

Pytorch_第十篇_卷积神经网络（CNN）概述

卷积神经网络，简称CNN。卷积神经网络相比于人工神经网络而言更适合于图像识别、语音识别等任务。本文主要涉及卷积神经网络的概念介绍，首先介绍卷积神经网络相比于人工神经网络的优势，其次介绍卷积神经网络的基本结构，最后我们分别介绍神经网络的各个部件从而完整的了解

walegahaha 2020-08-15

第四周：卷积神经网络 part3

S. K. Roy, G. Krishna, S. R. Dubey, B. B. Chaudhuri HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Cl

cherry0 2020-08-15

一文了解卷积神经网络基础，建议收藏

今天给大家讲一下卷积神经网络，主要包括四个部分：卷积神经网络的历史、全连接层、卷积层和池化层。CNN的英文全称是Convolutional Neural Network，雏形是LeCun在1998年发明的LeNet网络结构。那么到底什么是神经网络呢？198

georgesale 2020-08-14

卷积神经网络中的参数共享/权重复制

参数共享或权重复制是深度学习中经常被忽略的领域。但是了解这个简单的概念有助于更广泛地理解卷积神经网络的内部。卷积神经网络能够使那些通过网络馈送的图像在进行仿射变换时具有不变性。这个特点提供了识别偏移图案、识别倾斜或轻微扭曲的图像的能力。仿射不变性的这些特征

fengzhimohan 2020-07-23

经典网络之NIN(Network in Network)

本篇博文主要讲解2014年ICLR的一篇非常牛逼的paper：《Network In Network》，过去一年已经有了好几百的引用量，这篇paper改进了传统的CNN网络，采用了少量的参数就松松击败了Alexnet网络，Alexnet网络参数大小是230

wenxuegeng 2020-06-14

【理论】适用于手机端目标检测的卷积神经网络方案

　　本文作者在工作中需要实现一种适用于手机端目标检测任务的神经网络，因此撰写这篇综述性报告，详细梳理目前手机端目标检测领域的神经网络应用现状。　　1959年，Hubel和Wiesel发现人类视觉系统中的可视皮层是采用分层机制处理信息的。受此启发，人们提出了

wenxuegeng 2020-06-08

14 深度学习-卷积

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。卷积神经网络也是通过一层一层的节点组织起来的。而对于卷积神经网络

cherry0 2020-06-06

基于深度卷积神经网络的图像风格迁移与神经涂鸦系统的设计与实现

本文中设计并实现了一款基于卷积神经网络的图像风格迁移系统，可以通过神经表示来分离和重组任意图像的内容与风格，为艺术图像的创建提供了新的算法与算法框架；本文中还实现了神经涂鸦系统作为风格迁移功能的补充，神经涂鸦系统通过使用语义注释及手动创建像素标签的方法提高

hnyzyty 2020-06-05

14深度学习-卷积

机器学习：一种实现人工智能的方法；机器学习都可以被精准地定义为：1、任务2、训练过程3、模型表现。　　全连接神经网络与卷积神经网络都是通过一层一层的节点组织起来的，和全连接神经网络一样，卷积神经网络中的每一个节点就是一个神经元；

hnyzyty 2020-06-03

机器学习12卷积神经网络

而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积层的节点组织成一个三维矩阵。因此，全连接神经网络和卷积神经网络的唯一区别就是神经网络相邻两层的连接方式。以digit0为例，进行手工演算。

wenxuegeng 2020-06-03

14 深度学习-卷积

人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积层的节点组织成一个三维矩阵。

walegahaha 2020-06-03

13.深度学习-卷积

它使得机器学习实现众多应用，拓展了人工智能的领域范畴，给人工智能能以璀璨未来。而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积层的节点组织成一个三维矩阵。类似的，全连接神经网络的损失函数以及参数的优化过

cherry0 2020-06-03

14深度学习-卷积

以digit0为例，进行手工演算。

georgesale 2020-06-02

14 深度学习-卷积

机器学习，一种实现人工智能的方法；机器学习都可以被精准地定义为：1、任务T；2、训练过程E；3、模型表现P；深度学习则是一种实现机器学习的技术；深度学习使得机器学习能够实现众多应用，并拓展了人工智能的领域范畴。以digit0为例，进行手工演算。

zhaorui0 2020-06-01

13.深度学习-卷积

机器学习，一种实现人工智能的方法；机器学习都可以精准地被定义为：1任务T；2.训练过程E;3.模型表现P。深度学习则是一种实现机器学习的技术；它适合处理大数据。而对于卷积神经网络，相邻两层之间只有部分节点相连，为了展示每一层神经元的维度，一般会将每一层卷积

kuankeTech 2020-06-01

手把手使用numpy搭建卷积神经网络

本文使用numpy实现卷积层和池化层，包括前向传播和反向传播过程。在具体描述之前，先对使用符号做定义。\表示第4层神经网络的激活值；\和\表示神经网络第5层的参数；\表示神经网络第l层的激活向量的第i个元素。\表示当前层神经网络的高度、宽度和通道数。填充情

hnyzyty 2020-05-12

第五讲卷积神经网络 - Resnet--cifar10

# residual_path为True时，对输入进行下采样，即用1x1的卷积核做卷积操作，保证x能和F维度相同，顺利相加。out = self.a2 # 最后输出的是两部分的和，即F+x或F+Wx,再过激活函数。def __init__: # block

georgesale 2020-05-10

第五讲卷积神经网络 --baseline

self.c1 = Conv2D(filters=6, kernel_size=(5, 5), padding=‘same‘) #卷积层。self.p1 = MaxPool2D(pool_size=(2, 2), strides=2, padding=‘s

hnyzyty 2020-05-08

使用Python+TensorFlow2构建基于卷积神经网络（CNN）的ECG心电信号识别分类（二）

目前，国际上公认的标准数据库包含四个，分别为美国麻省理工学院提供的MIT-BIH数据库、美国心脏学会提供的AHA数据库、欧共体CSE数据库、欧洲ST-T数据库。当前使用最广泛且被学术界普遍认可的据库为MIT-BIH心律失常数据库。MT-BIH心律失常数据库

hnyzyty 2020-05-05

使用Python+TensorFlow2构建基于卷积神经网络（CNN）的ECG心电信号识别分类（一）

本篇博客以及之后的一个系列，我将记录下我是如何从一个没学过信号处理，不懂什么是深度学习，没接触过心电信号的小白，一步步做出基于CNN的心电信号识别分类的过程。网络上关于ECG方面的相关博客内容不多，可以直接运行的相关代码也寥寥无几，这给初学者造成了很大的困

walegahaha 2020-05-05

卷积神经网络模型可解释性

缺乏可解释性仍然是在许多应用中采用深层模型的一个关键障碍。在这项工作中，明确地调整了深层模型，这样人类用户可以在很短的时间内完成他们预测背后的过程。具体地说，训练了深度时间序列模型，使得类概率预测具有较高的精度，同时被节点较少的决策树紧密地建模。使用直观的

wenxuegeng 2020-05-04

一位中国博士把整个CNN都给可视化了，每次卷积池化都清清楚楚

美国有线电视新闻网吗？每一个对AI抱有憧憬的小白，在开始的时候都会遇到CNN这个词。但每次，当小白们想了解CNN到底是怎么回事，为什么就能聪明的识别人脸、听辨声音的时候，就懵了，只好理解为玄学：。这个名叫CNN解释器在线交互可视化工具，把CNN拆开了揉碎了

玉来愈宏的随笔 2020-05-02

CNN卷积神经网络基础理论知识

说到卷积，就不得不提互相关\。卷积实质就是一种互相关运算，只不过要在进行互相关运算前，要把\上下左右进行翻转。即\的计算顺序是从左到右，从上到下，而\的顺序是从右到左，从下到上。卷积在数字图像处理中最重要的作用是进行特征提取。卷积神经网络是一类包含卷积计算

liqing 2020-04-19

【python实现卷积神经网络】全连接层实现

The expected input shape of the layer. For dense layers a single digit specifying. the number of features of the input. Must be

vs00ASPNET 2020-04-17

黄刚的技术

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号