前馈神经网络入门：为什么我们需要它？

格式化中

2019-03-30

前馈神经网络入门：为什么我们需要它？

深度前馈网络（又称“多层感知器”）是大多数深度学习模型的基础。

卷积神经网络（CNN）和循环神经网络（RNN）这样的网络只是前馈网络的一些特殊情况。这些网络主要用于监控机器学习任务，在这些任务中，我们已经知道目标功能，即我们希望网络实现的结果，并且这些网络对于实践机器学习非常重要，构成了许多商业应用的基础。这些网络的出现极大地影响了如计算机视觉（computer vision）和自然语言理解（NLP）等领域。

前馈网络的主要目标是近似一些函数f*。例如，回归函数y = f *(x)将输入x映射到值y。前馈网络定义了y = f (x; θ)映射，并学习参数θ的值，使结果更加接近最佳函数。

这些网络之所以被称为前馈，是因为信息是向前流动的，因为x用于计算隐藏层中的某些中间函数，而隐藏层又用于计算y。在这种情况下，如果我们将最后一个隐藏层的反馈添加到第一个隐藏层，它将表示一个循环神经网络。

这些网络由许多不同的函数组成。每个模型都与描述函数的组合方式的非循环图相关联。例如，我们可能有三个函数f（1）、f（2）和f（3）连接在一个链中，形成f（x）=f（3）（f（2）（f（1）（x））。其中f（1）是第一层，f（2）是第二层，f（3）是输出层。

输入层和输出层之间的层称为隐藏层，因为训练数据没有显示这些层所需的输出。网络可以包含任意数量的隐藏层和任意数量的隐藏单元。一个单元基本上类似于一个神经元，它从前一层的单元中获取输入并计算自己的激活值。

现在问题来了，为什么当我们有线性机器学习模型时，还需要前馈网络？这是因为线性模型仅限于线性函数，而神经网络不是。当我们的数据不是线性可分离的线性模型时，面临着近似的问题，而神经网络则相当容易。隐藏层用于增加非线性并改变数据的表示，以便更好地泛化函数。

对于任何前馈神经网络的设计，有一些事情需要你决定，大多数网络需要一些成分，其中一些成分和设计机器学习算法是相同的。

前馈神经网络入门：为什么我们需要它？

优化器

优化器或优化算法用于将代价函数最小化，在每个训练周期或每轮后更新权重和偏置值，直到代价函数达到全局最优。

优化算法有两种：

一阶优化算法

这些算法使用与参数相关的梯度值最小化或最大化代价函数。一阶导数告诉我们函数是在某一点上递减还是递增，简而言之，它给出了与曲面切线。

二阶优化算法

这些算法使用二阶导数来最小化代价函数，也称为Hessian。由于二阶导数的计算成本很高，所以不常使用二阶导数。二阶导数告诉我们一阶导数是递增的还是递减的，这表示了函数的曲率。二阶导数为我们提供了一个与误差曲面曲率相接触的二次曲面。

前馈神经网络入门：为什么我们需要它？

前馈神经网络的体系结构

前馈神经网络入门：为什么我们需要它？

网络的结构

网络体系结构是指网络的结构，即隐藏层的数目和每层的隐藏单元数。根据通用逼近定理，具有一个线性输出层和至少一个具有任意“压缩”激活函数的隐藏层的前馈网络，只要网络具有足够的隐层，就可以用任何期望的非零误差，将任意一个有限维空间中的Borel可测函数近似为另一个有限维空间中的Borel可测函数。这个定理简单地说明，无论我们试图学习什么函数，总会有一个多层感知机（MLP）能够表示这个函数。

我们现在知道总会有一个MLP能够解决我们的问题，但是没有特定的方法来确定MLP的体系结构。没有人可以说，如果我们使用具有m个隐藏单元、n层的结构，我们就能够解决给定的问题，找到这个不用猜测和试验方法的配置仍然是一个热门的研究领域，目前只能通过猜测和试验方法来完成。

找到正确的体系结构是困难的，因为我们可能需要尝试许多不同的配置，但是即使我们有了正确的MLP体系结构，它仍然可能无法表示目标函数。这是由两个原因造成的：一是优化算法可能无法找到与所需函数对应的参数的正确值；二是训练算法可能由于过拟合而选择错误的函数。

前馈神经网络入门：为什么我们需要它？

代价函数

任何训练点的代价函数都显示了我们的模型得出的近似值与我们试图达到的实际目标值之间的差异，并且始终是单值的，因为代价函数的工作是评估整个网络是如何的。与机器学习算法一样，前馈网络也使用基于梯度的学习方法进行训练，在这种学习方法中，使用随机梯度下降等算法来使代价函数达到最小化。

整个训练过程在很大程度上取决于我们的代价函数的选择，其选择或多或少与其他参数模型相同。

在我们的参数模型定义了p(y| x;)分布的情况下，我们只使用训练数据和模型预测之间的交叉熵作为代价函数。我们也可以用另一种方法来预测y在x上的一些统计，而不是预测y上的完全概率分布。

对于反向传播算法的代价函数，它必须满足两个属性：

代价函数必须能够表达为平均值。

代价函数不能依赖于输出层旁边网络的任何激活值。

代价函数的形式主要是C(W, B, Sr, Er)，其中W是神经网络的权重，B是网络的偏置，Sr是单个训练样本的输入，Er是该训练样本的期望输出。

一些可能的代价函数是：

二次代价

前馈神经网络入门：为什么我们需要它？

该函数也被称为均方误差、最大似然率和差平方和。

交叉熵代价

前馈神经网络入门：为什么我们需要它？

这个函数也被称为伯努利负对数似然和二元交叉熵。

指数成本

前馈神经网络入门：为什么我们需要它？

海林格距离

前馈神经网络入门：为什么我们需要它？

该函数也称为“统计距离”。

前馈神经网络入门：为什么我们需要它？

输出单元

输出单元是存在于输出层中的那些单元，它们的任务是给我们期望输出或预测，从而完成神经网络必须执行的任务。输出单元的选择与代价函数的选择紧密相关。任何可以在神经网络中用作隐藏单元的单元也可以用作输出单元。

输出单元的选择如下：

线性单位

最简单的输出单元是用于高斯输出分布的线性输出单元，这些单元基于对输出层不提供非线性的仿射变换。给定h特征，一层线性输出产生一个矢量：

前馈神经网络入门：为什么我们需要它？

线性单元函数

对于线性层，对数似然最大化等同于均方误差最小化，最大似然使高斯分布的协方差近似更容易。

这些线性单元的优点是不饱和，即它们的梯度总是保持不变，从不接近于零，在那里这些单元对基于梯度的优化算法没有困难。

Sigmoid单位

前馈神经网络入门：为什么我们需要它？

Sigmoid单元函数

为了解决二元分类问题，我们结合了最大似然的Sigmoid输出单元。一个Sigmoid输出单元有两个组成部分，一个是使用线性层计算z=w*h+b，然后使用激活函数将z转换为概率。当使用其他损失函数时，例如均方误差，损失可以随时饱和，也就是说，梯度会收缩得太小而不利于学习。因此，最好使用最大似然。

Softmax单元

Softmax单位用于多输出分布，它用于具有n个可能值的离散变量上的概率分布，这也可以看作是表示二元变量上概率分布的Sigmoid函数的推广。Softmax函数定义如下：

前馈神经网络入门：为什么我们需要它？

Softmax单元函数

像Sigmoid函数一样，Softmax函数也可以饱和，也就是说梯度会收缩得太小而不利于学习。在Softmax的情况下，由于它有多个输出单元，因此这些单元只能在输入值之间的差异变得极端时饱和。

由于总概率始终为1且不可超过，因此这些单位由“赢家通吃”（winner take all）原则控制，若其中一输出值接近1，其他输出单位的输出值肯定将接近0。

隐藏单元

选择隐藏单元的类型也是一个热门的研究领域，没有一个特定的单元能够保证它在每个问题上都会优于其他所有的单元，但是我们仍然有一些单元是开始时默认的选择，例如，通常使用的是校正线性单元或通常称为Relu，这是由于直观的原因而不是经验。实际上，通常不可能提前预测哪一个最有效。选择一个隐藏的单元需要反复尝试，凭直觉选择一种隐藏的单元可能工作得很好，然后进行测试。

隐藏单位的可能选择是：

整流线性单元

这些函数使用由g（z）定义的激活函数

前馈神经网络入门：为什么我们需要它？

Relus很容易优化，因为它们类似于线性单元，它们之间的唯一区别是一半域的输出o。Relus之所以如此出名，是因为每当单元处于活动状态时，它们总是有一个恒定的大梯度。梯度方向比激活函数引入二阶效应对学习更有用。

ReLU有一个缺点，那就是不能通过基于梯度的方法来学习，因为它们的激活是零。

Relu有许多推广，这些概括是：

Absolute value rectification

Leaky ReLU

Parametric ReLU

Maxout units

其中，Maxout单位应用元素级函数g（z），Maxout单位将z分为k组。然后，每个最大输出单元输出其中一个组的最大元素。Maxout单元被认为是ReLU的最佳推广，因为它们具有冗余性，这是由于每个单元由多个过滤器驱动，这些过滤器帮助它们抵御灾难性遗忘，在这种遗忘中，神经网络忘记了如何执行它们训练过的任务。

前馈神经网络入门：为什么我们需要它？

Logistic sigmoid和双曲正切

Logistic sigmoid由以下公式给出：

前馈神经网络入门：为什么我们需要它？

双曲正切由以下公式给出：

前馈神经网络入门：为什么我们需要它？

这些单位密切相关，如：

前馈神经网络入门：为什么我们需要它？

双曲正切与sigmoid的关系

在ReLU之前，这些是神经网络最著名的选择，但现在它们的使用被忽略了，因为当z为正时，它们的饱和值为一个高值；当z为负时，它们的饱和为一个低值；只有当z接近0时，它们才对输入极为敏感。Sigmoid单元的广泛饱和使得基于梯度的学习非常困难。

前馈神经网络入门：为什么我们需要它？

机器学习前馈神经网络神经网络模型导数

格式化中

0 关注 0 粉丝 0 动态

相关推荐

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 2020-11-10

面向深度学习的五大神经网络模型及其应用

深度学习是机器学习的重要组成部分，深度学习算法基于神经网络。有几种功能不同的神经网络架构，最适合特定的应用场景。本文介绍一些最知名的架构，尤其是深度学习方面的架构。MLP使用一种称为反向传播的监督式学习技术进行训练。反向传播有助于调整神经元权重，以获得更接

fengzhimohan 2020-11-02

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

格式化中

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号