5分钟带你解读Python人工智能优化算法

zonglinzonglin

2019-11-28

梯度下降是神经网络中流行的优化算法之一。一般来说，我们想要找到最小化误差函数的权重和偏差。梯度下降算法迭代地更新参数，以使整体网络的误差最小化。

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

该算法在损失函数的梯度上迭代地更新权重参数，直至达到最小值。换句话说，我们沿着损失函数的斜坡方向下坡，直至到达山谷。基本思想大致如图3.8所示。如果偏导数为负，则权重增加(图的左侧部分)，如果偏导数为正，则权重减小(图中右半部分) 42 。学习速率参数决定了达到最小值所需步数的大小。

5分钟带你解读Python人工智能优化算法

随机梯度最小化的基本思想

5分钟带你解读Python人工智能优化算法

误差曲面

寻找全局最佳方案的同时避免局部极小值是一件很有挑战的事情。这是因为误差曲面有很多的峰和谷，如图3.9所示。误差曲面在一些方向上可能是高度弯曲的，但在其他方向是平坦的。这使得优化过程非常复杂。为了避免网络陷入局部极小值的境地，通常要指定一个冲量(momentum)参数。

5分钟带你解读Python人工智能优化算法

图3.9　典型优化问题的复杂误差曲面

我很早就发现，使用梯度下降的反向传播通常收敛得非常缓慢，或者根本不收敛。在编写第一个神经网络时，我使用了反向传播算法，该网络包含一个很小的数据集。网络用了3天多的时间才收敛到一个解决方案。幸亏我采取一些措施加快了处理过程。

说明虽然反向传播相关的学习速率相对较慢，但作为前馈算法，其在预测或者分类阶段是相当快速的。

5分钟带你解读Python人工智能优化算法

随机梯度下降

传统的梯度下降算法使用整个数据集来计算每次迭代的梯度。对于大型数据集，这会导致冗余计算，因为在每个参数更新之前，非常相似的样本的梯度会被重新计算。随机梯度下降(SGD)是真实梯度的近似值。在每次迭代中，它随机选择一个样本来更新参数，并在该样本的相关梯度上移动。因此，它遵循一条曲折的通往极小值的梯度路径。在某种程度上，由于其缺乏冗余，它往往能比传统梯度下降更快地收敛到解决方案。

说明随机梯度下降的一个非常好的理论特性是，如果损失函数是凸的 43 ，那么保证能找到全局最小值。

代码实践

理论已经足够多了，接下来敲一敲实在的代码吧。

一维问题

假设我们需要求解的目标函数是：

()=2+1f(x)=x2+1

5分钟带你解读Python人工智能优化算法

显然一眼就知道它的最小值是 =0x=0 处，但是这里我们需要用梯度下降法的 Python 代码来实现。

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
&#34;&#34;&#34; 
一维问题的梯度下降法示例 
&#34;&#34;&#34; 


def func_1d(x): 
 &#34;&#34;&#34; 
 目标函数 
 :param x: 自变量，标量 
 :return: 因变量，标量 
 &#34;&#34;&#34; 
 return x ** 2 + 1 


def grad_1d(x): 
 &#34;&#34;&#34; 
 目标函数的梯度 
 :param x: 自变量，标量 
 :return: 因变量，标量 
 &#34;&#34;&#34; 
 return x * 2 


def gradient_descent_1d(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=10000): 
 &#34;&#34;&#34; 
 一维问题的梯度下降法 
 :param grad: 目标函数的梯度 
 :param cur_x: 当前 x 值，通过参数可以提供初始值 
 :param learning_rate: 学习率，也相当于设置的步长 
 :param precision: 设置收敛精度 
 :param max_iters: 最大迭代次数 
 :return: 局部最小值 x* 
 &#34;&#34;&#34; 
 for i in range(max_iters): 
 grad_cur = grad(cur_x) 
 if abs(grad_cur) &lt; precision: 
 break # 当梯度趋近为 0 时，视为收敛 
 cur_x = cur_x - grad_cur * learning_rate 
 print(&#34;第&#34;, i, &#34;次迭代：x 值为 &#34;, cur_x) 

 print(&#34;局部最小值 x =&#34;, cur_x) 
 return cur_x 


if __name__ == &#39;__main__&#39;: 
 gradient_descent_1d(grad_1d, cur_x=10, learning_rate=0.2, precision=0.000001, max_iters=10000)

就是这么酷吧!用Python理解剃度下降，喜欢的小伙伴点个关注、转发、收藏哦！

人工智能 python python算法算法

安科网

5分钟带你解读Python人工智能优化算法

zonglinzonglin

zonglinzonglin

相关推荐

程序员用AI算法生成了3000个新的宝可梦

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

人工智能三驾马车：算法，算力，算据

仅有算法远远不够：AI突破下一站，需要对硬件重新审视

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

zonglinzonglin