基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

Tips

2018-12-07

k-近邻算法

k-近邻算法，又称为KNN，在机器学习领域k-近邻算法是比较常用的经典算法之一，KNN算法是一个分类算法，它归于实例学习和懒惰学习，它的原理很简单：

为了判断未知实例样本的类别，以所有已知实例类别作为参考，我们可以选择参数K计算未知实例与所有已知实例距离（一般使用欧式距离），选择最近K个已知实例，通常k是不大于20的整数，在这K个实例中可能多种类别，我们遵循少数服从多数的原则，让未知实例归类为K个最近临近样本中最多数的类别。

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

欧式距离

KNN算法的优缺点

KNN算法的优点：算法简单易于实现，而且通过对K的选择可具备丢噪音数据的健壮性，我们来举一个例子，下图中鼠标未知是什么类型的样本？

其实我们一看就应该认为它是红三角的，因为它距离红三角比较近，但是这有一个问题就是，假如我们设置K=1，那么此时的未知样本就被认为是蓝方块。这就是蓝色方块噪音对我们的影响。所以我们可以通过增加K，来达到去除噪音的作用，我们可以设置K=4，那么算法就会认为未知样本是红三角了，这就是增加K达到去噪的作用，这是KNN算法的优点。

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

未知未知样本是什么？

KNN算法的缺点：首先算法需要大量的空间存储，算法复杂性高，需要将未知实例和所有的已知实例进行比较，当一类样本数量过大占主导地位的时候，K也设为很大的时候，新的未知实例容易被数量大的样本主导，但有可能这个未知实例并不接近这个最多的样本类别，它可能更接近其它类别，但这个问题也是可以解决的，为了解决这个问题，根据样本设置权重，比如权重为1/d(d为距离)，距离越近权重越大。

k-近邻算法分类的应用

我们如何判断一个电影是动作电影还是爱情电影呢？就我们个人来说只要看一次就可以判断出这个电影的类别，我们只需要判断这个电影是打斗次数多一点还是亲吻次数多，一般来说我们就可以通过这种方式来判断这个电影的类别，假设我们现在有一个关于电影的数据集，每个样本有两个特征，一个特征是打斗次数，另外一个是亲吻的次数。

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

数据集

现在我们已经有了训练集样本，现在当我们有未知样本的时候，我们就可以设置阈值k，然后通过KNN算法，判断距离未知样本最近的K个样本的类别，哪个类别最多，我们就可以认为这个电影是动作电影还是爱情电影。

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

可视化操作

现在我们将我们的样本通过可视化的方式进行了显示，我们可以看出爱情片偏向于左上角，而动作片偏向于右下角，现在我们有一个未知的样本，它的打斗是101次，而接吻次数是20，我们对这个样本也进行可视化，我们发现这个未知样本距离最近的动作电影类别多，所以我们可以认为这个未知样本是动作片，这就是我们KNN算法分类未知电影为动作电影还是爱情电影的核心。

机器学习 k近邻算法算法

安科网

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

Tips

k-近邻算法

KNN算法的优缺点

k-近邻算法分类的应用

Tips

相关推荐

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

Tips