计算机视觉VS人类检测物体大战孰赢？

dcxhun

2019-02-15

点击上方关注，All in AI中国

计算机视觉VS人类检测物体大战孰赢？

用计算机视觉检测物体

《梦幻之旅：沃尔多在哪》是美国游戏制造商UBISOFT公司制作的一款冒险游戏，游戏故事讲述的是一个生活中不得意的青年沃尔多，意外的穿越到了另一个空间在此展开了梦幻之旅并以此作为主线，穿插出曲折的故事作为剧情。

我经常和家人朋友一起参加比赛，看看是谁能更快的找到他。不得不说，经过多次的练习，我的游戏表现已经非常好了，它并不像看起来的那么容易，在这张图中，你想要快速找到一个身穿蓝色裤子和条纹衬衫的瘦小家伙是很难的。

计算机视觉VS人类检测物体大战孰赢？

你试试看下面这张图，能否快速找到Waldo？你可能会发现，需要花费很长的时间才能勾找到，那么，有没有什么办法可以加速呢？

游戏的重点是速度、焦点和专注。它应该让孩子们主动思考，锻炼他们的大脑肌肉。

但是，如果我告诉你，你不需要这些东西就可以在游戏中取得成功呢！

在游戏中，我们经常听到的就是“重在参与、最重要的就是开心喽！”等内容，但从技术上讲，提出有效策略的人才会是最稳定的赢家。想要成为一个这样的人，你所要做的就是超越其他人。这实际上适用于生活中的大多数事情，在《梦幻之旅：沃尔多在哪》游戏中，其实并没有真正的规则，想要获胜，最重要的一条规则就是，你必须是第一个找到他的人，每次的成功你都可以选择一条不同的道路。

现在的孩子们已经可以接触到这样或那样的技术，也是时候将它用在刀刃上了。关键是，计算机比你要聪明，因为当它们看到一张非常复杂的图片的时候，它们可以立刻看到整件事，并在几秒钟内就找到沃尔多。

我们作为人类却不具备这种处理能力，除非你从根本上将自己的基因修改为异常聪明的天才。（这可能不那么现实了，或者说，就是另一个故事了。）那么无论如何，你的计算机的能力一定是超过了人类的能力。这是怎么发生的？

计算机视觉VS人类检测物体大战孰赢？

计算机视觉：可以看到的技术

普通的博客写手对于计算机视觉的想法可能类似于一台拥有超级眼睛的计算机，就像是一个网络摄像头一样在监视着你，但这种想法是错误的。

对象检测（作为计算机视觉的一个分支）实际上是当计算机能够解释数字图像或视频的内容而无需您手动输入该信息时。该技术可以分解该图像的不同部分，并找出存在的对象。这就是面部识别的动力，就像你在iPhoto中的家人和朋友一样，并将犯罪分子与安全镜头相匹配。

计算机视觉不仅能够看到正在发生的事情，而且能够理解它。

YOLO ......但这不是你的想法

YOLO，它是一个实时检测物体的系统。说实话，当我第一次得知YOLO不是“你只活一次”时（YOLO，美语新词，是You Only Live Once的首字母缩略词，意为你只能活一次，应该活在当下，大胆去做。），我很失望，但是一旦我知道真正的YOLO是什么，我保证它会变得有趣和酷炫一百万倍。

该系统不同于经典模型（例如快速R-CNN），因为您不会对图像上的相同区域进行多次预测，而是只通过全卷积神经网络(FCNN)传递数据集一次。

以下是YOLO（V3）模型的工作原理：

计算机视觉VS人类检测物体大战孰赢？

网格：图像被分为S x S网格（您可以从左侧图像中看到）。这是为了将不同的部分分解，并允许图像作为一个整体来“读取”的内容。如果对象落在网格的中心，则该网格负责检测该对象。
边界框：整个图像的整体特征用于确定边界框，它们基本上只是对象所在的轮廓。重要的是要注意它们覆盖图像的每个部分并重叠。它也更可能比网格本身更大。想想一下，你想要找到在床上的某个地方的手机，那么，凸起的轮廓可能就是你的边框了。
置信度得分：置信度得分表示模型预测您认为实际存在的程度。它基于宽度、高度以及对象中心相对于单元格边界的位置。这是当你看到床的不同凸起（边界框）的大小，然后将您的手机的大小与凸起的大小进行比较，然后根据具体情况确定您的手机实际的大小。
条件类概率：这些是以包含对象的网格单元为条件的概率。使用以前的YOLO模型，每个网格单元只能预测一组类概率。由此，您可以区分不同的对象（参见上图）。但是YOLO V3为每个类使用独立的逻辑分类器。这基本上允许您为同一个对象设置多个标签：计算机找到Waldo，并将其标记为“Waldo”，“人”和“男孩”。

这是一个代码片段，用于收集和解释上面提到的数据（它还说明了对象被检测的速度有多快！）：

计算机视觉VS人类检测物体大战孰赢？

这只是代码的摘录。我使用YOLO V3编写了一个完整的物体检测模型，你可以在这里找到链接（https://github.com/nathaliejeans/yolo_v3）。

计算机视觉VS人类检测物体大战孰赢？

这是模型的架构 - 您可以看到不同的层

操纵数据

由于单一回归，客观性和分类的损失需要单独计算 - 但仍然在同一网络中。通过逻辑回归得到客观分数：1表示边界框和地面实况对象完全重叠（图片实际上是什么）。该模型仅预测此类型的1个边界框，但误差会受到客观性和分类损失的影响。

YOLO（V3）模型还预测了3种不同尺度的方框，以支持尺度变化。这看起来像这样：

计算机视觉VS人类检测物体大战孰赢？

为了测试模型，我们必须将条件类概率乘以单个框置信度预测。此方程返回类在框中的概率，以及预测框与对象的匹配程度。

计算机视觉VS人类检测物体大战孰赢？

下面是另一段代码摘录，它加载了预先训练过的对象名称类，以及它如何处理写入/注释数字图像的不同帧：

计算机视觉VS人类检测物体大战孰赢？

You Only Look Once（YOLO V3）模型的输出如下图所示。很清楚你想从模型中得到什么，以及它如何在不同的应用程序中使用，例如路线图。

现在我希望你明白为什么找Waldo会这么容易！你甚至不需要看两次......

计算机视觉VS人类检测物体大战孰赢？

我们为何使用它

它被认为是实时的，因为它速度快 - 能够每秒捕获45帧。还有一个更快的版本，更小的架构，可以捕获每秒155帧，但它精度比较低。
使用的FCNN可以理解并使用广义对象表示。您可以使用真实世界的图像和艺术作品来使用它并进行训练。

计算机视觉VS人类检测物体大战孰赢？

展望未来

计算机视觉VS人类检测物体大战孰赢？

这项技术已经过了初步阶段：人们在日常生活中使用计算机视觉。越来越多的技术正在该领域发展，这是令人兴奋的，因为它具有如此多样化的实际应用。

将对象检测软件与语音反馈相结合也是非常强大的。它已经在今天使用，人们只是不知道它的存在。失明的人能够得到他们对周围环境的描述，不得不减少对他们所有其他感觉的依赖，每周7天每天24小时。他们甚至可以开车！虽然，我不确定当我们有自动驾驶汽车时，这是多么重要。

另一个可能的用例是为大型零售店或杂货店的分类、确定和协助库存。医疗诊断也可以从中受益，同时处理外部伤口，骨折、淤青或损伤。但最重要的是，它的技术可以帮助我找到Waldo！

无论如何，这个领域有巨大的潜力，我迫不及待想成为未来的一部分。

让我知道你的想法！

计算机视觉VS人类检测物体大战孰赢？

编译出品

来源：https://towardsdatascience.com/can-you-find-waldo-faster-than-a-computer-spoiler-you-cant-ff382e601c31

计算机视觉电脑

dcxhun

0 关注 0 粉丝 0 动态

相关推荐

5个优秀的计算机视觉应用与相关数据集

计算机视觉是数据科学世界中最热门的研究领域之一。而且，它已经成为我们个人生活的一部分。我们都知道或不知道地使用各种功能，这些功能在后端运行计算机视觉技术。例如，我们在智能手机中使用面部解锁。我选择人脸检测作为本文的开头，因为我们都已经看到这是计算机视觉的一

juary 2020-10-28

计算机视觉如何给企业带来不同？

计算机视觉给企业带来了新的曙光，一个美好的开端刚刚开始!查看、处理和操作视觉输入的能力是很难在机器上复制的，这正是计算机视觉的目标。计算机视觉的快速增长引起了C-suite的注意，他们在计算机视觉研究和产品开发方面投入了数十亿美元。许多跨国公司的案例都涉及

木瓜子 2020-08-04

计算机视觉岗常见面试题

使得每层的输入/输出分布更加稳定，避免参数更新和网络层次变深大幅度影响数据分布。从而使模型训练更稳定。使批归一化模块具有复原初始输出分布能力。在训练时，我们可以计算出batch的均值和方差，迭代训练过程中，均值和方差一直在发生变化。但是在推理时，均值和方差

yuanlunxi 2020-07-29

TensorFlow2020:如何使用Tensorflow.js执行计算机视觉应用程序？

本文转载自公众号“读芯术”。是的，学习并执行它并不难，现在有很多库可以用来执行如此强大的计算机视觉应用程序。你有没有关注最近有没有看TensorFlow2020峰会?今年，TensorFlow团队发布了很多非常酷的产品，本文就将介绍如何使用tensorfl

开源节流 2020-07-17

三个可能会被计算机视觉技术改变的行业

计算机视觉技术允许机器以视觉方式解释周围的世界。作为人工智能的一种形式，计算机视觉的本质上是关于数据的分析和学习，只不过需要处理的数据都是视觉数据——而不是文本或者数据。通常来说，视觉数据都是以照片或者视频的形式存在，但是也可能包含来自热像仪和红外热像仪的

Samurai 2020-06-19

图像也能做情感迁移？罗切斯特大学团队提出计算机视觉新任务

不，是图像情感迁移。与其他计算机视觉任务相比，图像情感迁移更有挑战性，需要对图像中的每个物体进行不同的情感迁移。该研究提出一种灵活有效的物体级图像情感迁移框架和新模型 SentiGAN，实验证明该框架可以有效执行物体级图像情感迁移。与图像转换和图像风格迁移

juary 2020-11-10

4个计算机视觉领域用作迁移学习的模型

使用SOTA的预训练模型来通过迁移学习解决现实的计算机视觉问题。如果你试过构建高精度的机器学习模型，但还没有试过迁移学习，这篇文章将改变你的生活。我们大多数人已经尝试过，通过几个机器学习教程来掌握神经网络的基础知识。这些教程非常有助于了解人工神经网络的基本

xceman 2020-10-15

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 2020-10-08

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 2020-10-05

可以提高你的图像识别模型准确率的7个技巧

假定，你已经收集了一个数据集，建立了一个神经网络，并训练了您的模型。但是，尽管你投入了数小时的工作来创建这个模型，它还是能得到50-70%的准确率。这肯定不是你所期望的。下面是一些提高模型性能指标的策略或技巧，可以大大提升你的准确率。epoch基本上就是你

数智集 2020-09-14

以国家战略科学家身份，顶级AI学者朱松纯回国，筹建北京通用AI研究院

知乎热帖称顶级 AI 华人学者、UCLA 教授朱松纯拟加入清华自动化系，职务为教研系列教授。经机器之心求证，此次朱松纯教授以国家战略科学家的身份回国，受邀筹建北京通用人工智能研究院并担任院长。同时，朱教授也将与北京大学、清华大学在相关领域开展研究合作。

湾区人工智能 2020-09-14

五种图像标注的简介

什么是计算机视觉?作为AI研究和开发的一个重要领域，计算机视觉旨在使计算机能够“看到”并解释所处的环境和状态。从自动驾驶汽车，到无人机勘察，再到医疗诊断，以及面部识别与辨认等场景，计算机视觉在实际应用领域发挥着巨大的作用。为了成功地模仿或超越人类的视觉功能

juary 2020-09-10

没有足够多的数据怎么办？计算机视觉数据增强方法总结

学者们针对这一问题已经研发看各种巧妙的解决方案，以避在深度学习模型中数据少的问题。近些年 Few/One-Shot Learning 和 Zero-Shot Learning 技术发展迅速，模型的性能得到了大幅度的提升。Data Augmentation：

littlethunder 2020-09-03

人工智能和物联网：智慧城市的交通管理

当今的智慧城市由不断重塑城市地区的先进技术提供发展驱动力。人工智能和物联网对于世界的运作越来越不可或缺。基于云的服务、物联网、分析平台和许多AI工具正在改变城市居民与环境互动和在环境中出行的方式。纽约市顶级AI咨询和开发机构Blue Orange Dig

木瓜子 2020-08-31

PG&E使用AI来降低野火风险

2018年，一场由太平洋天然气电力公司的输电线路故障所引发的大火席卷了加州北部的巴特县，造成了85人死亡，近1.9万栋建筑被毁。今年6月，PG&E的首席执行官兼总裁Bill Johnson代表该公司在巴特县高级法院承认了84项过失杀人罪和一项非法

邓肯 2020-08-30

为什么AI感知与人类感知无法直接比较？

在开发AI系统的企业中，我们经常会听到这类表述，其指向范围则涵盖人脸识别、物体检测，乃至问题解答等各个方面。随着机器学习与深度学习的不断进步，近年来越来越多卓越的产品也开始将AI算法作为自身的实现基础。一旦贸然将关键性任务交付给AI模型，这种草率的考核标准

PokiFighting 2020-08-27

[ Datawhale ] 计算机视觉下 —— HOG特征描述算子

HOG特征能够很好地反映人体或汽车的轮廓，而且对整体光照、亮度等不敏感。现在比较流行HOG和SVM组合使用，在行人检测、车辆检测、跟踪方面有比较广泛的运用。因此两者结合之后，在检测方面具有良好的性能和鲁棒性。

ibelieveican0 2020-07-05

Deep Learning for Image Super-resolution: A Survey

图像超分辨率是提高计算机视觉中图像和视频分辨率的一类重要图像处理技术。近年来，利用深度学习技术实现图像超分辨率技术取得了显著进展。在调查中，我们的目的是给出在一个系统的方式中使用深度学习方法来实现图像超分辨率的最新进展。我们可以将现有的SR技术研究大致分为

littlethunder 2020-06-05

知乎热议：未来3到5年内，哪个方向机器学习人才最稀缺？

未来3到5年内，哪个方向的机器学习人才最紧缺？今天我们就来梳理一下。全栈式工程师在初创公司受欢迎，领域专精的算法人才在大公司很吃香，应用型人才能够快速提升业务，而工程化是落地的重要一环。AI专业毕业后好找工作吗？此前，知乎上一位CV专业的985高校研究生曾

wishchinYang 2020-06-03

人工智能的三大领域及其工业应用

人工智能是一门新兴的技术学科，研究和开发用于模拟人类智能的扩展和扩展的理论，方法，技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是

purgle 2020-06-01

dcxhun

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号