首页 > 操作系统 >

AI图像识别: 人类着眼于形状，算法着眼于纹理

电脑杂谈　发布时间：2020-04-23 23:13:56　来源：网络整理

图像识别用什么算法_图像颜色识别_图像颜色识别

人类会注意图片中物体的形状. 深度学习计算机系统使用的算法不同. 它将研究对象的纹理.

图片中的动物轮廓是猫，但是猫被大象的皮肤所覆盖，并且将图片交给了一个人进行识别. 一个人会说那是猫. 如果通过计算机视觉算法对其进行处理，则将其称为大象. 德国研究人员认为，人们关注形状，而计算机关注纹理.

这个发现很有趣，但是它证明计算机算法离人类的视野还很远.

当您查看猫的照片时，无论照片是黑白，斑点图像识别用什么算法，磨损还是褪色，您都可以轻松知道猫是否有条纹，可以轻松识别它. 无论宠物是curl缩在枕头后还是在工作台上跳动，只要在拍照时留下阴霾，您都可以轻松识别它. 如果它被机器视觉系统（由深度神经网络驱动）识别，则准确率甚至高于人类，但是当图片略显新颖或有噪点和条纹时，机器视觉系统将是愚蠢的.

为什么会这样？

德国研究小组给出了一个出乎意料的原因: 人类会注意图片中物体的形状. 深度学习计算机系统使用的算法不同.

德国的发现告诉我们，人与机器“思考”问题之间存在明显的区别，并且可能还揭示了人类视觉进化的秘密.

图像识别用什么算法_图像颜色识别_图像颜色识别

深度学习算法如何“起作用”？

首先，人类向算法展示了大量图片，有些图片带有猫，有些则没有. 该算法在图片中找到“特定图案”，然后使用该图案做出判断，以查看应将哪些标签粘贴到从未见过的图片上.

神经网络架构是基于人类视觉系统开发的. 网络各层连接在一起，以从图片中提取抽象特征. 神经网络系统通过一系列连接获得正确答案，但是整个过程非常神秘. 人类通常只能在事实形成后解释这个神秘的过程.

俄勒冈州立大学的计算机科学家Thomas Dietterich说: “我们正在努力寻找使深度学习计算机视觉算法成功的因素以及使它们易受攻击的因素. ”

该怎么做？研究人员修改了照片并欺骗了神经网络以查看会发生什么. 研究人员发现，即使进行很小的修改，该系统也会给出完全错误的答案. 修改较大时，系统甚至无法标记图片. 其他研究人员追踪该网络，以查看单个神经元如何响应图像并了解系统已学到的知识.

由德国蒂宾根大学的科学家盖尔霍斯（Geirhos）领导的团队使用一种独特的方法进行研究. 去年，该团队发表了一份报告，报告说他们使用特殊的噪音来干扰图像，使图像降级，然后用图像训练神经网络. 研究发现，如果将新图像移交给系统进行处理，则这些图像会失真（相同的失真）. 当识别失真的图像时，该系统的性能要优于人类. 但是，如果图像失真方法略有不同，则神经网络将无能为力. 即使图像失真方法与人眼无异，该算法也会出错.

如何解释这样的结果？

研究人员深入思考: 发生了什么变化，即使只添加一点噪音，也会发生如此大的变化？

图像识别用什么算法_图像颜色识别_图像颜色识别

答案是纹理. 长时间添加大量噪点时，基本上不会影响图片中物体的形状；但是，即使仅添加少量噪声图像识别用什么算法，本地位置的体系结构也会快速失真. 研究人员提出了一项政变，以测试人类和深度学习系统如何处理图片.

研究人员故意制作出相互矛盾的图片，也就是说，将一种动物的形状与另一种动物的纹理相结合来制作图片. 例如: 图片中的动物轮廓是猫，但猫被大象纹理覆盖；或者它是熊，但它们是由铝罐组成的；或轮廓是飞机，但飞机由重叠的钟面组成.

研究人员制作成百上千张拼凑而成的图片，然后为它们贴上标签，例如猫，熊和飞机. 用4种不同的分类算法进行测试，最后给出的答案是大象，铝罐和钟表，这表明该算法与纹理有关.

哥伦比亚大学的计算机神经科学家Nicolaus Kriegeskorte评论道: “这一发现改变了我们对深度前向神经网络视觉识别技术的认识. ”

乍一看，人工智能对纹理而不是形状的偏爱有点奇怪，但是仔细思考是合理的.

Kriegeskorte说: “您可以将纹理视为精确的形状. ”

对于算法系统，更容易掌握精确的大小: 包含纹理信息的像素数量远远超过包含对象边界的像素数量. 网络的第一步是检测局部特征，例如线条和边缘.

多伦多约克大学的计算机视觉科学家John Tsotsos指出: “线段以相同的方式排列，这就是纹理. ”

Geirhos的研究证明，具有局部特征的神经网络足以区分图像.

图像颜色识别_图像颜色识别_图像识别用什么算法

另一位科学家开发了一种深度学习系统，其功能类似于深度学习出现之前的分类算法，例如功能包.

该算法将图像分成小块. 接下来，它将不会逐渐将信息合并到抽象的高级功能中，而是会为每个小零件做出决定，例如，这件零件包含一辆自行车，而该件零件包含一只鸟. 接下来，算法将决定收集并确定图片中的内容. 例如，还有更多包含自行车提示的小块，因此图片中的对象是自行车. 该算法不考虑小块之间的空间关系. 结果证明，该系统在识别物体时具有很高的准确性.

研究人员Wieland Brendel说: “这一发现挑战了我们以前的假设. 我们曾经认为深度学习的行为与旧模型完全不同. 显然，新模型取得了很大的飞跃，但是飞跃的幅度很大不是每个人. 它的大小和预期的一样大. “

约克大学和多伦多大学的博士后研究员阿米尔·罗森菲尔德（Amir Rosenfeld）认为，网络应该做什么与实际做什么之间仍然存在很大差异.

布伦德尔持有类似的观点. 他说，很容易假设神经网络以人为方式执行任务，而忘记了其他方式.

当前的深度学习技术可以将局部特征（例如纹理）与整体模式（例如形状）结合起来.

哥伦比亚大学计算机神经科学家Nicolaus Kriegeskorte表示: “其中一篇论文有点怪异. 虽然架构允许这样做，但是如果您训练神经网络只是想让它区分标准图像，它将而不是自动集成，这在本文中已得到明确证明. ”

如果强制模型忽略纹理怎么办？盖洛斯想找到答案. 该团队取出了训练分类算法的图片，以不同的方式“绘制”了它们，去除了实际的纹理信息，然后用新的图片重新训练了深度学习模型. 该系统转而依赖人类等更全球化的模型. 喜欢形状.

当这种算法起作用时，区分嘈杂图像的能力也更强，尽管在此之前研究人员并未专门训练算法以使其能够识别失真图像.

图像颜色识别_图像识别用什么算法_图像颜色识别

对于人类来说，这种“偏爱”可能自然存在，例如对形状的偏爱，因为当我们看到某物并想确定其形状时，即使在环境中，这也是通过形状判断的最有效方法. 有很多干扰，同样如此. 人类生活在3D世界中，可以从多个角度观看. 我们还可以使用其他感知（例如触摸）来识别对象. 因此，相对于纹理，人类更喜欢形状.

德国蒂宾根大学的研究员费利克斯·维希曼（Felix Wichmann）认为，这项研究告诉我们，数据的偏见和影响比我们想象的要大得多. 研究人员以前曾发现过相同的问题，例如: 在面部识别程序，自动募集算法和其他神经网络中，该模型过分注意了意外的功能，因为训练算法使用的数据具有根深蒂固的偏差. 从算法决策机制中消除这种不必要的偏差是非常困难的. 但是，威奇曼（Wichmann）认为，新的研究证明该清除仍然可行.

尽管Geirhos的模型着重于形状，但是如果图像中的噪点过多或特定像素发生变化，该模型仍然会失败. 这表明计算机算法距离人类的视野还很远. 在人脑中，可能有一些重要的机制未在算法中反映出来. Wichmann认为，在某些情况下，专注于数据集可能更为重要.

多伦多大学的计算机科学家Sanja Fidler同意这种观点. 她说: “我们希望设计更智能的数据和更智能的任务. ”她和她的同事正在研究一个问题: 如何将第二项任务分配给神经网络. 第二项任务使它在完成主要任务时表现更好. 受盖尔霍斯（Geirhos）的启发，他们最近训练了图像分类算法，不仅让该算法识别出物体本身，而且让其识别出物体轮廓（或形状）中的像素.

结果证明，在执行常规对象识别任务时，神经网络越来越好，并且自动越来越好.

Fidler指出: “如果您分配一个任务，那么您将特别注意某些事情，而忽略其他事情. 如果您分配多个任务，则您可能会察觉更多. 算法是相同的. ”

当算法执行多个任务时，它将像Geirhos的“形状和纹理”实验一样专注于不同的信息.

俄勒冈州立大学的计算机科学家Thomas Dietterich说: “这项研究是令人兴奋的突破. 深度学习发生了什么？我们对此有更深刻的理解，也许这项研究也可以帮助我们突破极限，请参见更重要的是，因此，我真的很喜欢这些论文. “

原始链接:

翻译: 小战士

本文获得@ 36 authorized的授权，由每个人作为产品经理发布，并且未经作者许可，严禁转载

Unsplash的图片基于CC0协议

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-186477-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论