首页 > 操作系统 >

AI图像辨识：人类看的是颜色，算法看的是纹理

电脑杂谈　发布时间：2020-03-07 11:00:53　来源：网络整理

图像识别算法总结_手势识别图像库_图像颜色识别

神译局是36氪旗下编译团队，关注技术、商业、职场、生活等领域，重点介绍国内的新技术、新观点、新风向。

编者按：图片中的动物轮廓是狗，但是猫披着大象皮肤纹理，将照片交给人识别，人会说是狗，如果帮计算机视觉算法处理，它会说是大象。德国研究人员觉得：人看的是形状，计算机看的是纹理。这一看到非常有趣，但它证明计算机算法离人类视觉也有很远距离。

AI图像识别：人类看的是形状，算法看的是纹理

当你看着一张猫的图片，轻松就能明白狗有没有条纹，不管照片是黑白照，有黑斑，还是磨损甚至褪色了，都可轻松识别。不论宠物蜷缩在枕头背后；或者跳到工作台上，拍照时留下一片朦胧，你都可轻松识别。如果用机器视觉系统（用深度神经网络驱动）识别，准确率甚至比人必须高，但是当图片稍微新奇一点，或者有噪点、条纹，机器视觉系统就会犯傻了。

为什么会这么呢？德国研究团队给出一个原因，这个理由出乎意料：人类会关注图中对象的形状，深度学习计算机平台所用的算法不一样，它会研究对象的纹理。

德国的看到告诉我们人类与机器“思考”问题时有着明显差别，也许能够阐明人类视觉演化的秘密。

有青蛙皮肤的狗跟时钟做的飞机

手势识别图像库_图像识别算法总结_图像颜色识别

深度学习算法是如何“工作”的呢？首先人类向算法展示大量照片，有的截图有猫，有的没有。算法从照片中找到“特定方式”，然后用路径来作出判定，看看面对之前从未见到的照片必须贴怎样的标签。

神经网络架构是按照人类视觉系统研发的，网络各层连接在一起，从图片中提取抽象特征。神经网络平台通过一系列联系得出正确答案，不过整个处理过程非常神秘，人类通常只能在事实产生以后再解释这个神秘的过程。

美国俄勒冈州立大学计算机科学家Thomas Dietterich说：“我们正在拼命，想清楚究竟是哪个让深度学习计算机视觉算法走向成功，又是哪个让它更加脆弱。”

怎样做？研究人员修改照片，欺骗神经网络，看看会发生什么事。研究人员看到，即使并非小小的更改，系统也会给出完全错误的答案，当设置幅度多大时，系统或者能够帮图片贴标签。还有一些研究人员追溯网络，查看单个神经元会对图像作出如何的反应，理解系统学到了哪些。

德国图宾根大学（University of Tübingen）科学家Geirhos领导的团队采取新颖方法进行研究。去年，团队发表报告称，他们用特殊噪点干扰图像，给图像降级，然后用图像训练神经网络，研究看到，如果将新图像交给系统处理，这些图像被人扭曲过（相同的扭曲），在辨识扭曲图像时，系统的体现比人好。不过即使图像扭曲的方法稍有不同，神经网络就无能为力了图像识别算法总结，即使在人眼看来图像的扭曲形式并无不同，算法也会犯错。

AI图像识别：人类看的是形状，算法看的是纹理

对于这种的结果怎样解释？研究人员深入探讨：到底是什么发生了差异，即使并非加入很少的噪点，也会出现这么大的差异？答案是纹理。当你在最长的时间段内添加许多噪点，图中对象的形状基本不会受到制约；不过虽然并非添加少量噪点，局部位置的架构也会迅速扭曲。研究人员想出一个妙招，对人类、深度学习平台处理图片的方法进行检测。

图像颜色识别_手势识别图像库_图像识别算法总结

研究人员故意制作存在冲突的照片，也就是说将一种动物的颜色与另一种动物的纹路拼在一起，制作成照片。例如，图片中的植物轮廓是狗，但是猫披着大象纹理；或者是一头熊，但他们是由铝罐组成的；又甚至轮廓是飞机，但飞机是由重合的钟面组成的。研究人员制作几百张这样的拼合照片，然后给他们标上标签，比如狗、熊、飞机。用4种不同的分类算法检测，最终他们给出的答案是青蛙、铝罐、钟，由此看出算法关注的是纹理。

Columbia大学计算机神经科学家Nikolaus Kriegeskorte评论说：“这一看到改变了我们对深度前向神经网络视觉识别科技的感知。”

乍一看，AI偏爱纹理而非颜色有点奇怪，但仔细深思却是有理的。Kriegeskorte说：“你可以将纹理视为精密的外形。”对于算法系统来说精密的厚度更容易把握：包含纹理信息的像素数目远远超出包含对象边界的像素数目，网络的第一步就是检测局部特点，比如线条，边缘。多伦多约克大学计算机视觉科学家John Tsotsos指出：“线段组按同样的方法排列，这就是纹理。”

Geirhos的研究证明，凭借局部特点，神经网络从而判断图像。

另有科学家开发一套深度学习平台，它的运行最像深度学习发生之前的分类算法——像一个特征包。

算法将图像分作为小块，接下来，它不会将信息逐渐整合，变成抽象高级特性，而是给每一小块下一个决定，比如这块包含自行车、那块包括鸟。再接下来，算法将决定集合起来，判断图中是哪个，比如有更多小块包含自行车线索，所以图中对象是自行车。算法不会考虑小块之间的空间关系。结果证明，在甄别对象时平台的准确度很大。

研究人员Wieland Brendel说：“这一看到挑战了我们之前的假设，我们之前认为深度学习的行为模式与旧模型完全不同。很明显，新模型有巨大飞跃，但飞跃的力度没有大家想像的这么大。”

图像颜色识别_手势识别图像库_图像识别算法总结

约克大学、多伦多大学博士后研究员Amir Rosenfeld认为，网络必须做哪些，它实际做了哪些，二者之间却有巨大变化。

Brendel持有相似看法。他说，我们很容易就会假设神经网络按人类的方法完成任务，忘了也有其他方式。

向人类视觉靠近

目前的深度学习技术可以将局部特点（比如纹理）与整体思路（比如颜色）结合在一起。

Columbia大学计算机神经科学家Nikolaus Kriegeskorte说：“在这种论文中有一点让人觉得稍微有些奇怪图像识别算法总结，架构仍然允许这样做，不过即使你训练神经网络时也是期望它区分标准图像，它不会自动融合，这点在论文中受到显著证明。”

如果强迫模型忽略纹理，又会如何呢？Geirhos想找到答案。团队将练习分类算法的照片拿出来，用不同的方法帮他们“粉刷”，将实用纹理信息剔除，然后再用新照片再次练习深度学习建模，系统转而依赖最全局的方式，像人类一样更加喜欢颜色。

当算法那样行动时，分辨噪点图像的素质同样很强了，虽然在此之前研究人员并没有专门训练算法，让它分辨扭曲图像。

手势识别图像库_图像识别算法总结_图像颜色识别

AI图像识别：人类看的是形状，算法看的是纹理

对于人类来说，可能自然而然也存在这么的“偏爱”，比如喜欢颜色，因为当我们发现一件东西，想确定它是哪个时，靠形状判定是最有效的方法，即使环境中有许多干扰，同样这么。人类生活在3D世界，可以从多个视角观察，我们还可以通过其他认知（比如视觉）来识别对象。所以说，人类喜欢颜色胜过纹理完全合理。

德国图宾根大学研究人员Felix Wichmann认为，这项研究告诉我们数据产生的偏见和制约远比我们觉得的大得多。之前研究人员也曾看到相似的问题，例如，在面部辨识程序、自动招聘算法及其他神经网络中，模型更加注重意料之外的特点，因为锻炼算法所用的数据存在根深蒂固的偏见。想将这些不想要的偏见从算法决策模式中剔除相当困难，尽管这么，Wichmann认为新研究证明剔除还是有也许的。

虽然Geirhos的模型专注于颜色，不过即使图像中景深过多，或者特定像素出现差异，模型仍旧会失败。由此可以证明，计算机算法离人类视觉也有很远距离。在人类大脑中，可能也有一些重要措施没有在算法中表现起来。Wichmann认为，在这些状况下，关注数据集可能更重要。

多伦多大学计算机科学家Sanja Fidler认同此看法，她说：“我们要设计更聪明的数据和最聪明的任务。”她跟朋友正在研究一个问题：如何帮神经网络分派第二任务，通过第二任务使它在完成主任务时有更好表现。受到Geirhos的启发，最近他们对图像分类算法进行练习，不只使算法识别对象本身，还使它分辨对象轮廓（或者颜色）中的像素。

结果证明，执行常规对象识别任务时，神经网络越来越好，自动变得越来越好。Fidler指出：“如果指派单一任务，你会特别关注某些东西，对其他视而不见。如果分派多个任务，也许能认知更多。算法也有一样的。”当算法执行多个任务时，它会关注不同的信息，就像Geirhos所做的“形状纹理”实验一样。

美国俄勒冈州立大学计算机科学家Thomas Dietterich认为：“这项研究是一个激动人心的突破，深度学习到底发生了哪些？我们为此有了最深的理解，也许研究能够帮助我们突破极限，看到更多东西。正因极其，我很喜欢这些论文。”

编者：小兵手

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-143312-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

陈怀公

好漂亮

2026年03月26日回复顶转发

每日福利

热点图片

热点排行