人类看见形状,AI看见纹理:从计算机视觉分类失败谈起 - 科技行者

研究人员们惊讶地发现,深度学习视觉算法之所以经常在图像分类时遭遇挑战,是因为它们主要从纹理——而非形状——当中提取判断线索。

在我们观察一张猫的照片时,往往能够很快认出这是橘猫还是虎斑猫——此外,图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等,也都是观察过程中能够轻松得到的结论。此外,我们还会发现这些小生灵是蜷缩在枕头后边,还是迅捷地跃上一张台面。总而言之,人类总能不知不觉快速学会识别小猫。相比之下,由深度神经网络驱动的机器视觉系统虽然能够在某些特定情况下提供优于人类的识别能力,但一旦构图较为罕见、存在噪点或者其它一些干扰因素,系统也有可能对一张内容明确的图像束手无策。

最近德国一支研究小组发现了当中令人意想不到的原因:人类对图像里各对象的形状较为敏感,而深度学习计算机视觉算法却通常更关注对象的纹理。

这一发现发表在今年5月举办的国际学习代表大会上,主要强调了人与机器在“思考”方式之间的鲜明差异,并阐述了我们的直觉如何误导人工智能。此外,这项研究也暗示了,人类的视觉为何会发展成今天的形式。

拥有大象皮肤的小猫与由钟表构成的飞机

举例来说,深度学习算法体现为一套神经网络,其中包含着成千上万张有猫或者无猫的图像素材。系统能够从这些数据当中找到模式,而后利用它来决定如何更好地标记自己从未见过的图像。网络的架构类似于人类视觉系统,但建模方式更为松散——这是因为,其中的连接层允许网络一步步从图像中提取出越来越抽象的特征。然而,这套系统实际上是一种“暗箱”流程,我们只能获得正确答案,却不知道这答案从何而来。并未参与此项研究的俄勒冈州立大学计算机科学家Thomas Dietterich指出,“我们一直在努力找到使得深度学习计算机视觉算法得出正确结果的原因,以及哪些因素有可能干扰这种视觉识别能力。

为了达成这一目标,有些研究人员开始探索,在对图像内容进行修改之后,网络会因欺骗而得出怎样的结论。他们发现,某些非常小的变化都有可能导致系统完全错误地标记图像中的对象——但有些很大的变化,却反而不会让系统修改其标记内容。与此同时,也有其他一些专家通过网络进行了回溯,分析了其中单一“神经元”在图像中的响应,并据此为系统学习到的特征生成所谓“激活图集”。

其中计算神经科学家Matthias Bethge实验室的一组科学家,以及来自德国蒂宾根大学的心理物理学家Felix Wichmann采取了更为定性的方法。去年,该团队报告称,当他们在利用特定噪声进行干扰处理的图像上训练神经网络时,结果发现神经网络在对存在类似失真干扰的新图像进行分类方面,表现要优于人类。但只要对这些图像稍微进行一些新的模式调整,就能够完全骗过网络——即使新的内容扭曲与图中原本存在的扭曲看起来并无不同。

为了解释这一结果,研究人员们猜测,也许极低的噪音水平也可能会具有巨大的判定权重。在这方面,纹理似乎是个很不错的线索。Bethge和Wichmann实验室研究生,研究论文第一作者Robert Geirhos指出,“如果长时间添加大量噪音,图像对象的形状因素其实并不会受到太大的影响。但在另一方面,图像中的某些局部结构,在添加一丁点噪音因素时也可能变得极度扭曲。”因此,他们提出了一种巧妙的方法,以测试人类与深度学习系统究竟是如何处理图像的。

Geirhos、Bethge和他们的同事创造出两幅包含相互冲突线索的图像,即对象的形状取自某一物体,纹理则取自另一个物体。例如,用带裂纹的灰色纹理(大象皮肤)填充在猫的轮廓当中;或者制作小熊纹理的铝罐,乃至由钟面堆叠而成的飞机图形等。利用数百张此类图像,人类仍能够根据图像中的形状——猫、熊、飞机等——以极高的准确度进行标记。相比之下,四种不同的分类算法则倾向于另一种理解方式,即给出能够反映物体纹理的标记,包括大象、罐头、时钟等。

热闻

晨光推荐

晨光娱乐

晨光汽车