论AI自动化思维中的隐性成本 - 科技行者(2)

下面来思考图像识别场景。十年之前,计算机一般很难认出照片中的物体。如今,图像搜索引擎就如同我们日常使用的众多系统一样,同样基于极其强大的机器学习模型。谷歌的图像搜索服务就依赖于名为Inception的神经网络。2017年,麻省理工学院的LabSix(一支由本科生与研究生组成的研究小组)就成功篡改了一张小猫图片中的像素——虽然其看起来仍然像是人类认知中的猫,但Inception以99.99%的确定性认为这是一张牛油果照片。(根据计算,Inception认为可能性次高的结果分别为西兰花以及砂浆。)这又回归了我们之前提到的问题:当我们无法解释机器学习系统依靠哪些特征进行图片判断时,一旦有人提供特制或者篡改过的数据,我们也无法轻松预测系统何时会犯下错误。这样的系统当中可能存在着未知的准确性差距,而这无疑将给聪明且坚定的攻击者留下可乘之机。

随着对机器学习系统所产生知识的运用,这种差距将产生愈发严重的影响。目前训练出的医疗保健AI,已经能够成功对皮肤病变进行良性与恶性分类。然而,在哈佛医学院与麻省理工研究团队今年出版的一篇论文中,研究人员们发现此类AI也有可能受到欺骗——基本情况与上文提到的小猫变牛油果案例类似。(除此之外,攻击者也可能利用这些漏洞骗取高额保险赔偿。)出于强大预测能力的诱惑,我们可能会急于将其作为人类医师的替代性方案;但必须承认,AI模型极易受到劫持,而且我们没有什么简单方法能够验证其产生的答案。

我们能否为知识债务创建一份资产负债表,并借此跟踪那些无理论知识被运用在哪里以及哪些系统当中?在初步统计之后,我们发现不同知识债务所引发的潜在影响也有所区别。如果是AI生成的全新批萨配方,那么管他什么潜在影响,直接尝尝味道就可以;但相比之下,如果我们打算采纳AI提出的健康预测与治疗建议,那么更充分的信息无疑非常必要。

要想建立并维护好这份覆盖整个人类社会的知识债务表,我们可能首先得改进原本主要用于处理商业机密及其它知识成果的相关方法。在城市,建筑法规要求房屋业主上报他们的装修计划;同样的,我们可能也得要求各科研机构或者大学公开他们实际使用的隐藏数据集与算法。如此一来,研究人员们将能够着手探索我们所依赖的模型及基础数据,并通过建立理论抢在知识债务引发严重错误及漏洞之前完成修复工作。

机器学习模型已经愈发普遍,任何人都能够创建起自己的机器学习模型,这也让统计审查工作变得越来越困难。但这仍然非常重要,因为孤立系统虽然能够产生有用的结果,但这些系统本身却不会孤立地存在:当AI技术收集并提取真实世界中的数据时,它们也会产生属于自己的数据,而其中大部分结论都会作为其它系统的输入内容。正如原理未知的药物之间可能发生相互影响一样,债务负担算法也将面对类似的挑战。

另外,即使是最简单的交互也可能引发麻烦。2011年,一位名叫Michael Eisen的生物学家从他的一名学生身上发现了有趣的案例:一名毫不起眼的旧书《飞翔的奥秘:动物设计中的遗传学(The Making of a Fly: The Genetics of Animal Design)》在亚马逊网站上最低的开价竟然高达170万美元——还要再加上3.99美元的运费。第二低的价格则迅速攀升至210万美元。这两位卖家都是亚马逊上的老店,店铺里也都有着非常积极的评论。而当Eisen连续几天访问该书的页面时,他发现价格一直在不断增加,且似乎遵循着一定的规律。卖家甲的价格一直是卖家乙价格的99.83%;而第二天,卖家乙的价格则会上调至卖家甲前一天价格的127.059%。Eisen推断,卖家甲肯定是真的拥有这本书,而且打算长期占据亚马逊上最低的价格。与此同时,卖家乙没有这本书,所以把价格定得更高;这样如果有人购买,卖家乙可以当一把“二道贩子”,直接拍下卖家甲的商品。

热闻

晨光推荐

晨光娱乐

晨光汽车