@sambodhi 2017-01-20T03:07:54.000000Z 字数 2551 阅读 1939

机器学习如何引入偏见

在今天以大数据、人工智能为代表的科技发展的日益成熟，人类将面临着从进化到智人以来最大的一次改变。现在人类看到了另一种力量的崛起，这就是机器。人工智能今年的突飞猛进不断地敲打着人类的神经，全面超越人类将指日可待。既然人类的一切行动都是由生物的算法所掌控的，那么在这一点上，人工智能和人类没有本质的区别，而人工智能会比人类有更高效的计算。人类将不可避免被机器代替的命运。

随着人工智能的发展，人类将会把越来越多的决策权交给机器。但是，从目前的一些事例看，基于机器学习的决策并非那么公正完美，相反，那些决策也渗透着偏见。机器学习一直缺乏防止这类偏见，而且是基于敏感属性的审核方法。目前仍然缺乏一种可靠的方法，来避免机器学习可能产生的偏见。

Jesse Emspak在科学美国人上发表了一篇文章，表示了他对机器学习的偏见问题：人工智能会引入人类创造者的偏见，而不是冰冷的逻辑。

InfoQ翻译、整理Jesse Emspak这篇文章，将他的观点分享出来，以飨广大所有关心人工智能的读者。

如果人工智能接管我们的生活，人类与机器人之间可能不会发生战争，因为机器人像（星际迷航的）外星人混血儿斯波克那样无情奴役人类。相反，为你推荐电影、人脸识别等的机器学习算法可能有一天，拒绝你的贷款申请、把警察叫到你家附近、或者告诉医生你需要节食……既然是人类创造的机器学习算法，如果创建算法的人带有某种偏见，就有可能使算法导致错误的决定，以及更槽的结果。

这些偏见使我们对日益依赖的人工智能基础产生了严重的关切，因为人类设计的人工智能系统哪怕是绝对“公正”的，也会逐渐积累人类的偏见思维。例如，某个人工智能程序并未特别考虑种族，但程序却将黑人标记为在未来更有可能犯罪的人。

主要问题有两个：首先，用于训练机器学习算法的数据有时不够；其次，算法本身可能设计不合理。机器学习是软件开发人员使用大量与手头任务相关的数据来训练人工智能算法的过程。最终，算法基于最初提供的数据形成模式集，以识别新数据中的类似模式。但是算法并不总按计划运行，导致可怕的结果。例如，2015年6月，Google的照片分类系统将两位非裔美国人误判为“大猩猩”。尽管该公司迅速解决了这个问题，但微软人工智能研究员Kate Crawford在纽约时报指出，这种错误反映了人工智能的一大问题：“白人问题”。也就是说，用于训练软件的数据过于依赖白人的照片，导致系统无法准确识别具有不同特征的人。

最近，一系列不实报道向Facebook用户的动态消息（News Feeds）潮水般涌来，凸显了人工智能的偏见问题。Facebook的热门新闻（Trending News）算法是基于用户参与度（用户点击率或分享率）来确定新闻优先级，根本没有考虑新闻的真实性。11月初，一些新闻媒体透露，在美国大选期间，一群Macedonian青少年愚弄了Facebook的动态消息算法，公然传播不实报道，呼吁右翼选民投票。Facebook表示，已修改算法，并宣布计划，将同Snopes、Factcheck.org、ABC News和PolitiFact将帮助共同验证每一条新闻的真实性。

Maryland大学计算机科学系副教授HalDaumé三世表示，“这有点像‘俄罗斯坦克问题’”。这个传说是杜撰的，但是有代表性，因此常常被计算机科学的老师们引述：这个传说讲的是20世纪80年代早期，美国军队试图训练计算机来区分照片中的俄罗斯坦克和美国坦克。“算法的分类精度很高，但所有的训练照片中，俄罗斯坦克的照片是模糊的，而美国坦克的照片是高清的。”Daumé解释道。算法学会了区分模糊照片和高清照片，而非识别坦克。

尽管存在这样的已知限制，最近，一组研究人员还是发布了一项研究报告，指出算法可以通过评估人脸特征来推断某人是否为罪犯。中国上海交通大学的研究员Xiaolin Wu和Xi Zhang基于1856张人脸照片（其中730张犯罪分子照片、1126张非犯罪分子照片）的数据集训练人脸识别算法。在看完数据集中90%的图片后，人工智能可以正确判断剩下的10%图片中，哪些是罪犯。

根据这项研究报告的说法，该算法将特定人脸特征与犯罪相关联。Xiaolin Wu表示，罪犯的眼角、嘴唇和鼻尖更可能存在特殊的空间关系。虽然，有这样的特征的人不一定表示就是罪犯，但可能性比较高。Wu还发现，犯罪分子的人脸特征差异比较大，而非犯罪分子往往具有相似的特征。

Wu继续使用一组新的照片来测试算法，发现多数时候，算法能正确标识出罪犯。为了避免引入偏见，研究人员只使用面部无毛发、无疤痕的青中年中国男性照片来训练和测试算法。

Wu表示：“我准备开始反驳那些反对者的观点，我们对这个结果都感到惊讶。”尽管这项研究可能验证了骨相学的某些观点，但是他承认，直接用这种技术来判断罪犯太“疯狂”了，而且还表示，不打算将其用于执法部门。

另一些科学家认为，Wu和Zhang的研究发现，可能只是增强了人工智能系统的现有偏见。Google的首席科学家BlaiseAgüeray Arcas指出，受试者的犯罪行为，是由人类的司法系统来决定的，可能存在潜在的偏见。Agüera y Arcas补充道，该报告的核心问题是，罪犯的依据是人类涉及的系统本身，然后不带人类偏见的机器学习给出该结论。

“Wu和他的同事直接跳到结论：他们发现人脸结构特征可以预测犯罪，这是非常鲁莽的结论。”Washington学院数学系助理教授Kyle Wilson如此道。他还表示：这种算法可能只是在某个司法系统反映了人类的偏见，在其他任何国家也可能会出现这种情况。他说：恰恰相反，他们只是教会了计算机重现人类相同的偏见。

还有人认为，可以通过解决计算机学习模式中的错误来改进该算法，避免人为的偏见。瑞士人工智能实验室Dalle Molle Institute的科学总监Jürgen Schmidhuber表示：人工智能系统在学习时会犯错误实际上，它一定会犯错，这也是为什么称之为“学习”。他补充道，计算机只能学习给予的数据中所包含的信息。“你不能消除所有这些偏见的源头，就像你不能消除这些人类的源头，”我们得承认这一点，然后确保使用的数据和算法的设计相对“公正”，或者记住老程序员的话：一步错，步步错。

机器学习如何引入偏见

内容目录