English

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

网络法读书会

/根目录 /首页 /新闻中心 /网络法读书会

网络法读书会第十四期:算法歧视与算法公平

时间:2018-06-10

未来法治研究院网络法第十三期读书会于2018年6月7日在中国人民大学明法楼725室举行。本次读书会上,老师和同学们围绕Anupam Chander的The Racist Algorithm?和由Solon Barocas和Andrew D. Selbst两位合写的Big Data's Disparate Impact两篇论文进行了主题报告和讨论。以下是整理的主题报告和部分评议:

主题报告

严少敏(京东法律研究院)

第一篇文章:TheRacist Algorithm?

AnupamChander,Universityof California, Davis School of Law,2017

本论文是基于对美国马里兰大学法律教授弗兰克·帕斯奎尔(Frank Pasquale)《黑匣子社会:控制金钱和信息的秘密算法》(The Black Box Society: The Secret Algorithms That Control Money andInformation)这本书探讨展开的。Pasquale在书中探讨了企业(特别是金融和科技巨头)滥用隐秘性的算法谋取利益的行为。认为要保护数据,正确利用数据就要加强收集数据的透明度。作者认为帕斯奎尔的核心主张是,算法将掩盖令人憎恶的歧视,破坏民主,加剧不平等。

作者认为,算法本身是没有选择性的。算法虽然是晦涩和神秘的,但通常不会比它们所代表的的委员会或个人更神秘。最终的黑盒子是人类的大脑。作者认为有意设计的算法歧视发生的概率比人类决策中有意或无意的种族歧视或性别歧视的要低。算法歧视核心问题是:在一个充斥着歧视效应的世界里训练或操作的算法很可能会重现这种歧视——算法歧视是被人类决策感染的病毒(Virus )歧视。作者认为透明度无法解决这一问题,即使是透明的、表面中立的算法-算法-仍然可以产生歧视性的结果。需要的是输入和结果数据的透明度。解决这个问题的办法在于一种基于算法的平权行动。这需要对包含不同社区的数据进行训练算法,并持续对差别性影响评估。这将要求决策者要正视种族和性别歧视,以一种种族和性别意识的方式进行算法设计和评估,而不是坚持种族或性别中立和或者无视性别或者种族歧视。

因此,作者在论文中指出:“我的中心观点是:如果我们相信,现实世界中的事实(算法是在这些事实的基础上进行训练和操作的)被恶毒的歧视深深浸透了,那么我们对种族主义或性别的算法的解决方案就是算法平权行动。因此,问题不在于黑盒,黑盒通常比它所取代的人类决策者更加中立,而在于它运行的真实世界。我们必须为一个充斥着歧视过去和歧视现实的世界设计我们的算法。”

论文:第一部分回顾了Pasquale的观点:黑箱社会将增加歧视性操纵。它认为,与Pasquale的观点相反,法律并没有将算法视为可能增加故意歧视,而是将算法用于减少人类决策者不受约束的自由裁量权带来的讨厌的歧视。通过量刑指南的例子,说明法律倾向于高度明确的算法决策,以减少自由裁量的人类判决的歧视结果。第二部分认为,由于算法在现实世界中学习和操作的歧视,歧视仍有可能出现在以种族或性别中立的方式设计的自动算法中。第三部分介绍了对基于种族和性别意识的病毒歧视设计算法的补救措施,以解决数据中存在的歧视问题。

第一部分:AlgorithmicManipulation

算法是否加剧社会上现有的歧视?

作者的答案是否定的。理由是:第一,无意识或潜意识的歧视在计算机编程中比在人类决策中更不容易表现出来。2015年,最高法院承认“无意识偏见”可以激发歧视。与决策过程相比,编程需要一步一步的书写过程,它依赖于对所追求内容的有意识理解。程序员不仅必须非常精确地指导计算机,而且现代编程实践也要求程序员记录(或注释)程序正在做什么。由于一种编程过程需要写出明确的指令和记录特定代码的行为,无意识或潜意识的歧视在计算机编程中比在人类决策中更不容易表现出来。第二,即使对于那些有歧视倾向的程序员或公司来说,编码本身的过程可能会导致程序员回避实际编码的歧视。即使没有通过诉讼强制披露,一种硬编码的歧视也有可能被黑客或厌恶歧视的内部人士揭露。此外,由于代码编写可能涉及程序共享代码的团队,以及不同的人审阅和调试代码。有意识地进行编码歧视可能需要获得多人的合作,这可能是一项令人担忧的任务。

这些都不能否认存在种族主义和性别歧视的程序员。第三,即使企业从事其他类型的不当行为,也不意味着它们可能有意操纵算法,进行歧视。几乎所有主要运营商的网络平台,包括Google、Twitter、Facebook、微软和苹果,已经调查由美国政府侵犯,包括反竞争行为,欺骗性商业实践,未能保护消费者的个人信息,未能履行诺言让消费者对自己的数据,和客户购买,他们没有授权收费。然而,并没有案例证明这些公司有故意的种族或性别歧视。第四,算法决策过程必须与非算法决策(即人类的决策)进行比较。最终的黑盒子是人类的大脑。即使是由委员会作出决定的地方,审议工作通常也不会被记录下来,除非是在极有选择性的会议记录中,而且委员会成员往往承诺将讨论保密。在这个黑盒子里所产生的偏见是不需要写下来的。第五,基于大数据的算法,使更丰富的信息环境下运行的自动算法会降低通过程式化的统计造成的歧视;第六,对人类决策的黑盒子的担忧使算法替代人的决策。比如当Facebook被指责在它所认定的“趋势”新闻报道中偏袒自由主义的政治观点时,它试图通过解雇新闻编辑人员,并用自动算法将其完全取代,从而清楚地表明它对公平的承诺。

联邦量刑指南的历史回顾

1976年,参议员爱德华·肯尼迪(Edward Kennedy)宣称,由于法官对联邦罪行的判决不确定,导致了量刑的不平等,这是“一个全国性的丑闻”。只要自由裁量被允许,它就会被滥用。”在某些情况下,与种族、阶级、生活方式和其他不相关的因素相比,个体的过失程度差异就不那么重要了。差异性被认为从根本上与平等和法治的理想相悖。特别是,允许法官和假释官员行使未经指导的自由裁量权。国会在1984年创建了美国量刑委员会,帮助避免不必要的判决被告之间的差异与相似的记录被发现犯有类似的犯罪行为。量刑指南使根据犯罪的性质以及犯罪和罪犯的各种其他特征来决定判决的过程更具有算法性。《联邦量刑指南手册》长达600多页,包括大量的表格和起诉书。

作者认为,基于算法所确定的量程的量刑并没有结束歧视,并可能使非裔美国罪犯的生活变得更糟。由于减少了人的自由裁量权,量刑指南使少数人的处境变得更糟,因为他们的个人情况无法得到适当的考虑。一个案例中,一个面临6年刑期的人质疑量刑法官使用一种名为“COMPAS”的算法工具,他认为该算法基于群体数据,算法考虑了性别因素,而且算法的知识产权保密性使他无法质疑算法的有效性。.威斯康星州最高法院支持在非常限定的范围内使用该算法,认为“考虑在量刑时进行COMPAS风险评估以及其他支持因素有助于向量刑法庭提供尽可能多的信息,以达到个别化的判决。关于性别问题,法院的结论是,“COMPAS使用性别有助于提高准确性,最终有利于包括被告在内的司法系统。”但一项公共舆论调查对COMPAS提出质疑,认为它“有可能将黑人被告错误地标记为未来的罪犯,错误地将他们贴上白人被告几乎两倍的标签”。

作者指出Pasquale的担忧似乎与量刑指南的采用有关,新算法的制定本身可能解决了法官潜意识中存在偏见的一些问题,但也创造了其他问题,可能对少数群体产生全面的负面影响。

Pasquale对算法的转向提出了另一个关键的问题,当算法取代人类的决策时,算法会给决策带来“必然性的一种模式”,甚至是公平性的一种模式。算法可以使决策看起来更公平,因为计算机是逻辑实体,不应该被人为的偏见所感染。但正如我们现在讨论的那样,这将是一个毫无根据的假设。

第二部分:ViralDiscrimination

作者首先展示了一个案例:联合国的广告展示了一个中立的算法是如何产生性别歧视的结果,仅仅是因为它对性别歧视者的输入做出了反应。更为普遍的是,表面上中立的算法可以产生反映社会偏见。因此,即使算法比它们所取代的人类决策者更不容易受到偏见的影响,算法仍然可以通过其他手段进一步巩固歧视。即使是中立的算法也会产生歧视性的结果,因为它们是在普遍歧视的现实世界中训练和操作的。

Figure 1. UN WomenAd Campaign Using Google’s Autocomplete FunctionViral Discrimination

作者接着论述了无意识的算法歧视产生的过程:算法决策中的感染路径——从训练数据和操作数据到算法本身。分类模型是对历史数据进行训练,以预测未知数据样本的类标。”然而,历史数据常常偏向于某些组或对象的类。研究人员Solon Barocas和Andrew Seibst演示了各种机制,通过这些机制,就业中的算法决策可以导致对受保护阶级的不同影响。例如,算法可能会使用表面上中立的数据,但这些数据可能会受制于训练者和操作者的“冗余编码”,即特定类的成员在其他数据中进行编码。

Figure 2. Routes ofInfection in Algorithmic Decisionmaking

已经证明,自动算法可以生成有种族问题的结果,即使这不是算法程序员的意图。Pasquale对坏数据的问题很敏感,而不是故意的坏算法。他写道:网络搜索者更倾向于在与黑人相关的名字有“逮捕”联系而不是更中立的联系时点击即时校验广告。广告匹配引擎背后的程序员所做的一切就是优化点击——它不知道人们点击的原因。它将自己呈现为一个观念的投票机器,仅仅是登记而不是创造观念。他指出,“由于无法获得潜在的编码和数据,”很难评估为什么这些广告显示出种族偏见。

禁用类别的替代属性(Proxies)可以在相对无害的活动中找到,比如web浏览行为。

根据一项使用Facebook“like”进行的研究,我们可以根据一个人在Facebook上的“like”页面来合理准确地预测种族和其他属性。在95%的案例中,非裔美国人和高加索美国人被正确分类;在93%的病例中,男性和女性被正确分类;在82%的案例中,基督徒和穆斯林被正确地分类,民主党和共和党也获得了类似的结果;85%性取向在男性中(88%)比女性(75%)更容易区分。算法将利用替代属性来处理不允许的信息,以合理的精度重构,通过分析可用信息实现。

病毒歧视可能具有人类决策制定者所不具备的有害性质,即捍卫算法作为一种假定的客观决策者的能力。因此,除了故意歧视的问题,自动化算法可能提供了一个更普遍的风险:复制现实世界的不平等。因此,歧视可以通过真实数据进行病毒传播。

第三部分:Algorithmic Affirmative Action

作者认为,算法透明性的解决不了算法歧视问题。理由是,第一,透明度会招致那些玩弄这些算法的人的操纵。80年谷歌回应这些要求算法的透明度,而这种算法是一般详细地描述公共文件,“如果人们想游戏搜索排名知道每个细节如何排名网站,这将是容易“垃圾邮件”我们的结果页不相关的和令人沮丧的用户包括色情和恶意软件的网站。第二,要求公布算法本身可能涉及商业秘密。第三,个人可能知道算法做了什么,但却缺乏是否参与的选择。第四,算法一般比较复杂,以至于很多人无法理解。第五,由于歧视可能是通过训练或操作数据而不是算法本身产生的,因此揭示中性的算法可能助长该算法不受歧视指控。第六,在自我增强算法的时代,算法的人类设计者可能无法完全理解他们自己的创造。

作者认为,平权行动是解决算法歧视的正确模式。平权行动是一套积极的做法,承认机会平等方面的缺陷,并采取多种方式设法纠正这些缺陷。在克林顿政府平权行动定义为“为扩大妇女或种族、族裔和族裔少数群体的机会而采取的任何努力,将受到歧视的群体的成员资格作为考虑因素”。平权行动的重点不在于查明歧视的原因,而在于努力纠正歧视。它不会问招聘官是否有自己都不知道的偏见,或者结构性原因是否限制了某个群体的求职者数量。平等就业机会委员会1979年发布的平权行动指导方针,援引了国会的一项发现,“对妇女和少数群体进行系统性歧视的‘复杂和普遍性质’”,而不必担心准确确定歧视的来源。我们的目标不是把手指指向问题的源头,尽管它很可能是复杂的,但要设法纠正这个问题。

平权行动要求:决策者必须考虑种族和性别,以确保结果的公平性。这正是首席大法官约翰•罗伯茨(John Roberts)认为难以置信的地方:“停止基于种族的歧视的方法是停止基于种族的不定罪。”对产生种族主义或性别歧视结果的算法操纵问题的明显补救措施似乎是强制种族或性别中立。然而,在现实中,尽管中立当然比硬编码的种族主义或性别歧视好,但种族或性别中立实际上会使现有种族主义的算法复制(病毒歧视)问题永久存在。过去,反对平权行动的人设法阻止政府收集关于种族的统计数字,这将使建立错误的歧视更加困难,也使平权行动更加困难。例如,加州提出的“种族隐私倡议”(更准确地说,是“种族盲目性倡议”)将取消政府收集种族信息的权利,从而对该州的少数族裔造成不利影响。

公司可能不愿意明确地考虑他们的决策中受保护的类别,因为他们担心这可能被用来证明他们的意图,或者至少是遵守了任何持续存在的歧视。但是,这种避免和改善歧视的努力应该被认为是无罪的,而不是有罪的。算法平权行动包括什么?它首先要认识到即使是表面上中立的算法也可能得到的却别对待的结果。

作者举了一个正面的例子:考虑到非洲裔美国人在出租车上遇到的众所周知的问题,这是一个严重制约流动性的障碍。Uber设计了自己的平台,让司机在司机接受车费后才能看到乘客的照片。优步的平台在司机接受车费之前不会再给司机提供乘客的目的地,从而避免使用重复编码的家庭住址作为比赛的代理。当司机得知乘客的种族或目的地时,他或她可能会取消车费,但每次取消的行程都被视为对司机的负面影响。最终的结果是,一些非裔美国人报告说,用Uber打车比在街上叫出租车更容易。这当然不是解决种族主义问题的万灵药,例如司机所经历的问题。例如,南希·梁(Nancy Leong)认为,种族主义可能会在评分系统中重演,导致黑人司机的评分不如白人司机高。

作者同时举了一个反面例子:为了回应“女性应该”自动完成的性别歧视结果,谷歌仅仅指示其电脑不要对这些词(或“男性应该”)执行自动完成。曾经有一段时间,在巴拉克•奥巴马(Barack Obama)总统任期内搜索“n***** house”(“n**** house”)会将白宫列为搜索结果的首选。无论是由于谷歌对这些报告的响应,还是由于用户行为的改变,结果都不再出现。有时,一个可能的歧视性结果可能会使算法应用程序变得不明智。

作者指出,识别病毒歧视的平权行动方法需要关注算法使用的数据的透明度,而不是算法本身的透明度。Michael Feldman, Sorelle Friedler,John Moeller, Carlos Scheidegger,和Suresh Venkatasubramanian都试图在算法设计中不需要透明度来衡量算法的公平性:“我们不需要访问算法,我们建议根据算法使用的数据进行推断。这让人想起了Pasquale关于算法所依据的数据的透明度的建议:“当一个公司在你身上建立一个档案时,你应该有机会审查并改正它。而Pasquale则认为,一家公司不关注由歧视性数据产生的歧视性结果,可能是“算法过失”。

不同影响原则的传统应用中,雇主可以根据统计证据自由地制定平权行动方案,这些证据表明少数民族或妇女的比例低于他们在有关人员中的比例。最近,最高法院已经批准了使用统计数据来支持对不公平住房的索赔。平权行动方法: 一是将设法确保用于训练算法的数据要对嵌入病毒歧视进行评估。二是寻找中立第三方审查决策者算法的公平性。

结论:结论:最终的黑盒子是大脑,即使有最新的技术,它仍然是非常不透明的。算法决策并不能让我们摆脱偏见,这是Pasquale最重要的贡献之一。承认自动化系统不是没有偏见的,仅仅因为它们是由逻辑机器执行的。只有人类才能发挥关键的作用,确保当我们的社会关系变得越来越自动化时,支配和歧视不会无形地建立在他们的代码中。

第二篇文章:

Big Data’s Disparate Impact Solon Barocas*& Andrew D. Selbst(2016)

本文讨论了在新兴的产业的数据挖掘过程中可能产生的不同影响。学者和政策制定者们一直专注于数据挖掘隐藏故意歧视的能力;希望说服监管机构开发工具,揭露此类歧视。一些人开始认识到,无意的歧视是一种潜在的危险,甚至可能更令人担忧。承认无意歧视的可能性缺乏技术和理论基础,使政策建议变得困难,因为它们并非简单地指向错误。本文为数据挖掘如何引发歧视以及数据挖掘如何与反歧视法相互作用提供了必要的基础。

数据挖掘(Data mining)可以滋生不公平的模式,这意味着什么?当涉及到算法时,什么是非法歧视?我们的法律提供什么指导?这些都是这篇论文要解决的问题,本文从数据挖掘的技术基础入手,利用该基础分析了数据挖掘背后的政策问题。它的结论是一个清晰而令人不安的信息:“在很大程度上,现有法律无法解决这些问题。”

作者在文中指出:“算法支持者认为,算法消除了决策过程中的人为偏见。但算法的好坏取决于它所处理的数据。数据往往不完美,使得这些算法继承了先前决策者的偏见。在其他情况下,数据可能只是反映了社会上普遍存在的偏见。但如果数据反映了历史偏见,那么数据挖掘将不公平地影响就业、住房、信贷和保险的获取。数据挖掘还可以发现一些非常有用的规律,这些规律实际上只是排除和不平等的预先存在的模式。对数据挖掘的盲目依赖会使历史上处于不利地位和弱势群体无法充分参与社会。由于结果的歧视几乎总是一种无意识的特殊属性,而不是由其编程人员有意识的选择,因此很难找出问题的根源或向法院解释。”

什么是数据挖掘?

数据挖掘是在数据中筛选有用的模式和关系的实践。这些模式一旦被发现,通常会被合并到一个“模型”中,用来预测未来的结果。

例如:通过分析数千名员工的工作经历,一台电脑可能会发现一个人的通勤距离与这个人的工作年限之间的密切联系。这种洞察力可能会被纳入招聘模式中,并被雇主用来评估求职者。

数据挖掘如何“出错”?

尽管数据挖掘让人联想到复杂的计算机,但作者解释了人类在多个步骤(定义“目标变量”和“类标签”、培训数据、标签示例、数据收集、特征选择、替代项、掩蔽)中引导数据挖掘过程。

每一步都有可能出错:人们必须把现实生活中的问题转化成计算机能理解的问题。数据挖掘算法必须被告知它在寻找什么。这个过程称为“确定目标变量”,可以对数据挖掘过程的执行产生很大的影响。例如:什么算是“好员工”?不同的人会用很多不同的方式来定义“好”(例如,一个达到高销售目标的人,或者一个没有污点的纪律性记录的人,或者在工作多年的人)。

这个定义将构建整个数据挖掘过程。与基于工作效率的决定相比,根据员工在工作岗位上停留时间的预测来决定雇佣员工会对女性产生不公平的影响。

看似无害的数据怎么可能成为敏感数据的“替代”(proxy)呢?

很难在数据挖掘过程中“隐藏”人口特征,尤其是当这些特征与数据挖掘的最终目的紧密相关时。在这里,直接跳到示例是最容易的。

例如:想象你正在尝试建立一个模型来预测一个人的身高。男人往往比女人高。你的培训数据不包含关于个人性别的信息,但它包含了关于个人职业的信息。数据挖掘过程可能会发现,学龄前教师(超过97%是女性)往往比建筑工人(超过90%是男性)要矮。这种洞察力只是反映了这样一个事实:每一种职业都是性别的可靠“替代”,而性别本身与身高有关。

给定一个足够大的数据集,数据挖掘过程将“决定受保护类的成员与受欢迎的特性相关的程度,不管是否(受保护的类成员)是一个输入。有一些方法可以测试这种替代,但这可能是一个困难的过程。

当数据挖掘有不同的影响时,法律有什么规定?

作者得出的结论是,法律“在解决数据挖掘造成的歧视问题上,基本上没有足够的能力”。将分析的重点放在了反歧视法第七章上——禁止基于种族、肤色、宗教、性别和国家起源的就业歧视——因为它明确规定,当一种中立的做法产生不公平的结果时,可以承担“完全不同的影响”责任。简而言之,第七章试图终结历史上的歧视趋势,同时仍允许雇主在招聘时拥有合理的自由裁量权。法律的关键是“商业需要”的辩护,它允许合法的、有用的和准确的雇佣行为,即使这些做法确实有造成区别对待的影响。积极寻求发现和纠正偏见的雇主可能会逃避责任,但法院不能指望使用第三方提供的数据挖掘服务的雇主会这么做;此外,对这一过程的修修补补可能会让雇主面临更多不公平的指控。程序员不能很容易地判断数据中的模式是由于过去有意的歧视造成的,也不能纠正它;删除一些有问题的数据也可以删除有用的信息。

作者的结论是:法律的轮廓仍然模糊不清,这使得在数据挖掘方面很难衡量什么是应该允许的。我们应该如何救济收集的数据集本身反映了现实世界的偏见这一事实呢?限制算法的输入真的是确保其结果公平的最好方法吗?还没有人能回答这些重要的问题。在计算机化的决策范围内赋予公民权利保护的具体意义将需要技术人员和民权社区之间进行持续的交流。

自由讨论

北京大学阎天:

谢谢!我讲三点学习体会,分别是关于歧视、算法和话语的。

一、关于歧视。反歧视法的基本逻辑是:净化人事、教育等决策的过程,将法律禁止的因素排除出决策考量的范围,以“诚意正心”保障“修齐治平”。为了实现净化,首先要将决策过程还原出来,这主要是通过举证责任分配制度来实现的。先还原决策过程、再剔除歧视因素,这种反歧视机制叫做所谓差别待遇(disparate treatment,美国法)或者直接歧视(direct discrimination,欧盟法)。但是,有些决策过程是难以还原的,比如大企业内部的多层级决策和多头决策,比如所谓无意识偏见(unconscious bias)。为了净化这种决策,法律实施结果倒推的办法,先根据结果推定歧视存在、再让嫌疑一方自证清白,这就是所谓差别影响(disparate impact)或者间接歧视(indirect discrimination)。与直接歧视相比,间接歧视机制给决策者施加了更为沉重的注意义务,要求他们在决策时就想到今后对簿公堂、自证清白的需要,迫使他们安分守己、谨慎行事。

二、关于算法。算法,特别是基于大数据的算法,会给反歧视法带来什么?一方面,算法给人们认识决策过程带来了难度,一是“繁”,数据太多,致使决策过程还原困难;二是“难”,技术太不好懂,即使决策过程被还原出来也难以评价。所以,算法普遍使用,可能导致直接歧视机制效用下降,法律会更加倚重间接歧视机制。另一方面,算法是多年来的办公自动化进程的新表现,它有助于增强决策机构内部的一致性,缩减决策者、特别是低层级决策者的自由裁量权,这又是有助于减少歧视的。

三、关于话语。技术本身是中立的,而技术又无往不在社会之中,这意味着技术很容易被社会上的歧视所感染。如果人工智能发展起来,技术产生自我意识,或许还会发生原发性、而非继发性的技术歧视。这就像电影《终结者》中,机器觉醒之后产生的第一个意识就是歧视人类。但这是后话了。我们既要反对“技术万能”的盲目乐观态度,也要反对“技术致命”的盲目悲观态度。这两种态度本质上都是夸大了技术的作用,可称为“泛技术话语”。同时,我们也要对“泛平等话语”保持警惕。平等具有强大的修辞力量,这种力量是致命的诱惑,它很容易遮蔽人们对于何谓平等的分歧,而这种分歧才是社会的真相。我们要勇于面对真相,防止泛技术话语和泛平等话语的合谋,丢掉幻想,准备斗争。

中国人民大学丁晓东:

两篇文章都有各自的启发。第一篇文章的启发之处在于作者指出,算法歧视的重点可能并不在于算法会带来或加重歧视,而在于歧视本来就已经植根于社会。算法并不一定会加重歧视,或者最多仅仅是反映社会已经存在的歧视。所以作者认为,通过算法透明或回到前算法社会,并不能解决社会问题。第二篇文章的启发之处在于作者强调了差别性影响(disparate impact)理论,用这个理论来应对大数据时代的算法歧视与算法公平。对比起差别性对待(disparate treatment),差别性影响理论更契合大数据与算法的进路,因为它是群体主义进路的。如果差别性影响应用得当,大数据完全可能可以用来扶助弱势群体。

至于大数据杀熟和价格歧视等问题,有必要首先澄清。反歧视在西方的语境下主要是反对身份性歧视,对于非身份性歧视,法律并不干预。就这一点来说,大数据杀熟和文献中提到的反歧视并不是同一个原理。当然另一方面,文献里提到的算法歧视与算法公平问题也对我们中国当下的其他很多应用场景具有很强的启发意义。例如很多看似公平客观的算法,其中是不是加重了歧视?例如后一篇文献提到的差别性影响,是不是可以利用算法来防止对某些弱势群体产生新的伤害?总之,有一点大概是可以肯定的,我们讨论的并非数学意义上的算法,现实社会中的算法总是隐藏着价值观,也因此一定要在算法中嵌入伦理。

中国科学院人工智能联盟吴焦苏:

“The Racist Algorithm?”和“Big Data’s Disparate Impact”两篇文章都很深刻,前一篇主要谈到算法的无意识歧视(unconscious bias),后一篇谈到算法的间接歧视或差别影响(disparate impact)。

这个读书会的影响很大,微软纽约研究院的一位朋友吴志威专门给读书会提供了他们的最新论文”Preventing FairnessGerrymandering: Auditing and Learning for Subgroup Fairness” (Michael Kearns, Seth Neel, Aaron Roth andZhiwei Steven Wu, 2018)。

他们的这篇论文研究了表面上公平的算法也有可能会有歧视的问题。比如,算法可能对白人和亚洲人两类人公平,对男性和女性公平,但是也有可能对亚洲女性有严重歧视,即差别影响,这就跟法学的交叉性(intersectionality)问题产生了联系。他们先综述了差别待遇(disparate treatment)和差别影响(disparate impact)的有关文献,然后从数学角度出发研究了如何通过对小团体公平的审计和学习来防止公平被操纵(fairness gerrymandering)。他们证明了假阳性比例和统计平价的平等(equality of false positive rates and statisticalparity)等价于弱不可知学习问题(the problem of weak agnostic learning)。而弱不可知学习问题在计算上十分困难。这就解释了阎天老师所说的算法的“繁”和“难”:数据太多,致使决策过程还原困难;技术太不好懂,即使决策过程被还原出来也难以评价。他们推导出两个非常基本的算法:不后悔公平算法(FairNR: FairNo-Regret Dynamics)和虚拟行动公平算法(FairFictPlay: Fair Fictitious Play),部分缓解了算法的“繁”和“难”问题。至于这类算法的出现,能否缓解阎天老师所说的算法的普遍使用“导致直接歧视机制效用下降,法律会更加倚重间接歧视机制”的趋势,有待研究。比如,他们引用的一篇文献就主张通过学习无差别虐待建立超越差别待遇和差别影响的公平,见Muhammad Bilal Zafar, Isabel Valera, ManuelGomez Rodriguez, and Krishna P Gummadi. Fairness beyond disparate treatment& disparate impact: Learning classification without disparate mistreatment.In Proceedings of the 26th International Conference on World Wide Web, pages1171–1180. International World Wide Web ConferencesSteering Committee, 2017。

罗治兵

谢谢各位老师!

我谈一点自己不成熟的想法。我们现在笼统说的算法歧视,可以分为两类:一是由于“信息不完全”导致的算法歧视(或者叫“基于信息不完全的歧视”);二是由于“信息不对称”导致的算法歧视(或者叫“基于信息不对称的歧视”)。由于这两种歧视的起因不同,所以在大数据时代,针对他们各自引发的问题,其处理路径或者说解决办法也应有所不同。

先来看看“基于信息不完全的歧视”。这主要体现在基于种族、民族、性别等因素进行的算法决策上。这类算法侧重处理的是“全有或全无”问题。比如是否招聘某女性、是否贷款给黑人等。在这类算法歧视中,通常只有一方有决定权或一方有明显的主导权。比如一名应届女性黑皮肤大学生,去五百强企业应聘,很显然,该大学生并没有什么主导权,相反,企业在这个过程中的主导权非常明显。

对于歧视,刚才两位老师提到“太阳底下并没有新鲜事儿”。我觉得还有一句话叫“雪崩的时候,没有一片雪花是无辜的!” 如果我们每个人的脑海里都没有歧视,那么也就不会在今天讨论歧视问题。然而歧视是现实存在的。关于歧视为什么存在,有很多不同的解释维度,有的说这是人的本性决定的等等。有一种解释我觉得挺好,认为人的歧视根源于“信息不完全”,意思是说人不是上帝,不能像上帝那样全知全能,如果我们每个人都像上帝那样什么都知道、什么信息都知道,我想歧视就不会存在了,就像我们一直强调人应该多读书、多去经历了解、这样我们的视野就会开阔、就会减少我们自身的偏见。这就说明当我们掌握的信息增多时,我们的偏见就会相应减少。

在“前大数据时代”,信息不完全就已存在,存在着“基于信息不完全的歧视”。大数据时代,我们讨论“基于信息不完全的歧视”,主要是在探讨大数据的各个环节,比如目标变量、训练数据、特征选择等环节,是加剧了还是减少了信息不完全,如果加剧了,我们应该怎么办?实际上,这里最核心的办法并没有太多,就是通过一系列方法来减少信息不完全的程度。最直接的办法就是让每一个算法决策的主体增加信息输入,让信息全面、准确地输入。如果这种方法能实现,当然是最好的。但是,我们生活在现实之中,很多时候必须正视现实。现实的情况是,一个算法决策主体不可能全面又准确地输入所有信息。这个时候就只能退而求其次,比如完善信息输入(这里的信息输入采广义理解,包含设计者自我(偏见)信息的输入)的结构、让其代表性更合理,比如以前研发一个算法决策系统全是白人,是不是可以考虑把黑人也纳入到研发人员之中,让研发人员更多元、更具代表性。但是这里面也会遇到新的问题,比如我们想进行Chander文中说的“算法纠偏行动(Algorithmic Affirmative Action)”,完善信息输入的结构,我阅读老师们的文章,了解到美国最高法在关于AA的一系列案子中,都表态支持AA行动,但也同时表示反对用定量(比如配额)的方式来固定AA行动。而在算法中调整完善信息结构(比如增加黑人的信息比例),一定涉及或需要设定一个具体的数值,这似乎又与最高法反对定量的观点相矛盾。大数据时代号称是数据量非常大的时代,但是如何处理“基于信息不完全的歧视”,看起来依旧任重道远。

二是“基于信息不对称的歧视”,这主要体现在所谓的“大数据杀熟”、也就是一级价格歧视等算法决策上。这类算法侧重处理的是“多或少”问题。比如你花了10块钱,我花了8块钱。在这类算法歧视中,双方都有一定的讨价还价能力,只是能力大小有所差异。解决这类问题的核心是考虑如何减少信息不对称问题。比如市场上有一些比价软件或插件,消费者可以通过使用这些工具,减少信息不对称,从而提高自己在交易中的讨价还价能力。

另外,所谓的“大数据杀熟”,也就是价格歧视。要进行价格歧视需要一个前提,就是定价权。一个平台如果没有定价权,就算它有再强大的算法、再多的数据等,它也不可能进行所谓的大数据杀熟。比如对于某项业务,不同的平台有着不同的商业模式,有的有定价权,有的没有,这个事实前提一定要首先搞清楚。

再次,价格歧视首先是一个经济学概念,在经济学中通常认为价格歧视是一种正当的市场行为。经济学家研究价格歧视已经几十年了,主要分为一级、二级和三级价格歧视。二级价格歧视是根据数量进行差别定价,比如你买1万件给你打折;三级价格歧视是根据群体或者叫人口统计类别进行差别定价,比如给儿童优惠。一级价格歧视是根据每个人进行差别定价。在“前大数据时代”,由于经济学家认为一级价格歧视只在理论上存在,所以对此几乎没有研究。现在,在经济学家对一级价格歧视还未研究清楚的时候,我们就从法律上去界定其如何如何,我感觉这不太合适。我觉得应该先由经济学家讨论比较清楚了,比如一级价格歧视到底是增加了社会福利还是减少了社会福利,之后再从法律上去分析如何看待一级价格歧视的问题,不宜操之过急。

首都师范大学法律系 王也:

当我们在谈及算法歧视时,往往会以传统的法律作为判断标准,即参照国内外关于反歧视法、反不正当竞争法等法律规范来得出其是否正当的结论。这种评价方法虽能化繁为简,但摆脱不了一刀切的僵化后果。因为传统法律具有“深度不学习性”,立法者习惯于通过统一的、刚性的规范去排异,惩戒违反法律的行为,其对于法外的概念往往持排斥态度。相反,算法的特点是“深度学习”,不断地自我更新,自我修复。他能够在接受海量信息后,通过运算制定出“法律云”,即针对每一个用户,制作出与其匹配的法律程序,在个体的程序中,对或错的界限开始模糊,法律概念也没有那么绝对。这就是为什么我们秉承着传统法律时,对于算法歧视的问题能很快得出结论,而在算法社会中,歧视与否甚至是“平等”的概念都存在争议。算法社会将法律争论提高了一个维度,我们不能再一味崇拜规范,而是寻求更多的共识。

中国人民大学法学院 周巡:

歧视的产生是基于获取信息的不完整,算法歧视也是如此。诚然,在大数据与人工智能领域,获取数据的量与处理数据的能力是前人所无法比拟的,在多数情形下、在不考虑输入性歧视的情形下,算法所作出的决策也是更少出现歧视的。问题在于,随着人们不可避免地更加信任算法、依赖算法,算法所做出的一些看起来正确也不违反传统歧视认定法则的决策,事实上却可能构成歧视。如何找到界定“算法歧视”的标准可能一个重要问题。是采传统的差别影响标准?还是建立一套新的借助算法的、结合个体特点的个性化“歧视识别标准”?这套标准的成本效用与学理基础又为何?可能是一个值得探讨的话题。