English

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

网络法读书会

/根目录 /首页 /新闻中心 /网络法读书会

网络法读书会第十三期:算法黑箱、算法公开与正当程序

时间:2018-05-26

未来法治研究院网络法第十三期读书会于2018年5月24日在中国人民大学明法楼725室举行。本次读书会上,老师和同学们围绕Danielle Keats Citron与Frank Pasquale教授合写的The Scored Society: Due Process for Automated Predictions和由Joshua A. Kroll等多名专家集体撰写的的Accountable Algorithms两篇论文进行了主题报告和讨论。以下是整理的主题报告和部分评议:

主题报告

中国人民大学 程皓楠:

各位老师,同学好,很高兴今天能有机会和大家一起参加读书会。这次我们阅读的文献的主题是算法黑箱、算法公开和正当程序,下面由我来为大家简单介绍两篇文献。 

第一篇:

The Scored Society: Due Process for Automated Predictions

在本文中,Danielle和Frank指出,“自动预测”指大数据被越来越广泛用于对个人的评价和排序,甚至涉及包括借贷、租房、就业、购物等重要领域,应用其中的算法(打分)机制决定了个人是好是坏,美国法上的正当程序传统应介入其中对算法进行评估,保证其公正和准确,以免程序的偏差和数据被武断使用于歧视性的打分。

一、算法社会的介绍:

第一部分Danielle和Frank先对“The scored society”进行了简介,如同Eggers在小说中设想的一样,长期应用的的监督技术可以用任何可能的办法给人们打分并在社会媒体中排名。这一构想并非虚幻,预测算法已经在许多领域被使用以对人们进行评估。如职位候选人被依据网上活动体现的领导力和活跃度打分等。预测算法挖掘个人信息,综合分析以预测个体可能的行为和风险。尽管存在交互评价机制,允许个体给打分者打分,但只有少数社区的平等主体间存在交互评价的可能性,多数商业管理领域这样的互动并不明显,打分和排序者(一般是公司)占据强有力的地位,其排序和评估可能给用户带来损害。

评估算法被一些人看好,认为评估可以避免人为偏见和操纵,消除歧视一视同仁。但D&F认为这是错误的:首先,因为算法的依据往往是数据库中人们提供的有偏差的错误信息。如算法将省钱的行为与经济困难相联系,购买基因产品而非名牌产品带来利润率的上升,但如果购买基因产品的人还买了别的东西彰显财力,其他的交易也会成为打分的依据,使他们避免与其他的特殊交易带来的负面影响。其次,算法不透明,使得可能对历史上就遭遇次级对待的人持续受到负面影响。即使算法设计者可以做到中立,大数据有可能在机器学习过程中逐渐抹消这种中立,机器通过先例和联系再学习,这本身就有可能继承前人的先见。

预测算法达到了第三级别的复杂程度:不仅决定何种过去的预测算法是有效的,还引进了更先进的测试迭代,预测算法参与了AI革命。D&F区分出两个看待人工智能发展的视角,工程学视角(任务完成)与认识论视角(机器学习),前者着眼与目标而无视过程,是为“黑箱”,后者则鼓励AI去复制人类能力,包括情绪和自我认知。如果打分系统是去满足工程学目标的同时保持人类公平价值,我们就需要为人类对评估算法的检讨创造支撑点。

人工智能发展的视域下,“杀人机器”被纳入法学视野,歧视性的打分机制也应该被审视,打分机制可能会武断地歧视地剥夺某些人的重要机会,但这个过程仍然是不透明的,这就需要探索打分机器在对个人做判断时是否遵循公正价值。

二、金融风险计算的案例研究:

第二部分D&F以信用打分为例切入,对评估算法进行审视。

1.信用打分系统简史:

信用打分在美国的发展已逾60年,最开始是零售业和银行业的职员来评价借款人的信用价值,当时还依靠专家做决定,直到二战后出现专业金融机构,1956年FICO首创三位信用积分,在银行和金融业中推广,为金融产品的风险打分。信用分数成为“可计算风险管理技术”。但依据信用分数定价有其弊端,抵押业本来应该是“通过屏幕控制风险”,减少信用不良的客户(老赖),信用评分则将它变成到依据风险资质分割融通为特征的风险控制,信用评分被滥用,负面作用累积,对普通购买者或具有显著缺点的购买者不利。

2.信用打分的问题

(1)不透明:

由于算法保密,三位信用积分法(three-digit credit score)背后的程序很难被充分理解、质疑或被评分对象审查。这使得用户不明白自己的分数如何波动,以及为什么波动,公司对此也不加解释,打分结果不能给用户提供指导,用户就无从规避问题。尽管公司声称其打分系统内部有一套确切的关于权重的目录,但依旧无法指引用户进行策略性行动。亚马逊提供了数十本关于这个话题的自助手册,每一本书都利用了信用评分令人迷惑和精英化的特点。而普通人只能自助修复自己的信用记录。

(2)武断评估:

在一份50万样本的研究中,29%的用户在不同的三位评分公司中的评分的差异超过了50%,除去公司未披露的区别原因,这种区别说明了相当比例的评价是武断的。信用评分系统似乎在处罚持卡人的有责行为。比如一个理智的信用评分系统应当奖励那些努力去获取关于他们按揭状况精确消息的人,相反,在一个报告案例中,一个严格遵守“票据在哪里”网页指示的房主被扣了40分。尽管这些事例可能被认为是偶然现象或者是抱怨,但不可否认,有很多论者也认为算法模型在歧视性的事例中扮演了必须的角色。

(3)差别后果:

系统设计者和软件编程者的偏见和价值判断植根在评估算法的每一个环节。除此之外,一些自动生成的相关性和推论也有可能折射出偏见,即使这种结果显得很客观。如算法可能会给低收入服务业工作或流动性工作打低分,尽管这样做并没有歧视目的,但因为这种工作的从事者往往是少数种族,这种区分对他们贷款申请结果有影响,客观上产生了区别对待的后果。因此,信贷公司完全可能将歧视封装在算法黑箱中以逃避监管。证据显示算法确实对传统上的弱势群体有负面的不同的影响。为确切知晓“黑箱”背后的秘密,我们就需要获知程序源代码或核心算法。

3.当下规制模式的失败:

为了避免数据的利用对用户有害,1970年美国出台了首个信息隐私立法FCRA(Fair Credit Reporting Act)。FCRA要求信用企业和其他“消费报告机构”确保信用历史数据是准确的和有关联的;消费者有权检查自己的信用历史记录,要求只有相关的信息才能被收集。当消费者和企业就信息内容发生争议,不能解决时,这种争议应当被标注记录。然而,信用评分行业获得了一个重大的让步:免于诽谤法的豁免权,这将惩罚限制在名誉损害的范畴内,这为信贷行业有策略的储藏信息、模糊处理信息等规避监管的手段留下了余地。

2003年FACTA法案(the Fair and Accurate CreditTransactions Act)要求信用企业公开个人的信用分数,但FTC不要求用户报告机构公开用户信用评分或其他风险评分或其他有关用户预测的信息,除非与信用决策中的四个“关键要素”(账户类型、授信类型、过多的循环账户、延迟付款)有关,但“四关键”不能很好描述信用评分,行业还是高度不透明的,被评分的用户仍然无法得知其决策的结果,尽管FCRA赋予用户异议权,但不能要求信用企业公开其打分方式,因为这是商业秘密。问题还是要归结于黑箱社会本身。

三、自动评分系统的程序保障

信用评分对个人生活越来越重要,评分系统应服从与公正需求以符合其在人们生活中的中心地位,规模庞大的具有“类政府”地位的企业应该对自己提出更高的要求。D&F指出,程序保障要在算法和依据算法预测的决策上发挥作用。

1.对评分系统的合规性监督:

在不同的步骤给予被打分者不同的权利。包括收集、计算、传播、在决策中的使用。个体应拥有获知、修正和异议的权利,并有权知晓信息源头。在计算环节,使用户有权知道自己是如何被评价和排序。传播环节更艰难,因为对传播的规制可能涉及对交流的限制而关乎宪法第一修正案保护的言论自由,但如同Professor Neil Richards指出的,并非所有的数据都是言论,透明度要求与第一修正案精神是一致的。在最后一个环节,鉴于评分的敏感性和他们对弱势群体的区分影响,评分系统应该受到许可和审计的监管。

对评分系统的合规性监督如此重要,则不能依赖公司本身自律,毕竟商业公司的目的是效率而非公正,第三方许可应被作为一种捍卫公共价值的方式。如保障敏感信息不用于打分,建立不影响决策“困扰名单”,更广泛的讨论,关于数据经纪人行使的权力和分级的有效性。

FTC也在探索监督的方式,试图利用FTCA第5条,运用反不公正交易的职权进行监管。

2014年3月的议题上,FTC主席Edith Ramirez表达了自己忧虑“评价某人不是因为他做了什么,或可能做什么,只是因为算法的推论或相关性说明他们有可能这么做,而给他们低分、使他们承受更高的保险风险、被认为是不合适的雇员、学生或其他机构,或不可能开展某些功能”,因而她认为“基于算法的决策需要透明的有意义的监管和程序,来纠正可能给曾被相关性错误分级的人们带来负面影响的决策”,不会使算法沿用过往的社会偏见。

FTC有以下尝试:

(1)透明度促进测试:一年两次的审计和更频繁的监督,不只是要看数据库,还是要看源代码,以探寻与分类有关的模式和相关性是否在美国法下很可疑,通过政策专家设计的意料内外的假设场景来测试评分系统的输出结果是否反应出程序员的潜在偏见或AI学习到的偏见。

(2)风险估计报告和建议:应该发布隐私和公民自由影响评估,评估评分系统对受保护人群的负面的、区分的影响,武断的结果,错误的分类和对隐私的危害。 在这些评估中,联邦贸易委员会可以采取适当的风险缓解措施。

还有一个问题就是公众在何种程度上可以获知数据源代码和处理逻辑,作者认为商业秘密不足以成为限制公开的理由,理论上应该向公众公开。没有证据证明保密会减弱创新,或者引起对系统的“利用”(Game)。一方面伪造信用评分系统很费成本;另一方面,大数据行业商业成功的基础在于海量数据的收集和累积,而并非某种算法。公开才能使学者和其他专家有机会评论评分系统,进行一种社会监督。

2.对个人的保护:在被政府系统作出负面决定时,个体应当被告知,这种告知包括决定、证据和决策程序。

(1)由审计跟踪保证的告知:审计使得用户获得理解分数的途径,从而才可以对错误分类和推理提出控诉。这个过程不妨引入独立第三方或中立专家去进行检验,以保护双方的利益。

(2)交互性的模型:另一个方法是给用户机会去知道不同的假设性前提下,对于他们信用历史数据会发生怎样的改变,这就有一点类似于“模拟人生”,有助于用户寻找到个人的最优解。

3.反对:一方面作者抨击了算法保密,指出这无助于创新,弊大于利,难以查处监管;另一方面作者指出评分系统是一种“公众知识”,因为他们的商业模式是就将分数出售给私人和公共实体。

四.结语:

预测算法并不完全是精确的和公平的,他们可以以武断和歧视的方式限制人们的生活机会。作者提出“打开黑箱”的呼吁,希望提高透明度,对算法社会进行程序合规性的监督。

第二篇:

Accountable Algorithms

作者致力于弥合计算机科技界与政策法律界的隔阂,使计算机科学家理解监管的政策挑战,使政策制定者理解新的出现的软件工具在何处可以帮助解决这些挑战。

对于算法黑箱,学者一直在呼吁透明度,但未曾叙述呼吁何种形式的透明度。作者认为披露源代码效果有限,因为源代码过于艰深,难以理解,而且对于机器学习而言,源代码也不同于数据驱动决策规则。此外,数据不透明对于防止诈骗和利用也有好处,揭露敏感数据在法律上没有必要且被禁止。而且,由于人的从众心理,这种披露对于个人的特殊决策没有意义。

一、计算机科学家是如何建造和评估软件

1.评估计算机系统:

作者指出,编码完成后对软件的任何测试都是不完全的,因为任何对已存在的程序的分析都是固有且基础的不完整的,观察者用不能确保系统有理想的性质,尽管系统是为确保这些性质而设计的。计算机科学家的评估路径分为两种:静态路径与动态路径。软件代码是对其本身固定而精确的描述,与公共政策和法律的不精准形成对比。

(1)静态分析:静态分析指仅对源代码的回顾。大代码是复杂迷乱的,难以发现问题;静态路径无法反应与环境的互动。

(2)动态测试:动态测试指检查一个程序的实际运作。但动态测试受限于输入输出的有限性,“黑箱测试”无法告知测试者为什么会输出不一致的结果。

(3)对测试的基本限制:不可计算性。一些问题无法被任何计算机程序在有限次数内解决,这是一个“Halting Problem”,测试只在限定次数程序、且确定不变量的前提下才有意义。

2.随机性的重要性:

随机性对于许多计算机系统的设计是至关重要的,所以任何问责制的设计都必须克服它。随机性在决策中的作用是防止策略性行为。在分配风险或有限资源时,不可控且无法预测的随机性有助于公平;随机性帮助计算机在无法预测的环境中运转的更好。然而作者也指出了设计不良的随机性可能导致不负责任的自动决策,比如过于依赖偶然选择的价值。

二、为程序规则设计计算机系统

作者指出,第四修正案规定了正当程序或程序公平,计算机系统也应当遵循。

1、透明度和其限制:

对透明度限制体现为:(1)在决策程序中的保密需要,防止“gaming”;(2)透明度便于进行测试,但是测试常常是不足的;(3)对于决策程序的随机性而言,可能会以一种不可检测的方式被不正确地固定;(4)系统随着时间的改变不能单独依靠透明度理解

2、审查和其限制:

审查的本质是揭示恰当的程序是否被遵循以及发现篡改系统的操作,审查时把决策程序看做黑箱,被认为是最为无效的一种测试手段。

3、程序规则的技术工具:

尽管以上两种方案都存在不足,但当系统的局部或全部依旧保密时,仍然可以进行监督,而且认为计算机科学技术有助于实现程序规则。

(1)软件查证:指一系列可以在数学上证明软件具有确定的性质的技术,通过分析既存的代码或建立使用特别的工具的软件去提取特定的参数。

(2)加密的承诺:加密承诺指一个秘密文档的数字复制品被第三方机构持有或被放置在安全的地方。可以用来确保同样的决策政策在每个决策中使用。

(3)零知识证明:零知识证明是一种加密工具,它允许决策者,作为密码承诺的一部分,来证明实际使用的决策策略(或特定情况下的特定决策)具有一定的属性,但不需要揭示该属性是如何被知道的,或者决策策略实际上是什么。

(4)公平随机选择:只要种子(Seed)是已知的,而输入的随机性完全被种子的随机性捕获,那么决策过程就可以重新进行。如此一来决策程序是可复制与检验的。确保random seed的来源。

4、广泛应用技术工具

5、应用技术工具去改造多元签证抽签(DVL):

(1)当下的DVL程序:依据8U.S.C1153(C),DVL程序目的在于增加美国移民的国家和区域多样性。申请者被依据出生国家分类,出生国家又被依据区域分为六组,每一组中,申请者被随机排序。一个公式依据近年来各区域美国移民的数量计算出应从每个区域中挑选出多少候选人。

(2)透明度不足:DVL是一个自动决策程序,透明度不足以解决这个问题,程序的不可复制性使得分析测试阅读都无法弥补;参与者的隐私利益也拒绝透明公开。

(3)为问责制设计DVL:选择“随机种子”,第三方通过创造“种子”生成随机价值,如受信任的NGO组织,申请人也可以在他们的申请表上提供“PIN”。国会可以公布包含软件源代码和所有输入内容的承诺;还需要提供一个零知识证明,表明将承诺的软件应用到提交给投入的输入中会产生宣布的抽签结果,证明还应说明公布的承诺和应用的承诺是同一份软件。国会还要制定一个充分的方案去生成在抽签步骤中应用的随机种子。以向公众证明国会不可能通过重排申请表来操纵结果。

这一套解决方案需要重新设计软件代码(技术对策),与应用与软件运行原理有关的过程(法律和政策措施)。

三、设计算法以确保实质性政策选择的可信度:

作者指出,Accountability需要我们确保政策在所有主体之间公平的应用,且这些主体可以确信政策还促进了其他实体目标或原则。

1、机器学习、政策选择和歧视后果:机器可以学习输入输出配对之间的联系模式,由此指导未来的决策。但与认为制定的规则不同,这些决策规则来自先例,就有可能吸收和类型化歧视。原因在于:

(1)如果算法建立在包含有过往误判和隐藏偏见的先例上,或数据提供了一个统计上失真的包含有全部人口的分组图景,则包含有机器学习的算法可能导致歧视性的结果。

(2)机器学习模型可以通过选择如何建模的方式来建立歧视,关于输入的三种选择可能会引起关注:直接使用受保护类的成员作为输入(例如,明确地考虑性别的决定);考虑到一组不够丰富的因素来评估受保护类别的成员,其准确性与非成员相同(例如,在招聘申请中,如果以前雇佣的女性较少,有关女性雇员的数据可能不如男性雇员的数据可靠);并且依赖于那些碰巧成为阶级成员的代理人的因素(例如,那些离开工作让孩子们降低了所有女性的平均工作年限的女性,使得这个指标成为了在招聘应用中性别的一个已知的代表)。

(3)“伪装”,有意的歧视伪装为不被注意的非歧视形式。

2、非歧视性的技术工具:之前提到的技术手段可以用于降低歧视

(1)从经验中学习:以随机性修正经验中隐藏的歧视和偏见。模型随机运转可以让模型对于实际工作中其针对的所有人群都是公平的,而不是只对被测试的人群。

(2)公平的机器学习:

将敏感属性排除是无效的做法,因为敏感属性仍然可能在未被排除的其他属性中综合体现出来。

这就涉及了何为公平的问题,作者在文中探讨了多种公平观念。实际中有许多种方法试图保障机器学习的公平,如以某种方法调整或选择输入数据,使输出结果满足一些公正属性。这些方法中有许多依赖于统计检验对群体公平性的不充分认识。在很大程度上,更多的技术研究可以帮助解决大数据分析中的不公平性问题,它是通过扩大对群体公平的定义,可以有效地应用于实践,并提供更好的探索性和解释性工具来比较不同的公平观念。从公共政策的角度来看,对于系统设计人员来说,拥有一组规则、标准或最佳实践是非常有用的,这些规则可以解释在特定的实际应用程序中应该使用什么样的公平概念。

作者最后提出一个叫做“可解释性”的概念,他认为一个弥补性的概念,可以在机器学习系统中保证预设的正式的公平。

(3)歧视,数据利用和隐私:

公平可以被视为一个类似隐私的信息隐藏需求,如果一个个体的结果使我们在知晓属性时的预测没有比一无所知时的猜测更准确,这个结果就是公平的。相较于信息被暴露,人们更担心这些信息被用于决策或分类。这就有点类似于“独处的权利”的隐私权。许多建造公平的数据分析和分类的系统需要决策者采取手段保护身份信息,至少在算法设计的阶段做到这一点。为实现这一目标需要政策与法律的共同努力。

3、反歧视法和算法性决策:非歧视的设计非常重要,因为算法的用户可能会被法律禁止修改过程以纠正歧视,而技术工具则提供了解决方案。

(1)Ricci&DeStefano案:平等保护、区分对待和区分后果之间的紧张关系

反歧视法建立在平等保护的宪法保障和和补充法定保护的基础上。对此理解的差异分出两大流派。对算法提出许多问题。

Ricci叙述了区分对待和不同影响之间的张力,表面中立的政策使需要保护的群体蒙受不公正的结果,但修正这种不同的结果又需要去区分对待人群。

(2)Ricci推动非歧视立法:Ricci案的结论使作者认为,不应寄希望于通过当某人受到区别对待时再提起诉讼的方式修正差别性的算法,而应在算法设计阶段通过技术工具的应用纳入非歧视的考量。

四、促进计算机科学、法律和政策的合作

1、向计算机科学家介绍:事后监督的设计

计算机科学家将责任看做在依据详细的事先说明编写算法。但事实上不可能消除所有模糊给予他们极尽详细的介绍,模糊性的一种来源是立法的政治现实,立法者必须使用模糊的语言使一些细节不够明确,以获得大多数赞同使立法通过。此外立法者也不确定法律和政策在何种情况下才生效,因而使用模糊的语言保留一定灵活性;模糊性还有可能是因为大家都不知道怎样才可以最好地解决某个已知的问题,因为通过模糊的语言授权给其他人,以确定最有效和需要的方式。

普通法中的模糊性是通过事后审查和案例来澄清,这就要求计算机科学家应当重视创造可以复查的程序,而不是在编写阶段要求明确性。上文所提到的所有技术手段也都在强调决策过程可以被事后审查。

2、向立法者和政策制定者介绍:

(1)减少模糊性的好处:

编程者需要赋予程序确定的价值,遵守确定的规则,同时确定性也是事后监督的标准,这就要求立法者减少模糊性。模糊性是将问题由立法者转移给后续程序中的执行者,但这种责任移转不适用于软件系统,立法者不应该把充实法律细节的责任交给编程者,因为自动决策可能影响到所有参与者,编程者实际上不精通政治决策,也不能在政治过程中被问责。对此,一个可能的解决办法是行政机构出台指导手册。

自动决策所引起的问题是在其使用期间,一段软件锁定了特定的法律解释,而且,特别是在政府环境中,可能不会对其进行更新。在算法决策中模糊性带来的好处在不断减少,立法者应当在广泛的包罗万象的标准中确立一些细化的规则。

(2)公众问责:

不同于传统的问责机制(需要调查或收集内部证据),技术工具使得公众或独立于软件公司的第三方机构可以查实求证

(3)秘密和责任:

法院会基于包括隐私、国家安全、商业秘密等原因限制一些信息的公开,同时透明化不是解决问题的治本之策,但是不揭露决策基础的做法不能为社会接受。技术工具帮助立法者在适当保密的情况下实现对算法的问责。

自由讨论

中国人民大学 丁晓东:

我们可以看到,两篇文章的观点是有点相反的,第一篇文章相对支持算法公开与算法透明,第二篇文章则对算法公开与算法透明比较质疑。但在分析两篇文章的分歧之前,其实应该首先看到两篇文章的共同点:两篇文献都承认了算法黑箱和算法不公的存在。对于这一点,应当看到算法的公共性问题,就是算法并不是只是一个企业的私行为,其实算法常常具有很多公共性功能。从征信、新闻推送到各种评级,算法其实常常具有公权力的性质。那么对于如何应对算法黑箱和算法公权力,前一篇文献其实更多强调了透明性,认为透明与公共参与其实可以制约算法,使得算法更为公平合理,但后一篇文献则指出了透明与公开可能会带来的很多问题,在后一篇文献看来,透明与公开可能导致有些人的算计,因此,正确地应对算法黑箱的问题应当是利用技术手段来矫正黑箱中可能存在的问题,使得每个技术节点都更为公平。

个人的看法是,算法是否应当公开,算法如何进行监管,这应当是一个根据不同场景进行规制的问题。从法律原理上来说,这其实和传统的规制与监管中的某些问题具有相似性,在传统的公权力决策系统中,是应当公开还是保密,是应当采取透明与公共参与,还是采取专家理性,其实有很多争议。人工智能和大数据时代,无疑算法的问题更为复杂,但另一方面,其原理并没有变。人工智能与大数据时代的算法也应当结合公共参与、专家理性与市场自治等不同情况而进行规制。

中国科学院人工智能联盟 吴焦苏:

“The Scored Society: Due Process for Automated Predictions”和“Accountable Algorithms”两篇文章都关注算法,有一些共同点。

要实现算法公平,由于目前理论和算法都不成熟,看起来并不容易。“Accountable Algorithms”专门提到了Cynthia Dwork et al.(2012)发表的一篇论文“Fairness Through Awareness“。Dwork从数学角度出发研究了几个问题:个人公平在什么时候能够保障群体公平,如果不能达到个人公平,能做些什么保证群体公平。Dwork认为相似的人应该接受相似的对待。但并不是所有的事物都是围绕着公平展开的,很明显在一些情况下一些差别很大的人应该被差别对待,通常来说,这种情况更加复杂。尽管如此,那些相似的人还是应该受到相似的对待。度量标准(metric)是表明你对待(任意)两个不同的人的方式有多相似,你可以区别对待两个不同的人,但这种区别必须限定在一定的范围内。在谈到群体公平时,Dwork引进推土距离(Earthmover distance) 作为度量标准。推土距离(Earthmover distance) 是Wasserstein距离(Wasserstein distance)的特殊情形。如果个人公平不能够保证群体公平,Dwork认为需要采取”公平平权措施“(fair affirmative action)。

Michael Kearns et al.(2016)的”Rawlsian Fairness for Machine Learning”从数学角度出发研究了基于Rawls的机会平等意义上的个人公平。Kearns提出了可证明公平(Provably Fair)和岭公平(RidgeFair)的概念。当存在过拟合严重或各变量之间存在多重共线性的时候,岭公平通过最小二乘回归增加二阶正则项的惩罚,得到一条有较好的泛化性能的光滑曲线。但是岭公平是有bias的,这里的bias是为了让variance更小。

为了克服岭公平有bias的缺点,Michael Kearns et al.(2017)的” Fair Algorithms for Infinite and Contextual Bandits”进一步提出了弱精英公平(weakly meritocratic fairness)的概念。弱精英公平可以看作是一种最低保障的公平(minimal guarantee of fairness):满足弱精英公平的算法不能做最差的选择,但也并不要求做较好的选择。这使得弱精英公平算法的上界相对较弱,而下界相对较强。

王也:

第一篇文章和第二篇文章在论证方式上存在差异。第一篇文章强调的是算法规制的功能价值。作者将正当程序原则作为文章的根基,事先把保护人权作为规制算法的价值取向,进而再论证其功能价值。第二篇文章作者侧重于论证规制手段的有效性以及正当性。作者主要质疑算法透明以及公开能否作为规制算法的合理手段。如果说第一篇文章是手段与功能的博弈,第二篇文章则是手段的自我博弈,自我证成。这就是为什么此篇文章由更多的技术人员编写。我们可以看到,往往是这种跨学科的对话更容易推动行业的进步。我们法律人需要做的是将技术人员的观点形式化,探寻该行业的规制手段、程度的界限。规制算法对于政府是一个挑战,因为没有先例可寻。但是可以类推其他技术行业的规制,这让我想起之前做的一个课题,即《中药配方颗粒条例迟不出台》。中药配方颗粒与算法有一个共性,即同样是对象的不确定性,谁也不能证明中药经过熬煮、萃取、烘干、研磨后会产生什么反应。因此,政府在03年先行试点了十余家企业,待企业标准、行业标准成熟后再制定规范文件。这同时也是国务院“审慎监管”的思路。之前老师提到“算法杀熟”的问题,这在技术行业可能是算法的差异,但在宪法学上涉及到平等权的问题。很多软件例如携程网、booking等软件涉及到公众出行,往往承担公共服务的提供责任,因此适用宪法学上的“私对公的抗辩”。而此类软件的行为,明显侵犯老顾客的平等权,对此的规制也是十分必要的。那么法律在既有立法技术完善,而行业技术支撑不足时,不妨先考虑先行制定原则性的条款,一来明确国家对于整个人工智能行业的态度,二来能促进行业的发展,使之能在法制化的轨道前行。

张弛:

个人认为,算法黑箱在纠纷解决领域中的问题也比较突出。如何采纳一项“程序”或“算法”证据需要首先判断相关性,之后对该程序本身进行鉴真,以便在采纳或排除证据之前对其真实性进行认定。在这个过程中,我们(诉讼参与人或专家)需要去理解算法逻辑,而调参的不确定性、某些算法的不可理解性会给事后的比对和模拟造成一定的阻碍,文献中所提及的解决方案都十分吸引人,但在中国的司法实践中具体应用如何,还需要进一步研究。技术最大的优势是可以慢慢调试发展,等待日后用技术的方式解决技术问题,实体法也可以谨慎立法,等待实践充分试错之后再行规制,但纠纷解决是不能等待的,所以算法黑箱问题在诉讼领域就显得更加紧迫,也更加现实。