English

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

网络法读书会

/根目录 /首页 /新闻中心 /网络法读书会

网络法读书会第十五期:算法的可解释性

时间:2018-06-21

未来法治研究院网络法第十五期读书会于2018年6月21日在中国人民大学明法楼725室举行。本次读书会上,老师和同学们围绕Lilian Edwards & Michael Veale合写的“Slave to the Algorithm? Why a 'Right to an Explanation' is Probably Not the Remedy You are Looking For”以及Sandra Wachter & Brent Mittelstadt & Chris Russell合写的 “Counterfactual Explanations Without Opening the Black Box: Automated Decisions and the GDPR”两篇论文进行了主题报告和讨论。以下是整理的主题报告和部分评议:

主题报告:

汇报人:对外经济贸易大学法学院  张欣

一、Lilian Edwards & Michael Veale, Slave to the Algorithm? Why a 'Right to an Explanation' is Probably Not the Remedy You are Looking For, 16 Duke L. & Tech. Rev. 18(2017).

【背景】大数据时代,算法在公共领域和人民日常生活领域发挥着越来越多的作用,在推动社会进步的同时,算法的复杂性及不透明性导致信息主体对个人信息的保护产生担忧,对欧盟于2018年5月25日出台的《通用数据保护条例》(GDPR)中规定的“解释权”能否真正限制算法控制还存在争议。

【核心观点】这篇文章中,作者提出GDPR中的解释权并不能发挥理想的作用,甚至导致了一种新的“透明度谬论”。在缓解算法控制方面,作者认为GDPR的以下两个层次规定能发挥更大的作用,使算法更负责、更可理解、更以人为中心: (i)删除权(“被遗忘权”)和数据可携带权;(ii)从隐私设计、数据保护影响评估、认证和隐私权标章出发探索算法的解释性问题。

【文章结构】作者将这篇文章分成六部分,第一部分是算法概述,阐明算法的兴起以及带来的信息保护问题;第二部分从法条入手,全面介绍GDPR中被认为有望解决以上问题的“解释权”,说明这一权利在理论上的限制;第三部分从实践出发,说明解释的类型、解释算法存在的障碍和解释权发挥作用在实践层面的限制;第四部分提出删除权和数据可携权更有利于解决算法控制问题并分析原因;第五部分提出GDPR另一层面的创新——从隐私设计以及数据保护影响评估等规定也可以促进算法的公平和透明;第六部分是结论,再次重申作者的观点。

导言

算法在私人和公共领域的决策中都发挥着重要作用,但公众逐渐认识到算法的隐蔽性和不透明性,他们的财富受到他们并不了解的系统的支配而失去控制,人们成为算法的奴隶,这一问题已受到国际监管机构、专家、政客和立法者的广泛关注。GDPR中规定的“解释权”(right to an explanation)采用了一种高度限制和不清晰的形式,很难真正实现对算法的控制。GDPR第22和15(h)条中规定的限制包括:知识产权保护和商业秘密的限制;对于自动化系统单独做出的决策的应用限制;对产生法律效力或类似重大影响的决策的限制;对决策做出的补救时机的限制等等。这都会导致存在法律上的不确定性;而且确定相关决策的做出方法和时间也存在实践困难。

因此论文关注三个问题:(1)现行欧洲法律中目前存在的救济是什么;(2)实践中如何贯彻落实;(3)这些救济是否真的是实践中人们会使用的方法。本文把对“算法”的详细讨论限制为复杂的机器学习(以下简称ML系统),探索透明度是否真的是控制算法的核心。其次,研究GDPR中规定的解释权本质以及它们实践中如何帮助数据主体。

在现有技术情况下,作者分别考察了两种算法解释路径——模型中心解释路径(model-centric explanations, MCEs)和主体中心解释(subject-centric explanations, SCEs),分别能在何种程度上协助做出有效的解释。结论是后者更有利于数据主体寻求救济。同时,作者还指出算法解释在保护个人权利以外的领域发挥了更大的作用:通过了解算法模型的运作过程,数据主体可以更加信任并充分利用算法;其次,与分解模型(decomposition)相比,教学性解释(示范性解释, pedagogical explanations)可以避免泄露受保护IP以及商业秘密。正如金融和信用卡实践的历史所表明的,透明权并不必然保证实质正义或者有效救济的出现。所以必须要对于“已经毫无意义的同意”架构下的“毫无意义的透明度”机制可能产生的危险加以警示。

之后作者讨论了其他算法治理的救济方法。首先,作者指出GDPR第17和20条中规定的删除权(“被遗忘权”)和数据可携权,在某些情况下可能比解释权更有用。其次,作者考察了GDPR中的几个非赋权的创新性规定,指出了通过构建更好的隐私实践和设计的社会框架:包括要求数据保护影响评估和从隐私保护设计,以及非强制性隐私徽章/标章和认证计划。作者建议不应过度给数据主体赋权,而应: (a) 从根本上构建更好的ML系统;(b)向如下机构赋权,例如非政府组织、监管机构或社会组织,让其审查ML系统的信息准确性,非歧视性和完整性。

I.  算法,以及我们如何成为它们的奴隶

A. 学习型算法的兴起

近年来,随着可以处理大数据和更多非线性相关关系的技术发展,算法具有了对社会现象进行精确建模的能力。这在很大程度上是因为算法从基于规则的人工算法发展到了ML系统。在基于规则的系统中,输入变量经过算法产生输出变量。而在复杂的ML系统中,输出变量和输入变量一起导入算法中,由算法发现其内在联系,这种学习型算法可以高效处理大数据。根据输入数据的类型,ML可以分为两种形式:“受监督学习”和“无监督学习”。前者需要在输入变量的同时设定一个“事实基准”(ground truth),使ML得出的结论尽可能精确地从输入的变量中预测到这一“事实基准”。后者则不需要,由算法自由地寻找最接近、最相关的结果。

B. ML与社会:受关注的问题

作者在这一部分总结了ML系统三方面的问题:歧视、信息隐私和不透明。

1. 歧视和不公平

人们通常认为机器不会出现常人的偏见,是理想的中立决策者。但近期的大量证据(主要是美国种族歧视相关)显示这一推定是不可持续的,那么 “打开黑箱”来证明ML决策的合理性就成为了不可避免的选择。ML是基于过去数据做出决策,这些数据的结构通常包含由于“受保护特征”导致的我们不希望的相关性。这种受保护特征通常包括种族,性别,怀孕状况,宗教,性和残疾,但在许多司法领域,上述变量是不允许直接或间接地在决策过程中起作用的。因此ML系统基于存在歧视的过去数据做出的决策有可能重现甚至加剧这种歧视。如果系统开发人员存在明显偏见,那么这一系统可能也存在间接的、无意的或不可知的歧视。

在许多情况下,像种族这样受保护的特征确实可能在统计学上与结果变量相关,如犯盗窃财产罪,税收欺诈或福利需求,但在社会和政治角度通常不能承认或接受这种相关性。一种解决方法是尝试构建公平或非歧视性的ML系统,不导入受保护特征数据,即使这些数据存在预测价值。但这仍然不能得到一个公平的系统,因为被排除的变量可能与某些输入的变量有关,例如事务数据、职业数据或邮政编码。此外算法系统的数据追溯也会影响公平,应该使用过去多久的数据来合理评价一个人呢?人们是否有权在经过一定年限后获得重新做人的机会呢?这些问题的提出给技术发展带了了一定阻力。

2. 信息隐私

欧盟《一般数据保护条例》第4条对 “数据画像”进行了规定。虽然数据画像的范围要广于ML,但ML现在是派生此类概要文件的最为流行的方法。数据主体关注的隐私问题包括:相关数据的收集方式,个人如何控制与他们有关的数据的访问和处理行为,以及如何控制此类概要文件的传播和使用。而ML和大数据分析的根本思想是重新利用数据(repurposing),这就与“为特定目的收集数据”的数据保护原则相违背。作者指出了几个在数据隐私层面与ML有关的问题:首先,数据主体越来越认为自己对个人数据的收集几乎没有控制权。基于同意的标准隐私条款已经变得没有实际意义。“私生子数据”(乔•麦克纳米发明的一个非常贴切的词)的出现后变得日益严重。他指出,数据的连接和转换会产生新的数据集。这样的新数据集中有许多是由ML系统派生的概要文件。很多我们曾经认为明显是非个人的数据,比如来自家庭能源表的原始数据,或者来自GPS设备的定位数据,现在通常通过ML技术,可以重新连接到个人,并确定身份,这意味着个人的日常行为,尤其是在“智能”环境中,会把潜在敏感的个人数据留在难以识别的控制者的手中,如果控制者是不可识别的,那么数据主体就不能行使相关权利。此外,通过ML或其他技术形成的概要文件是一个数据集,而不是单个数据。这种新型的有关某一群体的信息在数据保护法中尚没有明确的保护规定。最后,作者指出GDPR规定的有关数据画像的基础规则是否适用于ML系统可能在收集时的普通个人数据经过转换为特别敏感数据的情形。在欧洲数据保护法中,特定类别的数据(在英国被称为“敏感个人数据”)受到特殊保护,包括种族、政治观点、健康和性生活、宗教和其他信仰、工会成员身份有关的个人数据,以及生物特征和遗传数据。但在一些时候,ML系统可能将收集时是普通性的个人数据经过转换成为敏感数据。而这种情形的法律适用仍然不明。

3. 不透明性/费解性和透明性

与政府行为不同,私人行为通常是不透明的,例如商业秘密和知识产权。数据保护法律是为数不多对私人和公共部门适用相同透明度原则的法律。实际上,透明度可能导致一种“错觉”。当隐私被侵犯却并未得到应有的惩罚时,透明度可能导致对披露行为信用感的丧失。对于ML系统而言,透明度权利与对算法决策的有效控制这一目标密切相连。许多学者从各种角度做出了呼吁。很多呼吁其实是要求在算法决策中建立正当程序,使得从人格尊严得到保障。通过以“政策觉醒”的方式引入“信息问责”,以确保使得所有不好的行为得以披露,即达到“算法问责”的目的。但其实,一系列扰动公众神经的例子说明,数据主体想要的并不是一个解释,而是披露、决定或者预防相应的行为的发生。因此,GDPR所提供的“解释权”根本不是人们所通常寻求的救济方式,虽然它能够让开发者不再犯同样的错误。同时,透明度自身也并不总会在机构权力背景下增加公众信任。因此,透明性可能既不是要求算法问责的必要条件,也非充分条件。对于数据主体而言,其在实践中能够提供的救济也是少的可怜。

在算法问责的背景下,透明度到底意味着什么?它是否仅仅意味着源代码的公开,包括模型,以及训练集数据的输入和输出?有学者认为这是没有必要的,这会破坏算法的效率和公平性。其实在现实和数字世界中,审计可以通过观察决策过程的外部输入和输出而不是内部工作就可以实现问责制。

II. 探索欧洲数据保护法中的解释权

GDPR第22条: 自动化个人决策

GDPR第22条规定了避免数据主体受不当自动化决策的义务。但它提供的救济仅适用于通过自动方法处理数据的情形。在实践中,对人们生活有重大影响的ML系统通常并非完全自动化——有时是作为决策支持出现。其次,第22条还要求相关决策对个人产生法律或重大影响。这涉及到两个子问题。首先,ML系统实际上的工作成果是一个“决策”吗?第二,即使我们假设算法“输出”是一种决策,ML“决策”是否会影响特定的个人?如果ML系统结论是:主体X有75%的可能性属于群体A,而群体A与不受欢迎的特征B(例如,信誉度较差)相关,那么这种结论是针对主体X的决定吗?这些问题还有待研究。

作者还重新审视了“解释权”。作者指出第22(1)条中关于自动决策的禁令只在某些条件下适用。当根据法律授权或最重要的是基于明示同意(第22(2)条)订立合同的必要而合法地处理数据时,则不适用。在这些情况下,第22条并不妨碍自动决策,而是要求必须采取“保障数据当事人权利的适当措施”,其中应包括“至少使(数据主体)获得干预的权利”,即表达观点,并对该决定提出质疑的权利。但虽然法规正文要求实施“适当措施”来保障数据主体的权利,但并没有列出这些措施包括哪些内容,而只能依赖于背景引言的内容。由于“解释权”只在背景引言中提及,而不是法规正文中,因此在效力上仍然存在争议。

III. 执行解释权

这一部分将讨论谁会需要一个解释;什么类型的解释是可能的(以及它们可能为决策主体提供什么),并考虑在什么情况下,以及对于谁来说,ML系统的解释可能是困难的、有限的或不可能的。最后,作者提出一些践行解释工具的积极途径,包括(a)旨在帮助用户了解算法工作原理的图表,从而在ML系统和用户间建立更好的信任关系;(b)用教学型解释(模型的模型)代替分解型(decompositional)解释,以避免知识产权和商业秘密对ML算法的限制。

解释的类型:以模型为中心(model-centric)和以主体为中心(subject-centric)

1.以模型为中心的解释(MCEs)-global

以模型为中心的解释(MCEs)提供了关于整个ML模型的广泛信息,但是也存在一些在详细程度、实践层面和相关性上的限制。所以其到底在何种程度上“有意义”,仍然值得讨论。MCEs路径需要提供的信息包括:(1)设置信息:程序处理背后的意图,模型群(神经网络、随机森林法、集群组合),在学习和训练机器之前需要的相关参数;(2)训练元数据:输入数据的汇总统计和描述,这些数据的来源,和此模型预测的输出数据或者分类;(3)性能指标:关于模型对未见数据的预测技能的信息,包括对特定的显著子类别数据分类的成功性;(4)预估的全局逻辑:一般人可以理解的简化的、平均的、易懂的有关输入如何转化成输出的各种形式,包括变量重要性分值、规则提取结果、或敏感性分析;(5)处理信息:有关模型如何被测试、训练或筛选出不需要属性的信息。MCEs模型也许对于确保在场景下转化算法系统的意图以探测其一致性,或者对于在自动系统中进行武断决策的伪装等问题的识别具有一定的帮助。但对于个人信息主体而言,其在多大程度上是“具有意义的信息”仍然需要超越MCEs路径本身的进一步探讨。

2.主体中心解释(Subject-Centric Explanations, SCEs)

以主体为中心的解释(SCEs)是建立在输入记录的基础上所做出的局部解释。因为这种解释仅限于一组数据周围的区域而不能完整地解释复杂的模型,所以其在媒体上迅速成为众所周知的“黑箱”。但作者仍然认为,与MECs相比,SCEs需要从法律视角加以更多地关注。作者区分了四种主要的SCEs类型:

(1)基于敏感性的SCEs:在有关我的输入数据中的哪些变化将会使与我有关的决定产生其他方向上的变化?

(2)基于案例的SCEs:哪些被用于训练这一模型的数据记录与我的数据最为相近?

(3)基于人口统计学的SCEs:接受类似处理的个体的特征是什么?(谁,被同样地进行了分类?)

(4)基于表现的SCEs:你对有关产生我的结果的系统有多大信心?对该系统而言,与我有关的个体是否过多或者过少地被错误地进行了分类?(我是一个较难分类的案例吗?)

与MCEs不同,SCEs不太适合讨论程序规律性等方面的问题,它们更多的是在这些工具和它们的用户或决策主体之间建立关系,从而提供“有意义的”解释。

IV.  寻求比GDPR解释权更好的救济

A.避免“透明度谬论”

在进入或注册网站、应用程序时,通常会显示隐私政策的链接,并要求用户通过勾选框加入这些条款获得在线同意。由于没有谈判的机会,而且几乎没有证据表明大多数用户会阅读、理解或真正考虑了这些条件,因此很难看出,符合有效同意的“自愿、具体、知情和明确”等法律特征。依靠个人解释权作为用户治理ML系统的手段可能会产生类似的“透明谬误”。个人用户大多时间贫乏,资源贫乏,缺乏必要的专业知识,无法有效地利用这些个人权利。有学者指出,透明度权利给个人带来了巨大的负担,个人也许可以获取关于一个系统的信息,解释它,确定它的重要性,却发现他们几乎没有能力去改变什么。

B. 超越解释权: 更充分地使用GDPR

这一部分作者探讨GDPR中另外两种主要的权利:删除权(通常被称为“被遗忘权”)和数据可携权。

1.GDPR第17条:删除权(被遗忘权)

GDPR第17条规定:“信息主体有权要求控制者删除个人相关信息,不得无故迟延。”但这不是一项无限制的权利。信息主体可根据不同的理由获得删除权,包括:与收集数据的目的相比,这些数据不再是必要的;个人资料被非法处理;必须根据法律删除数据;或者数据是16岁以下的未成年人提供的;数据收集没有得到主体的同意。在ML的背景下,作者认为一个数据主体可能会在至少三种主要情况下有效地将其视为一种救济。

(1)数据主体删除数据

首先,数据主体有权要求控制者删除数据主体提供的数据,但问题在于数据主体是否有权删除在现实世界和虚拟世界中关于她行为和运动的观察数据?第29条工作组在可携带权的范围内已经发布了一项指导意见,即某一系统的推论(inferences)并不是该主体的数据,但“属于”该系统衍生的数据。虽然目前尚不清楚这种做法是否同样适用于删除权,但在逻辑上是可行的。

(2)寻求从模型中撤回个人信息: “不学习”型机器

其次,一个数据主体可能要求从一个使用过的ML系统的模型中删除她的数据,因为她对模型产生的推断不满意。同时她可以说服剩下的“算法团体”中与其类似的数据主体撤回这种信息以避免再次产生机器学习后的相关性,但从实践层面而言,这种操作可能很难实现同时也许还会产生隐私披露的问题。

(3)机器“不学习”例2:擦除模型

再次,数据主体可能会以其个人数据为由,要求对整个模型(或其各个方面)进行删除。但在实践中这种方式可能给开发者带来很大成本。假设基于一些理由删除成立,对于数据控制者而言,对个人数据的擦除可能涉及到对模型本身的修改。对于ML系统较高的计算性和人工成本而言,这可能会限制很多组织即时对模型进行再训练的能力。所以在这种情形下,快速和简单的擦除就很难达成,因为这可能需要模型本身架构和程序的根本性改变。

(4)模型交易和删除权

如果一种新兴的商业模式是涉及交易、发布或者是访问经过培训的模型,但不涉及用于培训它们的数据,那么信息主体可否从已交易的模式提取个人资料? GDPR第17条第2款规定,如果控制者把个人信息公开后被信息主体要求删除,控制者需要采取合理的步骤,采取技术手段通知其他处理该数据的控制者,数据主体要求消除关于个人数据的任何链接及副本。这一要求对于机器学习模型交易实践是非常难的条款。比如,对于社交媒体用户发布或者分享的链接如何处理?同时,如果我们将模型看作是来自于个人数据的一个架构,那这个模型是否也构成与原始数据的“联结”呢?

2. GDPR第20条:数据可携权

GDPR第20条规定,数据主体有权以“结构化的、通用的、机器可读的格式”接收其“提供”给控制者的个人资料,并有权“不受妨碍地”将数据传送给另一控制者。从理论上讲,一个数据主体可以要求从一个网站中删除他的数据,同时将数据转移到自己手中。数据主体还可以要求将数据直接从正在处理数据的控制者A转移到自己选择的控制者B。数据可携权的目的是明确地允许数据主体对其个人数据保持更大的控制,以保护消费者,而不是保护隐私。使用第20条的可携带权,数据主体可以选择将其数据提交给模型有吸引力的控制者。

但使用第20条有许多明显的问题。首先,普通消费者并不会有这样的信息或动机去“货比三家”来比较不同的模型。尽管数据主体在理论上可能会对其个人数据拥有更大的控制权,但实际上他们可能并没有知识或时间来保护自己的数据不受新出现的威胁。其次,从法律的角度来看,第20条与第22条一样存在诸多限制。它只适用于主体“提供”的数据。但这是否覆盖明确的数据主体提供的数据以及其并不知晓的元数据,包括通过ML系统或者系统的数据画像功能衍生的数据。第29条工作组建议,数据主体直接提供的数据和通过“观察”数据主体行为产生的数据都应具有可携权,但不适用于从这些数据中推断出的数据。此外,第20条仅适用于数据主体“同意”提供的数据,那么如果数据已被收集并在另一个合法的基础上(如数据控制者的合法利益)获得,则不存在可携权。

V.超越GDPR中的个人权利:通过设计保护隐私

到目前为止,数据保护是一种基于权利的范式,这意味着,即使我们上面讨论过的权利成为个人试图“奴役”算法的有价值的工具,也仍然要由个人数据主体来行使这些权利。考虑到作者在第四部分中提到的问题,这并不容易实现。其次,现行数据保护制度将普通的监督检查权置于独立的监管机构手中,要求每个国家必须拥有数据保护部门。然而,由于独立于国家和商业,数据保护部门往往资金严重不足、人手不足,缺乏必要的技术专业知识来理解和控制算法的危害。

A. “大数据正当程序”和中立的数据仲裁者

在没有数据保护“解释权”的北美,有研究者主张在算法自动化系统中,应用美国公民已经熟悉的正当程序权利,通过一系列实质性适应,从传统的正当程序加以转换,这包括:

(1)向使用自动化系统的宣传自动化系统的缺点和问题;

(2)机构雇佣“听证官”(hearing officers)来详细解释他们对这些系统结果的依赖;

(3)要求机构定期测试系统偏误和其他错误;

(4)系统发布审计跟踪,并通知受试者它们已被用于决策,以便进行司法审查。

监督和审计主要由公共机构推动,设立一个“中立的数据仲裁者”(例如设立一个用于算法的FDA),以有权调查那些在预测自动系统中使用数据的人的投诉,并通过审查审计记录,发现可能导致自动决策无效的偏见和不公平,提供“司法审查”。但这种方法若在欧洲适用可能会出现两个问题。第一,欧盟的数据保护制度适用于私人和公共部门。在私营部门,这些“正当程序”措施很难在没有强制或外部资金支持的情况下落实。第二,欧洲本质上已经有了“中立数据仲裁者”,但根据前文,他们在规制一般的隐私问题上已经捉襟见肘,更不用说对于这些复杂的和不透明的社会算法了。

B.数据保护影响评估和认证机制

GDPR引入了一些新的条款,这些条款并不授予个人权利,而是试图创造一种环境,在这种环境中,将构建出更少问题的自动系统。这些想法来自于“从设计保护隐私”工程的长期演变。它是一种构建隐私感知或隐私友好系统的方式,从设计开始保护隐私。监管机构不可能通过自上而下的控制来完成所有事情,因此控制者本身必须参与到保护隐私系统的设计中。这些规定包括:

(1)控制者必须在系统开发时以及实际处理数据时实施“适当的技术和组织措施”以保护数据主体的权利,包括匿名化和数据最小化(仅收集需要的数据);

(2)当使用“新”技术“可能导致对数据主体的高风险”时,必须进行数据保护影响评估;

(3)每一公共部门、每一“大规模”私有控制者和任何处理“特殊”类别数据(敏感个人数据)的控制者都必须指定一个数据保护官;

VI.结论

A. 进一步的工作

是否仅仅因为“数据保护”有“数据保护”这个词,它就应该在数据驱动社会的所有弊病上获得霸权?同时,对于这些主要处理非个人数据的ML系统是否应该被排除在任何数据保护的基础治理系统之外?缺乏对非个人数据的权利是一个有待解决的问题。许多算法的问题是群体性的而不是个人的问题。旨在授权或保护群体的救济——如设立“算法FDA”或“超级投诉”系统来授权第三方组织,或一个欧洲式的申诉专员机构——可能比努力改变数据保护的个人权利范式更有用。最后,这项工作是数据保护律师和ML专家之间的跨学科合作。作者呼吁在不同的司法管辖区、不同的学科、学者和实践者之间开展学院合作,创造一个更合理、更有用的、更可理解的算法媒介性社会(algorithmically-mediated society)。

二、Sandra Wachter & Brent Mittelstadt & Chris Russell, Counterfactual Explanations Without Opening the Black Box: Automated Decisions and the GDPR Harvard Journal of Law & Technology, 31 (2)(2017).

【摘要】这篇文章中,作者提出应超越GDPR的限制,对数据控制者施加“无条件性反射事实解释”(unconditional counterfactual)以作为一种克服当下算法解释和问责挑战的一种新型解释类型。其可以平衡数据主体和控制者之间的关系,保护数据主体的信息安全。反设事实解释不仅避免了对复杂专业的算法进行全面地公开,而且可以通过建模计算得出,便于数据主体理解自动化决策、对决策进行抗辩以及改变未来的做法来达到预期目的。

【文章结构】作者将这篇文章分成六部分,在第一部分导言中,提出了GDPR存在的问题,提出解决相关问题的观点;第二部分全面介绍了反设事实解释及其与自动化决策间的联系;第三部分通过建模计算说明反设事实解释的产生和应用;第四部分概括了反设事实解释相比于传统解释权的优点;第五部分把反设事实解释与GDPR结合起来,分析反设事实解释在实践中的作用;最后总结全文,重申对反设事实解释的支持。

I.导论

GDPR中规定的“解释权”试图打开“黑箱”,深入了解算法的内部决策过程,但行使这一权利面临四大法律和技术障碍。

首先,GDPR中不存在具有法律约束力的解释权。第二,即使具有法律约束力,该权利也只适用于有限的情况。第三,解释复杂的算法决策系统的功能及其在特定情况下的基本原理在技术上具有挑战性。解释可能仅对数据主体提供很少的有意义信息。最后,数据控制者有权不共享算法,以避免泄露商业机密、侵犯他人的权利和自由(例如隐私)。

作者认为对数据主体有用的解释应当有三方面目标:(1)告知并帮助数据主体理解做出特定决定的原因,(2)为排除相反决策提供依据,以及(3)基于当前的决策模型,了解在未来应做出哪些变化以获得理想结果。但GDPR几乎没有为实现这些目标提供支持。作者建议超越GDPR的限制,在解释权中应用反设事实思维。对于积极的和消极的自动决策,应该要求其给出无条件的反设事实的解释,无论这些决策是否是完全自动的,不论是否产生法律或其他重要的影响。

在本文中,作者提出了“无条件的反设事实解释”的概念,作为一种新型的自动决策解释,它克服了当前基于算法的解释和问责所面临的许多挑战。无条件的反设事实解释可以缩短数据主体和数据控制器之间的利益差距,否则,这些利益就会成为具有法律约束力的解释权的障碍。

II.反设事实思维

反设事实思维是指世界变成何种状态才能产生理想的结果。例如,“由于你的年收入是3万英镑所以被贷款申请拒绝。如果你的年收入能够达到4万5千英镑,那你就可以获得贷款。”这就是一种反设事实思维。可能存在多种反设事实而且可能有几种方法来实现这些结果。其中,“最接近的可能世界”(closest possible world)的概念,或者能够获得所欲结果所需的最小变化是理解反设事实思维的关键性概念。在许多情况下,对用户而言提供一些可能的结果,比提供一个最接近的结果更有帮助。在现有文献中,“解释”通常试图传达算法的内部状态或逻辑。相比之下,反设事实描述了决定对外部因素的依赖。这是一个关键的区别。在机器学习中,算法的内部包含数百万个错综复杂的变量,将这种状态传达给外行人是极具挑战性的。作者将在下一节讨论,分析哲学怎样利用反设事实阐明信仰的正当性。

A.历史背景和知识的问题

作者首先介绍了分析哲学的JTB理论(Justified true belief)。该理论是知识论中对知识的一种定义方法,认为知识是“确证的真信念”。具体来说,是指当且仅当下面三个条件得到满足时,“S知道P”这一命题才得以成立:1.P为真;2.S相信P为真;3.S确证地或有理由相信P为真。虽然JTB理论遭到了很多批评,但有学者建议把模型条件,包括安全条件和敏感性条件,作为建立在反设事实关系基础上的JTB理论的必要补充。

B.人工智能和机器学习的解释

在人工智能的早期工作中,解释专家或者基于规则的系统做出的决定大都是与反设事实紧密相关的解释。反设事实一直在端对端的集成路径中存在。而在人工智能和基于逻辑的机器学习任务中(例如图像识别), 解释的概念就是指提供对某一算法内部运作的视角,或者是该算法可以被人类理解的粗略估计。机器学习中解释模型的大部分工作都涉及到生成简单模型作为决策的局部逼近。但这种方法在专家程序员进行模型调试之外的用途尚未被清楚地传达。如何将这些方法的各种局限性和不可靠性传达给外行人,使他们能够利用这些解释,还有待研究。反设事实解释需要在三者间存在权衡,即预估的质量、理解功能的易读性以及在何种领域和规模上该预估是成立的。反设事实解释的目的是提供能够改变决策的最小信息量,且不要求数据主体理解模型的任何内部逻辑。但这样做的缺点是,有关个体的反设事实可能过于严格。一个反设事实可能表明,决策的基础是基于某些不能被数据主体在未来决策形成之前加以修改的数据,即使可能存在其他可以被修改以获得有利结果的数据。但这个问题可以通过对数据主体提供多元和多样化的反设事实解释来加以解决。

C.对抗扰动和反设事实解释

在诸如resnet这样的深层网络中,用于生成反设事实解释的技术已经在“对抗扰动”主题下的机器学习文献中得到了广泛的研究。在这些作品中,能够计算反设事实的算法被用来生成一个与现有数据点相近的合成数据点来混淆现有的分类器,这样新的合成数据点的分类就会与原始数据点不同。反设事实的一个优点是,可以通过应用标准技术来有效地计算。计算机视觉领域应用了很多大且深的神经网络,这些分类网络被证明特别容易受到一种称为“对抗扰动”的攻击,在这种攻击中,对给定图像的微小更改会导致将图像分配给一个完全不同的类。在对抗性扰动文献中,很多学者提出许多优化技术使反设事实的生成效率更高。

D.因果关系和公平

因果推理和反设事实可以帮助保证算法的公平。例如,在输入对象属于不同的种族或性别的情况下,要求系统在反设事实下做出的决策保持一致以保证公平。但要明确的是,反设事实只能证明相关性,而不能证明非相关性。

III.生成反设事实

在本章,作者列举了一些例子展示如何使用L1范数(L1norm)或曼哈顿距离(manhattanan distance)轻松计算得出有意义的反设事实。

A. LSAT数据集

作者通过建模在LSAT数据集中生成反设事实数据。LSAT数据集试图根据学生的种族、法学院入学前的平均绩点和入学考试分数来预测他们一年级的平均成绩。由于这个数据领域受过训练的分类人员对“黑人”有偏见,因此,作者将在模型产生的一些反设事实中找到这种偏见的证据。

B. 皮马糖尿病数据库

为了证明一个更复杂问题的反设事实,作者考虑了一个用来预测传统女性是否有患糖尿病的风险的数据库再次建模。

C.因果关系假设和反设事实解释

反设事实解释并没有充分地利用因果模型,而是简单地假设变量是相互独立的。这是因为建立和解释精确的因果模型是极为困难的,由精确的因果模型产生的反设事实可能最终会对专家有用(例如,对于试图决定采取哪种干预措施将患者从高危人群中转移出来的医学专业人士)。然而,本论文的目的是要说明最小假设的应用,因此没有必要采用精确的因果模型。

IV.反设事实解释的优点

与GDPR规定的解释权相比,反设事实解释有几个显著的优点。首先,反设事实免于解释复杂机器学习系统的内部工作原理。因为即使在技术上可行,这样的解释对数据主体来说也没有什么实用价值。而反设事实为数据对象提供信息既易理解又实用,有助于数据主体理解决策的原因、提出抗议,并改变未来的行为以获得更好的结果。其次,反设事实解释还有利于减轻监管负担。GDPR包含了大量的条款,要求向个人提供关于自动决策的信息。反设事实提供了一种方法来解释自动决策的一些基本原理,同时避免了可解释性的主要缺陷或打开“黑盒子”,可以实现GDPR的明确需求和背景目标。

V. 反设事实解释和GDPR

尽管GDPR的“解释权”不具有法律约束力,但它仍然将数据保护法的讨论与一个长期存在的问题联系在一起,即如何向专家和受该决定影响的非专业人士解释算法决策。这个问题的答案很大程度上取决于解释的目的,相关解释必须根据特定的目标在结构、复杂性和内容上进行调整。但GDPR没有明确地定义解释自动化决策的需求,也仅提供了非常有限的有关提供自动化决策的解释意图的启示。GDPR背景前言是不具有法律约束力的条款,同时对于“解释权”的规定也相当局限。并为给读者留下有关解释的类型以及解释的目的的相关见解。

作者提出了对自动决策的三种可能的解释目标:增强对自动决策的理解和对特定决策的原因的理解,帮助数据主体辩驳一项决策,以及改变未来的行为以获得更好的结果。这并不是一个解释潜在目的的详尽列表,而是反映了自动化决策的接受者可能希望了解自动化决策的范围、影响和基本原理。作者随后评估了这三个目标是如何在GDPR中反映出来的,以及反设事实的解释在多大程度上满足了GDPR的要求。

结论

反设事实解释并不试图解释黑盒算法的内部逻辑而是提供了关于外部依赖因素的解释。同时重要的是,对许多标准分类而言,尤其是神经网络,反设事实解释可以通过有效计算得到。参照以前作品的哲学和早期人工智能文献,作者从数据的角度评估了解释自动决策的三个目的:理解、异议和改变。作者将这些目标与GDPR的规定进行了比较,并评估它们是否依赖于打开黑箱。总体而言,GDPR仅为解释的目的和内容提供了极为有限的指引。背景引言唯一地明确提出解释性要求的条款,却并未阐述其目的或者内容。鉴于GDPR最终文本,解释似乎是可以在决策做出后自愿提供的,并且并未作为对一项决策提出异议的前置性条件而存在。提供解释来指导如何在未来获得可欲的结果虽然似乎并不是GDPR的目标,但对于寻求更理想的替代结果的个人来说,仍然是非常有用的。

所以,未来任何试图在GDPR提供的框架内实现对自动决策的保障的法律约束力的尝试都面临着几个显著的挑战。1. 自动化决策必须“完全基于自动化处理”,并具有“法律效力”或类似的重大影响。2. 通过欧盟成员国的法律,这项对抗性保障可能会被免除。但是,数据主体对于理解、异议、或者改变这些决策的愿望并未因这些未能清晰阐明的条文所改变。所以作者建议超越GDPR的限制,将反设事实解释作为一种无条件的要求。反设事实解释可以通过几种方式来实施。例如通过计算自动获得,或者在一段更广的时间内通过对模型存档的复制获得。当多元结果依赖多元变量做出时,还需要探索反设事实解释的集合。因此,未来的研究应该确定适当的距离测度和相关要求,以获得足够的和相关的反设事实集合,针对不同的使用部门和案例以及不同的需求。当然,反事实解释也有其应用的局限。例如,对于了解某一系统的功能或者自动化决策的原则等内容时,其会体现出自身的不足。同时也无法提供数据性的证据,用来帮助评估算法是否公平或者具有种族歧视。未来其他类型的解释也应当配合提出。但反设事实仍然是代表了平衡透明性、可解释性以及负责性之间的第一步,同时也能够最小化商业主体的规制负担同时保护其他主体的隐私,并在一定程度上可以潜在地提升公众对自动化决策的可接受度。

二、自由讨论

【中国人民大学法学院 丁晓东】

这两篇文献是放在数据隐私的背景下进行讨论的,欧盟GDPR的第21条、第22条所赋予的数据主体或消费者的权利,其实是希望避免个人信息被随意使用,从而对个人的某些重要权利产生影响。那么这种权利的赋予是否合适,是否应的那个赋予给数据主体以一种“算法解释权”?在某种程度上,可以说这是一种欧洲的路径的“消费者保护”,即将“算法解释权”纳入到消费者权利的一种。在这个意义上,似乎可以仍然从消费者保护法的基本原理来理解GDPR第21条和第22条。当然,在涉及到公权力的算法解释权的时候,这个时候可能适用的法律原理可能不同,可能更多需要适用到政府信息公开等理论。当然在这种情况下也存在很多问题,例如解释权是解释给谁听?是否需要公共参与?是否存在部分人对政府的算计(gaming)问题?

【中国人民大学法学院  张吉豫】

两篇文章都涉及GDPR中算法解释相关条款的解读。事实上随着公众日益认识到算法决策的存在,“算法解释权”在我国也逐渐开始被关注和讨论。这两篇文章有一些共性。首先,都向读者显示了“算法解释”或者“解释权”,目前还是相对模糊的概念。如果设置算法解释权,那么解释的目的、方式、内容、程度及限度、例外等等,均有待进一步明确。其次,都阐释了为什么透明性未必是GDPR以及消费者所欲的。最后,都针对算法解释的目标,提出了可能从怎样的途径实现。我相信这些对于我们在抛开GDPR的语境下来讨论算法解释权,也是有益的基础。

同时,我们从这样的论文中也可以看到,算法解释的理论和方法,实际上也是正在逐渐发展的,而且已经发展出众多的维度和类型。上次读书会有篇文章作者说,“人脑是最大的黑箱”。恰恰因为目前而言,机器上运行的算法并不是真正意义上的黑箱,有各种维度的解释可能,更证成了在一定场景下、一定程度上要求算法解释的合理性。我认为研究相关法学问题未必需要了解这些方法,但我们需要大致了解存在一些辅助解释的方法,并且相关领域是正在创新发展的。已有的方法可以作为规制要求的基础,但是如果通过法律设定超过实现能力的目标(成本太高也视为一种不可实现的情形),或者设定过于细致的技术实现路径,则几乎一定会导致法律与相关技术发展现实的严重不匹配。这也是大家讨论建立相关专家委员会、使相关责任及监管与一定的认定或技术标准相链接的一项主要动因。

【中国科学院人工智能联盟 吴焦苏】

Edwards and Veale 的“Slave to the Algorithm? Why a 'Right to an Explanation' is Probably Not the Remedy You are Looking For”和Wachter、Mittelstadt and Russell 的“Counterfactual Explanations Without Opening the Black Box: Automated Decisions and the GDPR”两篇文章在讨论算法可解释性与解释权时接触到人工智能中一些最为本质的问题。

首先是Yann LeCun et al.(2017)在“Tracking the World State with Recurrent Entity Networks”中提出的世界模型(Model of World)问题,即如何给世界建立恰当的数学模型的问题。莱布尼茨的“可能世界”理论由此复活。其中,“最接近的可能世界”(closest possible world) 或者能够获得所欲结果的最小变化的世界的概念,接近于理想状态。但是理想状态经常很难达到,人们只能退而求其次,提供一些对应于有信息含量的“接近的可能世界”的不同的“反设事实解释”(counterfactual explanations) 比“最接近的可能世界”(closest possible world)更有用。Wachter、Mittelstadt and Russell由此提出 “无条件的反设事实解释” (unconditional counterfactual explanations)的概念,作为一种新型的自动决策解释,以克服当前基于算法的解释和问责所面临的许多挑战。

但是,Edwards and Veale提出,与模型无关的系统 (model agnostic systems) 只能做出示范性解释(pedagogical explanations),不需要打开黑箱,可以避免泄露受保护知识产权以及商业秘密。

第三是认识论中的JTB理论。该理论认为知识是“确证的真信念”(Justified True Belief):

S知道p,当且仅当

1、p为真

2、S相信p为真

3、S确证地、有理由相信p为真

三个条件得到满足时。

知识的这三个必要条件,通常称为“真实条件”(the truth condition)、“信念条件”(the belief condition)和“辩护或确证条件”(the justification condition)。这三个必要条件合起来构成知识的充分条件。因此,关于“知识”的这一传统定义又被称为“三元定义”(the tripartite definition)。

柏拉图的《泰阿泰德篇》认为真实的意见加上理由或者解释就是知识,随后逐渐演化为知识的传统定义:知识是确证的真信念。两千多年来,哲学家们对这一理论深信不疑,所有怀疑论者和独断论者的争论,反例也好,证据也好,都指向这三条前提。比如,两个主要怀疑论流派,笛卡尔怀疑主义(Cartesian Skepticism)和皮浪怀疑主义(Pyrrhonian Skepticism)都是如此。

然而在1963年,埃德蒙德·盖梯尔(Edmund Gettier)用一篇短短三页纸的论文颠覆了这一长久以来屹立不倒的定义,这篇论文也成为了认识论中的重要文献之一。反驳JTB理论的空地上的奶牛(The Cow in the field)实验也就成为认知论领域的一个最重要的思想实验。盖梯尔的结论是:一个人有可能得到确证的假信念。这意味着JTB理论存在很大的漏洞,需要加以改进,但至今都没有人提出公认的解决方法,故史称盖梯尔难题(Gettier‘s Problem)。

尽管如此,Ernest Sosa (1999)和Jonathan Ichikawa(2011)仍然建议把包括安全条件和敏感性条件在内的模型条件作为建立在反设事实关系基础上的JTB理论的必要补充。无独有偶,在近年的NIPS会议中,Yann LeCun也提到了敏感性分析是解决解释问题的出路之一。

第四是距离度量问题。Wachter、Mittelstadt and Russell采用L1范数(L1 norm)、曼哈顿距离(manhattanan distance)、平方欧几里得距离(unweighted squared Euclidean distance)、未加权平方欧几里得距离(unweighted squared Euclidean distance)计算生成有意义的反设事实。他们提出未来的研究应该确定适当的距离度量和相关要求,以获得足够的和相关的反设事实集合,针对不同的使用部门和案例以及不同的需求。本文认为Wasserstein距离(Wasserstein distance) 或其特例---推土距离(Earthmover distance)应当是比较适当的距离度量,因为Wasserstein距离既可以度量隐私,也可以度量公平。更重要的是,Wasserstein距离可以纳入GAN(Generative Adversarial Networks)之类的博弈动力学框架。在GAN中,行为人受到一种称为“对抗扰动”的攻击。许多优化技术被开发出来,使反设事实的生成效率更高。但是,由于在博弈动力学中,存在着不完全信息、探索和利用(Exploration vs. Exploitation)的抉择和循环等问题,使得反设事实解释的效力下降。

【首都师范大学 王也】

无论我们谈及企业的算法解释权还是算法的正当程序,都离不开一个话题,即公法的第三人效力。我们能否用传统的对公权力的规制手段施加在一些新兴公司上?在此有必要总结一下当今新型企业的特点。1.资本庞大,可与公权力抗衡。前面老师发言也形象地描绘了该点,如美国的通讯类企业。2.掌握大量用户信息。3.算法技术领先,如滴滴公司称其智能网联技术全世界范围内顶尖。

正是由于以上几点,这类企业与公权力的界限变得模糊,使得传统控权手段能够打破传统局限,理由如下:1.新型公司具有公权力的特点。GDPR第二十一条,在算法解释权中提出了公共利益的概念,这个概念的引入将公权力与企业的界限打开了一个口子。2.有些公司承担了政府的部分责任,主要体现在公共服务方面,以及ppp模式中。3.对用户的倾斜保护。由于信息不对称、格式条款、霸王条款等现象较为普遍,我国又不能像美国一样利用市场竞争来规制企业,政府便需要承担调节责任,保护弱势方,出台一系列政策,例如正当程序原则的运用。

因此,传统控权手段在算法规制上有用武之地,但仅仅适用于消费者与企业之间,对于企业与员工仍秉承契约自由精神,手不应伸太长。通过检索我发现算法的正当程序在我国研究甚少,多方面原因,有消费者权利意识不高、算法应用在企业未全面普及、以及我国法律中缺失客观诉讼的概念,关于算法的正当程序问题,仍有探讨的空间。