加州大学洛杉矶分校法学院Eugene Volokh教授 “首席机器人大法官”讲座顺利举办
时间:2023-11-16Eugene Volokh
加州大学洛杉矶分校法学院教授
2022年5月10日早上,受中国人民大学法学院未来法治研究院邀请,加州大学洛杉矶分校法学院Eugene Volokh教授与我院师生开展在线上学术交流,进行了一场以“首席机器人大法官”为主题的讲座。
此次讲座围绕以下问题展开:如果人工智能软件通过了图灵测试,并能够比人类法官或律师写出更好的法律意见,此时是否应该允许机器人进行审判?出席此次讲座的有,上海交通大学凯原法学院教授郑戈、中国人民大学副教授、未来法治研究院执行院长张吉豫、中国人民大学法学院副教授、未来法治研究院副院长丁晓东、中国人民大学法学院副教授、未来法治研究院研究员郭锐、中国人民大学法学院副教授邓矜婷以及北京大学法学院助理教授左亦鲁。
在讲座前,中国人民大学法学院副教授丁晓东对Eugene Volokh教授表示热烈欢迎。
主题演讲环节
讲座以Eugene Volokh教授的主题演讲为起点。Volokh教授指出他的文章是以美国法律为基础的,所以很有可能他说的一些东西并不适用于中国或法国的法律体系或其他任何国家。其次,他强调今天所讲的内容都是一种假设,他不认为我们现在有能力来做人工智能法官,甚至我们可能永远不会有人工智能法官的技术。
他指出人工智能法官需要计算机处理非常复杂的书面文件和非常复杂的口头陈述摘要的能力,而这是非常困难的,但如果有人声称有这样的技术,我们如何决定我们是否应该移交某些判断过程?随后这个问题的引入,主题演讲正式开始。
他从电影《阿甘正传》的经典台词“Stupid is as stupid does”切入,把人类的决策交给非人类的东西来做,这对人们来说是很可怕的。但是如果你做出了正确的决定,那么不管别人怎么想,你都不是愚蠢的。虽然有些人会说机器并不聪明,只有人类是聪明的,因为我们用大脑思考,而他们只是用算法思考。但Volokh教授认为如果它产生了我们认为是明智的结果或者我们认为是公平的、公正的、仁慈的结果,就很难说它不是一个明智的决定。随后他又通过著名的约翰·亨利的美国民间故事来引出自己关于人工智能领域的Henry测试观点,就像我们的翻译软件也是在不断发展进步的,直到现在它也不是完美的,但它却广泛应用于各个领域,而不是说只有人类才能真正翻译人类的语言,因为只有人类才能真正理解人类,所以人工智能法官也是同理。
Volokh教授提出要用说服的标准打造程序,如果程序通过了约翰·亨利测试,它写出了更有说服力的观点,那么为什么法官在可以雇佣人工智能的时候还要雇佣人类?而人工智能的高效率将帮助法官从繁杂的证据等材料中解放出来。所以,他的假设是,如果人工智能助理一直做得很好,甚至比人类法官或人类翻译做得更好。那么让它成为决策者也是有意义的。就像对于翻译人员来说,你可能会像许多人一样开始翻译工作,提供初稿,然后由一个人工翻译人员进行补充。但有时候,人工智能翻译得太好了,以至于翻译人员什么都不加,当然也有时人工智能可能会出错。同样地,他认为法官也有这样一种情况,律师为法官写了草稿,法官觉得这些草稿很有说服力,所以他们几乎总是接受这些草稿。但没有人说每个人都必须采用相同的方法。也许在不同的时间,不同的国家,不同的社会有不同的情况,但只需要进行一套不同的约翰·亨利测试。
随后,他指出约翰·亨利测试的一些细节问题。其中一个因素是偏见。如果人工智能有一些隐秘的偏见会怎样?就像训练数据显示,给黑人被告的判决概率比白人的要高,给男性被告的判决比女性的要高,给穷人被告的判决比有钱人要高,所以这是很合理的一个担忧。但众所周知,人类法官也会对人类做完全相同的事情。而如果有了人工智能法官,这个问题其实变得更简单。如果你认为有这种偏见,你要做的是运行1000个测试用例,其中500个被告是黑人,另外500个是白人。除此之外,事实都是一样的。虽然不同类型的案件中事实会有所不同,这也就是为什么要分别运行500个用例以减少事实带来的影响。而人类法官是不可能做这样的测试和训练的。你可以为测试编写程序。而人工智能不会从特定测试中学到任何新东西。所以当你提交另一种测试,例如种族、性别、宗教、财富、年龄时,它会重新审视事物。
Volokh教授指出,我们要担心的另一个问题是黑客攻击,比如编写AI审判程序的人改变了某些变量,使得人工智能法官变相一部分群体。但他认为这种倾向会过于明显而被发现。同时,人们也会攻击人类。我们称之为贿赂或威胁。人类法官也会有朋友,如果这个人是审判席中的某个人或者是律师,那么法官可能潜意识会偏向他们。而人工智能不可能被贿赂或威胁,他们可能被黑客攻击,但这只是意味着我们需要特定的技术来对抗这些。针对人工智能法官可能还有一些其他问题,而这只需要我们再进行一些其他编程测试。
最后,Volokh教授指出任期问题。在美国,法官是终身制的,这意味着他们要当30多年的法官。但这对人工智能法官没有任何限制。假设你有足够的钱,你预计每3年更换一次更新更好的电脑,那为什么不同样对待人工智能法官呢?每三年举办一次新的比赛,如果冠军在1年后仍然是冠军,那么他们将继续留在球队。那么人们会发现人工智能的判断会更优越、更有说服力、更聪明以及更富有同情心。
点评与回答环节
随后,讲座进入了点评与回答环节。
上海交通大学凯原法学院郑戈教授提到他之前就读过Volokh教授的《机器人首席大法官》这篇论文,很受启发。但他认为今天的讲座更生动有趣,更大胆直白,因此也非常感谢Volokh教授。随后他从三个方面谈了自己的感受。
1.推广人工智能
在1955年的短篇科幻小说《赛博与霍姆斯大法官》中,主人公瓦尔弗雷德·安德森(Wahlfred Anderson)法官与现实世界的大多数法官一样墨守成规,对地区检察官正在推动的用计算机取代所有法官的竞选造势活动嗤之以鼻。不过,在主审了人民诉纽施塔特一案后,他的态度发生了转变。纽施塔特是一位数学教授,他公开宣称自己可以打败计算机,并且在公共场所进行现场表演,因此被地区检察官以人民的名义提起诈骗罪检控。庭审时,他要求当庭进行测试,与检察官指定的任意一台电脑展开对决,以证明自己所言不虚。在成功打败了当时最先进的机型赛博九号之后,被告向它提出了一个问题:“梦有多大?”经过一连串的嗡嗡作响后,赛博九号表示认输,显示屏上跳出一行字:“问题无法解决”。随后,纽施塔特教授在法庭上发表了一番演讲,指出自己的超强计算能力是付出了巨大的代价(人性的代价)后获得的:“我击败了赛博九号,是因为我浪费了一个人的生命——我自己的生命!你们都知道,小时候我是个背诵机器,或者用你们的话来说,是个神童。我是个文件柜,一个防火的文件柜,里面整齐地堆满了各种事实,没有给梦想留下任何空间。我一直在往这个文件柜里填东西,六十年了,不断往里面塞啊塞。”他指出,我们不应将机器智能视为威胁,它可以省却人类把自己变成机器的劳作,把人类解放出来,去想象、创造和做梦。听到这里,安德森法官松了一口气:机器将取代的只是让人类变成机器的那部分工作,它可以把人类法官解放出来,应用同理心、正义感、直觉和想象力来做出判断。
我本人非常赞同小说中纽施塔特教授的观点,即人与智能化机器并不是非此即彼,而是一种共生关系(symbiosis),也是一种共同变得不同的方式。但是,这种新的关系是否有利于人类的利益,取决于我们现在的选择,包括法律选择。
2.运行亨利测试
近年来,随着人工智能技术的突飞猛进,这篇科幻小说中的场景已经变成了现实。我们已经进入到遍布式计算时代,各种智能设备连接到互联网,每一个瞬间都会生成数以拍字节计的海量数据。计算机采集这些数据,从中进行“学习”,找到隐藏的规律和范式,借以预测未来,自动执行以前需要人类运用智能来完成的决策和操作。正如第一代机器在许多类型的体力劳动中取代了人类一样,新一代机器也在许多类型的“脑力劳动”(包括与法律实践有关的工作)中取代人类。在美国联邦第二巡回上诉法院的罗拉诉世达国际律师事务所案中,法院认为:“在审阅法律文件的过程中,一个人承担的任务本来可以完全由机器来执行,这种工作不构成法律业务(practice of law)。”这表明,在法官看来,法律业务与非法律业务之间的界限应当根据一项工作是否可以由机器完成来判断。如果这一标准得到普遍适用,人们将看到法律业务的疆域不断缩小。从合同审查到法律意见起草,智能机器已经可以胜任许多过去只能由人类律师完成的工作,而这些工作以前被视为法律业务和法律判断的重要组成部分。问题已经不是机器是否有一天会取代人类法官,而是我们人类是否应当让机器来取代人类法官。
3.遵循先例,忠实于法律
最近在密西西比州卫生部等人诉杰克逊女性健康组织案中,最高法院的多数意见初稿的泄露为美国的文化战争火上浇油。从法律的角度来看,正如玛丽·齐格勒(Mary Ziegler)教授所评论的那样:“在茱恩医疗服务有限责任公司诉鲁索案(June Medical Services L.L.C. v. Russo)的关键协同意见中,首席大法官罗伯茨援引了遵循先例原则(stare decisis),但同时却掏空了他对之表示忠诚的罗伊诉韦德案(Roe v Wade)中的实质性规则。”人们不禁要问,遵循先例是否只是为那些经验丰富的法律人提供了一个不用抛弃的酒瓶,供他们往里边填充自己喜欢的酒。人工智能在实现遵循先例的核心原理—即同案同判、类案类判—方面能否做得更好?
在这方面,中国正在进行大胆的探索。基于机器学习的类案推送系统是中国智慧法院的关键组件之一。我们可以将其视为一种平行先例系统。虽然指导性案例机制已将某些案例法要素纳入中国法律体系,但朝着该方向发展的重大变化是通过法院中算法的普遍使用而实现的。但是,这并不是说中国正在采取普通法所特有的遵循先例原则(stare decisis)。智慧法院通过智能算法来检索、推送和比对类案的做法,实际上是在寻找并遵循统计学意义上的规律,而不是寻找对类似案件有约束力的判决理由(ratio decidendi)。在机器学习的帮助下,中国法院的司法决策正朝着一种形式理性迈进,但这并不是基于三段论的形式理性(早期的用计算机编程来再现法律知识的专家系统体现的是这种形式理性,即逻辑—符号主义),而是体现经验主义和归纳逻辑的形式理性。新一代的计算机编程技术,即人工智能,使得机器可以学习数据化的人类经验,从中找出以前未被发现的规律或范式。这使得一位作者(Alison Xu)指出:“在未来的某个时刻,对案件的正确处理或许不再取决于对法律的理解,而在于用以解释一个案件的原始数据的算法”。这种中国实践不同于Volokh教授所设想的机器人法官模式,但却是我心目中认为比较理想的机器辅助人类法官判断模式。
中国人民大学副教授张吉豫认为今天的讲座很有启发性。因为我们读到很多反对人工智能法官、主张规范人工智能使用的观点。而Volokh教授的演讲提供了另一种观点和论点。张吉豫副教授表示非常赞同人工智能算法将在未来的整个法治系统中发挥更大作用的观点,但在什么环节、起到怎样的作用,需要仔细研究。她举例说明,一方面,实践中人工智能技术已经被一些平台用于侵权内容检测,支持法律实施;另一方面,人工智能仅用于协助法官可能不是整个程序的最佳设计。例如,互联网法院的法官们努力利用辅助技术来提高效率,但随着效率的不断提高,越来越多的边际案件进入法院,使得法官们面对大量案件压力。有AI算法支持的在线争端解决机制尽管也存在很多待研究的问题,但是一个非常重要的应用领域,对法治建设也有突出意义。
对于人工智能在司法环节中的直接应用,张吉豫副教授认为重要的问题并不是人工智能是否总能正确,或者是否没有偏见。就像Volokh教授说的,人也会犯错。我们会在一定程度上容忍人类法官也可能犯错的事实,并通过某些程序予以纠正,以及让法官在诉讼中发展法律。如何设计一个恰当的程序或制度来减轻AI作为法官的参与所带来的问题,是一个值得讨论的问题。让AI作为法官参与进来,是为了更好地实现法律制度的目标。因此,张吉豫副教授对Volokh教授提出一个问题:人工智能法官的开发、应用和持续的学习应该由特定的组织或团体监督吗?如果是的话,谁来监督AI算法是否正常工作呢?这个人或群体在整个法律体系中应该扮演什么样的角色呢?
中国人民大学法学院副教授郭锐从法哲学的角度对Volokh教授的演讲进行了评论。郭锐教授指出,人工智能法官可以通过约翰·亨利测试(类似法律上的图灵测试),是可能的。实际上,人们一直在测试,作为一个“局外人”能否准确地预测美国最高法院判决。已故的法学家Ronald Dworkin过去曾在纽约书评多次备受关注的最高院案件作出预测。一些观察家可以相当准确地预测最高法院判决,单单依靠是左还是右意识形态路线。对于人工智能而言,用类似方法,需要一些训练,也应该可以实现准确预测美国最高法院判决。虽然目前的技术是否能够让我们做到这一点尚不明确,但是这不是一个难以想象的技术水准。
郭锐副教授表示,他更关心人工智能法官在理解和创造意义方面的能力。(有一些新的技术方向,特别是在因果关系方面的一些突破,使得我们可能有更准确的预测,同时拥有一个我们更容易理解的意义系统。)了解我们所拥有的这些技术,以及这些技术的潜力,我们仍无法想象其创造意义。在我们的司法机构中,在大多数政治环境中,司法应当帮助人们理解意义,有时甚至能够激发出新颖的法律方向。美国历史上一些具有里程碑意义的案件,例如马伯里诉麦迪逊,以及民权运动中一些备受瞩目的案件等,都是司法创造意义的范例。后来证明,这些案例对司法权威和民主的可持续发展至关重要。
郭锐副教授提到,有些人认为美国的最高法院就像是一座神庙,法官就像传达神谕的祭司,传达他们从神所听到的正义之声。法官因此受到尊重,他们在民主制度中占有一席之地。因为他们可以对于政治家、社区律师,最重要的是所有的公民而言,讲述正义是什么。郭教授认为,如果仅仅是输入数据,那么机器学习并不会使得系统可以提出超越他们被输入内容的论点。因此,机器人法官依靠旧数据如何处理正义的新问题,就成了难题。
所有这些指向的是,没有能力创造意义的机器人法官,能否胜任司法的角色?郭锐副教授希望能够得知Volokh教授对此的看法。
中国人民大学法学院副教授邓矜婷首先对Volokh教授的演讲表示感谢,从Volokh教授的演讲中获益良多。邓矜婷副教授指出,尽管很多人表达了对于人工智能法官的担忧,但是对于未来人工智能法官的可能性更多表示接纳,这也是邓矜婷副教授在该领域花费很多时间进行研究的原因。邓矜婷副教授曾前往科技公司,对于如何让人工智能法官提供司法判决的算法进行调研,并在Georgetown Law Technology Review中发表了相关的论文,在论文当中有着与Volokh教授相似的观点。邓老师针对Volokh教授的演讲提出了两个问题。
第一个问题,实际上也是很多中国学生感兴趣的问题,人工智能法官是否道德正确?邓矜婷副教授更想反问,假如我们通过人工智能法官决定定罪与量刑,先想象自己涉嫌刑事犯罪,人类法官判决三年有期徒刑,而人工智能法官判决一年有期徒刑,你是否会觉得人类法官的判决更合理,而不是人工智能法官的判决更合理?当然,这是一个存在偏见的问题。不过邓矜婷副教授通过这个问题希望让大家思考,如果我们能够设计出一个系统来测试人工智能,并对人类和人工智能进行比较,发现人工智能更好,那么在这种情况下,我们是否仍会认为应该有人类法官而不是机器人法官。
第二个问题与第一个问题相关,那就是,除了在您讲座中提到的几个方面之外,是否还有一些东西是我们非常看重,无法被人工智能系统的良好表现取代的。比如,当人们与人类法官进行面对面讨论时,他们能够看着人类法官的眼睛,能够与所有参与者进行讨论,如此人们才能感受到正义,才能认可裁判的公平正义。邓矜婷副教授在评论最后对于Volokh教授再次表示感谢。
北京大学法学院助理教授左亦鲁在评论中对于Volokh教授所讲述的假设表示赞同,并提出三个问题。首先,结合上周Dobbs案判决提前泄露一事,你认为未来AI法官助理会怎么处理,它们还会选择泄露判决吗?以及,未来AI最高法院法官会如何处理类似堕胎、持枪和同性婚姻等棘手问题?
其次,与更加科幻的人工智能法官相比,人工智能技术在内容审核上已经得到广泛应用。总体而言,你认为平台使用人工智能进行内容管理与传统手段相比,是更有利于还是不利于言论自由?
最后,你觉得原旨主义者会如何看待使用AI法官?一个原旨主义者有可能在不修宪的前提下,批准或者说正当化对AI法官的应用吗?
中国人民大学法学院副教授丁晓东认为,Volokh教授目前所讨论的既是一个非常热门的话题,也是一个非常深刻的法理问题。丁晓东副教授对Volokh教授进行提问:Volokh教授以说服作为John Henry Test的标准,即看人工智能审判还是人工司法更能说服人。但说服更多是一种信念,还是一种交流?如果是信念,那么很可能人工智能审判的说服性取决于人们是否信任人工智能;而如果是交流,则说服的意义更在于对话和不同主体之间的交互。在法理学与司法理论中,有很多两种理论的对立。比如Alexander Bickle就将司法视为一个讲坛;但也有很多学者认为司法的权威事实上来自对权威的认同。两种不同的说服观,对于分析司法人工智能的权威性具有不同结论。例如在某些发展中国家,可能人们对于机器比对人更信任。如果说服指的就是信任,则没有交流对话也能推出人工智能司法的正当性。相反,如果说服意味着交流,则即使人们被人工智能判决书说服,人工智能司法也不具有正当性。最后,丁晓东副教授对于Volokh教授的演讲表示感谢。
Volokh教授回应他受到图灵测试的启发想出了约翰·亨利测试。但他不觉得这两个测试有必然联系。图灵测试通常被理解为机器的智力测试,它是一个充分但不是必要的测试。如果你能把人工智能与人类的智慧区分开来,那么你应该把它视为智慧。他认为这是一个重要的见解。但真正重要的部分,是质量。如果它以一种我们认为是智能的方式运作,那么我们就不能再否定它的存在了。
同样地,他指出他关注说服的原因是如果这个项目被发现是在盲测中,被发现是有说服力的,这就是最好的结果。这是一个比其他竞争对手更好的推理结果。很多情况中,程序并不需要回答问题。就像通常法官不会回答其他人的问题一样。它可能只是一次的,而不是迭代的,通常看似没有交谈就给出自己的观点。所以他认为对于说服力的评估也是一样的。就像从翻译软件引入的原因,是因为他认为翻译软件的例子是显而易见的。一旦你得出结论,人工智能翻译的盲测比人类翻译更好。你唯一理智的做法就是说,我要用这个人工智能翻译软件,我想这同样适用于人工智能法官。在点评环节与讨论环节,Volokh教授还回应了在线听众通过聊天对话框提出的很多其他问题。
最后,在经历了两个多小时的主讲与讨论后,讲座在参会嘉宾与听众的道谢与掌声中圆满结束。