荐文|丁晓东:论人工智能促进型的数据制度
时间:2024-03-29丁晓东
中国人民大学法学院教授 未来法治研究院副院长
数据融合汇聚不仅是人工智能发展的基础,而且对消除人工智能偏见、促进社会公平具有重要意义。但个人信息保护中的若干制度、著作权许可、企业数据围墙可能妨碍数据汇聚。此类问题的根源在于市场失效与传统路径依赖。法律应注重从数据事前确权迈向数据事后确权,建构数据合理使用机制,重构数据的公共性。对个人信息与著作权作品,应在数据收集端适度放宽。对企业数据,应允许符合行为规范的数据爬虫,减轻某些法律责任,发挥数据爬虫的桥梁作用。同时,法律应强化人工智能对个人信息的事中事后保护责任,防止生成式人工智能对于整体数据库的剽窃性利用。数据汇聚类似水库对于水滴的汇聚,应探索符合大规模微型权益融合的数据法律制度。
本文首发于《中国法律评论》2023年第6期思想(第175-191页),原文18000余字,为阅读方便,脚注从略。如需引用,可参阅原文。购刊请戳这里。
本文系科技部2022年度重大项目“可信人工智能立法制度建设研究”(2022ZD0120100)的研究成果。
目次
一、问题的提出:人工智能发展的数据基础
二、现行数据法律的困境
三、问题分析:大规模微型权益聚合
四、人工智能时代的数据法律重构
五、结语
一、问题的提出:人工智能发展的数据基础
随着人工智能聊天机器人程序(ChatGPT)等生成式人工智能的问世,人工智能的发展再次引起全球关注。在法律层面,大量的研究与讨论开始关注人工智能所带来的风险与监管方案,例如,人工智能带来的个人信息保护、虚假信息等问题。这些讨论无疑非常重要和迫切,对于预防人工智能的风险具有重要意义。但另一个重要问题却仍较少讨论:什么样的法律制度能够促进人工智能的发展?除了科技发展水平之外,法律制度在促进人工智能的发展中扮演了何种角色?
从要素来看,算力、算法与数据是人工智能发展的三大核心。而在这三大核心要素中,数据值得特别关注,因为算力主要涉及硬科技问题,算法则与数据密切相关。
以最近几年最为热门并且落地的人工智能自然语言处理模型(NLP)中的生成式预训练模型(GPT)和人工智能(AI)绘画扩散模型(Diffusion)为例,2021年自然语言处理模型(GPT-3)是当时最为庞大的模型,其训练使用了约300字节(300B)个词元,也即约4000亿字节(400GB)的数据,涵盖精简后的网站抓取数据集(Common Crawl)以及网页文本数据集(Web Text)、图书语料库和英语维基百科三个精心策划的高质量数据集,该模型在机器学习中所设定的参数量达到了1750亿个。
AI绘画稳定扩散模型(Stable Diffusion)使用了图文多模态数据集(LAION)组织收集的、来自网络的超过30亿张图像文本对(text pair),设置了超过11亿个参数;文本生成图像系统(DALL-E2)在对比语言图像多模态预训练模型(CLIP)中使用了约4亿个图像文本对,设置了超过35亿个参数,极为庞大的数据和参数量为二者提供了强大的图像生成能力。
海量数据之于人工智能的作用,就像人类从婴儿到儿童再到成人所接触到的万事万物。没有海量的经验性数据,单纯依靠人类的生理性发育,人类无法从婴儿时的懵懂无知成长为具有认知与理想能力的个体。
海量数据不仅对于人工智能的训练与发展具有重要作用,而且对于人工智能的公平性与社会治理也具有重要意义。例如,如果某一生成式人工智能所训练的数据都依赖于英语世界的数据,则该类人工智能产品的内容输出必然会受到英语世界内容的影响。
同样,如果人脸识别技术所依赖的训练数据依赖于某个种族,那么该识别技术就可能会对其他种族产生歧视与偏见;而拥有不同种族人脸训练数据的人工智能则可能更为公平地进行人脸识别。例如,很多手机品牌以白人或亚裔的人脸为基础进行训练,导致对黑人的拍照效果非常有限;而我国生产的传音手机由于其训练数据以黑人人脸为基础,在非洲其摄影效果就要远超其他品牌。
对于我国的人工智能发展来说,数据的海量汇聚尤其具有重要意义。我国是目前少数可以和美国进行人工智能竞争的国家,但整体而言我国的人工智能仍然处在落后美国的状态。
这其中既有芯片算力和算法模型建构的原因,更有人工智能训练数据不足的问题。例如,以英文内容为主的Common Crawl等公共数据项目以及维基百科(Wikipedia)、社交新闻站点(Reddit)等网站为国外人工智能发展提供了充分的高质量训练数据,而高质量中文数据集建设却仍不成熟,难以为中文人工智能提供同等水平的训练数据。
同时,在美国推出ChatGPT等人工智能技术之后,我国的百度等互联网公司也推出了“文心一言”等产品,但其发展水平距离美国产品仍然具有不小的差距,而且并未实现中文训练数据的独立性。例如,在图像生成领域,输入“土耳其”的关键词,其输出会出现“火鸡”图片;输入“仙鹤”的关键词,会出现“起重机”图片。在英文世界中,“土耳其”与“火鸡”的英文都是“turkey”,“仙鹤”与“起重机”的英文都是“crane”。这说明“文心一言”的训练数据显然仍然较为倚重外网数据或英文标注数据。
造成中文人工智能训练数据问题的原因具有多重因素,但法律制度是其中重要原因。由于很多数据被标注为个人信息数据,或者受著作权保护,很多人工智能企业在利用数据时面临很大的法律风险。同时,由于互联网企业之间相互封闭与数据爬虫风险的日益提高,数据的互联互通也面临众多障碍。如何既保护个人、著作权所有人和企业的合法权益,又设计出促进人工智能发展的数据制度,成为迫切需要回答的问题。
本文将对这一问题进行法律制度层面的分析;同时,本文也将深入相关问题的背后,在法理层面进行分析。本文指出,当前数据制度的核心问题在于数据收集端的形式性风险防范与确权门槛过低,导致集体行动的失败与数据汇聚困难。在人工智能时代,法律应当在收集端放宽数据的融合汇聚,但在利用端对人工智能施加更为严格的责任。
二、现行数据法律的困境
人工智能的突破依赖于数据的爆发性增长,但现有的数据立法却可能妨碍数据的汇聚与融合。在个人信息保护、数据爬虫、著作权等领域,现行立法在具有其自身合理性的同时,对人工智能训练所需的大数据形成产生了不少挑战。
1.个人信息
个人信息保护制度中的告知同意首先对数据收集形成了挑战。作为一种数据隐私自我管理的制度工具,告知同意制度可以为个体提供一定的自我保护,防止信息处理者过度收集个人信息所带来的风险。但这一制度也存在不少困境。当个人面对信息处理的复杂实践,个人往往难以理解其真正面对的风险是什么,个人常常要么是无奈选择同意信息处理者的隐私政策,要么能拒绝的尽量拒绝。
在有的情形下,这种个体认知与选择的困境会造成保护不足,使个体难以真正预防相关风险。在其他情形下,则可能存在保护过度的问题。例如,互联网企业收集个人信息进行大数据分析,但采取严格保护措施,这类做法带来了“长尾效应”,促进了消费者福利。但在告知同意制度下,人工智能却可能无法对这类数据进行合理利用。
其次,必要性原则也可能对数据收集与利用形成挑战。必要性原则强调收集个人信息的限制与处理最小化。例如,我国《个人信息保护法》第6条规定:“处理个人信息应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式。收集个人信息,应当限于实现处理目的的最小范围,不得过度收集个人信息。”欧盟的《一般数据保护条例》也规定,“个人数据的收集应当具有特定的、清晰的和正当的目的,对个人数据的处理不应当违反初始目的”,“个人数据的处理应当是为了实现数据处理目的而适当的、相关的和必要的”。
这类规定将使得数据很难被用于人工智能训练。因为除了极少数专门采集的个人信息,绝大部分个人信息被收集时,其目的都只和生活、消费、资讯、出行、娱乐、服务等个人目的相关。如果严格解释必要性原则,则即使信息处理者进行告知并获取个人同意,此类人工智能训练也将属于违法。因为必要性原则作为个人信息处理的整体性原则,不能通过告知同意而进行规避。
最后,公开个人信息的处理也存在挑战。传统隐私侵权法一般并不保护公开个人信息,但个人信息保护制度将其纳入保护范围。尤其是欧盟的《一般数据保护条例》,其对公开个人信息保护进行一体保护,仅在有限的条款中进行规定,并主要通过言论自由、公众知情权等原则在个案中允许此类信息的处理。
相较之下,我国的《个人信息保护法》对于公开个人信息进行了例外规定,将“个人自行公开或者其他已经合法公开的个人信息”作为例外规定。但即使是我国,也仍然规定个人可以“明确拒绝”处理个人信息,“对个人权益有重大影响的”应当获取其同意。如果对于这一制度进行严格解释,则人工智能训练数据将受到重大影响。
目前,人工智能训练的数据中的大部分数据都来自于公开数据,例如,ChatGPT的主要训练数据是公开的Common Crawl数据项目和Reddit等公开网站数据,百度“文心一言”的主要训练数据也来自于百度百家号、百度知道等一系列公开网站。而公开数据往往缺乏交互场景或联系方式,信息处理者很难联系到个人和获取个人同意。如果人工智能对于公开个人信息的利用适用个人信息保护的一般规则,则人工智能将很难获取足够的数据集合。
2.著作权
著作权也会对人工智能训练数据的汇聚和融合形成挑战。首先,当人工智能企业试图使用网络上的文字、图片、声音等素材进行训练时,这些文字、图片、声音很可能已经受到著作权保护。著作权保护的门槛并不高,只要“具有独创性并能以一定形式表现的”作品,均能获得著作权保护。例如,微博、知乎上发表的文字或问答,微信、小红书、抖音上用户上传的音乐、图片、视频,在达到独创性的门槛后,都可能获得著作权保护。
一旦人工智能企业利用这些内容数据,就有可能对这些数据构成著作权侵权。对于人工智能企业而言,单次侵权的赔偿额度或许可以负担,但如果大量用户提起著作权侵权诉讼,人工智能企业将面临巨大的诉讼压力和赔偿压力,同时还可能面临很大的社会声誉压力。
对于人工智能企业而言,获得每项作品的著作权许可极其困难。很多作品的作者难以直接联系到,例如,一些用户可能发表了文字或上传了图片与视频,但并不经常查看其邮箱或账户消息,或者对企业要求获得其许可的请求置之不理。还有很多作品则可能完全找不到作者,属于“孤儿作品”(orphanworks)。对于这些作品,如果著作权人不主张权利,人工智能企业可能没有什么风险;但如果著作权人突然“站出来”,则其可能“面临侵权诉讼的风险”。
此外,即使人工智能企业联系到上述情形中的著作权人,也可能遭遇不合理的要价问题。很多普通用户可能会觉得,人工智能企业可以创造巨额利润,因此应当支付较高费用来获取其著作权。但对于人工智能企业而言,单项作品所能带来的利润非常有限,人工智能企业将很难和著作权人达成许可协议。
数据库和各类著作集体管理组织可以在一定程度上解决大量作品的著作权许可问题,但其作用有限。对于数据库而言,数据库所拥有的数据可能仍然较少,难以满足人工智能数据训练所需要的数据量。而且很多数据库并不拥有其中大部分作品的著作权,这些作品的著作权可能仍然归分散的著作权人所有。
上文提到的著作权人难以联系、策略性要价问题就仍将存在。对于各类著作集体管理组织而言,这些组织主要集中于传统著作权保护的领域,对于大量互联网等普通用户所创造和上传的数据很少保护。例如,我国的中国音乐著作权协会、中国音像著作权集体管理协会、中国文字著作权协会、中国摄影著作权协会、中国电影著作权协会,美国的作曲家、作家与出版商协会(American Society of Composers,Authors and Publishers,ASCAP),广播音乐联合会(Broadcast Music Incorporated,BMI),其保护对象都难以囊括大量互联网上的著作权作品。
3.数据互联
对数据汇聚形成另一挑战的是数据互联问题。互联互通被认为是互联网的核心精神之一,自互联网的前身阿帕网(ARPAnet)到后来的传输控制协议/网际协议(TCP/IP),以及一系列网络治理机制和技术标准组织,都默认了互联网的公共性特征。除非企业或个人设置密码等保护措施,用户终端一旦接入互联网,就意味着终端数据向所有用户开放。网络的互联互通带来了溢出效应(SpilloverEffect),极大促进了数据的共享。但随着互联网的发展和商业化,网络互联也出现了新的问题,使得数据公地重新面临挑战。
首先,越来越多的互联网企业开始设置“栅栏”或“高墙”,防止其他企业特别是竞争企业获取其数据。例如,淘宝很早就对百度关闭端口,防止百度搜索其店铺页面的信息;微信对滴滴、淘宝、抖音等竞争对手进行选择性的屏蔽;百度也试图通过爬虫协议(Robots)拒绝360搜索。互联网企业的这类做法有各自目的,有的是为了打造自身的封闭生态系统,有的是为了竞争目的,有的是为了安全目的,但无论如何,这类做法都使得互联网出现了数据孤岛现象,数据无法互联互通。
对于人工智能发展而言,此类情形已经造成了明显的影响,例如,我国的互联网企业纷纷发布类似ChatGPT的生成性人工智能,但无论是百度、阿里还是京东,其数据的匮乏都使得其产品难以达到ChatGPT的效果。如百度发布的“文心一言”,其训练数据的主要组成部分是百度知道、百度知识图谱等百度本身所掌握的数据与网络公开数据,缺乏其他互联网内容企业“独占”的高质量数据,在训练的效果上自然存在一定的局限性。
其次,数据爬虫的法律规制也带来挑战。如果说企业自我设置的围墙是一种自我割据机制,那么法律关于数据爬虫的规制则对数据桥梁机制产生了挑战。目前,我国对数据爬虫存在竞争法、刑法等多种不同的法律规制手段。在企业之间,大量的数据爬虫案件通过反不正当竞争法来实现。由于互联网企业被认为经常可以跨界经营,即使业务非常不同的两个互联网企业,也可能会因为数据爬虫而被认定为不正当竞争。
在刑法上,我国《刑法》第285条规定了非法侵入计算机信息系统罪、非法获取计算机信息系统数据、非法控制计算机信息系统罪。在实践中,当数据爬虫造成网站宕机,就可能因为触犯刑法而入罪。如果法律允许合理的数据爬虫,则数据爬虫就可以充当不同数据孤岛之间的桥梁。相反,在刑法等法律的严厉规制下,中小企业和个人用户的数据爬虫变得极为谨慎,不再充当数据共享的连接者。
三、问题分析:大规模微型权益聚合
从原理层面分析,数据汇聚所面临的难题在于市场机制的失灵,微型权益的聚合难以通过市场机制实现。而其深层法律制度原因则在于个人信息保护、著作权、数据互联等制度对传统法律制度的路径依赖。为了实现大规模微型权益的聚合,有必要重构数据的公共性。
1.市场机制的失灵
从法律原理看,数据聚合的难题在于外部性问题。外部性问题主要指个体决策对外部造成的影响,例如,环境污染、公共卫生等,其核心是私人行动可能对他人或社会造成集体负面后果。例如,某一面包房企业产生噪音,影响周围邻居;某人因为成本、风险等担忧而拒绝打疫苗,影响传染病防治。针对外部性,一种解决方案是通过国家规制进行调整,如通过庇古税来增加边际私人成本,从而实现社会成本等内部化(internalization of socialcost)。
而另一种解决方案则是依赖市场机制。科斯定理指出,在交易成本为零的情形下,外部性问题可以通过私人之间的协商或交易而解决,如面包房企业会和周围邻居进行协商,设定合理的噪音补偿机制。自从科斯定理提出以来,通过市场和财产权等机制解决外部性问题,成了更受偏好的路径。有研究者认为,产权的清晰界定可以减少交易费用、促进市场自由协商。
但在数据问题上,数据确权与市场交易难以解决数据聚合问题。早在20世纪60年代,肯尼斯·阿罗(Kenneth Arrow)就在相关研究中指出,信息与数据交易常常面临多重困难,如买家在购买之前首先需要了解或试用数据,以确定数据的价值,而了解或适用数据即意味买家可以不用再进行购买;当数据的价值不确定时,买家和卖家也更难达成协议。
在知识产权领域,数据型专利的交易也表明,企业之间常常面临很高的交易成本。在本文提到的个人信息、用户生成内容(User Generated Content,UGC)等领域,这类问题将更为严重,因为此类情形具有大规模微型数据汇聚的特征。在个人信息保护立法与著作权保护的背景下,企业更难与海量个体进行有效交易。
市场机制下的数据库或专利池等方式也难以完全解决这类问题。数据库或专利池通过对大量作品或专利进行汇集,为使用者提供集中许可,的确可以大幅减少数据使用者的交易成本。但数据库或专利池所收集的常常是具有单独使用价值的作品或专利,而非大量一般性数据。对于具有单独使用价值的作品或专利,数据库或专利池的所有者可以更容易和权利所有者进行谈判,其作品或专利也更容易找到买家。
人工智能所要使用的汇聚型数据远远超出此类范围,其依赖的主要是用户所产生的内容数据,这些数据常常不具有特别明确的价值,也并未被各类数据库或专利池所收录。而且,人工智能所依赖的数据还常常需要及时更新,保证其正确性,而数据库或专利池所收集的数据则常常不具备这类特征。就此而言,数据库或专利池可以部分解决传统知识产权领域中的数据聚合问题,但对于人工智能所要求的海量数据聚合,仍然面临很大障碍。
2.制度的路径依赖
与市场机制失灵相关的是,个人信息、著作权、数据互联存在路径依赖的难题。这些领域的制度起源于人工智能时代之前,其制度设计以工业社会甚至是传统农业社会为模板。这些制度在具有合理性的同时,也面临与信息时代脱节的问题,特别是与人工智能所需要的数据大规模汇聚存在冲突。
以个人信息保护为例,个人信息保护制度起源于20世纪六七十年代,在理念上与个人信息控制论或自决论密切相关,其制度则起源于美国的“公平信息实践”(fair information practices)。这一制度在当时具有很强的合理性,因为在20世纪六七十年代,个人信息保护所面临的主要问题是个人档案性信息被国家规制机构处理。就知情同意而言,当时个人被收集信息的次数非常有限,而且收集个人档案类信息往往非常明显,个人往往有很强的意愿了解信息收集的情况。
就必要性而言,当时的个人信息没有汇聚的需求,甚至其主要目的就是防止数据的过度收集和汇聚,美国国会甚至还在1988年制定了计算机匹配和隐私保护法,以防止不同规制机构匹配数据,泄露个人隐私。但到了大数据特别是人工智能时代,个人信息所面临的场景已经大不相同。
如今,个人每天都面临大量个人信息在不知情的情形下被收集的处境,如果每次收集均要求获取个人知情同意,个人将不得不面临信息过载和决策过频的难题,很难真正作出有意义的决定。而且,大数据与人工智能时代所需要的恰恰是数据的汇聚融合。如果说传统社会主要防止个人信息的匹配与融合,担心其融合带来负外部性,那么人工智能恰巧是要实现数据匹配与融合后带来的正外部性。
再以著作权为例。著作权制度起源于二百多年前,这一制度本身具有很强的合理性,尤其对于农业社会与工业社会的知识生产,著作权可以保护创造者的人格与劳动,提供有限激励。在农业社会与工业社会,作品创造、印刷、传播都需要很高成本,如果此类作品无法得到法律保护,作品创造者和运营商所付出的成本得不到回报,则此类知识生产与传播都可能缺乏动力。
但在网络与信息社会,知识生产的方式发生了深刻的民主化转型,普通民众能将自己所创造的产品进行大范围分享,不再需要依赖传统的出版社、音乐公司进行制作和传播。而且即使缺乏著作权激励,很多用户也仍然会有动力进行创造和分享。也因此,如果将传统著作权延伸到网络环境下的所有数据,如对用户生成内容也都完全适用传统著作权保护,就可能形成过度保护的困境,使得海量的数据难以被收集、汇聚和利用。
尤其对于生成性的人工智能,其训练数据高度依赖Reddit、Wikipedia、知乎等社区的高质量内容。如果此类数据都受到排他性的著作权保护,排除人工智能对这类数据的合理利用,则生成性人工智能将很难发展,或者很难训练出高质量的产品。
网络互联机制也面临路径依赖的难题。在私人自治与公共互联之间,传统社会的法律更强调前者。在法律上,财产的私有制是更为一般性的原则,公共互联的财产则主要限于某些特定物品,例如,公共道路、公共食堂、湖泊、河流。在互联网的发展历程中,这种以不动产和动产为基础的法律想象也深刻影响了互联网规制。
尽管互联网一直秉持互联互通的理念,但随着互联网的商业化,法律也逐渐为企业提供财产权保护。我国《刑法》第285条的规定,以及美国的《计算机欺诈和滥用法案》(Computer Fraudand Abuse Act,CFAA),都将互联网企业的计算机视为类似私人财产,所有未获许可的访问都属于违法行为。
不过,法律实践也迅速意识到,互联网中的私人计算机与数据和传统私人财产有很大区别,并非所有未获许可的访问都属于违法行为。如果说传统社会是以私人自治为一般规则、以公共互联为例外,那么在网络社会中则是以公共互联为规则、以私人自治为例外。在人工智能时代,法律更需要摆脱传统路径的依赖,在维护企业自治的同时维护数据的互联互通。
3.公共性的重构
为解决数据汇聚的难题,有必要重新建构数据的公共性。对于数据的公共性,法理学、知识产权和信息法领域的很多学者已经进行了许多有益的探索。
例如,丽贝卡·艾森伯格(Rebecca S. Eisenberg)和迈克尔·A.赫勒(Michael A. Heller)两位教授指出,在数据领域,过多的排他性权利保护导致了社会对它们的利用不足,构成了一种“反公地悲剧”(The Tragedy of Anti-Commons)。卡罗尔·罗斯(Carol M. Rose)在其关于公有物的研究中指出,对数据进行公有物保护,更能促进社会的整体福利,从而带来所谓的“公地喜剧”(Comedy of the Commons)。
在互联网兴起后,数据的公共性特征得到了进一步关注。例如,哈佛法学院的尤查·本科勒(Yochai Benkler)对互联网的知识生产机制进行了重新阐释,在他看来,互联网作为公共领域为社会的自发协作提供了平台,促进了知识与数据的大规模汇聚。
当然,数据不仅具有正外部性,也具有负外部性。个人信息保护不仅涉及个人,也可能涉及第三方,如个人的基因信息也会揭示第三方信息。正如奥姆瑞·本·沙哈(Omri Ben-Shahar)教授指出的,缺乏个人信息保护,数据的汇聚将类似数据污染(data pollution),对这类数据进行利用不仅可能对个人的人格尊严、财产、人身造成危险,而且可能危及他人。再如,知识产权的学者也指出,对数据或信息进行合理保护,有利于激发私主体的创造,鼓励个体公开其具有价值的数据。企业对其数据进行合理保护,有利于企业建构良性生态系统,防止恶性竞争。
在这个意义上,数据的合理保护也是一种公共善(public good)。数据的公共性并不意味着任何数据都应当完全共享,无论是个人信息类数据的法律保护、作品类的著作权保护,还是企业对于其数据的自我保护,都具有很强的合理性与正当性。
数据的公共性也并不否认数据利用的公平性。有观点担心,降低数据收集与汇聚的门槛,将带来数据利用的非公平性,导致大量中小企业和个人无法对数据进行利用,少数人工智能企业则垄断数据利用。这些观点指出,数据汇聚型的法律制度将导致人工智能企业获得数据的绝大部分收益,而个人信息主体、著作权所有者和数据企业则无法分享收益。这些担忧无疑是合理的。
事实上,很多学术研究和法律实践对此都做出了回应。例如,纳德日达·普托娃(Nadezhda Purtova)教授重提个人数据的财产化价值,欧盟的数据法草案和我国的《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(通称《数据二十条》)都提出了“数据用户”的公平利用权或数据来源者权利,欧盟人工智能法草案为了应对ChatGPT等生成式人工智能的挑战,要求人工智能公司披露其系统开发过程中使用的所有著作权作品。
但数据的公平性不应通过微型权益确权或强化企业的数据排他性确权来实现。这类确权不仅妨碍数据的大规模汇聚,而且可能对中小人工智能企业带来不成比例的困难,形成更严重的数据不公。
毕竟,很多超大型的互联网企业都拥有自己的数据源,无论是百度、谷歌(Google)这样的搜索引擎企业,微信、脸书(Facebook)这样的社交企业,还是阿里、京东、亚马逊(Amazon)这样的电商企业,都可以通过海量用户所上传的内容而获取大量可以供人工智能进行训练的数据。相反,很多中小企业由于没有此类数据,往往陷入无米之炊的难题。如有的学者所言,如果不能对公共领域的数据进行合理利用,那么其结果将是“脸书、微软和谷歌等公司将永远主导人工智能领域”。当其他中小企业难以获取数据时,这些超大型企业总是可以利用用户协议和生态系统而获得海量数据。
目前,这一问题已经反映在我国的通用人工智能发展上。由于本文所提到的数据汇聚难题,目前我国的通用人工智能主要局限于百度、阿里等少数几家大型互联网企业。相反,美国由于其数据公共领域的相对发达,类似OpenAI这样的独角兽企业也能获得足够训练数据,发展出比微软、谷歌等大型企业更为出色的ChatGPT。数据的公平性理应成为法律追求的目标,但在实现手段方面,应当通过其他更具有创新性的手段解决这一问题。通过微型权益确权将导致数据无法汇聚,并导致更为严重的数据不公平。
四、人工智能时代的数据法律重构
为了重构数据的公共性,应对个人信息、著作权与数据互联的法律制度进行重构。这种重构一方面应促进数据的大规模汇聚融合,避免在数据的收集与融合端对人工智能收集数据进行过多限制。另一方面,在人工智能的数据利用端,应对人工智能施加更为严格的数据保护职责,要求人工智能承担更多的社会责任。
1.个人信息
就个人信息保护制度而言,应首先避免过度依赖个人同意制度。数据隐私的大量研究已经指出,期待个人利用同意机制保护个人信息并不现实,实践中的同意往往异化为个人信息处理的“自由通行证”。信息处理者不仅可以通过个人同意而轻易收集个人信息,而且其处理也常常可以因为告知同意而免责。
从人工智能促进的角度,可以进一步指出,过度依赖个人同意将把大量并不存在风险的数据排除在利用之外,不利于个人信息的汇聚与合理利用。为此,对于从互联网等途径收集的信息,法律应适度减少对个人同意的依赖。要求用户进行过多的同意,或者不断复杂化同意的形式,要求企业采取单独弹窗、选择加入(Opt-in)等模式获取用户同意,不但可能造成个人信息保护流于形式,而且可能妨碍数据的汇聚。
当然,减轻对个人同意的依赖,并不意味着放弃告知同意制度。对于与人工智能进行直接交互的个人信息数据,此时仍然应当保持告知同意要求。例如,ChatGPT、“文心一言”等生成式人工智能在利用用户聊天记录进行训练时,就应当获得用户的明确授权,因为用户聊天记录常常包含个人敏感信息或私密信息,对此类个人信息的不当利用将损害用户对于生成式人工智能的信任。
此外,对于其他从网络上收集的个人信息,对告知同意制度进行合理化设计,也仍然可以发挥其保障个人知情权、获取用户信任的作用。尤其是告知同意中的隐私政策,其可以发挥告知个人之外的多种作用。例如,隐私政策可以成为企业内部的合规章程,促进企业建立一体化的自我规制体系;隐私政策可以成为个人申诉、个人诉讼、政府监管的依据,为个人信息保护的救济与执法提供线索与证据;隐私政策也可以为市场主体与非交互场景下的个人提供信息,为市场与社会监督提供媒介。
综合而言,法律应在减轻个人同意要求的同时,保持甚至强化企业的告知义务。当企业在其隐私政策中提供详细的个人信息处理规则说明,则即使个人很难在交互场景下理解,这类隐私政策也能扮演重要的沟通信任的角色。
其次,在人工智能适用场景下,应对个人信息处理的必要性原则进行适度扩张解释。对于必要性原则中的目的限制原则,应将其解释为不违反个人的合理预期,而非解释为必须与个人信息收集时的目的保持一致。对于必要性原则中的最小化原则,也不应将其视为否定所有二次利用。正如英国信息委员会办公室(ICO)在《大数据、人工智能、机器学习和数据保护》的报告中所指出的,“决定一个新的目的是否与原来的目的不兼容的”,需要“考虑新的目的如何影响相关个人的隐私,以及他们的数据是否在合理预期范围内可以以这种方式使用”。
即使是个人信息保护极为严格的欧盟,也在《一般数据保护条例》的“重述”中规定,在分析目的限制与最小化原则时,“有必要考虑原始处理和新处理之间的任何联系、数据主体的合理期望、数据的性质、进一步处理的后果以及是否存在安全保护”。如果对必要性原则进行过度严格的解释,则人工智能对于大量个人信息将无法合理使用。
对必要性原则作适度扩张性解释,对我国《个人信息保护法》尤其具有重要意义。我国的《个人信息保护法》在立法起草阶段,正值个人信息亟待规范的历史阶段,立法者出于政策考量,并未在其中包含“正当利益”条款,即信息处理者的正当利益不能成为个人信息处理的合法性基础之一。我国《个人信息保护法》的这一特征,使我国人工智能对于个人信息的合理利用面临更大障碍。
欧盟的《一般数据保护条例》虽然被认为是史上最严格的法律之一,但其将“控制者或第三方的正当利益”作为处理个人数据的合法性基础之一,为个人信息的合理利用提供了更多途径。在正当利益条款下,很多没有获得个人同意或没有其他合法性基础的个人信息处理都可以被视为合法。对于用于人工智能训练的数据处理,这一条款也可能成为人工智能企业的合法性基础之一。
再次,法律应对公开个人信息保护适用特殊规则。在个人信息保护中,对此类信息进行特殊规定,符合个人信息保护的一般原理。因为个人自行公开意味着个体对其中的风险有较强的事前预期与预防,而合法公开则常常是政府所为,此类公开常常是为了满足公众知情权或促进公共利益。人工智能的发展需要数据的大规模汇聚,这进一步强化了对公开信息进行特殊规制的需求。目前,美欧对公开个人信息采取了完全不同的进路,美国基本上将个人公开信息排除在保护范围之外,欧盟则未明确区分公开个人信息与非公开个人信息。
而我国则在制定法上对其采取了特殊规制的进路,在允许处理的同时赋予了个人的拒绝权,并规定“对个人权益有重大影响的”应当获取其同意。这一规定与本文的主张具有一致性,但在解释与适用上可以进一步注重与汇聚型数据的衔接。对于个人的拒绝权,应根据个人信息的去标识化程度、信息的敏感性等特征在具体场景中进行界定。因为一旦个人信息进行了去标识化处理,或者信息不具备任何敏感性,则此类信息的汇聚利用与个人权益之间的关联就较弱。反之,即使是公开个人信息也将影响个人权益。
而在告知同意方面,法律在强化告知要求的同时,减轻同意要求。公开个人信息中的大部分信息都很难直接联系到个人,很少有交互页面可以对个人进行告知并获取其同意。而且,要求个人同意可能对个人信息造成更大威胁,因为告知同意本身就意味着需要联系和识别个人。
最后,应强化人工智能企业在数据利用环节的个人信息保护责任。上述告知同意、必要性原则和公开个人信息的制度设计,有利于放松个人信息在收集端的法律限制,促进数据的大规模汇聚。但在数据汇聚后,法律就应施加更多监管,强化人工智能的处理者责任。例如,在数据清洗(Data Cleaning)、数据标注(Data Annotation)、模型训练和评估(Model Training and Evaluation)、模型部署与应用(Model Implementation)等阶段,应当对个人信息数据进行全生命周期的监管。
尤其对于生成性人工智能,其信息输出如果包含个人信息,就类似于公开个人信息,更应受到法律的严格规制。目前,我国和域外个人信息保护的制度工具箱中已经具备了多种制度工具,例如,企业内部合规、数据保护专员、合规审计与个人信息影响评估、隐私设计、算法审计、数据伦理等。法律应结合人工智能的特征与具体场景,在个人信息的存储、使用、加工、传输、提供、公开等环节强化人工智能企业的主体责任和国家保护义务。
2.著作权
对于涉及著作权数据的人工智能利用,可以首先将人工智能区分为生成式人工智能与非生成式人工智能。非生成式人工智能并不直接产出作品,其对数据的复制与训练必然是非表达性(non-expressive)或非消费性(non-consumptive)利用。例如,人脸识别利用人脸照片数据进行训练,是为了更为精准识别个体;自动驾驶利用交通照片数据进行训练,是为了对各类不同情形进行更准确预测。而表达性的人工智能除了利用数据进行训练,也输出与训练数据具有同类属性的作品,例如ChatGPT、“文心一言”等可以生成各类文字、图片、音乐与视频。
对于非生成式人工智能,其对著作权作品数据的利用应被视为合理使用。非生成式人工智能对于著作权作品的利用目的是获取其中的事实性知识,而非创造性表达。当非生成式人工智能利用人脸照片或交通照片进行训练时,其对照片中的创意性表达或创意性因素并不感兴趣。事实上,过于创造性的作品反而不利于非生成式人工智能获取有效信息,因为这类作品往往带有创作者个体的特征,与真实世界相差较大,从而对人工智能训练造成干扰。
而在著作权的法律实践与法律原理上,各国都坚持事实/表达(或思想/表达、过程/表达)二分法,坚持著作权仅保护思想的表达,不保护思想或事实本身。例如,我国《著作权法》第5条将“单纯事实消息”排除在保护范围之外,欧美也在相关案例和法律规定中确立了该原则。允许非生成式人工智能利用著作权数据进行训练,符合各国著作权的一般规定与基本原理,也将有利于解决本文所提到的数据大规模汇聚问题。
生成式人工智能对于数据的利用更为复杂,因为其对著作权作品数据的利用常常既涉及事实,也涉及表达,其生成作品有可能对原作品形成替代。
但整体而言,生成式人工智能对著作权作品数据的利用也应被视为合理使用。从法理上看,这一方案更符合著作权的基本原理。从著作权所包含的人格性权益来看,生成式人工智能对于著作权作品的利用,是利用海量数据进行训练,并不会侵犯特定作者的人格权。从激励机制来看,生成式人工智能所创造的作品也不会对特定作品形成替代,不会减少作者的创造性表达。大量的用户生成内容都是用户的主动创造,其创造并非特定激励机制下的产物。
至于生成式人工智能可能替代大量绘画从业者,这一问题也不应通过著作权加以解决。在技术进步的时代洪流中,职业的变迁是不可避免的现象,而且也可能催生更有创造力的艺术工作。就像摄影技术的发明替代了传统的人像绘画师,但并未替代具有创造力的各类画家。生成式人工智能可能产出大量普通用户可以完成的作品,但这一现象也会促进互联网用户发展更具有个性特征、更具有创作力的作品。
当然,无论是哪种类型的人工智能,其对数据的收集与利用都不能破坏有效协议或技术措施。在实践中,著作权人或数据库持有者常常利用用户协议、机器人协议等方式进行自我保护。当相关协议具有法律效力,就应当为此类自我保护措施提供救济。
此外,著作权人或数据库持有者也可以利用侵权法提起诉讼或权利主张,当人工智能对于数据的利用具有过错并产生具体损害,法律应当为相关行为提供侵权法救济。但无论是合同法保护还是侵权法保护,其对著作权或数据库的保护都应当以责任规则为基础,不应将著作权作品或数据库作品视为排他性的财产性权利。当非生成式人工智能对这类数据进行利用,或者生成式人工智能对其进行利用后的产出作品并不损害作品或数据库权益时,此类利用都应属于合法利用。
人工智能在对著作权作品进行宽泛合理使用的同时,也应承担与此相应的更多责任。首先,人工智能应承担社会责任,避免数据与算法歧视、价值观等方面的风险与侵害。例如,人脸识别技术不能对某些特定种族的人群形成歧视,自动驾驶不能将风险不公平地转移到某类群体,生成性人工智能应当避免出现色情、仇恨言论。
对于此类风险,我国与欧盟都进行了类似规定。我国《生成式人工智能服务管理办法》第4条规定,“利用生成式人工智能生成的内容应当体现社会主义核心价值观”,应“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视”。
其次,人工智能企业应对具有实质相似性的生成作品承担侵权责任。上文提到生成式人工智能企业对于著作权作品的利用应当被视为合理利用,但这种合理利用不应被理解为完全免责。毕竟,有的生成式人工智能对于著作权作品的利用不仅仅提取其事实性知识,而且提取其表达。更有甚者,则可能以人工智能的名义对原始作品进行简单剪切和拼接。
对人工智能施加此类责任,既有利于合理保护作品原创者的利益,防止其作品被类似作品替代,也有利于激励人工智能企业的发展。如果人工智能对于著作权作品的利用不是获取其事实性知识,或者没有在原有基础上进行创造性利用,那么人工智能就可能成为规避著作权保护的工具,助长抄袭与剽窃之风。
最后,应避免对各类生成类作品赋予著作权。对于人工智能生成作品的著作权问题,目前实务与理论界的主流意见反对赋予人工智能作品以著作权,但也有部分国家和地区规定,人工智能的设计者可以拥有著作权。在学术研究领域,也有部分学者认为应当赋予人工智能企业以著作权。
但这类看法与本文的基本原理存在冲突,与其获得大量著作权作品进行训练与利用的权利并不匹配。而且,对生成式人工智能的作品进行著作权确权,也会造成大量的作品无法被重新利用的难题。更为合理的制度设计是,将这类作品视为公共领域作品,允许公众与企业对其进行一般利用。人工智能企业可以推出用户付费版本,通过用户协议来获得报酬,但无权在其生成作品上设定著作权。
从比较法的经验来看,也可以得出上述结论。总体而言,美国对著作权作品的合理使用范围规定较宽。美国对于合理使用的判断依据“四要素”标准,通过多年的司法实践,法院逐渐将“机器阅读排除在著作权法之外”。非生成性人工智能对于著作权作品的利用,在美国被视为合理使用。
此外,自从皮埃尔·莱瓦尔(PierreLeval)法官发表《迈向合理使用准则》一文以来,使用目的成为了美国司法裁判的压倒性标准。对著作权作品的利用是否属于合理使用,主要取决于是否转换性使用(transformativeuse),即是否“添加了新的东西,具有进一步的目的或不同的特征,以新的表达、意义或信息改变了原来的内容”。在这种标准之下,生成式人工智能所生成的作品,很可能会在美国被认定属于合理使用。至于美国知识产权学术界,则大多主张将人工智能利用数据视为合理利用,如莱姆利教授(MarkA.Lemley)认为,人工智能对著作权作品的利用是一种“合理学习”(fairlearning),著作权不应保护以学习为目的的版权利用。
相较之下,欧盟虽然也为生成式人工智能的著作权利用提供可能,但整体更为谨慎。欧盟2019年的《数字化单一市场版权指令》(DigitalSingleMarket,DSM)为人工智能利用数据提供了合理使用的依据。该指令第3条规定,研究机构和文化组织为了“文本和数据挖掘”(textanddatamin-ing)研究而复制著作权作品,应当为法律所允许。第4条进一步规定,任何机构都应当有此种复制权利,但当著作权所有者明确保留其“文本和数据挖掘”权利时,机构就无权进行复制。上述规定为人工智能利用数据提供了法律依据。
但在2023年初生成式人工智能引起关注后,欧盟最后一刻在《人工智能法案》加入了要求生成式人工智能对其利用的著作权作品保持透明性的条款,该条款虽然没有明确要求利用著作权作品都必须获得许可,但仍然为著作权所有者提出权利主张埋下了伏笔。
我国《著作权法》第24条规定,在“法律、行政法规规定的其他情形”中,在“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”的前提下,“可以不经著作权人许可,不向其支付报酬”。在中国与美国人工智能竞争白热化的背景下,综合法理与比较法,我国应将人工智能对于著作权作品的利用纳入合理使用范围。这一方案不仅符合著作权的基本法理,而且将使我国的人工智能发展在中美欧的竞争中追赶美国,对欧盟继续保持领先地位。
3.数据互联
就数据互联而言,应首先避免对网络公开数据进行绝对化与排他性的确权。随着数据价值的凸显,数据的利益分配成为各方关注的焦点,有声音呼吁通过数据确权实现此类分配。但从数据制度的原理来看,数据确权应当注重数据的不同类型与场景,不宜对所有有价值的数据都进行财产权保护。法律可以对符合著作权、专利条件的数据进行知识产权保护,也可以对采取保密措施、有价值的商业数据进行保护,但不应对不符合前述条件的网络公开数据进行排他性确权保护。
过去几十年来,正是网络公共空间的兴起导致了数据的爆发性增长,为人工智能的发展提供了坚实的数据基础。如果此类数据成为排他性的财产,则无论此类数据是私人企业所有还是国家所有,数据都会走向封闭,产生人为制造的“数据孤岛”现象。
对于网络公开数据,不同企业可以对其自身创造的数据进行自我保护,法律也可以对一些违法或不合理的数据爬虫进行行为主义规制,但此类规制区别于排他性的数据确权。排他性的数据确权预设了数据的孤立性,要求数据的获取与互联都必须得到事先许可;而数据的行为主义规制则预设数据的互联,将某些行为排除在外。
其次,法律应适度减轻各类数据爬虫的责任,利用各类合理的爬虫机制打通不同企业之间的数据壁垒。从动产或不动产的角度看,数据爬虫常常被想象为盗用,甚至从知识产权的角度,数据爬虫也很容易被类比为侵权或不正当竞争。但数据爬虫本身具有技术上的中立性,对于不受知识产权保护的数据,数据爬虫具有促进互联的重要作用。尤其在数据企业纷纷设置壁垒、互相防范的情形下,数据爬虫可以成为不同企业数据融合的桥梁。为此,对于合理的数据爬虫不应施加过多限制。对于造成宕机等后果的数据爬虫,法律也应更多依赖侵权责任法加以应对,慎用刑事措施。
从比较法看,不少国家和地区也经历了此种转变。美国的计算机欺诈和滥用法案将未获许可的爬虫都视为犯罪行为,将其类比为线下的非法侵入(trespass)行为。但法院逐渐意识到,计算机欺诈和滥用法案是一部前互联网时代的法律,在互联网时代,对其进行适用应当符合互联网的特征。在实践中,美国的各级法院逐渐将很多数据爬虫去罪化。在学术研究和讨论中,很多学者也指出,数据爬虫应当类比进入对公众开放的商店,其合法性应当按照此类空间中的社会规范决定,而非类比为侵犯私人财产。
最后,法律应通过行业自律等方式,在允许互联网企业自治的同时推动企业之间的互联互通。互联网企业自治与互联各有利弊。一方面,虽然互联网具有公共性,但允许互联网企业进行合理自治,特别是对自身生态系统进行半封闭性管理,有利于打造多样性的互联网生态。例如,在科技与操作系统行业,苹果系统采取半封闭的生态系统,使得苹果系统在开放性方面逊色于安卓系统,但在安全性稳定性方面却远胜安卓系统。互联网的自治与互联亦是如此,要求互联网企业完全开放,也可能对企业的合理生态管理造成威胁。
另一方面,在互联网企业各设栅栏围墙的背景下,互联网面临集体行动失败的难题,应积极推动数据互联与数据融合。尤其是在人工智能发展的背景下,企业呈现前所未有的数据融合需求,更应鼓励企业主动挖掘数据互联融合的价值,加快促进数据互联与数据融合。
近期作为美国人工智能训练数据来源之一的Reddit宣布将有偿提供网站数据以供人工智能预训练等用途,这一数据共享方式既能够为人工智能相关企业的数据获取降低风险并提供便利,也为互联网内容企业的估值和变现途径难题提供了全新的解决路径。利用法律与行业自律的方式助推数据互联,打破互联网企业之间的困境,可以为人工智能发展提供其亟须的数据源,也有助于数据价值的充分利用。
五、结语
人工智能所依赖的数据公共性并非全新问题,在信息社会之前,这类问题就普遍存在。大量集体行动失败的例证表明,理性个体的投票、选举等活动不能产生符合公共利益的结果。在财产权的研究中,也有大量研究表明,对草场、河流、湖泊等自然资源设定排他性权利,可能妨碍此类资源的公共性利用,形成反公地悲剧。数据可谓人工智能时代的公共性难题,此类难题的关键在于,如何在保护个体或企业合法权益的同时,实现数据的聚合与互联。
现有数据法律制度的问题在于过度依赖财产性或排他性赋权。例如,个人信息保护制度高度依赖个人控制论或个人信息自决论,著作权上的人格性权益与财产性权益也具有较高的排他性,互联网企业也对其数据主张排他性控制的权利。在人工智能时代之前,这些制度已经受到不少批判。如同前文所述,不少研究指出过度依赖赋权不仅妨碍数据的合理利用,而且也无法真正保护权利主体。人工智能的发展进一步凸显了上述问题,缺乏了数据的汇聚互联,人工智能发展将面临无源之水的困境。
无疑,数据的汇聚互联会带来很多风险,而且也会造成权益分配不公的问题,就像水库必然会对下游造成泄洪风险,或独占水资源收益。但因此而对上游水流进行赋权,试图通过赋权来实现风险自负与权益分配,并非此类问题的解决之道。更为恰当的方法是要求水库承担更为严格的安全保障义务,同时要求水库承担更多社会责任。人工智能促进型的数据法律制度更应如此,因为不同于水资源,数据资源具有可再生、可重复利用、复制成本极低等特征,其汇聚并不会直接减少数据的价值。
为了促进人工智能的发展,发挥数据汇聚互联的公共性价值,数据法律制度的重心应当从前端赋权转向合理利用与后端责任。就像合理建造的水库与责任分配将最终有利于每一个人,数据法律的这一重构将不仅有利于人工智能的发展,而且最终也将为各类权利主体提供更多福利。