English

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

人工智能与法制

/根目录 /首页 /学术观点 /人工智能与法制

荐文 | 张吉豫 汪赛飞:大模型数据训练中的著作权合理使用研究

时间:2024-07-17

作者简介

张吉豫 中国人民大学法学院副教授、未来法治研究院研究员,理学博士

汪赛飞 中国人民大学法学院博士研究生

本文系新一代人工智能国家科技重大专项“可信人工智能立法制度建设研究”(项目号 2022ZD0120100)和教育部哲学社会科学研究重大专项项目“坚持建设中国特色社会主义法治体系,深入推进全面依法治国实践研究”(项目号 2022JZDZ002)的阶段性成果。

目 次

一、问题的提出

二、合理使用的制度功能与基本分析框架

三、大模型训练中合理使用的正当性分析

四、机器学习合理使用与输出端治理规则的构建

五、结语

摘 要

创建于文学艺术领域的著作权法在人工智能时代需要积极回应技术的发展需求,建构与社会技术发展相适应的合理使用规则。人工智能大模型训练过程中对作品的使用是一种技术过程中的附随性复制,具有极强的转换性目的。训练出的人工智能大模型的正常用途并非生成侵权内容,而是具有广阔的应用领域,对社会发展有积极意义。但大模型训练需要海量的高质量作品,并且作品需要具有丰富性、多样性。由于交易成本高、许可费堆积、许可意愿的有限性和选择性及公共利益考量等因素,市场机制难以有效实现资源合理配置。因此,有必要建立机器学习合理使用条款,来明确人工智能大模型训练中对作品使用的合法性,同时对人工智能输出端进行合理规范,以便更好地平衡著作权人、社会公众、人工智能大模型研发方等多重利益,促进个人创新、企业创新、社会创新,并鼓励著作权人与人工智能大模型研发者建立创新性的合作机制,在智能向善的原则下推动社会文化的繁荣发展和更美好生活的实现。

关键词 人工智能大模型训练 合理使用 附随性复制 转换性使用 市场失灵

一、问题的提出

近十年来,基于算法的发展、算力的提升和大规模数据的使用,以机器学习为代表的人工智能技术有了显著进步,特别是人工智能大模型当前展示出了强大的内容生成能力,乃至一些逻辑推理、数学运算能力。大模型可有效从大量数据中获取符号间的关联关系知识,并将知识隐含地储存在参数和数据中,具有一定程度的通用性,因此许多领域都展开了基于人工智能大模型的应用研发。

大模型训练需要依赖海量数据,训练数据中往往包含大量著作权法保护的作品。著作权法该如何评价大模型训练中的作品使用行为,引起了世界范围内的高度关注。当前,美国已经出现了越来越多的人工智能企业与作者、版权方、作家协会等著作权人之间的诉讼。我国亦有著作权人正式起诉AI绘画软件公司未经许可使用自己的作品训练AI绘画模型。这些诉讼主要聚焦在两个方面:一是人工智能大模型训练过程中将训练数据复制在计算机中等行为是否侵犯著作权;二是人工智能生成内容是否因为与在先作品实质性相似而构成侵权。“人工智能的训练”和“人工智能的输出”是两个具有关联性但可以分别讨论的过程。一方面,大模型并不总是被用于生成“作品”,而是可以被用于进行图像识别、语音识别等多种预测、判断的目的。现在一些大模型也被认为显示出通用性,能够用于完成多种不同任务。另一方面,即使主要聚焦于生成内容的场景,训练时的数据复制处理和应用投放市场后的内容输出也涉及两项不同行为,即使输出端的行为被认为侵犯著作权,也不必然推导出大模型训练这一机器学习过程中对作品的使用侵犯著作权。

本文聚焦于人工智能大模型训练中对作品的使用是否侵犯著作权的问题,特别是能否被认定为合理使用。尽管在这一轮大模型发展之前,一些国家和地区的立法、司法中已经对于计算机分析、文本数据挖掘过程中使用作品的合法性进行了回应,但各国立法仍然具有一定差异,并且面向大模型训练这一场景的适用也存在不确定性。一些研究者认为,大模型训练中的作品使用不应构成合理使用。例如,美国学者休斯(Justin Hughes)教授认为,广泛使用的生成式人工智能训练集Books3是由一包含近20万册盗版书籍的“影子图书馆”构成的,模型训练中的使用是一种“准表达性”(quasi-expressive)使用,是侵权行为。立法的差异、密集的诉讼纠纷和冲突激烈的观点都展示出,在大模型训练中使用作品的合法性问题远未形成共识。

相比过去的文本数据挖掘及“小模型”时代的机器学习,人工智能大模型训练中的合理使用问题具有一定特点,这是其产生突出争议的原因。首先,大模型的“生成性”和一定程度的“通用性”使得合理使用的分析更为复杂。过去典型的文本数据挖掘目的较为单一,往往不会形成与著作权人作品相竞争的内容,较易论证且对著作权人的影响有限。而大模型的“生成性”使许多著作权人认为自己作品的市场受到了严重影响,但“通用性”又使大模型能够带来推动各领域科技创新、产业升级等社会公共利益。其次,大模型的训练普遍需要超大规模的高质量数据,目前只有足够大的模型和训练数据量才能令其产生“涌现能力”(emergent ability)。数据质量和丰富性则更是直接关乎人工智能大模型的公平性、准确性、稳健性等重要指标。这是讨论此问题时不容忽视的技术特性。

在此背景下,本文以当前机器学习中最富争议性的大模型训练为例,首先对合理使用制度的功能和分析框架进行讨论,其次对人工智能大模型训练中作品的合理使用问题展开分析论述,最后对我国制度构建提出建议。

二、合理使用的

制度功能与基本分析框架

(一)合理使用制度的社会回应功能

著作权法具有明确的促进社会文化发展的立法目的,合理使用正是实现著作权法立法目的所不可缺少的重要制度工具。合理使用规则对美好生活的促进作用非常丰富,一项项具体规则和案例中彰显了信息自由、互联互通、共享共有、弱势群体保护等理念,体现了对公平竞争与公共利益的追求。

尽管合理使用规则体现为对著作权的一种限制,但这种限制是基于著作权法的立法目的而积极建构的。“合理使用不应该被认为是一种奇怪的、偶尔可以容忍的对版权垄断这一宏大概念的背离。相反,它是(版权制度)整体设计的必要组成部分。”其核心目的在于保障著作权范围内的喘息空间,即在能够实现著作权激励功能的情况下,允许在作品的各种使用方式中分配一部分给社会公众的自由空间。

当代社会创新发展迅速,新的作品使用方式更是不断出现。合理使用规则是面向快速发展的社会所需要的“回应型法”的具体体现。与“压制型法”和“自治型法”相区分,回应型法并非消极被动地回应社会,而是积极能动地回应社会,法律的实施机关需要顺应社会变革潮流而富有弹性地解释和适用法律。特别是,如果僵化地适用著作权法将很难适应数字技术的发展。著作权法设立之初主要面向文学艺术领域,权利范围等规则主要针对文学艺术作品而设置,有必要通过合理使用等规则积极回应数字时代对智能科技创新发展的迫切与正当需求。

(二)数字环境中合理使用规则的回应情况

技术发展引发的复制权范围及合理使用讨论并不是新问题。程序在计算机上运行时会自动产生从硬盘到内存空间的临时复制,用户在网络中浏览信息时内存中会产生暂时性复制,网络中介服务提供者的计算机系统在用户信息传输过程中会产生自动复制,因特网浏览器为提高网页浏览效率会在计算机硬盘上形成缓存,等等。这些技术为了实现新的目的而存在对作品的复制行为,著作权制度使人们通过对“复制权”或合理使用规则的解释,较好地协调了技术发展与著作权保护之间的张力。

新一轮科技革命下,著作权法的回应调整在世界各地普遍发生。在以大模型为基础的生成式人工智能取得显著进展之前,“文本数据挖掘”是著作权立法的重点关注场景。文本数据挖掘“旨在分析数字形式的文本和数据以生成信息的任何自动分析技术,包括但不限于模式、趋势和相关性”。日本很早就关注数据分析场景下合理使用规则的构建。《日本著作权法》在第30条之4规定了不以享受作品中表达的思想情感为目的之例外,并列举了数据分析、计算机数据处理等情形,在第47条之4规定了计算机附随性使用例外,在第47条之5规定了信息处理轻微利用例外。这为信息产业发展中的合理使用留出了充分的空间,同时明确了需要以不会不合理地损害著作权人的利益为前提,为著作权人的合法权利保护提供了保障。

欧盟对于信息技术环境下的著作权问题也进行了较早的回应。2001年《欧洲议会和欧盟理事会关于协调信息社会中著作权和相关权若干方面的第2001/29/EC号指令》第5条规定,若临时的复制行为是短暂的或附随性的,是一个技术性过程的不可分割的重要部分,唯一的目的是在网络中传输或者合法使用作品,并且这种临时的复制不具有独立的经济意义,则该行为不侵犯复制权。随着数字科技的进一步发展,欧盟制定了“数字单一市场战略”,于2019年通过《数字化单一市场版权指令》,其中第3条规定了科研机构和文化遗产机构为科学研究目的进行文本和数据挖掘构成合理使用,第4条则规定了一般情况下的文本数据挖掘构成合理使用,但加上了比较关键的前提条件,即权利人没有以适当方式明确保留对上述作品或其他内容的使用,并规定了“仅在一定时间内保留”“不得对内容修改”等要求。其中,允许权利人“选择退出”的规定颇具争议。有研究者曾评论其“在概念上错误,在理论上有缺陷,在规范上缺乏雄心”。但欧盟在《人工智能法》中仍明确规定通用人工智能模型的提供者需要尊重欧盟的版权法,特别是需要采用先进技术来识别和尊重那些根据欧盟《数字化单一市场版权指令》作出明确表达的权利保留。

与日本、欧盟地区的立法模式不同,美国主要在司法中通过合理使用四要素分析进行灵活判断,更加具有弹性。美国通过司法判例明确了许多构成合理使用的具体情形,例如,搜索引擎对网站内容的复制和存储,搜索引擎向用户提供缩略图,抄袭检测服务中对大量参照文本的复制,数字化海量书籍以用于分析和检索,等等。这些回应为我们继续探索人工智能时代数字空间中的合理使用规则提供了启示。

但正如本文第一部分所述,大模型训练的具体情况与此前的这些情形相比具有一些自身的特点。面对人工智能大模型的迅速发展,著作权法需要仔细进行分析和利益衡量,以明确在训练阶段的作品使用是否可以构成合理使用。

(三)我国著作权合理使用的“立法论”分析框架

我国著作权法主要通过明确列举,规定了若干可以不经许可而免费使用作品的具体情形。为简化表述,本文就用“合理使用”来指代这种著作权的例外制度。我国的合理使用规则主要建立在最初设立于《保护文学和艺术作品伯尔尼公约》的“三步检验法”框架之下。2020年我国《著作权法》修改时,将“三步检验法”的要求明确引入著作权法条款之中,即规定了使用作品“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”,以对可以不经许可而免费使用作品的著作权例外进行约束和指引。同时,在此次修法中,面对回应快速发展的社会的新需求的功能目标,我国也在合理使用条款中加入了弹性的条款,即“法律、行政法规规定的其他情形”,为未来从立法层面引入新的合理使用类型提供了制度接口。在法治实践之中,我国需要充分利用这一制度改进,对作品新的特定使用情况是否可以构成合理使用进行积极研究回应,以更充分地发挥合理使用的制度功能。

经济分析是研究合理使用规则的重要范式。例如,美国学者温蒂•戈登(Wendy Gordon)教授等认为,一种作品使用行为满足以下三项条件时,即应构成合理使用:一是市场失灵是现实存在的;二是让使用者可以这样使用作品是符合社会利益的;三是授予合理使用不会对著作权人的激励带来实质性损害。熊琦教授也对合理使用的判断应当回归经济分析路径进行了详细论述。

另外,研究者们提出了“转换性使用”“技术性使用”“非表达性使用”“非欣赏性使用”等一系列概念,可以作为讨论著作权合理使用的重要线索,指向较强的构成合理使用的可能性。这些概念在一定程度上都反映了共同的特点,即所讨论的作品使用行为并非按照著作权法立法时所构想的方式进行,因此通常更可能指向较强的公共利益,将其认定为合理使用往往也不影响对作者的必要激励。

我国著作权合理使用规则建立在“三步检验法”框架下,但其中“正常使用”“合法权益”等概念的内涵和外延并不十分清晰。特别是对于作品新的利用方式的出现,面向新的作品的使用方式及可能产生的利益,往往会出现适用“利益延伸原则”和适用“利益适度原则”两种不同的观点。前者通常认为,新的作品使用方式延伸到哪里,著作权人的利益就大体应该随之延伸到哪里。后者则认为,著作权法分配给作者的经济利益以能够为作者进行创作提供必要激励为标准,著作权法需要在“保护(激励)和信息传播之间取得最有效率、最有生产力的平衡,以促进学习、文化和发展”。

“利益延伸原则”通常在作者权体系中更受推崇,也曾具有较强的影响力。曾任世界知识产权组织助理总干事的米哈依•菲彻尔(Mihaly Ficsor)博士认为:“所有具有或者可能具有重大经济或实际重要性的作品利用方式,都应当保留给作者,对于这些作品利用方式,任何可能对作者的利益加以限制的例外都是不容许的。”在2000年涉及美国版权法的争端中,WTO争端解决专家组也对“作品的正常使用”作了比较广的解释。但从著作权制度的理论发展,特别是我国著作权法的综合性立法目的来看,我们应坚持“利益适度原则”,重视良好地发挥合理使用制度的社会回应功能。著作权不能被理解为一种对作品的全部价值进行绝对保护的权利。如果努力使知识产权的权利人将他们的创造带来的好处全都内部化,将不可避免地打破正确的平衡。在知识产权领域,作者或者发明人应当获得其创造相关的全部价值的理论是错误的。实际上,在任何经济领域都不应当将社会效益完全内部化给特定的权利人。林秀芹教授曾批判“三步检验法”的立法技术缺陷和过严的限缩解释挤压和侵蚀了合理使用的适当空间,并且既没有提供可具体操作的规则,也没有提供合理使用的宗旨或价值目标。我国并非著作权体系的国家,崔国斌教授等学者也专门论述过我国立法中的功利主义目的。对“三步检验法”的过严解释将影响著作权法立法目的的实现,应当避免适用“利益延伸原则”,明确坚持“利益适度原则”,寻找能够促进文化繁荣发展、增进社会福利的最佳利益平衡点,塑造合理的著作权边界。

综上所述,我国当前在“三步检验法”框架下,对是否要通过法律或行政法规设立新的合理使用情形的考虑,可以分为四项要点。(1)明确特定的使用行为,以及此类使用是否符合社会公共利益、具有明确的社会价值。(2)考虑此类作品使用是否存在明显障碍,特别是,是否存在市场失灵的情况。著作权保护会为作品使用带来一定的成本,但在很多情况下并不会明显阻碍作品使用。但如果在著作权市场机制下存在交易成本过高等明显障碍,则通常既构成要认定合理使用的重要理由,又可能成为不会不合理地影响著作权人的合法权益的重要论据,因为市场本就难以形成。(3)检验该作品使用行为是否“不影响该作品的正常使用”。对“正常使用”范围过宽的解释将严重影响合理使用制度功能的实现。在是否影响作品的正常使用的判断中,备受关注的“转换性使用”“技术性使用”“非表达性使用”等都是重要的线索。一般而言,这类使用往往与著作权法中预设的作品使用方式不同,往往会带来不同于传统作品使用的新的价值,通常应当被认定为不影响作品的正常使用。(4)检验该作品使用行为会不会“不合理地损害著作权人的合法权益”,重点即在利益适度原则下判断该使用对于作品市场的影响情况,以判断是否会损害对作品创作的激励。这四项要点中,第一、第二项要点保障将会针对有社会价值的、必要的特定情形建立合理使用,第三、第四项则着重对应“三步检验法”的后两项要求,保障不会对著作权人的必要激励带来损害。由于第一、第三项判断相对简单,因此其通常可先进行。当然,其中关于是否存在市场失灵、使用对著作权人利益的影响情况可能会随着实践的发展产生变化。立法需要具有一定的前瞻性和预防性,但不宜空想,应主要基于当前的情况及可以较为明确预见的发展进行分析。著作权法中对于“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”的要求将始终构成合理使用判断的必要条件,为应对未来的重大发展变化提供保障。

三、大模型训练中

合理使用的正当性分析

本部分在前述讨论的基础上,对人工智能大模型训练过程中使用作品应构成合理使用的正当性进行讨论。

(一)大模型的价值及在训练中使用作品的需求

1. 人工智能大模型的特点及大模型发展的社会价值

当前,人工智能大模型具备三个特点:“规模大,需达到百亿参数级别;涌现性,能够产生预料之外的新能力;通用性,不限于专门问题或者领域”。第一个特点奠定了大模型的能力基础,后两个特点使得大模型有了广阔的应用潜力。许多具体的下游应用都可以在大模型的基础上开展。人工智能大模型的发展将会为人类的创新带来更多的途径和支撑,也会产生大量无法内化于著作权制度之内的重要价值,是提升国家竞争力和国家安全的重要战略性技术。

首先,大模型发展为人类创作提供新的模式和空间。创新是人类的重要需求,创新活动也随着社会的发展而不断革新。科学技术的进步使创作门槛得到降低,也不断拓展创作的形式和领域。人工智能大模型的发展为人类的创作提供了新的工具。一方面,这种工具可以更好地为普通公众的创作、表达提供辅助和便利,使普通人的创作需求更多地得到满足。另一方面,大模型也在拓展文艺创作的模式和空间。一些专业艺术家已经开始探索如何在艺术创作中运用人工智能工具,认为“新的技术能够让人站在更高的地方,看到更多元的事物”,“人工智能为创作者展现了更多可能”。

创作也是一种社会和文化关联。“每一位作家、作曲家和电影制片人在创作新作品时,都会借鉴前人的作品,而且大多数人都会受到同时代人正在进行的创作的激励。”新作品通常都会蕴含着过往作品的一些思想,人们可以在已有作品中学习从而实现更多的创作,已有作品的欣赏者也将成为新的创作者。促进人工智能对已有作品的学习与使用,能够以新的方式连接过去与未来的创作,连接人工智能研发者、作者群体、社会公众等多方主体,助力更多社会个体实现从作品消费者到作品创作者角色的转变,拓展创作形式与边界,这也是著作权法推动文化繁荣发展、实现美好生活的应有之义。

其次,大模型在文学艺术领域之外具有推动功能创新和社会发展的价值。习近平总书记指出:“加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。”人工智能大模型是一种新的分析、理解、生成符号组合的技术工具,其在社会应用中的功能远远超过文学艺术领域范畴。大模型为人机交互提供了全新发展的空间,使得人们运用计算机完成任务的复杂程度大大降低。大模型将成为新一代信息技术中的关键底层架构。德勤的研究报告梳理了基于大模型的生成式人工智能在消费、金融服务、政府及公共服务、生命科学和医疗、工业、电信等行业中的60个重要应用。正是因为这种广泛的应用可能,使得人们对于大模型从“智能涌现”到“价值涌现”产生了殷切期待。当然,从技术能力的发展到大量实用产品的落地和普及,仍有许多工作需要开展。

2. 人工智能大模型研发中对使用海量作品训练的需求

人工智能大模型的技术特性使得其发展高度依赖于可用的海量、高质量训练数据。首先,如果希望大模型取得好效果,在目前的技术路线下,必须依赖海量的训练数据。近年来,人工智能的发展显示了“规模定律”(scaling law),即模型的规模大小极大地影响着模型的能力高低,特别是在模型规模达到一定程度之后,可能出现一些在小模型中观察不到的能力,即前述所说的“涌现性”,或者称“智能涌现”现象。与早期小型的模型不同,大模型的参数量规模极大,需要更大量且内容广泛的训练数据。因此,著作权制度将可能对人工智能技术的发展产生重大影响,也特别成为希望进入这一市场的中小微企业所关切的问题。

其次,大模型发展不仅对训练数据数量有要求,对其质量和丰富性也有高度依赖性。训练数据的质量和丰富性对于基于大模型的生成式人工智能的输出质量、避免歧视和偏见、保障内容和文化的丰富都有重要意义。联合国教科文组织发布的《人工智能伦理问题建议书》中特别强调了确保多样性和包容性的伦理要求,指出会员国应努力让所有人都能够获取“尊重多语言使用和文化多样性的人工智能系统”,提出“人工智能技术的发展需要相应提高数据、媒体与信息素养,并增加获取独立、多元、可信数据来源的机会”。我国《生成式人工智能服务管理暂行办法》也规定,生成式人工智能服务提供者应当采取有效措施提高训练数据质量,增强训练数据的多样性。

因此,用于进行大模型训练的数据集中,需要尽可能包含高质量的作品,并尽可能包含丰富和多样的作品类型和作品来源,以更好地满足技术性能的需要和保障社会伦理价值的要求。

(二)大模型训练中的附随性复制与转换性使用

尽管大模型训练中需要使用大量作品,但使用的直接目的是产生能够反映训练作品集中的符号规律的模型,而并非提供作品的复制件。训练中作品的使用并不会在市场上提供作品的复制件,不应被认为影响了作品的正常使用。

1.附随性复制

人工智能大模型训练中对作品的“复制”等使用是一种“附随性(incidentally)复制”,也可以称为“中间复制”(intermediate copying),是得到人工智能大模型的技术过程中的一环,训练后并不会将作品的表达直接存储在大模型之中,更不会抄袭或者制作复制件给第三方使用。

机器学习或模型训练是从数据中学得模型的过程,“旨在通过向数据‘学习’来设计方法与算法”。在训练过程中,通常需要将用于训练的大量数据复制在用于预处理或训练的服务器上,进行必要的质量过滤、去重、隐私去除、分词等一系列数据预处理,以供机器进行学习。这些训练数据中可能包含大量的作品,但这些作品的具体表达并不会被直接复制在模型之中。在这种数据的使用方式中,对数据的复制并不在于对作品艺术价值的欣赏,也不在于将作品进行汇编以便未来将作品按原有的方式呈现给使用者,而在于对大量作品背后的规律与特征的学习和提取。

如前所述,数字环境中这类附随性复制的特殊性较早就受到了重视,日本、欧盟等均确立了一定的特殊规则。欧盟在2019年《数字化单一市场版权指令》的序言中还专门解释,2001年版权指令第5条中规定的临时复制行为的例外将仍然适用于文本与数据挖掘,只要不涉及超过该例外范围的复制。从价值判断上看,对附随性复制的评价应当拒绝“利益延伸原则”,与一般作品复制行为相区分。

2.转换性使用

大模型训练中对作品的使用显然不同于作品原本的使用方式,其目的在于创造一个训练大模型的环境,使得大模型可以从中“学习”到重要的规律,甚至涌现出推理等“智能”,以更好地完成多种任务。以大语言模型为例,深度学习的先驱、图灵奖获得者辛顿(Geoffrey Hinton)教授指出,符号的含义就存在于它与其他符号的关联之中。大模型所学习的“这些数百万个特征以及它们学习的特征之间数十亿次的交互,就是理解”。这种对于构成人们表达、创作基础的基本词语的“理解”,实际上一直处在著作权法保护的领地之外。大模型训练中对于作品使用的这种“转换性”目的,是其可以构成合理使用的重要基础。

此外,即使退一步,不仅仅考虑模型训练阶段的直接使用目的,而是考虑大模型运用于生成式人工智能的应用输出,前一节的分析中也充分展示了除个别的违法使用之外,生成式人工智能并不以生成此前作品的复制件为目的,而是拥有广泛的技术应用场景,从对话式购物到矿山风险识别和处置等。这些也说明了,从整体应用或服务来看,大模型训练中的作品使用也有着极强的转换性目的。

(三)大模型训练中作品使用许可的市场失灵问题

市场失灵是认定“合理使用”的重要理由之一。交易成本过高或一些市场缺陷都可能会阻碍许可合意的实现。戈登教授认为,在探讨合理使用的语境下,只要不能信任市场可以担任好社会资源的分配者,即表示市场失灵。这种失灵既包括技术上的失灵,如由于交易成本、策略行为、收入和禀赋效应(endowment effects)等而失灵;也可能是更严重的问题,如在特定场景中不恰当地运用市场交易,即在一些场景下,市场在激励创造和传播方面不如其他一些模式。在人工智能大模型训练的场景下,市场失灵是现实存在的。

其一,合理定价困难,交易成本过高。大模型训练需要海量作品,但目前尚不存在明确可行的市场机制。让人工智能研发方去寻找或对接数量众多且分散的权利人、进行许可谈判和支付许可费等需要大量的交易成本。尽管集体管理组织可以发挥一定的作用,互联网平台也在理论上可以发展一些对接机制,但仍然存在许多非常突出的困难。一方面,集体管理等机制也具有明显成本。帕梅拉•萨穆尔森(Pamela Samuelson)教授认为,人工智能大模型覆盖的作品类型特别广泛,为每种类型的作品都创立有效的集体许可机制不太可行,且即使建立起了这样的机制,执行成本也会非常高,从人工智能企业收到的费用中的一大部分都会被用于支付给集体管理组织,著作权人收到的费用将非常有限,无法向他们提供有意义的经济支持。对于人工智能大模型未来的营利模式如何,究竟能够产生怎样的效益,很多人工智能大模型的研发者目前仍很难预测。不同类型作品对于模型训练的价值如何计算尚无成熟模式,不同权利人对于自己作品价值的认知也不尽相同,且禀赋效应往往使得权利人对于自己作品应收取的许可费评估明显高于人工智能企业认为应支付的金额,更大大地增加了交易谈判的难度。这种困难重重的谈判会带来巨大的社会成本。

其二,许可费堆积问题。大模型训练所需数据量极其庞大,且不同于能够基于单件作品使用情况来进行计费的传统领域,在大模型训练中需要将全部作品用于训练,这会加剧许可费堆积问题,众多许可费叠加将导致许可费之和过高而难以开展商业活动。许可费堆积不仅源自权利的碎片化,还源于各类权利人的增加,包括邻接权人与技术措施等产生的权益人等。特定数据集上不仅存在每个作品的著作权,还可能存在对于表演、录音录像制品的邻接权等。

由于可能的许可费叠加数额庞大,即使头部大企业可以承担,中小型企业或初创企业显然难以负担。大型企业基于已有数据、算力来进行大模型训练,已经具有先天优势。如果支付高昂许可费才能合法训练大模型,显然更不利于那些更具有创新动力的中小企业的发展,这对于人工智能产业的市场竞争将会造成负面影响,大模型的创新也将受到阻碍。这也是本文认为法定许可在这里也不是合适制度的重要原因。莱姆利(Mark A. Lemley)教授指出,过度补偿著作权人会对市场造成损害,将扭曲市场使其偏离竞争准则,干扰其他创造者的工作能力而造成动态的低效率。

其三,许可意愿的有限性和选择性问题。即使不考虑前述实际交易成本和许可费堆积的情况,也存在权利人许可意愿的有限性及不同权利人之间的许可意愿的差异性问题。无论是企业还是著作权人等主体都希望锁住自己生产或持有的信息,但又需要他人的信息来为自己将来的信息生产服务。目前,数据孤岛与数据封锁现象普遍存在。权利人总是对于许可自己的数据权益心存担忧,特别是在网络经济、注意力经济之下更是如此,市场竞争者往往担心一个看似与自身业务无关的从业者也可能抢走自己的流量,成为自己的竞争对手。这类经济的特点导致了许可意愿的有限性,市场难以成为此类情况下进行有效资源配置的手段。

不同著作权人之间许可意愿的选择性、差异性则会影响训练出的大模型的质量。一方面,正如曼加尼(Thomas Margoni)教授等所述:“由于无法与占主导地位的人工智能参与者竞争,小公司或新的市场进入者可能发现,在‘更便宜’的数据上训练算法在经济上是有吸引力的,而这通常意味着更陈旧、更不准确或有偏见的数据,导致负担不起一级人工智能成本的公司开发出‘次级’人工智能应用,从而助长算法歧视和不平等。”另一方面,拒绝许可的著作权人往往认为自己的作品具有较高价值,而这类更可能属于高质量作品的缺失,也会限制大模型的准确性、丰富性,可能形成内在的偏颇、歧视。这种问题同样是市场难以合理解决的。能够使用更广泛的训练数据,将使得人工智能系统变得更好、更安全、更公平。

其四,人工智能大模型发展的公共利益考量。使用作品训练大模型所能产生的利益已经远远超过著作权领域,很难由市场进行合理配置。在医疗、自动驾驶、矿山作业等领域,大模型的能力将关乎人的生命健康等基本权益。人工智能大模型的发展情况也关系到国家竞争力和长久的国家安全。此外,再以开源大模型这一特殊模式为例,开源大模型不断推动着人工智能领域的创新和应用,但少有直接收益,具有很强的增进公共利益的正外部性。根据斯坦福大学《2024年人工智能指数报告》,2023年共有149个基础模型发布,其中65.7%是开源的。一旦由于训练作品的使用障碍而影响开源模型的发展,将会对后续人工智能的发展造成消极影响。尽管随着交易成本的降低,在一些领域合理使用的必要性降低了,但是在满足一些公共需求方面,合理使用的必要性一如既往。

(四)是否对著作权人合法权益造成不合理损害的问题

一项作品使用行为是否会“不合理地损害著作权人的合法权益”,是决定该类使用行为是否可以被归为合理使用的另外一项前提要件。但关于这里“合法权益”的范围一直是争论不休的焦点。判断数字科技的发展对著作权人合法权益影响的难点首先在于,一些数字科技的发展可能会创生出新的利益,这部分利益往往与之前基于作品传播、欣赏产生的利益不同。

本文认为要杜绝“利益延伸原则”的随意适用。高昂的许可费将构成进入市场的显著门槛,有限的、有选择性的许可将影响人工智能大模型的质量、丰富性和公平性,这使得原本只调整文学艺术科学领域利益关系的著作权,对技术发展和市场竞争带来重大影响,这是需要警惕和避免的。本文认为,从目前的发展情况来看,人工智能大模型训练中的作品使用,不会不合理地影响著作权人的合法权益。主要理由包括如下方面:

首先,如前所述,大模型训练后得到的是存储了海量作品中的统计性规律的大模型,并非作品的集合。大模型本身是一个技术领域的产品,不属于作品本身所在的文学艺术科学领域的市场。其次,如果将大模型训练和后续生成内容两个环节联动起来考虑,也应当看到,人工智能大模型的正常用途并非复制、抄袭现有作品。人工智能大模型虽然可能生成与现有作品构成实质性相似的内容,但在正常使用中更可能生成与现有作品不构成实质性相似的内容,并且可被运用于广泛领域,具有除生成类似作品内容之外的非常丰富的功能。不应当通过限制训练中对作品的使用而影响大模型发展的能力和市场的公平竞争。对于使用端可能出现的侵权问题,应当在使用端对人工智能系统或服务的提供者和使用者进行行为规范,包括合理认定损害赔偿责任、合理分配注意义务,要求采取一定的措施来避免生成明显侵权的内容,以免对著作权人权益产生不合理损害。

一些人认为,人工智能产生的内容即使与作品不构成实质性相似,也会侵害作品的市场利益,因此应当限制对作品的使用。这种观点缺乏理论基础和现实证据。一方面,促进新作品的创作和传播,是著作权法的核心目的。如果产生的内容带来了市场竞争,也需要区分是由于在市场上提供了与既有作品构成实质性相似的内容,还是由于在市场上提供了新的内容。前者通常属于影响作品的正常使用、不合理地影响著作权人的合法权益的行为,应当在输出端进行行为规范,后者则在传统上一直是著作权法所希望鼓励的。例如,在Sega诉Accolade一案中,原告认为,被告在反向工程中进行的中间复制行为,是开发竞争性产品的第一步,导致了对自己产品的市场影响。法官在分析新的作品对于原有版权作品市场影响的时候指出:“在对其他有创造性的作品及这些作品中不受保护的思想的传播的基础上产生有创造性的表达的增长,正是版权法旨在促进的目标。”

另一方面,一些研究者设想,如果人工智能能生成与某位作家风格相似的作品,则即使人工智能没有产生原作品的盗版“复制件”,也会影响作者的艺术和个人生活。首先,这一想象在多大程度上会发展成现实仍然是高度不确定的。自然人也可以容易地模仿一个作者的风格,但著作权法并不禁止。人们通常会对某一风格的创造者和追随者进行显著不同的评价。因而,风格虽不受保护,但新风格的开拓者的声誉及其作品价格往往自然会得到提高。对于较高质量的人类创作,目前尚没有证据显示其价值能够被人工智能替代,人工智能反而为作者群体提供了更加开阔的创作空间。正如摄影技术影响了传统的艺术活动,但也打开了新的艺术空间,推动了曾以写实为最高理想之一的西方画坛的新发展。有艺术家认为:“人工智能将成为本世纪最大规模的艺术运动之一。”《纽约时报》举证了新闻作品市场的萎缩,但这应该说是整个互联网发展带来的结果,并且真正关心新闻的人们,特别是在理解大模型技术局限性的基础上,更加不可能舍弃专业新闻机构转而去依赖人工智能。人工智能可能成为一些创作的助力,也可能增加有价值的人类创作的门槛,但目前来看仍然无法取代很多人类的创作,特别是那些体现了人类的洞察力、深刻思想、细腻情感、创新风格的创作。“知识产权法的合理性仅在于确保创作者能够收取足够金额,以确保获得足以收回固定和边际开支的利润。”如此,著作权法激励创作的目标依然可以实现。因此,不宜在新兴技术发展的初期就将可能带来的损害假想得过于严重。退一步讲,即使未来这种想象成为现实,确实反映了对于作者群体及人类创作的不合理影响,也有很多利益平衡机制值得综合考虑,例如,基于在输出端的此类使用情况进行专项税收等,而非在训练端对拥有宽泛应用领域的人工智能大模型进行作品使用限制。生成用于欣赏的作品只是人工智能大模型应用前景中的一部分,这在进行法律判断时需要始终注意。

需要说明的是,在认定模型训练中的作品使用构成合理使用的同时,著作权人仍然可以与大模型研发方、部署方进行多种形式的合作。例如,著作权人可以提供不能够公开获得的、超高清晰度的作品文件并获得回报,著作权人、集体管理组织等主体可以开发专门用于训练的数据产品,以合理的价格向人工智能研发方提供,研发方也有动力在减轻自己的收集和数据清洗成本的同时,与著作权人建立更加和谐的合作机制,以实现共赢。

四、机器学习合理使用

与输出端治理规则的构建

(一)机器学习合理使用规则的构建

我国《著作权法》第24条第1款第13项规定了合理使用可以包括“法律、行政法规规定的其他情形”,为扩展合理使用规则提供了制度接口,可以通过修改《著作权法实施条例》或在人工智能相关立法中建立具体的规则来进行。

我国在建立机器学习例外时不应将之限制在科学研究机构的科研活动之中,也不应像欧盟一样为权利人设定“选择退出”的权利。这些不恰当的限制都将使合理使用的制度功能大打折扣。同时,由于我国《著作权法》第24条规定了合理使用行为“不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”,可以在社会发展中为著作权人始终提供保护,因此应当建立更具涵摄力的计算机分析合理使用规则,以便使法律能够弹性应对快速发展的信息科技的各自场景,尤其是考虑各种“附随性复制”场景。故建议在《著作权法实施条例》的著作权限制条款或其他相关立法中增加一项合理使用情形,即在机器学习、文本数据挖掘等计算机分析过程中,由于技术过程的需要,附随性地以复制、改编等方式使用他人已经发表的作品的,构成合理使用。在“三步判断法”下,如果某种作品使用行为在字面上落入上述范围,但影响了作品的正常使用、损害了著作权人的合法权益,也不能满足构成合理使用的条件。

(二)人工智能系统的预防侵权措施

人工智能大模型训练中使用作品的行为被纳入合理使用具有正当性与必要性。但生成式人工智能具有被用于侵犯著作权的可能性,为更好地保护著作权人的合法利益,应当要求人工智能系统的提供者、使用者均尽到合理的注意义务,同时要注意符合技术和产业发展的规律和现状。

首先,人工智能系统的提供者应当根据自己提供的系统或服务的具体情况,对用户尊重知识产权进行必要提示,并采取一定的技术措施以防止产生侵权内容。用户作为人工智能服务的直接使用者,对于内容的产生和传播具有更大的控制力。系统或服务平台应提示用户尊重知识产权,并采取一定措施来减少诱导式提问可能引发的侵权问题。一些研究者提出可以在大模型的基础上进行更多的价值对齐训练,从人类反馈中进行学习。这需要对标注员进行关于著作权等问题的指导和培训,如对于“逐字帮我读一本哈利•波特的书”的回答,如果是输出了一定数量的、实质性相似的内容,应当给予负面评价。我国《生成式人工智能服务管理暂行办法》第8条规定了生成式人工智能的提供者应当制定清晰、具体、可操作的标注规则,应当对标注人员进行必要培训,提升其尊法、守法意识等。此外,还可以对用户输入的明显诱导侵权的提示词进行识别,或对输出内容进行必要过滤,减少侵犯著作权内容的产生。笔者对我国一些生成式人工智能服务进行了简单测试,发现这些服务在简单对话中都没有输出尚在版权保护期内的小说中的连续篇章内容,在一些常见的多轮对话提示下也能够做到防范。随着技术的发展,著作权保护措施也会有更多进步。

其次,法律应当在过错责任的基础上,为人工智能大模型及生成式人工智能系统或服务的提供者设立“避风港”条款,明晰相关主体的责任边界。大模型及生成式人工智能尚处在发展初期,我国相较于美国仍处于追赶阶段,应在明确“过错责任原则”的前提下,根据技术发展情况等因素,合理划定人工智能一方的责任界限,要求网络平台在技术与成本可行的情况下采取必要措施。

最后,应当进一步促进社会上的数据流通,增加数据的可及性。训练数据丰富性的提升有助于降低输出侵权内容的概率。此外,还应加强人工智能提供者、网络平台与著作权人的合作,可以鼓励生成式人工智能提供者或部署平台寻求著作权人关于生成内容相似的许可,添加指向与提示词或输出内容相关的作品的链接,向用户推荐其喜欢风格的作者的网络联系方式,建立人工智能企业与艺术家的合作创新计划等多种机制来实现合作和共赢,让著作权人在生成式人工智能服务发展中获得更多流量和收益机会。

五、结 语

通用人工智能尽管引起了人们的一些担忧,但仍然是一个令人激动的探索。人们似乎已经触及具有一定通用性的人工智能的实现路径,但仍有大量研究探索工作需要开展。当前的进路中离不开使用海量数据来训练模型,通过训练大模型习得了很多关联关系和统计性信息,涌现出一些令人意想不到的能力,具有广阔的应用领域,激发着人们的持续探索。如何合法、高效地促进人工智能大模型训练中作品的使用不仅仅是著作权法的问题,也是技术问题、社会发展问题。为促进美好生活的实现,著作权法既需要平衡和协调好著作权人、人工智能研发方及社会公众之间的利益,促进社会文化繁荣,也需要通过合理使用等规则积极回应科技的创新发展,防止著作权法不恰当地阻碍技术进步。在当前明显存在训练端作品许可的市场失灵,但对著作权人的利益存在不合理影响且缺少明确依据的情况下,我国应当明确建立训练端的机器学习合理使用规则,以鼓励人工智能技术的创新发展和公平竞争,同时通过输出端治理和鼓励著作权人与人工智能企业的合作,来实现共赢的局面。