English

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

网络知识产权

/根目录 /首页 /学术观点 /网络知识产权

因应人工智能产业发展的合理使用条款解释论研究

时间:2023-09-14

文 | 万勇、李亚兰

万勇系中国人民大学法学院教授、博士生导师

李亚兰系中国人民大学法学院博士生

内容提要:人工智能研发主体在数据挖掘与机器学习的过程中需要大量地使用作品,其所面临的著作权侵权风险与现实的作品使用需求之间的矛盾,亟待化解。人工智能研发主体对于作品的使用非常广泛,不限于某一特定作品类型,其作品使用行为所可能侵犯的著作权具体权项主要有复制权、演绎权与信息网络传播权。与法定许可相比,将数据挖掘与机器学习的情形纳入合理使用制度之下更具合理性。鉴于当前著作权相关立法在数据挖掘与机器学习的问题上尚处于缺位状态,为应对实践的需要,可以考虑从法律解释的角度入手,尽量将部分合理情形解释入现行合理使用的立法文本之内。具体来说,对于非营利性主体在数据挖掘与机器学习中的作品使用行为,可以将其解释入“个人学习研究”及“学校课堂教学或者科学研究”合理使用之中。后者需要对“少量”作宽松的解释,以特定行业或领域的惯例及研发需求作为判断是否“少量”的实质性标准。对于营利性主体在数据挖掘与机器学习中的作品使用行为,作为应急之策,可以考虑对“科研”作扩大解释,但存在一定的弊端。

关键词:人工智能 数据挖掘 著作权法 合理使用 法律解释

一、引言

人工智能产业的国际竞逐日益激烈,我国也面临着压力。2017年,国务院发布《新一代人工智能发展规划》,指出我国人工智能整体发展水平与发达国家相比存在差距,缺少重大原创成果,在基础理论、核心算法以及关键设备、高端芯片等方面差距较大,适应人工智能发展的基础设施、政策法规、标准体系亟待完善。五年时间过去,面对发达国家以ChatGPT为代表的技术创新的出现,我国人工智能产业的发展仍然存在较大差距。作为与技术创新联系紧密的法律部门,著作权法需要对此作出回应。

在著作权法语境下,人工智能涉及的问题主要有两个:一是人工智能生成内容能否受到著作权法的保护;二是应当如何为人工智能研发中对作品的使用行为进行定性。2017年微软公司发布由人工智能“小冰”所生成的诗歌《阳光失了玻璃窗》以来,第一个问题已经在理论上得到了较多的讨论。与之相比,在后一问题上的讨论还相对较少。在人工智能研发的诸多环节中,比较关键的一步是以海量信息作为对象进行数据挖掘与机器学习。如果所学习的内容是处在著作权保护期内的作品或由其转码而来的数据,就有可能侵犯他人的著作权。如何化解人工智能产业所面临的著作权侵权风险与其现实的作品使用需求之间的矛盾,值得探讨。现有研究多从立法论的角度对该问题进行阐述,本文则侧重于从解释论的角度进行讨论。

二、人工智能数据挖掘与机器学习中对作品的使用

一般认为,人工智能(Artificial Intelligence)这一概念最早于1956年在达特茅斯会议上被科学家们所提出。机器学习(Machine Learning)这一概念由塞缪尔在1959年为了用机器解决跳棋游戏而提出,指通过学习产生一种行为计算机程序,这种行为不是由程序的作者明确编码而来,而是能够表现出程序的作者完全没有意识到的行为。数据挖掘这个说法则是在20世纪70年代末、80年代初由数据库营销行业提出,是统计学与机器学习两个学科相结合的产物,旨在从已知的数据集合中发现各种模型、概要和导出值。数据挖掘的具体过程具有迭代性:首先,研究数据,利用某个分析工具来检查数据;然后,从另一个角度考虑该数据,根据需要对数据进行修改;接着从头开始,运用另一个数据分析工具进行检查,不断修正,得到更好的或者不同的结果,循环往复。关于数据挖掘与机器学习的关系,大致可以理解为“数据挖掘=统计学+大数据+机器学习与提升”。

在著作权法语境下讨论人工智能数据挖掘与机器学习中对作品的使用这一话题时,落脚点有两个:一是使用了何种类型的作品;二是使用行为可能会落在哪些具体的著作权权项之内。

就具体涉及的作品类型而言,2020年修改《著作权法》时将作品条款中的兜底性规定由“法律、行政法规规定的其他作品”修改为了“符合作品特征的其他智力成果”,因而可受著作权法保护的作品没有了类型上的限制。但作品的类型化区分并非没有意义,不同类型的作品在保护效力上存在一定的差别。例如,在我国,展览权就只针对美术作品与摄影作品,出租权只针对视听作品与计算机软件。不同的人工智能技术所使用的作品类型有所不同。由于人类最重要的沟通媒介是语言,而人工智能的主要目标是模拟人类思考的方式,最终也以能够与人类对话或者完成人类所能从事的智力活动(例如,撰写诗歌与小说)为目标,故而文本挖掘对于人工智能技术的开发具有重要意义。此类挖掘所需要使用的作品主要为文字作品,包括电子出版物、电子邮件、网页内容及其他经数字化处理后的文字作品。

一般来讲,数据挖掘与机器学习需要事先将内容转化为数据形式并进行结构化或半结构化处理,但文本挖掘与此不同,在某些情形下,它可以直接通过计算机处理、分析与理解自然语言,而无须事先对以自然语言形式存在的文本进行转码。可见,欧盟《数字单一市场版权指令》第3条与第4条将“文本”(text)与“数据”(data)两个词语并列,组成“文本与数据挖掘”这一短语,也有技术上的原因。有观点为解决人工智能研发过程中的作品使用问题,将使用区分为作品性使用与非作品性使用,认为数据挖掘时作品只是作为工具或数据被使用,而非作为作品被使用(the use of the work as a work),在根本上不构成侵权,故也不涉及合理使用问题。这种观点可能无法适用于以上直接基于自然语言所进行的文本挖掘,因为在这种情形下,不只是分析数据,而是需要分析语言文字本身,例如,寻找“雨天”与“壁炉”这两个词汇同时出现在文学创作中表现出何种规律。另外,人工智能研发也不仅限于文本挖掘,机器感知、图像识别等也是其基本内容。“机器感知就是使机器具有类似于人的感觉,包括视觉、听觉、力觉、触觉、嗅觉、痛觉、接近感和速度感等。其中,最重要的和应用最广泛的是机器视觉(计算机视觉)和机器听觉。机器视觉要能够识别与理解文字、图像、场景以至人的身份等,机器听觉要能够识别与理解声音和语言等。”因而在许多情形下,除文字作品之外,视听作品、音乐作品、美术作品、口述作品、摄影作品等为著作权法所明文规定的作品都会成为数据挖掘与机器学习的对象。

人工智能与传统计算机的核心区别是其试图模仿与架构出人脑的抽象思维模型。以人工神经网络为例,其“主要任务是学习现实世界(环境)中内嵌的模型,使所建的模型与真实世界具备高度的一致性,以实现相关应用的特定目标”。因此,需要基于真实的场景、环境与样本进行学习。最具代表性的例子是自动驾驶汽车技术,由于需要模拟真实的道路环境,因而在数据挖掘与机器学习的过程中也有可能涉及陈列在室外的建筑作品、美术(雕塑)作品等。总体来看,人工智能产业对于作品的使用非常广泛,不限于某一特定作品类型。

就涉及的著作权具体权项而言,首先,数据挖掘的步骤通常包括数据预处理、数据填充、数据挖掘、模式评估与知识表示。其中,数据预处理是指清除明显无关的数据、将来自多数据源的数据组合到一起、将数据转换为易于挖掘的形式、在不影响结果的情况下缩小数据的规模等。由于需要将数据收集并存储起来,因而最有可能侵犯到的是复制权。2020年,立法机关在复制权中增加了“数字化”方式,这会导致人工智能研发过程中更多的行为落入复制权之中,尤其是在“计算机无法在不复制信息的情况下传输信息是一条公理”的情况下。其次,由于在数据挖掘前需要对需使用的作品进行加工、整理、汇编等,如果处理后的结果能够构成著作权法意义上的新作品,那么可能构成对改编权与汇编权的侵犯。如果需要将文字作品翻译为不同的语言,那么也有可能侵犯到翻译权。最后,从实践来看,有关人员为了进行数据挖掘或机器学习,或者为了实现研究结果的可验证性,需要将数据或文本通过互联网进行传输,或者上传到云端,从著作权法的角度来看,可能涉及侵犯向公众传播权(在我国著作权法语境下,主要是指信息网络传播权与广播权)。另外,数据挖掘与机器学习完成后,最终输出的内容,也有可能侵犯他人的著作权,但要分情形讨论。假如是在人工智能产品上市之后所进行的输出,并将输出结果公开,则大多数情况下需要按照现行规则(接触与实质性相似)进行处理。假如不公开发表所输出的结果,仅供内部使用,则应当算作研发测试阶段的输出。

三、应对人工智能研发中作品使用需求的制度方案比较

在回答“如何将人工智能数据挖掘与机器学习解释入现行立法文本之中”的问题之前,需要先明确其可能以及应当适用现行著作权法中的哪一具体制度。在我国现行著作权法框架下,有三种公众合法使用尚在保护期内的作品的途径:授权许可、法定许可与合理使用。在正常情形下,使用尚在保护期内的作品须事先获得著作权人的授权许可并支付报酬。但这在人工智能数据挖掘与机器学习情形中难以适用。因为“机器创作需要海量文本数据作为学习素材,对每一作品都要取得授权,交易成本未免过高;而通过购买数据库的方式来获取版权材料,往往由于数据格式的内容偏好或容量限制,难以满足数据输入的需要”。因而,关于如何将人工智能数据挖掘与机器学习中对作品的使用纳入现行著作权法之中,主要存在两种观点:一为法定许可,二为合理使用。不过选择其中任何一种方案,都不意味着所有人工智能数据挖掘与机器学习的情形都可以适用法定许可或者合理使用规则,二者的区别仅在于应当为其铺设怎样的制度底色与基调。两种观点的争议焦点其实在于:通常情况下,人工智能产业出于本行业或领域的正常研发需求而对作品的使用,是否应当向权利人支付费用。对于非出于正常研发需求而对作品进行的使用,则应当回归正常的授权与付费模式。

在某些不便于事先逐一在著作权人处获得授权许可的情形下,法律允许公众不经事先许可而使用相关作品,但须事后向著作权人支付报酬,即法定许可。建议采用法定许可模式的观点通常认为:数据挖掘与计算机技术能够高效率地复制与分析数据,在数据获取方面具有优势,且对作品的使用具有隐秘性,会削弱著作权人对作品的控制力;如果允许人工智能研发公司无条件地或超低成本地使用作品,会降低作者的预期收益,挫伤创作积极性,进而减损社会公共利益。不同于法定许可,合理使用规则不仅允许公众在不经著作权人事先同意的情况下使用作品,还免去了其向权利人支付费用的义务。建议采用合理使用模式的观点通常认为:从受众的角度来看,深度学习技术开发中所涉及的复制行为,并未将作品直接送达人类读者;文本与数据挖掘有利于信息收集技术的发展,进而促进社会公共利益,且不会对作品的原始市场造成不利影响;如果人工智能作品使用行为在一国被判定为侵权,将会促使新技术流向法律环境更为宽松的国家,不利于我国参与国际竞争。

要在法定许可与合理使用之间进行选择,需要从立法的具体规定中提取其各自的规范目的。法定许可制度的作用主要在于提升作品的授权效率,使得公众可以及时获取相关知识及信息。但由于其并不免除作品使用许可费,因而并不降低作品使用者(常常是报刊、广播电台、电视台、音像制作者等中间商)的传播成本,这些作品使用许可费最终也会转嫁至社会公众。与此不同,从我国实践来看,将某种作品使用行为界定为合理使用的原因除了提高作品授权效率之外,还主要表现在以下几个方面:(1)事实上不可能要求使用者一概事先获得同意,也不可能要求使用者一概支付费用。这是从执行角度所作的考虑。例如,为个人学习、研究或者欣赏而使用作品。“由于个人使用他人作品的情况极为普遍,利用作品的范围又相当广泛,因此,要求每个人每次使用他人作品时均要征得著作权人同意并支付报酬,是不可能做到的,也是不合理的。”又如,对设置或陈列在公共场所的艺术作品进行临摹、拍照等。(2)后续创新所必需。《著作权法》的立法目标之一是促进创新,如果因为保护著作权人的利益而严重阻碍后续创新,那么制度本身的合理性也会减弱。可归于此类的情形包括但不限于:为介绍、评论某一作品或者说明某一问题而在作品中适当引用他人已经发表的作品;为课堂教学或科学研究而在合理范围内使用他人已发表的作品;图书馆、档案馆等出于保存版本的需要而复制本馆收藏的作品。(3)保障公众能够及时且低成本地获取知识与时事信息。我国现行立法中所规定的三种新闻类合理使用均属此类。(4)特定需要。例如,国家机关执行公务需要、为阅读障碍者提供作品、将作品翻译为少数民族语言等。以上目的常常重叠体现于我国合理使用的具体情形之中,并非一种情形只出于一种目的。

可见,虽然笼统来说,法定许可与合理使用都有利于促进社会公共利益,但二者对于公共利益的保障程度存在实质性的差别。法定许可与合理使用规则都可以提升作品的许可效率,但法定许可制度的作用有限,无法解决某些合理使用制度可以解决的问题。在二者之间进行选择的时候,可以有两个思路:第一,如果将某种情形放置在法定许可之下,是否仍旧存在利益失衡的风险;第二,如果不将其规定为合理使用,公共利益是否会受到可预见的损害。就人工智能数据挖掘与机器学习来说,其最大的特征是需要使用海量的作品。支付单件作品的成本或许不高,但海量作品累积起来所形成的作品使用费却很高昂。支付高额的作品许可使用费所增加的成本最终也会反映到产品的售价上来。由于目前我国人工智能产业在整体上处于起步阶段,且面临着较大的外部竞争压力,相应的法律制度不应太过严苛。

从发达国家的经验来看,取得颠覆性科技创新的主体有时不是大型企业,而是小型公司,甚至是个人。如果要求人工智能研发主体对其进行数据挖掘时所使用的每件作品都付费,有可能以增加研发成本的方式将最具创新活力的那部分研发主体排除在创新领域之外。同时,放弃对部分数据挖掘情形的收费权利,对于著作权人来说并非绝对有害无利,其也可以享受到人工智能产业发展所带来的诸多便利。另外,事实上也不可能要求人工智能研发者就其挖掘与使用的每一件作品付费,因为难以要求其去查找、确认每一件作品的著作权人并与其达成许可协议。故而在著作权法框架内,将数据挖掘与机器学习纳入合理使用的规制之下是一种更好的选择。

不过,从新型科技产品的商业发展规律来看,虽然在一开始出于开辟市场的需要,研发者可能会采取免费开放的策略,但在市场达到一定规模、消费者对产品产生一定依赖之后,对于更加优质的服务,研发者会倾向于采取收费模式,如腾讯会议。此时有可能存在一些利益失衡的风险:例如,科技研发机构与社会公众之间、在合理使用制度的庇护下获取先发优势的大企业与小企业或个体研发者之间的利益冲突等。但这些问题很难在著作权法之内得到彻底解决,可能需要辅之以相应的政策安排,才能使利益冲突尽量得到调和。

四、人工智能研发中作品合理使用的具体解释路径

考虑到我国《著作权法》的修改周期较长,加之合理使用条款中兜底性规定的适用要以被事先规定在其他法律及行政法规之中为前提,故在修改《著作权法实施条例》时引入专门的数据挖掘条款是最好的解决办法。修改立法也有助于司法机关对数据挖掘与机器学习树立明确的态度,省却观望所产生的制度与时间成本。但由于目前《著作权法实施条例》暂无此项规定,著作权相关立法在数据挖掘与机器学习的问题上尚处于缺位状态,为应对实践的需要,只能考虑从法律解释的角度入手,尽量将部分情形解释入现有的合理使用立法文本之内,借此拓展出立法文本新的词义空间。

一般认为,合理使用规则的适用要以构成著作权侵权为前提。如果某种作品使用行为没有落入著作权的权利范围之内,则无须承担侵权责任,也就不必进一步通过合理使用条款进行免责。也有反对观点认为,合理使用在一开始便未落入著作权的权利范围之内。如果持该种观点,那么似乎可以直接讨论合理使用规则的适用问题,而不必先将非侵权行为加以剔除。按照这两种思路进行分析,最后得出的结论可能存在一定的差别。后一种思路相对来说争议较大,出于保持逻辑上连贯性的需要,本文暂遵循第一种思路。从复制权、演绎权及信息网络传播权的角度来看,在我国,需要特别强调的、不属于著作权侵权的情形主要有:(1)临时复制。一般认为《世界知识产权组织版权条约》并未完全否定临时复制的合法性,因此,各缔约方可以自主地决定是否把临时复制行为排除在复制权的范围之外。我国的立法与司法实际上都认为临时复制不属于复制权的涵盖范围。(2)输出结果不构成著作权法意义上的作品的改编与汇编行为。根据我国现行《著作权法》的规定,只有创作或汇集出新的作品,才可能侵犯改编权与汇编权。(3)软件开发过程中的某些公开行为不构成对信息网络传播权的侵犯。例如,在任某与某信息技术有限公司侵害计算机软件著作权纠纷一案中,最高人民法院认为,软件开发行业中,在软件开发过程中保存源代码的副本为通常做法,出于工作需要将软件源代码上传至网站并导致源代码被公开,不侵犯信息网络传播权。由于这些情形不构成侵权,也就没有将其解释入合理使用条款之中的必要。总体来看,人工智能数据挖掘与机器学习过程中构成侵权的情形主要有永久性复制行为、输出了作品的改编与汇编行为、翻译行为,以及部分信息网络传播行为。

从域外经验来看,已经有许多国家和地区明确将人工智能数据挖掘纳入合理使用制度。欧盟《数字单一市场版权指令》规定,科研机构和文化遗产机构为科学研究目的进行文本和数据挖掘属于著作权的例外。但是,其要求科研机构(包括图书馆)以非营利为基础,或将所有利润再投资于科学研究。此外,《数字单一市场版权指令》还规定有一般情形下的文本与数据挖掘例外,即以文本和数据挖掘为目的,对合法获取的作品或其他内容进行复制与提取的行为属于著作权的例外。该条没有非营利性目的之限制。

在美国,司法实践中很早便出现了与文本及数据挖掘相关的著作权案件。几乎绝大多数文本与数据挖掘都被法院认定为合理使用,只要研究人员事先没有签订不可使用的协议,也没有将被挖掘的作品或作品的实质性部分公开。商业性目的(或营利性质)在美国并不构成将文本与数据挖掘认定为合理使用的障碍。与之不同,《英国版权法》则要求构成文本与数据挖掘的例外必须出于非商业目的,且在实施时已对所使用的信息作了充分说明。

2019年修订的《日本著作权法》第47条第5项也包含了文本与数据挖掘的例外规定:“通过使用计算机处理信息、创建新知识或信息的利用行为属于合理使用:(1)搜索并提供结果的行为;(2)使用计算机进行信息分析并提供结果的行为;(3)除了前两项之外,通过计算机处理信息、创造新知识或信息并提供结果,有助于提高便利性的其他行为。”

从以上国家和地区的做法来看,一般都承认非出于商业性目的而进行的文本与数据挖掘的合法性。对于出于商业性目的而进行的文本与数据挖掘,不同国家的态度则不尽相同。另外,人工智能数据挖掘与机器学习中对于作品的使用,与传统情形相比,最突出的特征表现在使用到的作品的数量巨大。考虑到我国现行《著作权法》对于合理使用具体情形的规定,可以按照以下路径对法律文本进行解释。

第一,对于非营利性主体进行的数据挖掘与机器学习,可以区分为个人行为与机构行为。个人出于兴趣爱好而进行的数据挖掘与机器学习,在正常情形下,应当认为符合“为个人学习、研究或者欣赏,使用他人已经发表的作品”的规定,该款亦无作品使用数量上的限制。非营利性科研机构在数据挖掘与机器学习过程中对作品的使用,则可以借助“为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行”的规定为其提供合法依据。

该款规定对于演绎权的豁免没有所用作品数量上的限制,人工智能数据挖掘与机器学习过程中出于科研目的之必需而进行的对他人作品的演绎行为,应当被认定为合法。但是,该条款对于复制行为豁免的规定较为严格,要求必须是“少量”复制。不过虽然人工智能数据挖掘与机器学习过程中需要使用到海量的作品,但“海量”具体是指作品样类之多,而不是说要将每一件作品都复制无数件。因为人工智能数据挖掘与机器学习过程中处理的主要是大数据,对于大数据的处理需要计算机集群,而不是单台的计算机。集群中的每台计算机上都存储有计算资源,必须非常小心地将数据分割到不同的机器上,以保证所有操作都能够在同一台机器上使用。否则,在机器之间移动数据会产生额外的开销。通常,这是一个计算机密集型的操作。也就是说,复制件增多,成本也会增大,研发者会尽量将复制件的数量控制在一定的范围之内,以缩减存储成本。故而,在人工智能研发活动中,对作品的复制进行认定时,应当对“少量”作宽松解释。

具体来讲,对于“少量”的认定应当区分不同的行业或领域,以特定行业或领域的惯例及研发需求为判断的实质性标准。“少量”应当是相对的,传统科研活动中对于作品复制数量的需求(例如,文科类科研活动在通常情况下对作品的复制,在数量上就相对较少)显然不同于人工智能科研活动中对于作品复制数量的需求,不能一概而论。有观点建议在《著作权法》第24条中增加“以科学研究为目的进行文本与数据挖掘,对合法获取的作品进行复制、翻译、改编、汇编”。从以上分析来看,对于非营利性主体所从事的人工智能开发,其效果可以通过法律解释的方式达到。当然,即便是非营利性主体所从事的人工智能研发活动,也要符合“作品来源合法”“在科研需求范围之内”“适当标注作品来源”“尊重著作权人的事先不可使用的申明”等其他要求。

第二,对于营利性主体所进行的数据挖掘与机器学习,当前的法律文本也提供了一定的解释空间。我国著作权法在合理使用的制度建构上一向坚持非营利性标准。2020年修改《著作权法》时也专门为“免费表演”增加了“不以营利为目的”的要求,足见其对非营利性要求的重视。但科研活动的商业化是一种趋势或者说已经成为现实。从我国实际情况来看,传统的高校或科研院所从事的科研活动也并不都是公益性的。科研成果的应用与转化已经成为高校与科研院所的指标之一,“产学研相结合”也是国家大力提倡的。我国《著作权法》默认传统高校及科研院所从事的科研活动为非营利性的,并为其提供合理使用的制度支持。与此同时,对于企业类科研活动则归入“出于商业目的”。这种划分标准有待进一步细化。

从美国的情况来看,其在司法实践中通常以“四要素法”作为判断合理使用的依据,较为灵活,商业目的并不构成将数据挖掘与机器学习认定为合理使用的阻碍。从欧盟《数字单一市场版权指令》的规定来看,其虽然要求在文本与数据挖掘中享受著作权豁免的科研机构(包括图书馆)是非营利性的,但与此同时,对于一般性主体的文本与数据挖掘,并不要求一定是公益性的。要为科研活动提供保障,克服一些制度上的偏见与歧视,或许也是值得努力的方向。在著作权相关法律及行政法规修改以前,如果要为营利性主体进行人工智能数据挖掘与机器学习寻找合法依据,可以考虑将“为个人学习、研究或者欣赏,使用他人已经发表的作品”中的“研究”,以及“为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行”中的“科学研究”作扩大解释,将实践中一些出于商业目的而为的情况囊括进来。但这只能算作应急方案,因为可能导致立法文本的内部冲突,存在一定风险。例如,如果将“为学校课堂教学或者科学研究”中的“科学研究”解释为同时包括营利性与非营利性科学研究,那么,对于“学校课堂教学”也需要解释为同时包括营利性与非营利性的学校课堂教学,则有可能为营利性教育培训机构对他人作品的使用提供免责事由。因而,对于营利性的人工智能数据挖掘与机器学习,为其提供规范依据的更好方式仍旧是修改立法。

五、结语

人工智能数据挖掘与机器学习过程中对海量作品的使用有可能构成著作权侵权,著作权法应当为其设置一定的免责事由,这在理论上并无争议。不过,对于应当采用法定许可还是合理使用,存在一些争议。法定许可虽然可以提高作品授权效率,但并不免除使用费用,海量作品的费用累计起来可能给人工智能研发者造成过重的负担,且事实上也很难要求人工智能研发者在事后联系每一件作品的著作权人并向其支付费用。因而,合理使用制度相对来说是较好的选择。我国《著作权法》对于合理使用制度采取半开放式立法方式,虽然存在兜底性条款,但要求未被《著作权法》所明列的情形被规定于其他法律或行政法规之中。而目前其他法律与行政法规均未对人工智能数据挖掘与机器学习进行规定。在这种情况下,为应对实际所需,可以采用解释的方式将部分情形解释入现行法律文本之中。对于非营利性主体所为的数据挖掘与机器学习,主要是需要对“课堂教学与科学研究”合理使用中的“少量”作宽松解释。对于营利性机构所为之行为,虽然也可以通过扩大对“科研”的解释解决实际所需,但存在一定弊端。