文本与数据挖掘的法律障碍与化解路径

2023-05-23 06:31陶乾董川

出版广角 2023年6期

陶乾?董川

【摘要】人工智能时代，知识资源平台上以数字化形态存在的作品是数据分析与人工智能模型训练的基础性资源。运用文本与数据挖掘技术能够对数据库中的内容进行深度分析，生成具有独立价值的衍生数据，从而能够发现出版规律、了解学术趋势、助力科学研究，这是知识资源转化利用的一种路径。然而，这些数字化的单一文件以及数据库本身均构成著作权法所保护的作品，文本与数据挖掘过程中的存储行为落入了著作权人复制权的控制范围，这为文本与数据挖掘的实施带来了法律障碍。我国有必要在修订《著作权法实施条例》或者进行数据产权立法时，明晰文本与数据挖掘属于一种合理使用情形，在特定条件满足时无需获得著作权人许可且无需支付使用费。这不仅符合国际社会的立法趋势，而且有利于知识资源的价值转化。

【关键词】文本与数据挖掘；合理使用；知识资源平台；复制权；生成式人工智能

【作者单位】陶乾，中国政法大学法律硕士学院；董川，北京市通州区人民法院。

【基金项目】国家哲学社会科学基金项目“人工智能生成内容的著作权立法研究”（21BXW042）阶段性成果。

【中图分类号】D923.41【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.06.006

一、文本与数据挖掘的应用概况

在当下人工智能被广泛应用的时代，文本与数据挖掘（Text and Data Mining）是一种运用算法从海量的数据中提取信息的技术活动，涉及数据采集、数据存储、数据清洗和预处理、数据计算、数据分析与挖掘、数据可视化这六个步骤［1］。文本与数据挖掘能够结合人工智能和机器学习等技术，通过对海量基础数据的复制、撷取以及整合，从而对文本内容深度开发，构建可识别的模型，形成有价值的衍生数据［2］。与传统的内容分析法相比，实施文本与数据挖掘的整个过程具有准确性、智能化和高效率的特点，这不仅对大样本数据的处理更有优势，而且拓展了传统内容分析的测量范围，对分析海量数字化文本数据亦有着明显的优势［3］。文本与数据挖掘是分析式人工智能和生成式人工智能重要的技术环节。

知识资源平台上的作品是文本与数据挖掘技术运用时的重要基础数据。对这些知识资源进行文本与数据挖掘，能够成为产业界新的价值增长点。国内外已有一些知识资源平台运营者在自身平台原始数据的基础上，为用户提供数据衍生品服务。“通过对信息的数据化处理来实现出版资源的重新整合与最大化利用，通过建设专题数据库的途径实现对出版物资源的数据采集、存储和检索，并在数据库平台上进行文本与数据挖掘和可视化呈现，以生产新的知识和产生新的价值。”［4］与此同时，也有专门从事数据产业的经营者看中知识资源平台上的内容价值，希望与平台方开展合作。一些从事数据分析采集工作的组织，通过开发工具包的方式与出版商应用程序接口对接，从而访问出版商的开放存取内容。

文本与数据挖掘技术的运用提升了以作品为内容的原始数据的使用效率，开发了其潜在的价值，应属于数据产业发展中的必要组成部分。但是，现行的著作权法律制度缺乏对文本与数据挖掘过程中作品使用问题的回应，这使得文本与数据挖掘的实施面临着版权侵权风险。许多学者表达了对人工智能技术运用下文本与数据挖掘构成版权侵权的担忧［5］，并提出了设定文本与数据挖掘法定许可制度［6］、本土改造转换性使用规则［7］、引入“四要素分析法”［8］、规定开放性的合理使用制度［9］等解决思路，来为文本与数据挖掘提供“避风港”。但相反观点认为，文本与数据挖掘过程中，供机器学习的仅是临时复制件，是客观技术现象的产物，没有被利用與传播的独立经济价值，不属于著作权法意义上的复制行为，不构成侵权［10］。

从比较法的角度，为避免文本与数据挖掘在法律上的不确定性使得技术发展与应用受阻，保证本国或本地区数据产业发展中的国际竞争优势，一些国家和地区对文本与数据挖掘进行了立法尝试。在数字传播技术被日益广泛运用的当下，为促进智能产业发展，我国也应当在著作权法律制度中对人工智能技术的作品利用问题作出回应［11］。在国内外数字出版产业与数据产业蓬勃发展的时代背景之下，我国有必要准确地界定文本与数据挖掘的法律性质，研究文本与数据挖掘在国内产业实践中面临的法律障碍，分析域外法律与实践对文本与数据挖掘进行立法的经验与不足，通过厘清作者利益、出版者利益和文本与数据使用者利益之间的边界，探寻我国化解文本与数据挖掘法律困境的路径。

二、文本与数据挖掘在我国著作权法上的法律障碍

文本与数据挖掘技术能够高效地帮助人们处理海量信息，提高公众研究、学习和获取资源的能力。实施文本与数据挖掘能够将基础文本数据资源的价值予以深度利用，帮助人们发现新的知识，加快知识发现进程。而且，经过训练的人工智能模型能够产出丰富人们精神文化生活的内容。然而，文本与数据挖掘实施过程中不可避免地存在对大量作品的使用，亟须对该种使用行为是否有侵犯版权风险进行法律定性。

1．未获作品著作权人许可的文本与数据挖掘行为涉嫌侵权

文本与数据挖掘能够以图书期刊等数字化的作品集合为样本，智能化地运用分析工具对数据进行关联总结、偏差检测、评判预测，根据特定指令生成结果。根据样本数据的来源，可以将作品文本与数据挖掘分为两大类。第一类是以纸质作品为样本，将海量纸质作品扫描存储后形成数字化复制件，然后根据特定需求，从数字化内容中发现有用信息。比如，为用户呈现某类图书的主题分布情况和提供内容检索或比对服务等。第二类是以电子图书、数字期刊、网络文学、数字报纸、数据库作品等数字化作品为样本，提供文本与数据挖掘服务。这一情形较多存在于由知识资源平台、专业出版机构、数据库运营者或者网络平台型企业提供的服务中。举例来说，知识资源平台对自身平台中的学术论文进行深度挖掘，不仅可以得出当下科学研究的关注热点、研究趋势与既往成果综述，还可以通过文本与数据挖掘技术的应用，开拓语义检索、文本推荐、自动问答、内容概括等增值业务。第三方企业也会利用独立的工具对知识资源平台进行数据抓取，实施文本与数据挖掘，训练其人工智能模型，开发生成式人工智能产品。

上述多种情形下不可避免地存在对被挖掘作品的复制行为。文本与数据挖掘工具在进行样本采集、处理、挖掘乃至挖掘结果核对阶段，需要将作品的文字内容转换为机器可读的数据代码，并保存于软件可访问的存储介质中。转码仅涉及文字表达内容存储格式上的改变，并不改变作品的内容及其表现形式。该过程中的内容存储并非是短暂的、即时的、缓存性质的临时复制［12］，而是在实施者主导下进行的贯穿于挖掘全过程的对作品的数字化复制，因此，这种行为落入作品著作权人复制权的控制范围。任何主体未经著作权人许可对作品实施文本与数据挖掘，在未有法定抗辩事由的情况下，构成对著作权人复制权的侵犯。

对于纸质作品而言，出版者从作者手中获得出版权的许可意指获得复制和发行的许可。出版权中的复制与文本与数据挖掘过程中的复制相比，二者指向不同。前者的复制，目的是发行与传播作品；后者的复制，目的是产生衍生数据。所以，获得出版权授权并不代表就能对作品进行文本与数据挖掘。出版者或者任何第三方在对作品实施文本与数据挖掘前，需要得到著作权人的另行单独许可，否则构成侵权。对于数字化作品而言，一种情况是出版者本身就是作品的著作权人，其有权阻止未经许可对其产品进行文本与数据挖掘的行为；另一种情况是知识资源平台获得了著作权人的信息网络传播权授权，有权将作品数字化网络传播。此时，虽然信息网络传播权本身所隐含的是以信息网络传播为目的的复制，但与为实施文本与数据挖掘所进行的复制相比，二者的指向亦不同。因此，在未获得著作权人复制权授权的情况下，知识资源平台自己或者向其用户提供内置工具对其产品中的作品进行文本与数据挖掘，都构成侵权。若知识资源平台之外的主体利用独立的数据挖掘工具，对构成汇编作品的数据库整体内容进行复制和文本与数据挖掘，则不仅侵犯了数据库中每一部作品著作权人的复制权，还侵犯了作为汇编作品的数据库运营者的复制权。

2．我国著作权法合理使用抗辩事由难以适用于文本与数据挖掘

合理使用是著作权侵权的一种法定抗辩事由。在我国现行著作权法之下，第24条列举的情形中能够与文本与数据挖掘建立关联的情形有两种。

一种情形是为个人研究的目的使用他人已经发表的作品。也就是说，为科学研究目的，个人实施文本与数据挖掘，如果未影响被挖掘作品的正常使用，且并未损害著作权人的合法权益，则属于合理使用。但实际上，挖掘主体需具备一定技术和物质条件，一般以非自然人的组织机构形式存在，如知识资源平台、大学、图书馆或者其他研究机构［13］，个人通常不具有实施文本与数据挖掘的实力。因此，文本与数据挖掘很难落入这种个人研究目的的合理使用情形中。

另一种情形是为科学研究的目的，翻译、改编、汇编、播放或者少量复制已经发表的作品供科研人员使用。但是法条中所列举的“翻译、改编、汇编、播放或者少量复制”，难以与文本与数据挖掘形成对应关系。文本与数据挖掘的效果高度依赖原始数据的质量与数量。所以，文本与数据挖掘的实施有赖于对大量作品进行整本复制，样本越全面，得出的结果就越准确。因此，文本与数据挖掘中的作品复制，并非片段性的少量复制，亦非对某个作品进行选择性汇编。而且根据我国现行著作权法对该项情形规定的字面含义，该种合理使用的实施主体是学校和科研机构［14］，范围过窄，无法将知识资源平台涵盖其中。

综上，个人之外的各类机构，利用他人发表的作品或者对其他主体享有汇编作品著作权的数据库进行文本与数据挖掘，无法落入现行著作权法规定的法定合理使用情形之中，故需要获得著作权人的许可。在数据处理者并非著作权人，或者并非经过著作权人授权的主體时，未获得授权的作品不能作为用于文本与数据挖掘的基础数据。

三、文本与数据挖掘纳入著作权法合理使用制度的尝试

作品的复制是文本与数据挖掘技术运行过程中不可避免的步骤。对于文本与数据挖掘实施主体而言，获得其使用的海量作品授权许可不仅难以实现，而且提升了文本与数据挖掘的成本，不利于文本与数据挖掘样本库的扩充以及文本与数据挖掘的实施。因此，一些国家和地区纷纷修改著作权法律制度，以回应人工智能技术带来的新问题，试图排除文本与数据挖掘在著作权法上面临的授权障碍。

1．域外解决文本与数据挖掘法律障碍的立法与实践

日本2009年将文本与数据挖掘以“使用电脑分析信息”合理使用的方式纳入合理使用制度中，又于2018年修改著作权法时更新了文本与数据挖掘合理使用条款，分别在第30条之4和第47条之5规定了非享受性使用条款和信息处理轻微使用条款。日本通过弹性权利限制制度，分两个层次为文本与数据挖掘寻求合法性出路。第一层指向不以享受作品所表达的思想感情为目的的使用行为，即在计算机处理过程中对他人作品不涉及人类感官感知表达的使用行为。第二层指向计算机信息处理和提供附随结果等轻微使用行为。轻微使用需要具体综合所使用的部分在整个已发表作品所占的比例、所使用的量、使用时的精细程度等要素考虑后方能认定。通过第一层的概括性描述和第二层的确定性指引，将上述两种行为认定为合理使用，这种弹性权利限制制度在为文本与数据挖掘赋予法律确定性的同时，也为文本与数据挖掘例外提供了灵活的适用空间，能够抵消一部分由法律滞后性带来的影响。

随着文本与数据挖掘越来越多地被用于科学研究，排除文本与数据挖掘在著作权法上的侵权性质变得至关重要，欧洲国家陆续开始进行文本与数据挖掘立法的尝试。《英国版权法》在2014年被修改时，增设了单一非商业目的的文本与数据挖掘版权例外，允许行为人出于非商业目的，对合法获取的作品进行文本与数据挖掘，但是行为人不能将其所用的信息转让给他人或进行其他处理。同时，立法也排除了当事人通过合同限制文本与数据挖掘例外的可能性。法国2016年《数字化共和国法》为《法国知识产权法典》增设了一个规定，科学出版物的著作权人不得禁止合法获取其作品的人以公共研究目的实施文本与数据挖掘。德国2017年颁布的《著作权回应知识经济发展需求的法案》修改了著作权法中的权利限制制度，在对著作权的限制法定情形中引入了文本与数据挖掘。

在部分欧盟成员国的推动下，2019年欧盟出台了《数字市场单一版权指令》（以下简称《版权指令》）。《版权指令》调和了各成员国对文本与数据挖掘的立法态度，用两个条文规定了两种文本与数据挖掘合理使用情形，兼顾了法律确定性和涉文本与数据挖掘各方的利益平衡。第3条允许研究型组织和文化遗产机构以科学研究目的复制、提取合法访问的作品或数据库，也允许权利人采取适度的措施，确保作品或其他受著作权保护的客体所在的网络和数据库的安全性和完整性。文化遗产机构指的是公众可公开进入的图书馆或博物馆、档案馆、电影或音频遗产机构。研究型组织指的是主要从事科学研究或者开展涉及科学研究的教育活动组织，包括大学及其图书馆、研究机构或者其他主体。上述主体具有非营利性质或者其将所有收益重新投入科学研究，或者是从事被欧盟成员国认可的公共利益目的的活动，都可以合法实施文本与数据挖掘。科学研究包括自然科学和人文科学研究。第4条规定了一般的文本与数据挖掘，任何人可以文本与数据挖掘目的复制提取合法获取的作品或其他内容，但复制提取的内容只能保留到必要时为止。第4条规定的文本与数据挖掘包括政府服务、商业预测、软件开发等情形，除非著作权人以适当的方式明确声明不许使用，否则任何主体均可以基于合法获取的作品（包括在公共网络上可开放获取的作品），实施文本与数据挖掘，并且向公众传播衍生数据。

美国采取的是在个案中依照《美国版权法》第107条合理使用的“四因素”对涉案的文本与数据挖掘行为进行合理性判断。已有裁判从转换性使用的角度，将文本与数据挖掘行为作为一种对被使用作品的功能与价值的转化行为，认定该行为不构成侵权。除了在司法實践中通过判例解决文本与数据挖掘所面临的法律障碍，美国还通过立法排除文本与数据挖掘实施之前的版权技术措施障碍。美国国会图书馆根据《美国数字千年版权法》中的授权，每隔三年修订一次《禁止规避版权技术保护措施的例外规则》，在2021年10月28日的最新修订中，增加了对文本与数据挖掘的规定。具体而言，非营利性高等教育机构的研究人员以及接到上述研究人员指示的学生或信息技术人员，仅仅以学术研究和教学的目的对其合法获取的文字作品汇编进行文本与数据挖掘，可以规避版权技术措施。

2．文本与数据挖掘纳入合理使用制度对各方利益的影响

对于我国来说，尝试进行立法突破之前，必须考虑文本与数据挖掘对不同主体间利益的影响，以及将文本与数据挖掘纳入合理使用制度是否有利于利益平衡。在人工智能时代，信息传播的便捷快速及其多元化特质打破了旧有的出版传播格局。参与出版传播的民事法律关系主体错综复杂，主要包括数字版权人、出版机构、技术提供者、消费者［15］。文本与数据挖掘作为大数据时代深度利用数据的一种手段，对已出版的图书、文章等文字作品的文本与数据挖掘，不仅关涉著作权人的利益，还关涉出版商利益和数据处理者利益。这三者之间的关系，本质上是著作权法中的创作者、传播者与使用者三方主体之间的关系。

首先，从作品的创作者角度，文本与数据挖掘的实施一般不会损害其合法利益，也没有对作品的正常使用产生负面影响。第一，对作品的使用行为仅存在于衍生数据生成前的采集与处理阶段，类似于人类创作前对在先作品的“学习”环节。故文本与数据挖掘并不会对著作权人的利益产生负面影响，反而能够更大限度地发挥作品的社会作用。第二，从功能上讲，文本与数据挖掘仅是发现知识的工具，能够起到加快知识发现进程的作用。文本与数据挖掘是基于信息分析的目的使用既有数据，与既有数据著作权人创作作品或控制作品使用行为的目的并不相同。衍生内容和增值价值的开发和利用，并不影响作者创作作品时的目的实现。虽然文本与数据挖掘大量地使用他人作品，但是这种使用行为并没有干涉作者对其自身思想表达的公开传播［16］。第三，从文本与数据挖掘所生成的衍生数据内容来看，其不是简单地重复此前已有的作品，也不是以既有作品中的基本表达为基础的创作，而是在不影响既有数据价值的同时开拓其增值价值。相对于被挖掘的既有作品而言，文本与数据挖掘所产生的数据成果是原有作品文献的价值增值部分［17］。因此，文本与数据挖掘对样本的使用具有转换性。总之，文本与数据挖掘所生成的衍生数据与作为基础数据的作品，在内容上和价值上相互独立［18］。文本与数据挖掘对既有作品的使用是一种非竞争目的的使用，衍生数据并不影响既有作品的市场。

其次，从作品传播者的角度，一方面，作品传播者掌握着大量已经出版的作品的数字化文本，出版单位实施文本与数据挖掘具有天然优势。另一方面，作品传播者出版的作品被知识资源平台等第三方主体实施文本与数据挖掘时，若可依法不经其授权，那么可能会破坏其对高质量内容所提供的投资激励机制［19］。但事实上，将文本与数据挖掘纳入合理使用制度，并不妨碍出版单位原有的商业安排。文本与数据挖掘对作品的复制行为，是对已合法获得作品的一种使用行为，所以，进行文本与数据挖掘的前提条件是已通过合法渠道获得数字作品或者纸质作品。由于出版单位已经在该作品的流通环节获得了经济利益回报，出版单位的利益不会因文本与数据挖掘而受到显著减损。相反，由于数据产业的飞速发展，文本与数据挖掘的应用场景与需求也在不断增多，而且文本与数据挖掘技术的运用需要以海量样本作为支撑，所以，从出版单位处合法取得样本的需求势必会随之增加，其商业机会也可能因此增多。

最后，从文本与数据挖掘实施主体的角度，数据的共享与运用对其开展文本与数据挖掘活动极为重要。文本与数据挖掘所需的样本数量巨大，在实施文本与数据挖掘之前，要求实施主体获得所有相关数字作品的复制权授权并不现实。在权利人拒绝许可的情况下，将会产生大量碎片化权利，阻碍衍生数据成果的流通与使用［20］。而且，在从互联网采集公开数字资源的情况下，一些数字化作品的权利人以匿名的形式存在，根据待挖掘文本的来源一一确定作品著作权人并向其索取复制权许可也并非易事。

从另一个角度来说，倘若授权许可是合法进行文本与数据挖掘的唯一途径，那么，作品的著作权人与数据使用者在许可关系中的地位差距将扩大。著作权人处于相对优势地位，其可能会不正当地限制挖掘的方法、范围、数量、存储以及挖掘成果共享［21］，采用一揽子许可、捆绑许可等方式进行授权。若某些大型企业取得了作品的排他许可或独占许可，也不利于小规模企业的成长与市场竞争秩序的维护，可能会造成文本与数据挖掘领域的垄断［22］。知识资源平台整合了大量作品，若允许知识资源平台在特定情况下对平台内的作品实施文本与数据挖掘，能够最大限度地发挥其资源优势，实现知识传播与共享的目的。如果文本与数据挖掘行为的实施有赖于著作权人的在先许可，那么这可能会对文本与数据挖掘样本库的扩充产生负面影响，使得文本与数据挖掘技术受制于缺少既有数据。若这种情形长期持续，文本与数据挖掘技术的应用与进步将受到阻碍。而且，文本与数据挖掘结果的准确性有赖于全面的基础数据。数据的缺失影响模型的构建，文本与数据挖掘的结果也因数据和算法模型的偏差而产生偏差，形成算法偏见，这反而不利于社会公共利益。

四、文本与数据挖掘实施过程中合理使用作品的条件

鉴于文本与数据挖掘的实施对著作权人利益不会产生严重损害，而且，文本与数据挖掘有利于社会公共利益，将其作为著作权法第24条列举的一项合理使用情形具有合理性。对于文本与数据挖掘合理使用制度的构建，通过立法手段在灵活性与确定性之间进行平衡时，不仅需要使用精准的法律语言，还需要结合我国文本与数据挖掘的具体情形作出规定。在我国化解作品文本与数据挖掘的法律障碍时，既要参考其他国家和地区的有益做法，也要努力弥补上述做法中的不足，从而形成适合中国数字出版产业和人工智能与大数据产业发展的解决对策。

1．文本与数据挖掘对象来源的合法性

从对实施文本与数据挖掘获取作品的要求上看，英国、法国均将合法获取作为文本与数据挖掘例外的条件之一，这意味着只有通过订阅、购买事先从版权人处获得许可访问权，或者已经合法购买了作品的主体方能对作品实施文本与数据挖掘［23］。但事实上，在网络空间中存在着大量的“孤儿作品”，事先确定权利主体获得授权较为困难。而且基于文本与数据挖掘对海量作品的需求，要求实施者在获取作品环节与大量权利主体进行许可谈判，不仅耗费大量的时间和精力，还提高了文本与数据挖掘的交易成本。有学者提出，鉴于判定合法来源的成本较高，而且从当前促进文本与数据挖掘技术发展与保护公共利益的角度出发，不應限制数据的来源［24］。但是，如果作品的获取来源不合法，那么，该获取行为本身就具有可责性，随后对作品的复制行为更不具备合法基础。而且如果不限来源，那么权利人在作品传播环节获取报酬的权利就无法保障。

对于我国来说，比较折中的方式应当是，将文本与数据挖掘所使用的作品，限定为从合法渠道或者从公开渠道合法取得的作品。也就是说，第一种是通过付费、订阅、合作等方式获得数据资源的访问权限进而有权下载的数字作品，以及通过合法渠道获取的经著作权人或其授权复制并发行的纸质作品；第二种是通过公开渠道获取的，著作权人自己或默示许可他人进行信息网络传播的内容。

2．文本与数据挖掘结果的独立性

文本与数据挖掘所产生的结果是独立于被挖掘作品的新成果，但新成果中有可能包含有少量比例的被挖掘文本。德国、法国均要求著作权人不得限制文本与数据挖掘结果的对外传播，但并未直接回应挖掘结果中作品文本部分呈现是否也属于合理使用。对此，《日本著作权法》的规定可供参考，研究人员运用机器学习技术来处理版权内容以提取和生成新的知识性信息，如果所生成的内容中仅仅是附带着轻微地利用了他人作品，那么该情形属于合理使用。

对于我国来说，考虑到目前传统出版机构尚未普遍具有文本与数据挖掘的技术能力，从事文本与数据挖掘的机构以知识资源平台、科研院所和科技型企业居多，为平衡二者的利益，有必要要求文本与数据挖掘所呈现的衍生数据结果应当具有有别于被挖掘对象的内容上的独立性和价值上的独立性，应当不包含或者仅少量包含被挖掘的作品，对于文本与数据挖掘生成的衍生数据的使用，不得与被挖掘作品的市场相冲突。在衍生数据包含有作品内容片段的情况下，是否构成合理使用，需要综合该片段在整个作品中所占的比例、所使用的量、使用时的精细程度等因素进行认定。此外，在文本与数据挖掘行为实施之后，出于为验证结果的目的，应当允许文本与数据挖掘实施主体保留作品的数字化副本，但应保证副本存储的安全性，防止他人未经授权获取和使用这些副本。

3．文本与数据挖掘目的的附条件性

从合理使用框架下文本与数据挖掘的实施条件上看，英国规定的是“单一非商业目的”，但是，这一标准有些狭窄。德国、法国的文本与数据挖掘例外条款适用于公益研究目的，但该范围具有模糊性。欧盟《版权指令》在立法提案阶段仅规定了科研机构实施的科学研究目的的作品使用行为适用文本与数据挖掘例外，而具备创新性的初创公司、政府部门、个人研究者等均无法被该情形涵盖。有学者认为，该项提案规定的文本与数据挖掘范围过于狭隘，将商业主体排除在文本与数据挖掘合理使用范围之外的做法与欧洲工业利益相矛盾［25］，应当允许非研究组织和公司进行文本与数据挖掘，以保证欧盟在文本与数据挖掘活动上与美国处于同一竞争水平［26］，但这遭到传统出版商和报纸出版商的强烈反对。最终，欧盟《版权指令》采取类型化手段进行了调试，以科学研究为目的的文本与数据挖掘合理使用，不赋予著作权人选择退出的权利，除此之外的文本与数据挖掘，允许著作权人以“适当的方式”声明保留，比如在作品线上传播时以机器可读的方式。但是，对于何为适当的方式缺乏明确的规定，虽以“机器可读”作为举例，但该词本身亦缺乏标准。有学者批评指出，《版权指令》定义的不清晰以及著作权人决定例外适用的机制导致文本与数据挖掘例外缺少可操作性［27］。在美国，依据转换性使用理论来进行个案评判时，文本与数据挖掘是否具有商业性目的，仅仅是合理使用判断的一个考量因素，并非决定性要素。所以，美国对文本与数据挖掘的态度被称为“灵活例外”模式，为文本与数据挖掘的实施留下了更多的法律空间。但是，这种“灵活例外”制度无法针对文本与数据挖掘行为向公众提供稳定的构成合理使用的法律预期［28］。

我国的合理使用制度采取“概括式加封闭式列举”的立法模式，从而增强规则的确定性和稳定性，避免合理使用规则被滥用和被宽泛解读以至于威胁到著作权人的利益。法官不能仅凭第24条第1款的原则性规定来裁量涉诉行为是否属于合理使用，还需要将其在所列举的法定情形中寻找对应。所以，我国并不适合采用类似于美国的“灵活例外”模式，司法实践也不能仅通过引入“四因素”分析法、改造转换性使用规则就将未在法律所列举的法定情形之中的行为作为合理使用行为来对待。2020年修订的著作权法在合理使用制度中增加了“法律、行政法规规定的其他情形”这一兜底条款，这一“半开放式”的合理使用情形，为《著作权法实施条例》以及数据专门立法规定文本与数据挖掘的合理使用留下了空间。

伴随着互联网产业的繁荣，我国数据产业发展迅猛，人工智能产业处于起步的关键阶段。从最有利于数据开发利用与人工智能应用创新的角度，数据开放与共享更有助于文本与数据挖掘的实施。为了推动并发挥文本与数据挖掘在数据产业发展的效用，促进知识的共享以及作品的传播，同时兼顾对著作权人利益的保护，我国有必要区分教学和科学研究目的与该目的之外的文本与数据挖掘行为。当然，教学和科学研究目的下，不应当对文本与数据挖掘的主体性质做过多限制，这符合我国数字经济发展实际，能够最大限度地促进知识传播与产业发展。教学和科学研究目的的文本与数据挖掘行为是“绝对的例外”，著作权人不可以通过在先声明予以禁止；该目的之外的文本与数据挖掘行为是“相对的例外”，即允许其对合法获取的作品进行文本与数据挖掘，但著作权人声明不许使用的除外。综上，以教学和科学研究目的实施文本与数据挖掘时，版权人的禁止挖掘声明应属无效，但是教学和科学研究目的之外的文本与数据挖掘，则应当尊重著作权人的声明。

在数字出版领域，知识资源平台经常会采用版权技术措施对数据进行限制，如禁止未经其授权的主体运用爬虫技术抓取文本与数据。依照《英国版权法》，在权利人采取的技术保护措施阻止了法律规定范围内的文本与数据挖掘行为时，赋予文本与数据挖掘实施者向相关行政管理部门投诉的权利。但是，这仅仅是对程序性救济措施的规定，无法及时为文本与数据挖掘的实施排除不合法的技术障碍。欧盟允许著作权人采取适当技术措施，那么，究竟何种措施可被知识资源平台应用到其数据库当中而不会被认定为无效，何种措施属于机器可读的“声明”，《版权指令》并没有作出明确的解释［29］。美国《禁止规避版权技术保护措施的例外规则》允许非营利性高等教育机构的相关人员以学术研究和教学目的规避技术保护措施，也就是说，除此之外的其他情形不得进行规避。

我国现行著作权法第50条规定了合法避开技术措施的情形，比如，为学校课堂教学和科学研究目的，提供少量已经发表的作品供科研人员使用，在该作品无法通过正常途径获取的情况下，可以避开技术措施。考虑到文本与数据挖掘过程需要对作品进行完整的复制，无法满足法律规定的“少量”这一限定条件，所以，有必要在未来修订著作权法律制度或者进行数据产权专门立法时，将仅仅为教学和科学研究目的而实施的文本与数据挖掘，列入可避开技术措施的法定情形中。

五、結语

人工智能时代，文本与数据挖掘技术是一项重要的数据利用技术，它帮助人们从海量的文献中提取关键信息，加快数据分析的进度，生产出新的知识与信息。文本与数据挖掘的应用，不仅关系到数据产业的创新发展，而且对科学研究活动的开展、知识的共享与传播也至关重要。但对知识资源平台等文本与数据挖掘实施者而言，获得其使用的海量作品的授权许可不仅难以实现，而且提升了文本与数据挖掘的成本，不利于文本与数据挖掘样本库的扩充以及文本与数据挖掘的实施。对于文本与数据挖掘过程中的作品使用行为，法律应当积极应对，避免法律的不确定性造成社会主体交易成本的增加，进而使得知识传播和技术发展的进程受阻。

当前，国内外各大企业纷纷投入生成式人工智能产品的研发进程中，如OpenAI公司研发聊天机器人ChatGPT。这类产品在对数据进行采集和深度学习的过程中不可避免地会涉及对著作权法所保护作品的存储。在当前国际数据产业竞争的大背景下，一些国家明确将文本与数据挖掘作为著作权法上的一项合理使用情形。我国现行著作权法缺乏对人工智能技术发展的回应，这给相关版权作品的使用和人工智能技术开发带来了许多困难［30］。国家互联网信息办公室正在起草的对生成式人工智能服务的管理办法，拟要求技术提供者用于生成式人工智能产品的预训练、优化训练数据不含有侵犯知识产权的内容。这为生成式人工智能的发展增加了版权合规成本。我国有必要尽快将文本与数据挖掘过程中的作品使用行为纳入合理使用的法定情形，同时也应当严格限制文本与数据挖掘构成合理使用的前提条件。为教学和科学研究目的使用通过合法途径获得的他人已经发表的作品，不需要经过著作权人的许可，亦不需要支付报酬；但为教学和科学研究之外目的实施的文本与数据挖掘行为，应受著作权人声明的限制。此外，还有必要将仅仅为教学和科学研究目的而实施的文本与数据挖掘，列入可避开版权技术保护措施的法定情形中。

当下，我国《著作权法实施条例》的修订工作已明确被列入立法规划，我国也在酝酿对数据产权的单独立法，此时应为创设文本与数据挖掘合理使用制度的最佳时机。在对数据生产者获取和处理的数据进行法律保护时，有必要对文本与数据挖掘行为所涉及的著作权问题充分考量。通过文本与数据挖掘合理使用制度的构建，平衡数据生产者与著作权人的利益，只有这样，方能克服文本与数据挖掘实施过程中著作权法上的法律障碍，规制知识资源利用秩序，助力作品的价值转化与数据产业的创新发展。

｜参考文献｜

［1］王国胤，刘群，于洪，等. 大数据挖掘及应用［M］. 北京：清华大学出版社，2017.

［2］陶乾. 论著作权法对人工智能生成成果的保护：作为邻接权的数据处理者权之证立［J］. 法学，2018（4）：3-15.

［3］钟智锦，王童辰. 大数据文本与数据挖掘技术在新闻传播学科的应用［J］. 当代传播，2018（5）：12-18.

［4］张振宇，周莉. “大数据出版” 的理念、方法及发展路径［J］. 出版发行研究，2015（1）：14-17.

［5］卢炳宏. 表达型人工智能版权合理使用制度研究［J］. 现代出版，2019（4）：60-63.

［6］高阳，胡丹阳. 机器学习对著作权合理使用制度的挑战与应对［J］. 电子知识产权，2020（10）：13-25.

［7］刘维. 人工智能时代著作权法的挑战和应对［J］. 上海交通大学学报（哲学社会科学版），2021 （2）：40-49.

［8］马治国，赵龙. 文本与数据挖掘对著作权例外体系的冲击与应对［J］. 西北师大学报（社会科学版），2021 （4）：107-115.

［9］张今，田小军. 欧盟著作权法改革与中国借鉴［J］. 中国出版，2019（6）：61-64.

［10］徐龙. 机器学习的著作权困境及制度方案［J］. 东南学术，2022（2）：237-245.

［11］吴汉东. 人工智能生成作品的著作权法之问［J］. 中外法学，2020（3）：653-673.

［12］张金平. 人工智能作品合理使用困境及其解决［J］. 环球法律评论，2019 （3）：120-132.

［13］唐思慧. 大数据环境下文本和数据挖掘的版权例外研究：以欧盟《DSM 版权指令》提案为视角［J］. 知识产权，2017 （10）：109-116.

［14］黄玉烨. 著作权合理使用具体情形立法完善之探讨［J］. 法商研究，2012 （4）：21-24.

［15］李德升. 我国数字出版的法律构建：以知识产权保护为视角［C］//王京山，等. 数字出版前沿. 北京：知识产权出版社，2018.

［16］SAG M. The New Legal Landscape for Text Mining and Machine Learning［J］. Copyright Soc'y USA，2018（66）：338.

［17］徐小奔，杨依楠. 论人工智能深度学习中著作权的合理使用［J］. 交大法学，2019（3）：32-42.

［18］万勇. 人工智能时代著作权法合理使用制度的困境与出路［J］. 社会科学辑刊，2021（5）：93-102.

［19］茹丽洁，顾立平，田鹏伟. 国际出版商对文本和数据挖掘限制的正当性辨析［J］. 圖书馆建设，2016（7）：27-33.

［20］梅傲，郑宇豪. 人工智能作品的困境及求解：以人工智能写作领域第一案为考察中心［J］. 出版发行研究，2020（12）：50-56.

［21］罗娇，张晓林. 支持文本与数据挖掘的著作权法律政策建议［J］. 中国图书馆学报，2018 （3）：21-34.

［22］张润，李劲松. 利益平衡视角下人工智能编创使用行为的法律定性与保护路径研究［J］. 出版发行研究，2020（11）：72-79.

［23］徐轩，孙益武. 英国数据挖掘著作权例外条款研究及其启示［J］. 图书馆建设，2015（9）：10-14.

［24］吴高，黄晓斌. 人工智能时代文本与数据挖掘合理使用规则设计研究［J］. 图书情报工作，2021 （22）：3-13.

［25］ HILTY R，MOSCON V. Modernisation of the EU Copyright Rules Position Statement of the Max Planck Institute for Innovation and Competition ［J］. Max Planck Institute for Innovation & Competition Research Paper，2017（12）：25.

［26］ European Copyright Society. General Opinion on the EU Copyright Reform Package［Z］. 2017.

［27］ GEIGER C. The Missing Goal-Scorers in the Artificial Intelligence Team：of Big Data，the Fundamental Right to Research and the failed Text and Data Mining Limitations in the CSDM Directive ［J］. PIJIP/TLS Research Paper Series，2021 （66）：392.

［28］LIU Jiarui. An Empirical Study of Transformative

［29］焦萍. 欧盟文本与数据挖掘版权例外条款的法律框架评析［J］. 编辑之友，2017（10）： 82-86+112.

［30］林秀芹. 人工智能时代著作权合理使用制度的重塑［J］. 法学研究，2021 （6）：170-185.