生成式人工智能训练数据风险的规制路径研究

2024-03-01 04:29邢露元沈心怡王嘉怡

网络安全与数据管理 2024年1期

邢露元，沈心怡，王嘉怡

(1.南京大学法学院，江苏南京 210046；2.伦敦政治经济学院法学院，英国伦敦 WC2A 2AE；3.东北农业大学文理学院，黑龙江哈尔滨 150030)

1 生成式人工智能中的训练数据风险

不同于以往仅能进行分类、预测或实现特定功能的模型，生成式人工智能大模型(Large Generative AI Models，LGAIMs)经过训练可生成新的文本、图像或音频等内容，且具有强大的涌现特性和泛化能力[1]。训练数据表示为概率分布，LGAIMs可以实现自行学习训练数据中的模式和关系，可以生成训练数据集之外的内容[2]。同时，LGAIMs与用户之间进行人机交互所产生的数据还会被用于大模型的迭代训练。LGAIMs的开发者往往需要使用互联网上公开的数据以及和用户的交互数据作为训练数据，而这些数据可能存在诸多合规风险，例如数据来源风险、歧视风险和质量风险。事实上，数据中任何潜在的偏见、侵犯隐私、侵犯知识产权或其他不公平的情况都会影响到未来无数可能的模型应用。此外，在LGAIMs运行和再训练的过程中，也可能引发其他的数据安全风险，导致个人信息、商业秘密的泄露或影响国家安全。

1.1 数据来源风险

在训练数据的创造者不知情、未授权、未确认或未补偿的情况下，训练数据来源合法性的问题尤为凸显。具体而言，训练数据的采集和使用可能涉及以下风险：一是侵犯知识产权的风险。若相关数据受知识产权的保护，收集和使用此类数据可能侵犯权利人的知识产权。二是侵犯个人信息的风险。若相关数据属于受保护的个人信息和数据，同样可能侵犯信息数据主体的相关权利。三是侵犯商业秘密的风险，如非法获取甚至泄漏商业秘密。四是获取数据手段可能违法的风险。生成式人工智能数据收集和语料库构建高度依赖数据爬虫[3]，违法使用爬虫进行数据爬取，可能构成不正当竞争或其他侵权行为，甚至可能违反相关刑事法律。

1.2 数据质量风险

数据质量风险是指训练数据不具备准确性、真实性、客观性、代表性等性质的风险，数据质量风险是机器学习的核心问题。LGAIMs训练使用的大量数据都来自互联网，当不准确不完善的信息作为训练数据进入大模型时，会导致输出不正确的模型预测。

在数据质量风险中，生成式人工智能系统受到偏见和歧视影响的风险最为突出，偏见可能为基础数据集所固有，可能为开发人员所引入，亦可能在运行中产生。在可能产生歧视的情形中，存在训练数据具有民族、信仰、国别、地域、性别、年龄、职业、健康等歧视的风险。人工智能系统提供的结果将增加、延续和扩大现有的歧视，对特定群体的基本权利造成负面影响。

1.3 数据泄露风险

在LGAIMs的全生命周期中，数据都存在安全风险。模型可能在应用时受到网络攻击，攻击者通过注入中毒或污染数据来操纵训练数据集，产生数据中毒(Data Poisoning)和数据泄漏的风险。同时，有研究表明，生成式人工智能较为容易受到反向攻击(AI Inversion Attcks)的影响[4]，攻击者可通过模型反转获取和重新识别训练数据，侵犯数据主体的合法权益。即使没有直接的攻击，个人数据和商业秘密也存在因技术问题而泄露的可能。若用户使用境外生成式人工智能系统，即涉及数据出境，未经审批许可会存在数据合规及安全隐患。模型训练还可能涉及国家数据，存在通过危害国家数据安全进而影响国家安全的风险[5]。

本文通过与欧盟对训练数据合规风险规制的具体法规进行对比研究，对我国法律的完善提出相关建议。

2 我国相关法律规定及评述

2.1 总述

对于生成式人工智能，我国世界领先地出台了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)。目前，我国形成了以《暂行办法》、《个人信息保护法》(以下简称《个保法》)、《数据安全法》为核心的数据合规体系。

2.2 规范梳理及评述

2.2.1 针对数据来源风险

(1)不得侵犯知识产权

《暂行办法》第七条第(二)款仅笼统地规定了训练数据不得侵害知识产权。实践中，知识产权的问题多发于生成式人工智能研发者通过文本和数据挖掘获取训练数据的过程中。根据著作权法第10、49、53条，未经权利人许可，挖掘他人享有著作权的作品作为训练数据，可能构成对著作权的侵权。在过去的司法实践中，法院对出于商业目的的文本和数据挖掘大多会做出侵权的判决，即使出于非商业目的也有被认定为侵权的可能[6]。这主要涉及文本和数据挖掘行为是否构成合理使用的认定。《著作权法》第三次修改完善了合理使用制度，在法定情形后增加了一条兜底条款，为科技和时代发展下的其他合理使用行为留下了空间。但我国的合理使用制度仍基于法定主义，生成式人工智能挖掘具有知识产权的内容很难构成合理使用[7]，具有较大的侵权风险。

生成式人工智能的发展与国家之间的科技竞争息息相关，未来是否仍以保守地态度对待生成式人工智能训练数据挖掘的行为，值得商榷。

(2)不得侵犯个人信息

生成式人工智能使用个人信息作为训练数据，应当具备合法性基础并满足透明性要求，即满足《个保法》第13条规定的合法性条件，并履行第17条规定的告知义务。知情同意规则是我国个人信息保护的核心规则，然而在生成式人工智能收集和处理海量数据的背景下，该规则难以实操，基本被架空[3]。不过，第13条第(六)项及第27条给予了生成式人工智能收集处理已公开个人信息的合法性基础，只要满足以下三个条件：①在合理范围内处理；②信息主体未明确拒绝；③处理不会对个人权益产生重大影响，否则应取得同意。也就是说，研发者可以在合理范围内处理爬取的已公开的个人数据是默认规则，推定信息主体同意，同时赋予信息主体拒绝的权利，即选择退出机制(Opt-out Mechanism)。该处理规则体现了公开个人信息权益保护和个人信息资源利用的协调[8]，有利于生成式人工智能的发展。此外，若涉及敏感个人信息，则必须取得个人的单独同意，还需满足处理具有特定的目的和充分的必要性，采取严格的保护措施，同时履行额外的告知义务，告知处理敏感个人信息的必要性以及对个人权益的影响。然而，在上述规范中，是否属于“合理范围”、是否“对个人权益产生重大影响”、是否具有“特定的目的和充分的必要性”的标准并不明确，判断本身就存在较大的不确定性，由此会导致较大的合规风险。

《暂行办法》的第十一条也强调不得收集非必要的个人信息。然而，由于生成式人工智能需要海量训练数据，很容易导致个人信息处理目的和用途不明确、收集个人信息超出必要范围、信息处理期限不明确等问题[3]。例如，关于处理目的，《个保法》第14条规定变更处理目的应当重新取得个人同意。由于生成式人工智能获取公开个人信息作为训练数据，往往与最初个人同意的处理目的不同，如果完全要求处理目的和最初的公开目的相同，对于生成式人工智能应用明显并不合理。因此，应当解释为，个人信息处理与公开时用途具有合理的关联性，且符合个人的合理预期，则属于在合理范围内处理[8]。但对于生成式人工智能使用个人信息作为训练数据，个人信息与模型训练的目的是否具有合理关联性、个人是否真的能够对个人信息用于人工智能训练存在合理预期等解释难题，会使正当、必要原则在生成式人工智能的语境下无法有效发挥其作用。若宽泛地认为属于“合理范围”内的处理，可能无法妥善保障信息主体的权利。

此外，个人信息主体更正权、删除权的行使也存在合规难题。由于生成式人工智能的“算法黑箱”，很难明确识别单一训练数据对整体模型的影响，因此若想对单一个人信息进行更正和删除，技术上很难做到完全消除痕迹[7]。

现行法中使用个人信息作为训练数据的相关规定如表1所示。

表1 现行法中使用个人信息为训练数据的相关规定

(3)不得侵犯商业秘密

《暂行办法》第四条第(三)项规定了“尊重商业道德，保守商业秘密”。生成式人工智能侵犯商业秘密主要存在两种可能，一是爬取训练数据时侵犯商业秘密，二是在交互中用户自行输入构成商业秘密的信息，该信息被用于模型的迭代训练，并在输出中泄露商业秘密。对于前者，以不正当手段“获取”商业秘密的行为本身即构成侵权，使用商业秘密作为训练数据将造成更加严重的后果。对于后者，主要依靠公司采取合理措施保护商业秘密，如与生成式人工智能提供者、员工、承包商和其他第三方签订相关协议。

(4)不得违法使用数据爬虫

目前，我国在违法使用爬虫获取数据的法律责任方面已积累了较多的实务案例。民事方面，主要集中在反不正当竞争法的适用。爬取竞争对手数据属于“不劳而获”、扰乱竞争秩序的行为，可能构成不正当竞争行为，需要承担侵权责任[9]。

违反网站经营者设置的Robots协议，绕过各类保护措施，接触、保存甚至披露他人的商业秘密，可能构成对他人商业秘密的侵权。另外，如果爬虫突破了网站经营者设置的保护措施，爬取具有知识产权的作品和用户个人信息，则可能构成对著作权和个人信息权益的侵权。

刑事方面，根据使用爬虫的行为和结果适用不同的刑法罪名。爬虫没有授权、超越授权进入特定计算机信息系统，可能构成非法侵入计算机信息系统罪。爬虫抓取不同数据可构成不同的犯罪，如抓取个人信息，可能构成侵犯公民个人信息罪；如抓取具有创造性的数据，可能构成侵犯著作权罪；如抓取涉及商业秘密的数据，可能构成侵犯商业秘密罪；抓取除上述数据以外的数据，可能构成非法获取计算机信息系统数据罪。爬取行为导致计算机系统破坏，可能构成破坏计算机信息系统罪。刑法通过提前规制数据的不当收集与获取行为来降低数据滥用风险，而对是否存在非法获取行为进行判断需要有明确的数据收集方式和范围。然而，生成式人工智能的数据收集范围难以确定，导致判断非法获取行为存在困难[10]。而另一方面，若刑法对收集范围进行限缩，又会阻碍生成式人工智能的发展，生成式人工智能还可能由于收集数据不足造成数据歧视等其他问题。此外，《暂行办法》第四条第(二)项针对数据歧视风险强调，在训练数据选择中应当采取有效措施防止歧视。目前对于防止数据歧视的要求仍然较少，主要以技术规范为主。

2.2.2 针对数据质量风险

《暂行办法》第七条第(四)项实际上对训练数据的“真实性、准确性、客观性、多样性”提出了鼓励性而非强制性的要求，即增强数据质量，而非一定要达到这些要求。这体现了“让产业向高质量方向发展”的政策导向，但现阶段限于产业实践并不做出强制性要求。此外，第八条则针对数据标注做出明确规定，提出制定“清晰、具体、可操作的标注规则；开展数据标注质量评估，抽样核验标注内容的准确性”，以提高数据标注质量。

2.2.3 针对数据泄露风险

基础模型的训练过程中，生成式人工智能服务提供者作为数据处理者，应依据《数据安全法》履行数据安全保障义务。我国《人工智能安全标准化白皮书》指出，一方面，人工智能模型日益庞大，开发过程日益复杂，数据泄露风险点更多、隐蔽性更强，人工智能所使用开源库漏洞引发数据泄露的情况也很难杜绝。另一方面，交互式人工智能的应用降低了数据流入模型的门槛。用户在使用交互式人工智能时往往会放松警惕，更容易透露个人隐私、商业秘密、科研成果等数据。在人工智能通常收集用户输入数据用于训练的背景下，如何保障用户输入数据的安全亟需技术标准，需要落实法律法规，提出可以切实解决用户输入数据安全问题的相关标准规范[11]。

我国《数据安全法》对数据实行分类分级保护，其中国家高度重视对重要数据的保护，“对关系国家安全、国民经济命脉、重要民生、重大公共利益等国家核心数据，实行更加严格的管理制度。”因此，训练数据不宜使用重要数据和核心数据，以免带来巨大的安全隐患。

目前，涉及数据出境监管的主要则是个人信息的跨境流动。无论是境外开发者直接面向境内服务使用者提供服务，还是服务提供者连接入境API接口后向境内服务使用者提供服务，均可能涉及将服务使用者个人信息传输至境外。目前《个人信息保护法》《数据出境安全评估办法》《个人信息出境标准办法》均对个人信息出境提出合规要求，应准确识别个人信息出境场景，选择出境合法机制(标准合同/安全评估/认证)，开展个人信息保护影响评估；于隐私政策等文本中披露跨境情形，并具备相应合法性基础。《暂行办法》第四章“监督检查和法律责任”第二十条特别提及来源于境外生成式人工智能服务的场景，可以预见这将是未来监管的重点之一。

2.3 总评

我国对于网络与算法相关的法律责任主要存在三类主体——技术支持者、服务提供者以及内容生产者。算法和人工智能监管的重点一直都在于服务提供者，对于技术支持者，一般而言以伦理约束为主，尽量不做直接干预。然而，生成式人工智能的技术结构的三个层次，即基础模型、专业模型和服务应用的区分，使得现有网络与算法治理的三类责任主体的分类已难以适用，因为这三者的角色错综复杂，在不同的层次上共同发挥作用。生成式人工智能的大模型将三者功能合三为一，可以通过模型即服务的形式为企业提供技术服务，也可以通过例如ChatGPT问答的方式直接生成内容与用户进行交互[12]。因此，应当基于生成式人工智能的独特技术架构进行分层治理，而对于训练数据治理，则应当主要关注模型开发者负责的基础模型层和由服务提供者负责的专业模型。

3 欧盟相关法律规定及评述

3.1 总述

目前，欧盟形成了以《人工智能法案》(AIAct，以下简称AIA。除非另有说明，本文所有提及AIA的内容均指欧盟理事会于2022年12月6日通过的一般方法)、《通用数据保护条例》(General Data Protection Regulation，以下简称GDPR)为核心的的人工智能数据合规规范体系。AIA中，由于生成式人工智能一般没有专门的使用目的，适用对于通用目的人工智能系统(General-Purpose AI System，GPAIS)的规定。

此前，AIA主要根据风险程度对人工智能进行分类分级，分为不可接受的风险、高风险、有限风险、极低风险或无风险四种类型，并采取不同的监管措施，风险类别越高，监管要求越严格。但ChatGPT的横空出世，造成了这种风险分类标准的适用困境。根据AIA，风险分类取决于提供商设想的人工智能的使用目的，所有在法案附件三规定的领域和场景下(例如教育、就业、基础设施等)使用的人工智能系统都被视为高风险系统。然而，ChatGPT这样的通用型生成式人工智能根据使用者使用目的的不同会涉及不同的应用领域和场景，从而落入不同的风险类别中。2023年2月，欧盟议会试图将生成式人工智能整体归于高风险人工智能系统。6月14日，欧盟议会通过了其对《人工智能法》的谈判立场，欧盟议会将根据该谈判立场与欧盟理事会和欧盟委员会通过三方对话程序进行谈判，就议会和理事会(即欧盟共同立法者)均可接受的立法提案达成临时协议。最后，临时协议必须由这两个机构各自的正式程序通过。即《人工智能法》的欧盟议会版本(以下简称AIA EP Version)，最终放弃这一做法，但在AIA EP Version中对GPAIS和生成式人工智能系统进行了进一步规范，包括对其数据风险的规制。

在AIA中，第10条专门规定了数据治理(Data Governance)要求，但仅针对高风险的人工智能系统。

3.2 规范梳理及评述

3.2.1 针对数据来源风险

(1)不得侵犯知识产权

显然，若相关数据受知识产权法的保护，数据只有在获得许可或属于例外的情况下才能用于生成式人工智能的训练。《数字化单一市场指令》(Digital Single Market Directive，DSMD)中规定了文本和数据挖掘的两种例外情形。

DSMD第3(1)条规定了科研例外，若研究组织和文化遗产机构出于科学研究目的，可以对其合法获取的作品或其他素材进行文本和数据挖掘。首先，研究机构必须不以营利为目的，将全部利润再投资于研究事业，或承担政府承认的实现公共利益的任务，而受商业性质的企业决定性影响的组织不包括在内。因此，以营利为目的的公司，即使进行科研并在期刊上发表具有影响力的研究成果，也不能援引第3(1)条的规定。其次，合法获取是指，基于开放获取政策或通过合同(例如订阅)等合法渠道获取。也就是说，该类机构可以对合法获取的素材进行提取、复制和预处理，并用于生成式人工智能的训练。再次，立法说明进一步强调，在该例外情形下，相关机构无须对权利人进行补偿。

DSMD第4条则规定了一般例外，值得特别关注。在研究范围之外进行文本和数据挖掘，需要满足两个条件：①必须通过合法渠道获取内容；②其权利人未以明确、适当的方式声明保留，不得对其文本或数据库进行挖掘。因此，只要权利人未声明保留，生成式人工智能研发者和提供者不管出于任何使用目的，都可以对网络公开数据进行挖掘。对于权利人而言，这是典型的选择退出机制。根据DSMD第4(3)条，以适当的方式保留，“例如在网上公开提供内容的情况下以机器可读的方式”表达保留，似乎要求当保留声明所涉及的作品在互联网上向公众提供时，保留声明必须可以被机器自动阅读(如写入Robots协议)。实际上，在合同中加入适当的条款也可以产生选择退出的效果，因为DSMD并没有将第4条列入强制性规则。对比第3条，第3条未给权利人提供选择退出的方式，对于科研目的的挖掘不可通过合同声明的方式排除[13]。

对于权利人利益保护和鼓励科技创新之间的利益衡量，欧盟明显选择了后者。当然，欧盟立法者给权利人提供了选择退出的可能性，为权利人主动保护知识产权提供了法律基础。但问题在于，权利人群体是否有能力“以适当的方式保留”，不管是通过在网络上以机器可读的方式公开声明保留，还是通过合同条款，这都意味着权利人需要付出一定的成本。其次，对于生成式人工智能系统的研发者和提供者是否会根据权利人的声明保留即调整挖掘方式或放弃挖掘[14]，该条款在多大程度上能够保护权利人的利益存在疑问。

此外，AIA EP Version中新增了针对生成式人工智能的条款，规定生成式人工智能模型的研发者和系统的提供者应当披露训练数据中包含版权的内容，记录并公开受版权法保护的培训数据的使用情况，并提供足够详细的摘要。公开训练中拥有版权的内容的确有助于权利人维权，但这可能导致研发者承担过重的合规义务，因为必须对大量的训练数据中所有可能涉及版权的训练数据进行法律调查。同时，版权的判定也具有一定的难度，对于研发者并非易事。该披露义务具体如何实施，需要实施到什么程度，都需要进一步明确，避免造成过大的合规成本。

(2)不得侵犯个人信息

个人数据是个人信息的载体[9]，欧盟对于个人信息的保护主要通过GDPR对个人数据的保护实现。首先，生成式人工智能使用和处理个人数据作为训练数据需要具有合法性基础，即满足GDPR第6条中规定的至少一种情形。一般而言，生成式人工智能处理个人数据都没有获得个人的同意，除GDPR第89条规定的个人数据处理的科研例外情形外，需要满足第6(1)(f)条的利益平衡测试(The Balancing Test)和第6(4)条的目的转换测试(The Purpose Change Test)[2]。平衡测试是为了保护权利人的优先性权利和基本权利与自由，一般包含三个部分：①个人数据的处理行为是必要的；②数据控制者或第三方追求的是正当利益；③该正当利益没有被数据主体的优先性权利或基本权利与自由推翻。目前，欧盟并未规定具体通用的平衡性测试，因此在数据控制者利益和数据主体利益的衡量上有较大的自由裁量空间。但平衡性测试在生成式人工智能的数据合规上具有极其重要的作用，是生成式人工智能使用个人数据合法性的前提，也是生成式人工智能个人数据处理问责的一部分。同时，由于生成式人工智能采集数据的目的和原始数据被收集的目的不同，因此还需满足目的转换测试判断上述两种目的具有兼容性，以保障权利人的数据权利。此外，若涉及个人敏感数据，由于一般禁止处理敏感数据，除了满足第6条，还需要满足第9(2)条规定的可以处理敏感数据的例外情形。

生成式人工智能若要使用网络上采集的个人数据作为训练数据，即当个人数据并非从数据主体手中获取时，须承担GDPR第14条的透明性义务，对数据主体提供第14条规定的数据处理的相关信息，包括数据处理者的身份、联系方式以及个人数据处理的目的等。但对于生成式人工智能，用户作为数据主体可以在交互界面输入个人数据，此时则构成了第14(5)条的例外情形，生成式人工智能研发者和提供者应当履行第13条规定的透明性义务，给用户提供相关信息，尤其是个人数据处理的目的、合法性基础、正当利益等。对于第14条的透明性义务，由于生成式人工智能训练数据的庞大性，要通知到数量庞大且身份不明的数据主体可能会需要极大的努力，甚至形成目的和手段的不成比例的局面[15]。

(3)不得侵犯商业秘密

商业秘密受欧盟相关指令保护。生成式人工智能侵犯商业秘密的主要方式是，上游在交互阶段输入商业秘密相关数据，相关数据进入训练数据集，并最终在下游泄露。该问题主要需要通过企业对于部署和使用生成式人工智能进行限制。例如，企业与生成式人工智能研发者或提供者同意，该企业员工上传的信息将只允许该企业的用户访问[16]。

(4)不得使用违法手段获取数据

使用爬虫收集训练数据，除侵犯知识产权和个人数据外，还可能存在以下合规风险：因违反被爬取网站的使用条款而违约；如果网络爬取导致系统性能下降或出现性能问题构成侵权；由于网站经营者在开发和运营网站方面付出了巨大努力，对网站经营者的付出和工作成果“搭便车”可构成不公平竞争[16]；如果爬虫规避访问控制机制，违反欧盟知识产权指令中有关技术保护措施的规定。

3.2.2 针对数据质量风险

欧盟反歧视法(Anti-discrimination Law)规定，在特定领域如就业、教育或公开提供的商品和服务等领域中不得歧视。反歧视法并未明确规定人工智能中训练数据处理的反歧视要求，但有学者认为，在这些领域中应用的生成式人工智能满足以下条件时，其数据处理需要受到反歧视法的约束：(1)训练数据被用于反歧视法规定的特定领域；(2)数据和模型对人工智能在这些领域的应用起到决定性作用；(3)训练数据在这些领域应用的信息公开[17]。

反歧视法是否能直接适用于通用型生成式人工智能的数据处理同样存在争议，因为适用反歧视法前提条件是生成式人工智能必须直接应用于反歧视法所覆盖的领域，而通用型的生成式人工智能并没有专门的使用目的，其数据处理和模型训练难以直接用反歧视法进行规制。有学者认为，若生成式人工智能模型的研发者预先设定了生成式人工智能将在这些特定场景中应用，这意味着研发者并非单纯的技术提供中介，同样需要受到反歧视法的约束[2]。

不过，即使反歧视法可以适用，也存在执行困难。首先，主张反歧视法的适用和执行几乎完全需要由受害人提出，对于受害人来说无疑会产生巨大的成本。其次，即使适用举证责任倒置的条款，受害方仍然通常无法举出证明不同群体在统计意义上的不平等待遇的表面证据，因为这可能需要获取训练数据和算法模型[17]。因此，反歧视法并非有效的合规激励规范，亦非有效的问责机制。

如果生成式人工智能属于AIA中的高风险系统，应当核查数据和模型中可能存在的偏见，尤其当偏见可能会影响自然人基本权利或产生歧视性结果。AIA EP Version第10(5)条规定了负面偏见的检测和纠正，同时新增了处理包含种族、性取向等内容的个人敏感数据的7项条件作为防止偏见的保障措施。第29a条新增要求对高风险系统进行“基本权利影响评估”，并考虑人工智能系统对边缘群体的潜在负面影响。此外，若训练数据属于个人数据且数据处理隐含歧视，可以适用GDPR第5(1)(a)条，因其违反了公平处理原则。

若生成式人工智能属于AIA中的高风险系统，根据AIA第10(3)和(4)条，数据集应当具有相关性、代表性，并尽最大可能地无误和完整，具有适当的统计属性，同时，数据集应在预期目的要求的范围内，考虑到高风险人工智能系统预期使用的特定地理、行为或功能环境所特有的特征或要素。AIA中并未对明确规定这些特征和要素的内涵和外延，可能会导致数据是否符合要求缺乏客观性标准。AIA EP Version在立法说明第44条中新增强调了高质量数据集的重要性，并指出可通过第三方提供的合规认证服务，例如对数据集完善性的验证来满足数据治理相关的要求。

GDPR第5(1)(d)条对个人数据提出了准确性原则，个人数据必须准确且在必要时保持更新，第16条进而要求数据主体有权要求更正不准确的数据。根据GDPR，违反第5条的规定不仅要承担第82条规定的法律责任，还要承担第83(5)条规定的高达全球年营业额4%的罚款。然而，GDPR准确性原则的适用首先具有一个核心前提，也就是训练数据属于“个人数据”，需要满足“可识别性”的条件。这意味着，若通过删除直接可识别的信息或使用去标识化技术进行匿名化处理，可能会排除准确性原则对相关训练数据的适用[17]。

3.2.3 针对数据泄露风险

针对和数据安全相关的网络安全风险，AIA指出高风险人工智能系统应具有韧性，具有抵御恶意第三方利用系统漏洞改变其使用、行为、性能或破坏其安全属性的能力。AIA第15(4)条特别要求应通过技术手段预防和解决恶意第三方操纵数据集使数据中毒的问题。另外，由于生成式人工智能较为容易受到反向攻击的影响[18]，因此存在较大的个人数据的泄漏风险。如上文所述，处理个人信息需要满足GDPR第6(1)(f)条的利益平衡测试，此时必须充分考虑模型的预期目的、使用的个人数据类型、模型反转的可能性以及重新识别具体数据主体的可能性，若存在较大的模型反转的风险，则天平应当倾向于个人数据保护，不得使用个人数据作为训练数据。

数据传输方面，GDPR第五章规定了个人数据跨境传输的相关要求。原则上，只有在接收国或接收组织提供充分的数据保护时，才能转移个人数据，而欧盟委员会有权决定第三国是否提供充分的数据保护。若没有充分性决定，如果实施了适当的保障措施(例如使用标准合同条款)，数据传输仍可以进行。

3.3 总评

总体而言，由于欧盟对人工智能监管和数据保护的立法已有较多成果，人工智能数据合规体系已较为完善，规范较为详细。尽管部分规范仍有可推敲完善之处，在生成式人工智能的数据合规的诸多方面都给予了我们启发。不过，AIA规定的风险治理模式并非为生成式人工智能“量身定制”，对于生成式人工智能存在适用难题。

生成式人工智能与AIA最初针对的传统人工智能系统存在两个重大差异：动态使用场景和庞大用户规模。生成式人工智能并非针对特定的使用环境或条件，其开放性和易使用性使它拥有了前所未有的用户规模，这尤其对对适用目前AIA静态的风险分类的制度提出了挑战[1]。通用型生成式人工智能根据使用者使用目的的不同会涉及不同的应用领域和场景，从而落入不同的风险类别中，而非直接根据研发者或提供者设想的使用目的直接适用不同风险类别的规范。AIA第4(c)(1)条规定了高风险条款适用的例外情形，即提供者在使用说明中明确排除所有高风险用途，可不适用高风险条款。然而，对于生成式人工智能，大规模的用户才是决定用途的人，因此事实上难以排除具有高风险用途的情况。且提供者也应当了解，生成式人工智能系统一旦投入使用，极有可能会在某些高风险情景下使用，例如在医疗场景下利用语言模型进行总结病例甚至是智慧诊断。在这种情况下，提供者即使排除也是非善意的。因此，生成式人工智能还是会落入高风险系统的类别之中，需要履行全部的高风险系统合规义务，包括识别和分析所有“已知和可预见的最有可能危及健康、安全和基本权利的风险”。正是因为生成式人工智能的用途十分广泛，这样的制度会使提供者等主体承担过重的合规义务而导致资源浪费，结合人工智能责任制度，相关主体还面临着巨大的责任风险。除了过度监管的问题外，直接将生成式人工智能归为高风险系统还会因为对相对体量较小的模型和应用提供者造成过重的负担而不利于竞争，静态的风险治理模式应对生成式人工智能动态的系统性风险会存在滞后[19]。因此，风险分类治理模式不能完全匹配生成式人工智能的监管需求。

生成式人工智能的数据合规同样受到这种风险分类治理方式的影响，AIA中大多数数据合规的规定都只适用于高风险的人工智能系统。若生成式人工智能根据目前的规范推理完全落入高风险的分类中，会引发上述问题；但若不适用AIA中数据治理的相关规定，又会存在大量的数据风险，因此，针对人工智能的数据治理规范如何适用于生成式人工智能，仍然值得推敲，欧盟的静态风险治理范式并非最优解。也许正是因为如此，AIA EP Version新增第28b条规制人工智能基础模型，依据人工智能的技术结构对其进行规制。其中，第28b(2)(b)条对基础模型的数据处理提出了要求，基础模型只处理和纳入采用适当数据管理措施的数据集，尤其要求审查数据来源的适宜性、可能存在的偏见和实施减轻偏见的措施。

4 对我国相关规范的完善建议

4.1 贯彻落实审慎包容的规制方向

《中华人民共和国科学技术进步法》第三十五条规定了包容审慎原则，在科技和科技监管竞争日益激烈的当下，明确总体治理理念，推动生成式人工智能在内的人工智能技术发展，是形成我国国家优势的重要之举。具体到生成式人工智能的训练数据风险规制，应当在促进数据利用科技创新和数据权益保护之间有所衡量有所侧重，充分发挥数据资源的社会价值。

如前所述，当前我国的技术支持者、服务提供者和内容生产者三类主体分类并不适用于生成式人工智能，而欧盟的风险分类分级治理模式也难以直接适用于这一领域。就像欧盟在其最新的AIA EP Version中重新对GPAIS的基础模型进行规范治理一样，我国也应根据生成式人工智能的技术结构，即区分基础模型、专业模型和服务应用，为其制定不同层次的治理规范。针对训练数据的风险，基础模型层的规制应以推进技术开发为主目标，围绕科技伦理、数据选取以及模型参数等因素展开；专业模型层的规制则应以规避实际使用场景中存在的风险问题为主目标，围绕专业领域的特点根据个案分析。

4.2 制定敏捷性治理方案

生成式人工智能技术的发展具有高度的不可预测性和发散性，不可预见的新风险可能随着其应用的拓展和技术的升级随时出现。因此，对于人工智能领域的治理需要支持推进决策创新的人工智能决策实验室、鼓励企业在监管沙盒中测试新产品并积极参与行业标准制定，以及发展技术手段提高治理的敏捷性，从而适应不断变化的情况。

在当代社会中，法律的滞后性与现实的快速发展使得二者之间的张力尤其明显。除了提高立法修法的频率，还可以将法律与科技相结合，将科学技术和政府监管纳入法律体系，以更广义的方式应对科技发展所带来的挑战[20]。对于生成式人工智能的数据风险，必须结合科技标准来进行规制。在完善法律法规的同时，还需要制定相关的技术标准。

4.3 针对数据来源风险

为了降低训练数据挖掘中的知识产权风险，我国可以采纳类似欧盟的方法，为人工智能的开发调整现有的的知识产权制度，以确保基础模型层能够合法的获取大量训练数据。目前，主流的观点是训练数据的“合理使用”有助于推动人工智能产业的长期发展。人工智能领域正在利用互联网上过去十年积累下来的数据、数据库和代码等资源来进行大模型的训练，各国的政策法规也在积极跟进人工智能的飞速发展。在涉及个人信息的情况下，开发者必须保证在充分利用这些信息资源的同时，保护信息主体的合法权益。在这一方面，可以考虑借鉴欧盟的平衡性测试和目的转换测试，以确保合法权益的充分保护，达到信息主体和数据使用者之间的平衡。

4.4 针对数据质量风险

首先，应制定相关技术标准，以确保数据质量能得到有效的保障。其次，应当加快生成式人工智能基础模型的数字基础设施建设。建设数字基础设施需要法律框架的支持，以确保开发者可以通过合法获取有效的获取所需数据。在数字基础设施中，建立高质量的公共训练数据池对于训练出高质量的生成式人工智能基础模型至关重要。这可以通过建立有效的数据管理制度来促进数据的充分利用。同时，建立高质量的公共训练数据池可以推动整个产业的发展。为了提升生成式大模型水平，聚集不同领域的高质量数据库可以实现一加一大于二的效果。因此，利用好国家数据资源库，尤其是涵盖了公共卫生、科技等不同专业领域的数据，是构建高质量的公共训练数据池的重要途径。

可以借鉴欧盟最新立法，就数据歧视和系统歧视问题进行以下方面的评估：

(1)明确概述使用该系统的预期目的；

(2)系统使用的预期地理和时间范围的清晰轮廓；

(3)可能受系统使用影响的自然人和群体的类别；

(4)核查该系统的使用是否符合有关基本权利的欧盟和国家法律；

(5)投入使用高风险人工智能系统对基本权利的可合理预见的影响；

(6)可能影响边缘化人群或弱势群体的具体伤害风险；

(7)可合理预见的使用该系统对环境的不利影响；

(8)关于如何减轻已查明的危害和对基本权利的负面影响的详细计划；

(9)部署者将建立的管理制度，包括人的监督、投诉处理和补救措施。

4.5 针对数据泄露风险

首先，生成式人工智能服务提供者应当履行安全保障责任的法律义务。此外，如上所述，需要建立一种敏捷的数据安全风险治理机制。对于出现在基础模型层和专业模型层的数据风险事件，技术研发者应当被要求立即采取紧急的离线修复和模型停用等措施，以防止风险进一步扩大，并且应当及时履行通知用户(包括企业和个人)以及向监管机构报告的义务。针对服务应用层的风险事件，首先需要初步评估风险的起因。如果风险事件是由用户行为引发的，除了履行紧急纠正和通知的义务外，服务提供者还需考虑对用户采取相关的限制和处罚措施。例如，如果风险事件是由用户进行“数据投毒”行为而导致的，那么应该追究用户的责任，并在事后采取相应措施。但如果风险事件并非由用户引发，那么需要向更高级别的源头追溯，以进一步确定是基础模型层还是专业模型层存在问题，从而明确履行事后应对义务和责任承担的主体。