论数据抓取法律风险的流程化管理

2024-01-12 14:28饶传平
东方法学 2023年6期
关键词:爬虫数据处理规制

饶传平

内容摘要:网络爬虫能够高效抓取数据,是释放数据价值的重要手段。现行立法过于碎片化,难以有效规制不法爬虫、引导正当爬虫的使用;司法对网络爬虫侵入性的认定具有扩大化倾向,阻碍了数据的正常流通与合理使用。就法律而言,网络爬虫是一种能够自动化收集并存储数据的技术。“基于风险的方法”在网络数据治理中得到广泛应用,利用该方法规制数据抓取技术具有正当性与可行性。通过既有案例归纳数据抓取场景中不同爬虫的行为样态,并依据影响对象和影响程度为其匹配不同风险等级, 构建爬虫抓取数据法律风险的流程化管理框架,形成基于风险的合规和基于风险的监管,为数据处理者和监管者提供一个具体的风险管理指南。

关键词:网络爬虫数据抓取风险管理自动化数据治理合规

中图分类号:DF41 文献标识码:A 文章编号:1674-4039-(2023)06-0028-42

网络爬虫能够高效收集所需数据,是释放数据价值的重要技术手段,在各行业不同场景中得到广泛应用。与此同时,由于缺少对正当爬虫的引导与对不法爬虫的规制,恶意使用爬虫侵害他人合法权益或公共利益的行为屡见不鲜。在既往研究中,对于爬虫法律层面的分析停留在竞争法和刑法的框架下。比如,基于反不正当竞争的角度将“竞争关系”和“行为正当性”作为爬虫抓取数据行为违法性的核心判断因素,〔1"〕或基于刑法的角度,通过认定行为的“非法性”与行为对象的“层次性”来划定爬虫抓取数据的刑事犯罪边界。〔2"〕但在实践中,竞争法与刑法难以全面有效规制网络爬虫并维持数据保护与数据流通之间的平衡。近年来,为加快提升数据安全和个人信息保护,网络安全法、数据安全法和个人信息保护法以及一系列行政法规相继出台。这些立法的共同之处是均强调须对数据进行“风险管理”,这也是欧盟相关立法中所提到的“基于风险的方法”的思想。然而,由于风险管理的立法依然具有非结构化、非流程化、非标准化的缺陷,难以为数据处理者与监管者提供一个风险识别与管理的有效工具。基于此,本文试图从爬虫抓取数据的技术原理出发,识别不同场景下不同爬虫行为样态中的法律风险,构建爬虫技术使用全阶段法律风险管理的框架,使“基于风险的方法”真正成为可用于实践的数据保护工具。

一、规制爬虫抓取数据的法律困境

目前,对爬虫抓取数据的立法规制呈现部门化、碎片化倾向,无法应对不法爬虫更新快、具有不确定性和复杂性等技术特点,由此导致司法实践中只能生搬硬套地将相关法律适用范围延伸至网络治理领域,难以起到良好的治理效果。

(一)立法困境:部门化、碎片化的法律规范难以有效规制爬虫

在早期,反不正当竞争法、民法中有关网络空间行为的法律规定较为笼统,几乎没有适用于数据抓取争议案件的具体条款。刑法也无法明确具体地划出网络爬虫的合法边界。〔3"〕作为不断革新的数据收集技术手段,网络爬虫具有技术的发展性和法律关系的复杂性,传统单一立法难以完全覆盖。因此,部门化、碎片化的立法对各类不法爬虫行为并不能作出全面有效规制。司法实践便不得不将相关法律条款适用范围延伸至网络治理领域,这不仅违反了技术中立原则,而且可能造成规范的重叠与缺漏,最终导致规则缺乏可行性。〔4"〕网络安全法、数据安全法和个人信息保护法等一系列立法相继引入行政管理理念,〔5"〕这对维持互联网行业竞争秩序、维护网络数据安全和个人信息安全起到了重要作用,不仅有利于充分发挥行政机关化解矛盾纠纷的“分流阀”作用,同时为规制爬虫抓取行为提供了新的规范依据和规制思路。有学者认为,行政规制对网络爬虫的不法行为覆盖面更广,能够对不当的爬虫行为进行有效规制,亦能引导合法的网络爬虫,达成“立体化”的规制效果。〔6"〕但本文认为,上述立法依然无法有针对性地有效解决爬虫乱象。一是,这些立法直接针对爬虫行为合法性的界定较少,只是通过行为规制的方式进行引导管理,因此并不能阐明“合法”与“非法”的明确边界,数据处理者缺乏合规的具体指引;二是,行政规制难以与刑法规制相衔接,如果动辄适用刑法惩治不法爬虫行为,则有违刑法的谦抑性要求。〔7"〕

考察我国有关爬虫规制的既有立法,可以发现,其具有明显的滞后性与被动性,对行为合法与否的认定标准依然模糊,难以发挥法律的指引作用,导致数据处理者和监管者依然无法可依,这一定程度上阻礙了数据的流通与利用。

(二)司法困境:司法扩张爬虫含义阻碍其正当使用

在司法实践中,爬虫的含义相较于技术领域被扩大化,其侵入性与“恶性”进一步凸显。尤其是进入刑事领域后,数据抓取行为违法程度的提高使“网络爬虫技术”和“爬虫的侵入性”不断脱离中立的技术定义,向更宽泛的概念演进,具有从“客观侵入”到“主观恶意”转变的趋势。有学者将技术与法律针对此概念的不对称性称之为爬虫的“异变”,〔8"〕也有学者认为这体现了技术层面与法律层面关于“技术性标准”和“控制性标准”的差异。〔9"〕出于对法益保护的目的,司法实践更强调保护数据被抓取方对数据的控制意志,因而违背被抓取方意志抓取数据被认为具有非法性。而被抓取方的意志在技术层面体现在为数据设置robots协议以及反抓取技术上,在这样的场景中,突破两者措施的数据抓取行为即可能被法院认定为手段不正当甚至是对计算机系统的“侵入”。在“全国首例爬虫入刑”案中,〔10"〕法官将突破用户身份认证与反爬虫抓取措施相关联,将其认定为构成对计算机信息系统的“侵入”。〔11"〕从法益保护而言,侵入类犯罪所保护的法益是计算机信息系统数据的“机密性”。有学者认为该案爬虫抓取的对象是公开数据,难以满足保护法益“机密性”的要求,〔12"〕因为单纯的爬虫技术只能抓取由后台传输至前端的数据,并不具有侵害计算机系统的可能性。但是,该案并非简单的爬虫,而是与破解技术结合后形成的新的“变异体”。〔13"〕在这种情形下,爬虫成为其他不法技术或行为的“背锅侠”,整个技术集合被定义成“恶意爬虫”,成为一个新的被法律所否定评价的广义概念。在刑法的扩张解释下,广义网络爬虫的使用被认定为“未经授权”违背被抓取方的意志获取数据,数据处理者对用户自由访问的允许并不等同于对网络爬虫访问该数据的允许,使得对真实用户而言的“公开数据”对爬虫来说具有了“机密性”。是否有必要通过刑法保护该种只对爬虫才具有机密性的数据?本文认为,该种“公开数据”并无刑法需要保护的“机密性”法益,但该数据有可能涉及数据处理者的竞争利益。就技术而言,突破反抓取技术手段的风险也与“侵入”计算机系统的风险不相当。因此,基于刑法的谦抑性精神, 司法实践未能充分考虑爬虫技术的本质特征———模仿真实用户的收集数据的自动化工具,对爬虫“侵入性”的扩张性认定会放大数据处理者的主观意图,使技术层面的使用价值被压制,不利于数据价值的挖掘与开发。

由于爬蟲抓取数据的行为难以从反不正当竞争法的具体条款中寻求依据, 因此大部分判决依据一般条款对爬虫抓取后数据不当使用行为进行规制。典型案例如“酷米客”诉“车来了”案〔14"〕和微博头条数据抓取纠纷案〔15"〕均依据反不正当竞争法第2条认定违反robots协议抓取数据具有不正当性。问题在于:第一,robots协议目前仅能构成搜索引擎行业的行业准则,并不能解决抓取后数据的使用问题。即使遵守robots协议抓取数据,也不意味着抓取方可以对抓取所得数据任意使用。与此同时,robots协议的设置本身也难以具有商业道德的正当性,因为robots协议并无标准,不能仅因一方的数据防抓取意向即认定具有正当性,否则会造成抓取方与被抓取方利益失衡,违背反不正当竞争法鼓励并保护公平竞争的目的。第二,行业惯例并不能够等同于商业道德。行业惯例合法性并未确定,行业惯例也可能是陋习,即行业“潜规则”,〔16"〕良好的行业惯例应以能够协调各方利益的平衡为根据,而非以遵从者的数量来确定。〔17"〕因此,诉诸直觉的不正当竞争判断标准并不合理,司法实践中应尽量避免以道德标准作为判决依据,应关注行为对竞争秩序的客观影响。〔18"〕

二、从技术到法律:数据抓取/反抓取技术的法律性质

要明确网络爬虫的内涵和外延,首先要厘清数据“爬取(Crawl)”与数据“抓取(Scrap)”的技术概念及其差异,由此才能进一步界定数据抓取与反抓取技术的法律性质。

(一)“爬取”与“抓取”概念之辨

就法律而言,数据“抓取”与“爬取”在司法文书中均有使用,但并未形成统一用语,“抓取”的使用次数明显多于“爬取”。有学者从行为性质的角度对两者进行区分, 网页爬取者是经过许可且遵守robots协议的“善意爬虫”,网页抓取者是指能够破解技术防范措施的“恶意爬虫”;〔19(〕亦有学者从抓取范围的角度出发,认为数据抓取的含义大于数据爬取,数据抓取不仅包括通过网络爬虫获取数据的技术手段,还包括应用编程接口(API)———一种企业间数据获取的授权行为。〔20(〕本文认为前者对网页抓取者的概念界定得过于狭隘,而后者又扩大了数据抓取的界限。在API的应用情形中,数据处理者的数据共享行为往往是知情且同意的,由此引起的纠纷通过民法典合同编即可解决,因此API已实际超出了抓取本身的含义,同时API技术与爬虫技术的原理完全不同,并非本文的研究对象。

就词源而言,网络爬虫基于技术框架不同有网页爬取者和网页抓取者之分。爬取的特点是支持多种数据库,能够高效抓取网页;而Scrapy框架较为成熟,能够提取Web页面中的结构化数据。〔21(〕随着网络爬虫技术的不断完善,两者之间的差异也越来越小,乃至在技术领域可以相互替代。就技术而言,爬取与抓取的工作流程有所不同,“爬取”首先要从一个初始种子URL开始,通过该网页存在的URL形成新的URL合集,从而遍历整个网络;〔22(〕而“抓取”的第一步是请求目标网站提供特定URL的内容接着对网页内容进行解析和提取,最后一步是下载数据并将其保存。由此可以认为,“爬取”主要以网页为目标,其目的是聚合大量、全面的信息,因而常常用于搜索引擎中;而“抓取”的工作过程更具有针对性,主要用于提取特定的数据,可以自动捕捉到抓取者想要的数据信息。〔23(〕爬取与抓取的区别总结如下表所示:

由于数据资源的爆炸式增长,为了更好满足网络爬虫使用者的需要,聚焦式网络爬虫由通用网络爬虫演化发展而生,〔24(〕而在司法领域中更多的纠纷源自非搜索引擎的使用场景。综上所述,本文的研究将聚焦于“抓取”而非“爬取”。

(二)抓取方:网络爬虫的法律释义

有学者认为,爬虫按照指定的规则循环遍历网页中的内容并下载所需数据到本地,其本质是一套高效的下载系统。〔25(〕从技术角度而言,该定义与现行法律术语存在不一致,极易带来司法适用上的混乱。为使技术分析与法律术语相统一,本文认为,应将网络爬虫定义为一种能够自动化收集并存储数据的技术。

“自动化”体现在:地址解析的循环性;请求发送的自动性;数据获取的高效性。网络爬虫通过循环解析URL(Uniform(resource(locator,同一资源定位符)来获取数据,而URL是完全开放的,实际是在模仿普通用户正常发送数据请求,〔26(〕随后等待服务器向其传输数据并在客户端抓取数据。网络爬虫可以自动地不断发送数据请求,因此比普通用户从网页上直接获取信息的效率高得多。但也基于此,部分网络爬虫可以被数据被抓取方识别出来。

“收集存储”体现在:使用网络爬虫的目的是下载所需数据到本地。有学者认为爬虫是网站的主要数据“采集”方式,然而数据采集的客体不仅包含网络数据,还包括从传感器和其他待测设备等模拟和数字被测单元中自动采集的数据。〔27#〕显然网络爬虫的抓取对象并非来自传感器或真实世界的数据,数据仅经历了设备之间的“复制性”转移,若使用“采集”一词则会造成抓取客体范围的扩大化。网络安全法、数据安全法和个人信息保护法关于数据的获取均使用“收集”一词,考虑到法律条例及其适用的语义一致性,本文认为“收集”比“采集”更为恰当。同时,网络爬虫在循环遍历网络数据时会将所需数据下载到本地,该下载行为即可定义为“存储”。

(三)反抓取方:robots协议与反抓取技术措施的法律性质

从网站来讲,网络爬虫的恶意使用不仅增加了服务器数据泄露的风险,也增加了网站运营成本,因此越来越多的网站采取反爬虫手段来遏制网络爬虫的滥用。数据被抓取方对网络爬虫的应对与防范即反抓取手段,主要包括robots协议和反抓取技术措施。

robots协议是规范网络爬虫抓取行为的非强制性“君子协议”,其存在或生效与否,不影响网站数据的公开状态,也不会对执意抓取的爬虫带来技术上的障碍。有学者认为爬虫逐渐表现出其手段的竞争性特征,由于越来越多的数据抓取方以不劳而获、“搭便车”的态度利用网络爬虫收集数据,因此被抓取者往往将其视为商业竞争工具。〔28#〕

目前,我国法律并没有明确规定robots协议的法律属性,仅旨在提高搜索引擎服务行业水平的《互联网搜索引擎服务自律公约》第7条规定,互联网平台应遵守robots协议,第8条规定互联网站所有者设置限制性机器人协议时应有正当合理的理由。在司法实践中,有关robots协议的争议主要体现为三种场景,一是被抓取方未设置robots协议,二是被抓取方不正当设置robots协议,三是抓取方违反robots协议。在浙江泛亚公司诉百度一案中,〔29#〕法院将泛亚公司未设置robots协议的行为视作允许被搜索引擎抓取的“默示许可”。同样,在美国Field诉Google一案中,〔30#〕法院认为Field并未设置爬虫协议来告知Google一方不得抓取数据,即推定为对Google网页快照行为的默示许可。在奇虎360诉百度不正当竞争案件中, 〔317〕法院认为百度通过设置robots协议白名单的形式来限制360进行抓取的行为具有不正当性,不仅损害了360一方的利益,也损害了消费者的利益,同时百度一方未能就其限制行为提供合理正当的理由,不符合自律公约的相关约定,违反了诚实信用原则和互联网搜索行业公认的商业道德。从抓取方的角度来说, 法院在大众点评诉百度案中认为,robots协议不能解决数据使用行为的合法性判定问题。〔32#〕总而言之,目前司法实践中将“未设置robots协议”的行为认定为被抓取的默示许可,且认定“设置robots协议”时应当有合理、正当理由,但并未直接将“违反robots协议”的行为等同于违反商业道德或行业准则。

反爬虫技术措施是指通过区分爬虫访问和真实用户访问,排除非真实用户访问的技术手段。〔33#〕IP访问量限制、Session#访问量限制、User-Agent7限制以及设置登录验证码都属于常见的反爬措施。〔347〕与robots协议相比,反爬虫技术更具强制性,后者更体现了数据提供者的“强保护意愿”。〔357〕司法实务中将突破反爬虫技术措施抓取数据的行为认定为具有“侵入”性,如在首例爬虫入刑案中,法院将绕过身份验证的行为定义为具有侵入性,抓取方构成非法获取计算机信息系统数据罪。〔36#〕

三、网络爬虫行为规制的路徑选择:基于风险的流程化管理

本文认为,规制不法爬虫技术的有效途径是引入“基于风险的方法”。该方法的本质是对技术复杂性和风险多样性的规制,并在实质上为爬虫的合法性划定一条新边界,要求数据处理者基于风险的方法形成有效的自我合规模式,监管者则应基于风险的方法制定标准和监管体系。

(一)数据抓取适用“基于风险的方法”的正当性

首先,数据抓取技术的固有特征满足基于风险方法的适用前提。爬虫技术不断更新迭代具有复杂性、多样性,新技术可能造成的损害不能被证明是必然发生的,这是适用基于风险的方法的前提。因此,基于风险的方法可以有针对地对传统规范难以评价的新技术进行管理与规制,即基于风险的数据保护理念对风险的防范预设了更有效和情境化的数据保护, 而不仅仅是基于合规的规定性框架。〔37#〕换言之,基于风险的方法将使数据保护从形式保护转变为实质保护,依据不同等级的风险课以数据处理者相应的义务,从而得以在二者之间进行相应的风险分配。

其次,基于风险的方法能够体现场景完整性理论的一般原理。Helen#Nissenbaum提出了著名的场景完整性理论。〔38#〕基于风险的方法同样要求考虑不同场景下的技术使用目的、方式和对象,考虑数据处理的性质、范围、场景与目的,和数据处理对人权自由的影响概率和风险程度,数据处理者应采用合理的技术措施,保证数据处理行为符合条例的规定。在“告知-同意”原则流于勾画复选框的现状之下,从数据流动能否促进重要价值或目的实现的角度,在数据保护的实践中划出一条实质性的界线;在利用爬虫抓取数据的场景之下,应考虑抓取方收集数据的目的、性质和范围等因素判断正当性,从而应对被抓取方robots协议形同虚设的现状。

最后,基于风险的方法的本质是对技术风险的规制,具有目的同一性。数据保护是对多样复杂的技术可能引发的风险的控制,基于风险的方法是在既有的数据权利保护方案之上的拓展。技术的发展不仅扩大了计算机系统安全的潜在威胁,更使人权尤其是隐私权置于风险之中。但与此同时,不应将对隐私权的保护和数据保护混为一谈。〔39#〕数据保护的目的是防止包括隐私权在内的各项权利被侵害,也是有效防止新技术所引发的各项风险。Mayer8Sch觟nberger证实了这一假设,他认为数据保护在其成立时是一种风险监管制度,数据保护的治理规范则是针对特定技术的立法。因此,制定了大量复杂的程序来控制和规范技术的使用,旨在不同阶段有效控制数据处理潜在的风险。〔408〕爬虫属于数据自动收集的技术手段,仅仅从技术形式进行合法性判断易产生更多规避手段,这也是我国刑事领域爬虫的侵入性含义扩张化的原因之一,基于风险的方法可以极大程度上避免该种技术规避行为。

(二)数据抓取适用“基于风险的方法”的可行性

首先,基于风险的方法能够弥补现行法律规制爬虫的滞后性。以形式合法的方式划定数据处理技术的合法性边界,难以有效遏制爬虫造成的损害后果,且不利于爬虫的正当使用。不少学者已经意识到此种局限性,苏宇认为可以利用行政规制的立体化治理能力引导爬虫技术的合理利用;〔41#〕孙禹认为可以引入形式合规的理念,确保合法的爬虫技术不受形式规制的干扰;〔42#〕朱峥认为应以内部管理型机制为基点,通过横向和纵向的体系化构建对爬虫失范行为进行规制。〔43#〕这表明,学界已经认识到事后救济模式在数据与技术治理上的不足,视角逐渐扩展到社会控制、行政规制、内部规制等治理模式。采取传统权利的保护路径难以实现促进数据流通与共享的目标,而公法规制专注于治理造成严重后果的不法爬虫,不能作为常态化的治理手段。相比之下,基于风险的方法要求数据处理者对数据处理行为的风险进行动态评估,侧重预防数据处理过程中产生的数据安全风险,基于不同风险等级配置相应的合规措施并科学配置监管资源,因而塑造了数据处理者与监管者之间的义务与责任关系,将规制重心从数据处理完成后转移至数据处理过程当中,同时场景化的风险划分方式能够有效应对未来技术发展的灵活性。〔44#〕

其次,基于风险的方法能够针对不法爬虫行为隐蔽性的特征,更加公平合理地分配数据处理风险。第一,爬虫使用者是技术的控制者,也是数据的控制者,有更多的技术能力对该数据处理行为进行风险控制;第二,数据安全风险来自爬虫行为,且爬虫使用者从该数据处理活动中获得利益,理应承担数据安全风险;第三,可以倒逼被爬取方完善数据合规行为,建立更加完备的数据安全合规体系。那么,将更多的合规义务赋予爬虫使用者是否会阻碍数据流通的效率? 当爬虫使用者面临不确定、不明晰的爬虫法律规范时,意味着数据处理行为风险的不确定性,正如悬在程序员头上的达摩克利斯之剑,基于风险的方法贯穿整个数据生命周期,从数据处理行为全流程的角度将风险情景化、具体化,这使得爬虫使用者要以最大程度和最高效率设计爬虫程序,规范数据使用活动。

再次,基于风险的方法能够将爬虫可能造成的不确定的损害转化为确定性的合规行为,将损害的无形性、不可控性、隐蔽性转化为合规行为的可操作性。在一般侵权损害中,损害事实应具有客观性,既指损害已客观发生,又指依照社会一般认识损害必然发生。〔45#〕当数据抓取方的技术已然造成损害时,一般侵权损害的构成要件很容易证明,可当数据抓取尚未造成现实损害,而是增加了数据安全的風险,则难以构成侵权损害客观性的认定,此时被抓取方无计可施。田野认为,在个人信息侵权领域应当将实质性风险作为未来损害的确定性标准,这是解决风险的不确定性与损害的客观性之间矛盾的有效出路。〔46#〕然而实质性的风险标准亦不具有确定性,唯有依赖基于风险的方法,在场景中将实质性的风险标准转化为数据处理者的合规义务与监管者的监管义务,才能够解决爬虫风险性损害的认定问题,缓解了爬虫治理中技术认定模糊的困境。

(三)“基于风险的方法”的流程化实现

考察近年来的数据立法趋势,“风险管理” 逐渐成为保障数据处理和数据安全的工具。Spina指出,欧盟的数据保护立法正在经历一场渐进的“风险化(riskification)”治理,他将其定义为“从数据处理的形式合法性和对公司行使权利的有限边界”向“在不确定的情况下管理技术创新的‘强制自律’模式”的转变。〔47#〕实际上,风险已成为数据保护领域的一个新边界,也是决定在特定情况下是否需要额外的法律和程序保障的一个关键指标,以保护数据主体免受特定数据处理活动产生的潜在负面影响。〔48#〕在我国,“风险”一词在网络安全法、数据安全法、个人信息保护法和网络数据安全管理条例(征求意见稿)中共出现了51次。然而,这些法律规范虽然新增了风险评估与风险管理机制,但“基于风险的方法”却仍然没有为数据处理者和行政监管提供有效范式。

现有立法在宏观上构建了风险管理的大方向,亟须在实践中构建“将问题、事件和损害描述为风险”的步骤。实质性风险的认定标准只能从个例出发进行判断,本文即试图通过总结既有数据抓取司法案例,识别网络爬虫抓取数据过程中的典型场景及其法律风险,并基于风险的方法对可预期的法律风险进行动态控制与防范,以便为数据处理者提供数据抓取领域风险控制的合规重点,同时为监管机构提供风险评估指南,进一步选择需要优先评估和重点监管的高风险数据处理行为。

四、网络爬虫抓取数据的法律风险管理框架

本文以爬虫的法律含义———“数据收集”为中心,将爬虫抓取数据的过程分为数据收集前、数据收集中和数据收集后三个阶段,以此构建爬虫法律风险管理框架。

(一)数据收集前:数据分类分级下的风险管理

数据安全法第22条要求建立“数据安全风险评估机制”,这不仅要求数据处理者有效应对数据安全风险,更要求监管者协调有关部门加强重要数据的保护。本文参考《网络安全标准实践指南———网络数据分类分级指引》(简称《指南》)对数据进行分类分级,并在此基础上基于风险的方法评估不同数据可能涉及的风险等级。

从数据分类的视角出发,由于数据抓取场景下被抓取一方往往是企业的网站数据,根据《指南》中对组织经营数据的分类,将数据分类为用户数据、业务数据、经营管理数据和系统运行与安全数据。

《指南》将用户数据定义为企业在开展业务过程中从个人用户收集的数据或在服务过程中归属于用户的数据,其中包括个人信息。当抓取对象为个人信息时,应考虑到个人信息保护法第13条第2款规定的个人信息收集的“知情-同意”原则,若数据抓取者并未清晰地告知用户并经用户明确同意便利用爬虫抓取其个人信息,则违反个保法中有关个人信息收集的相关规定,构成违法行为,情节严重时构成“侵犯公民个人信息罪”。典型如马某编写爬虫程序窃取App网站用户包括姓名、联系方式等个人信息约20万条,非法获利2.4万元,最终法院认定该情形下构成侵犯公民个人信息罪。〔49.〕

业务数据是指在业务生产过程中收集和产生的非用户类数据,被抓取对象包括具有竞争权益的业务数据以及涉著作权数据。当抓取对象为涉著作权数据时,抓取方可能构成侵犯著作权,情节严重者同样将落入刑法的规制框架。有两类典型不法爬虫行为样态:一是数据抓取者以网络传播为目的,利用爬虫抓取公开的涉著作权内容并直接将其“复制”公开提供;二是通过深度链接的技术手段提供内容,并使得用户无法区分内容的真实网站来源。在刑法和著作权法的交叉领域,关于后者是否构成信息网络传播行为,司法中存在不同标准。在段某侵犯著作权案中,〔50.〕被告人利用爬虫技术收集大量影视资源并上架个人网站,该网站则起到聚合、链接作品内容的作用。该案中,法院将该行为视为发行,因而构成侵犯著作权罪;但在另一案件中,〔51.〕法院认为信息网络传播应采用“服务器标准”,即深层链接行为不该被认定为信息网络传播行为。因此,在刑法和著作权法领域,存在技术标准认定冲突问题。具有竞争权益的业务数据是指在商业中可以构成企业竞争优势的数据。例如,在大众点评案、〔52#〕微博诉脉脉案中,〔53#〕法院均认定被告作为数据处理者未经网站许可抓取并使用原告网站数据的行为,违背诚实信用原则,损害了原告既有的竞争优势,构成不正当竞争行为。针对具有竞争权益的业务数据, 司法实践中往往通过反不正当竞争法中的一般原则条款对不当数据使用行为加以规制。丁晓东认为对于恶意抓取企业公开数据并搭便车的行为,反不正当竞争法的一般原则条款可以场景化地判定数据使用争议,因而优于其他传统私法路径;〔54#〕而刘琳更强调反不正当竞争法第2条的不稳定性与滞后性的弊端, 为了防止对一般原则条款的滥用, 应在第二章对商业数据“搭便车”的行为进行单独列举,明确禁止利用爬虫等技术手段抓取企业商业数据并破坏他人的竞争利益。〔55#〕

经营管理数据是指机构经营管理过程中收集和产生的数据,如经营战略、财务数据等,若属于不为公众所知悉、能为权利人带来经济利益的数据则属于商业秘密。抓取对象为商业秘密时,往往存在内部职务越权的情形,因为商业秘密显然不可能以公开数据的方式存在,一般依赖破坏性技术手段或“越权登录+抓取”的方式实现,因此只有通过技术的“侵入性”才能实现对数据处理者权益的侵害,即具备“对象不法”和“技术不法”的双重违法性。根据《反不正当竞争法》第9条,爬虫应当属于获取他人商业秘密的不正当手段之一,即已经构成侵犯商业秘密,后续是否对该商业秘密公开、泄露、使用都不影响侵犯商业秘密行为已然构成的事实。如果数据处理者使用侵入式或破坏性的爬虫,获取到不为公众知悉且具有商业价值的数据,则涉及侵犯商业秘密的风险。

系统运行和安全数据主要存在于计算机系统内部,仅能通过侵入型爬虫技术进行抓取,因此该部分法律风险实质上是由技术的侵入性引起的,下文将展开论述。

当然,待抓取对象为上述具有特殊法益需要保护的数据时,并不必然构成违法犯罪行为。例如,上文提到的迅雷诉豌豆荚一案,豌豆莢作为全网搜索视频软件,法律不应苛责其审查义务,因而豌豆荚不构成侵犯信息网络传播权。以涉著作权数据作为待抓取对象时,可以将爬虫技术〔56#〕拆解为浏览阶段、下载阶段和使用阶段进行分析。在爬虫浏览或称之为遍历网页阶段,爬虫实质上在模拟真实用户浏览网页,就技术而言,该过程相当于爬虫与网页数据的“接触”,在我国著作法保护“接触控制行为”的正当性存在极大争议,也不存在所谓的“接触权”,〔57#〕因此该阶段并不涉及侵害著作权的风险。在爬虫下载数据阶段,实质上是作品的复制过程,但该过程与“缓存”所对应的“临时复制”有所不同,爬虫使用者复制作品的意图明确为“主动复制”,因而受到著作权法中关于复制权的约束与规制。在使用阶段,应当充分考虑著作权法中关于“合理使用”的规定以防止对著作权的过度保护,这主要包括私人复制、公务复制和社会复制等合理使用类型,〔58#〕合理使用以外的情形,作品的传播行为应受到侵犯信息网络传播权的规制。以公民个人信息为抓取对象时,若属于用户自愿公开的一般个人数据,且未设置防抓取技术措施的前提下,首先应当允许被爬虫抓取,其次在权限范围内以提高效率为目的利用爬虫收集个人信息的行为也不应认定其违法性,即在实质上数据抓取行为对法益的侵害或威胁并未达到实质违法犯罪的程度。〔59#〕

在此基础上,考虑影响对象、影响程度两个要素进行分级风险评估,可以将数据划分为核心数据、重要数据和一般数据三个等级。在流程方面,数据处理者应首先考虑是否为核心数据、重要数据,再依据一般数据的不同细分等级制定不同的风险合规措施,针对核心数据要严格管理,针对重要数据要重点保护,一般数据则采用全流程的分级保护措施。

核心数据和重要数据均指对国家安全或公共安全可能造成相应危害的数据,只是危害程度上有所差异,前者具有较高的风险等级,故应采用最完善的合规措施和最严格的监管控制。《指南》认为,基于海量个人信息形成的统计数据、衍生数据也有可能属于重要数据。当数据涉及大量个人信息时,也具有侵害国家安全的风险。例如,2022年7月21日,国家互联网信息办公室公布对滴滴公司依法作出网络安全行政处罚的决定,认为滴滴公司在经营过程中存在过度收集个人信息和精准位置信息等情形,且存在严重影响国家安全的数据处理活动。〔60<〕根据司法解释,对“公民个人信息”的概念界定并未要求具有隐秘性,因此公民个人信息可以以公开数据的形式存在,在刑事规制的视角下,侵犯公民个人信息罪中的“公民个人信息”包含公开信息。〔61<〕当爬虫的抓取目标是个人信息时,首先应明确数据处理者无论是否利用爬虫手段收集个人信息均需在个人信息保护法的框架下进行。因此当企业需要利用爬虫抓取公开的个人信息时,首先应考量是否为公民自愿公开的个人信息即是否落实“告知-同意”的要求,尤其是若待抓取对象为敏感数据,更要征得被收集人的明示同意。合法收集的个人信息是爬虫合规的前提,在此基础上,大量抓取个人信息应当是具有一定的数据保护能力。

一般数据是指对国家安全和公共安全无危害, 但可能损害个人或组织合法权益的数据,《指南》指出应采用全流程的分级保护措施保护,因此一般数据可能引起的法律风险,应当综合考虑行为性质进行风险评估。以大众点评诉百度地图不正当竞争案为例,法院从主体关系、行为性质和因果关系三个方面来判定百度地图是否构成不正当竞争。〔62<〕法院在认定百度公司的行为性质时,重点评述了以下几个事实:一是大众点评被抓取的数据属于其核心竞争资源,二是百度使用爬虫的行为违背了商业道德,三是百度的行为对大众点评的经营业务足以形成实质性替代。因此,该行为不仅破坏了商业市场的竞争环境,亦损害了消费者的福祉,该爬虫抓取数据的行为构成不正当竞争行为。本文认为,数据使用行为具有不正当性是爬虫不法的必要条件,即不能“一刀切”地禁止对公开经营数据的抓取,应当考虑到双方主体的竞争关系、主体体量、数据性质和数量、使用目的等情景综合判断,法律应当对具有强大经济实力的企业的有害行为进行行政监管来保护竞争过程,而不是禁止特定类型的行为。〔63<〕若爬虫抓取非竞争关系企业的经营数据,利用抓取到的数据进行创造性使用,则数据使用行为没有侵害被抓取企业的利益,也没有侵害消费者和公共利益,应当认定为爬虫的合理使用。〔64<〕

(二)数据收集中:对于爬虫抓取技术的风险管理

由抓取技术引起的法律风险主要是指由于技术的不当使用或帮助不当使用的行为所带来的风险,以及侵害被抓取方的计算机系统或带来安全风险,具体可以将该行为细分为爬虫技术的侵入与防侵入行为、破坏行为和提供行为。

1.爬虫的侵入与防侵入行为

侵入与防侵入行为主要包括三种行为样态:违反robots协议的抓取与防抓取行为、突破反爬虫技术措施的侵入与防侵入行为、利用授权登录系统后的数据抓取行为。

首先,违反robots协议数据抓取行为是指未经被抓取方授权,或抓取方违反robots协议的公示可抓取范围而抓取数据的行为。该情景下,爬虫技术违反《网络数据安全管理条例》第17条第2款的规定,属于“违反行业自律公约利用自动化工具访问、收集数据”的行为。同时,该行为也受反不正当竞争法第2条的约束,即认定为构成“违反诚实信用原则和商业道德”的技术手段,如在腾讯诉字节跳动案中,〔65A〕字节跳动公司通过规避robots而抓取大量数据信息,法院认为字节跳动的爬虫行为即违反了上述规范, 是不正当竞争的违法行为。辩证地看, 仅仅突破robots协议的手段并不当然具有不正当性。robots协议的强制力在不同的行业领域中也有所区分。在搜索引擎领域,被抓取一方无正当理由利用robots协议设置数据抓取白名单进而排除其他搜索引擎抓取的行为在竞争法领域具有不正当性。在搜索引擎以外的行业中,该行为并不能说明robots协议违反商业道德。在360诉百度一案中,〔66A〕百度设置robots白名单限制360使用爬虫抓取数据,法院认为针对百度所设置白名单将360排除在外的行为缺乏合理、正当的理由,违反搜索引擎领域中的商业道德,构成不正当竞争;而在另一起不正当竞争案中,〔67A〕微博将头条设置为robots黑名单阻碍其使用爬虫抓取数据,法院则认为设置robots协议黑名单的行为没有违反商业道德,而是经营自决权的体现。因此,同样是利用robots协议限制爬虫的数据抓取行为却有不同的法律后果,这是因为robots协议并非各个行业的商业道德,仅在搜索引擎领域具有较强的行业准则效力。〔68A〕因此,在判断数据处理者设置robots协议的正当性时,应结合具体场景进行综合判断, 例如双方主体的经营领域和商业地位、robots协议限制的技术方式、robots协议的限制对商业环境和消费者福利的影响等。〔69A〕

其次,突破反爬虫技术相较于违反robots协议则更具有侵入性,强行突破网站设置反爬虫技术措施,情节严重的行为可能落入刑法的规制框架。刑法第285条规定不得采用其他技术手段获取计算机信息系统中存储的数据。如果网站运营者已经采取了一定的反爬虫措施,而爬虫强行突破网站运营者采取的反爬虫技术措施,并客观影响到被抓取网站的正常运行,则可能构成上述规定所规制的犯罪行为。那么,所有突破反爬虫技术措施的手段都被认为具有不正当性吗? 本文认为是否定的,常见的反爬虫技术有加密算法、验证程序、IP访问限制、验证码措施等。〔70A〕在“车来了”一案中,〔71A〕法院认定突破加密算法的爬虫具有不正当性;在“极致了”网站抓取“微信公众号平台”文章一案中,〔72A〕法院认为突破IP访问限制的手段具有不正当性;在智联招聘诉51Job案中,法院认为通过设置程序读取验证码不属于破解技术措施。〔73A〕因此,有些网站通过JS脚本如设置验证码、滑动解锁等方式限制爬虫的抓取,但该类措施是爬虫限制性措施而非禁止性措施,主观上更多是为了降低爬虫对网站运营带来的负担,且网站经营者对该技术较易突破的现状应当有一定的认知,因此被抓取方主观上对数据的保护意志并非很强。从客观技术层面而言,突破验证码抓取数据的方式并未侵入被抓取方服务器中,依然是模仿真实用户进行抓取的行为,并不產生对被抓取方的系统安全造成影响的风险。此外,若网络爬虫技术仅违反robots协议但并没有突破反爬虫技术措施的抓取行为是否具有违法性?关于爬虫协议的性质,大致有行业惯例说(或称为商业道德说)、技术标准说和单方意思表示说三大类。〔74A〕本文认为,robots协议难以作为爬虫违法性标准,尽管在司法实践中,搜索引擎行业中绕过被访问网站的爬虫协议获取数据的行为可能因违反反不正当竞争法第2条一般条款而构成不正当竞争, 但其实质是由于数据抓取方对数据的不当使用造成的,并非由抓取行为违反robots协议导致,则难以认定该行为的不法性。若赋予robots协议法律效力,则相当于给予大型互联网平台绝对权力,易形成行业垄断,会阻碍数据的流通与共享。因此,仅违反robots协议的爬虫不能当然认定其具有违法性,应当结合robots协议本身的正当性、数据的使用目的等因素综合判断爬虫行为的风险。

再次,抓取方利用授权登录系统后的数据抓取行为,是指数据抓取者在拥有单位提供的账号、密码的情况下,合法登录之后使用网络爬虫收集由单位所保存的非公开的数据。法院认为该行为属于违背他人意愿对计算机信息系统的侵入,如在马某等非法获取计算机信息系统数据案中,〔75/〕马某在未经用户同意且无网站授权的前提下, 擅自利用云盘搜索爬虫抓取百度网盘的分享链接和提取码,并将其置于自己的网站上公开提供给其他用户进行牟利活动,法院认定该爬虫行为属于“其他技术手段”获取计算机信息系统数据的行为,且由于爬虫抓取数据量巨大,情节严重,认定其构成非法获取计算机信息系统数据罪。

2.破坏行为

破坏行为是指非法对计算机信息系统功能的破坏或对其中存储的数据和应用程序的破坏。由于不加控制地利用网络爬虫技术,导致频繁的大规模访问超过了服务器的承载限度造成网站崩溃的行为,该行为可能违反《网络数据安全管理条例》第17条关于数据处理者使用自动化工具收集数据的规定,和网络安全法第27条“干扰他人网络正常功能”的规定。当该行为达到能影响公共秩序的程度,〔76/〕则可能违反刑法第286条“破坏计算机信息系统罪”的有关规定。〔77/〕

由于具有“侵入性”与“破坏性”的爬虫使用者主观恶性十分明显且后果严重,因而无论抓取者是何目的,也无论其是否抓取到数据,均会落入刑事管制范围内。例如,只要爬虫使用者未经授权擅自进入或侵入特定的计算机信息系统中,即使尚未利用爬虫抓取该系统的数据,也已然构成犯罪行为。若侵入非特定保护的计算机信息系统当中,破坏性爬虫干扰服务器正常运行造成严重后果,也可能构成破坏计算机信息系统罪。

3.提供行为

提供行为是指提供爬虫技术或提供突破反爬虫措施技术的行为,该行为涉及《网络安全法》第27条关于提供侵入网络程序、工具的规定,以及刑法规定的“提供侵入计算机信息系统程序、工具罪”。典型案例如“快啊答题”贩卖验证码识别服务案,〔78/〕李某与杨某创建“快啊答题”平台,有偿提供批量图文验证码识别服务。该技术可以快速、批量实现对腾讯公司服务器下发图文验证码的识别,以完成腾讯QQ密码的验证。后众多软件用户以向“快啊答题”平台充值的形式有偿使用上述程序,并侵入腾讯公司服务器。法院认为,被告虽然不清楚这些原始数据的来源和用途,但会意识到正常情况下不会有那么多原始数据需要识别,即存在犯罪故意,因此被认定为提供侵入计算机信息系统程序、工具罪。爬虫技术提供行为的风险主要依附于真正使用者对爬虫技术的使用是否合法,明知是违法组织或活动而为其提供爬虫技术的行为应当被列为禁止行为。

(三)数据收集后:数据使用目的的风险管理

数据使用目的是对数据抓取的实质正当性要求,可以通过对数据使用目的正当性的判定不断调控数据安全与数据流通的利益平衡。数据使用目的看似已脱离爬虫技术可能引起法律风险的范围,但爬虫使用者利用爬虫的目的正是为了实现数据使用的目的,因此对数据使用目的正当性的要求也可表达为对爬虫技术使用的正当性要求。

“正当使用”的概念最先应用于商标法领域。商标法“正当使用”制度的立法目的是以保护公众的正当使用为本位,防止商标权人滥用权利导致公众不能自由地使用公共信息资源。〔79/〕与之类似,著作权法领域也存在“合理使用”制度,该制度保障公众对作品的合理接近,从根本上反映出对公众利益的关注。〔80#〕在个人信息保护领域同样规定了“合理使用”制度,旨在基于公共利益的角度对人格权益进行一定的限制。个人信息保护法第13条规定了个人信息合理使用的五种情形,程啸教授将其总结为三项:一是为维护公共利益,二是为保护个人合法权益,三是处理已经合法公开的个人信息。〔81#〕商标权、著作权和个人信息权益都采用“强保护”的制度设计对该部分信息进行专门的法律保护,即以保护为前提兼顾信息数据的分享。而对于不具有特殊权益内容需要保护的数据而言,法律的保护强度应弱于类型化保护的数据,即应以信息数据的分享为前提兼顾利益保护。可以说,“合理使用”制度或“正当使用”制度在此语境下并不等同于“使用具有正当性”,前者是指为了公共利益对个人权益作出的牺牲,而后者是在并无法定权益需要保护的前提下,所作出的对公共利益和个人(或组织)利益的平衡。因而,在明晰一般公开数据的“合理使用”标准时,应以禁止性规定为底线,界定数据“不合理使用”的情形,底线以上均可称之为合理使用。因此数据使用目的的正当性体现为两个方面:一是不损害国家安全、公共利益;二是不损害公民、组织合法权益。

综上所述,本文构建爬虫法律风险管理框架可总结如表2。

(四)风险管理的主体:数据处理者与监管者的协同

基于风险的方法对数据处理者和监管者两方主体都将起到指导作用。Macenaite认为“风险管理”概念在欧盟数据治理中的重要性正急剧增长,并带来了两个转变,一是在实践层面上转向基于风险的数据保护的实施与合规,二是在更广泛的监管层面上转向风险监管。〔82#〕简言之,基于风险的方法需要数据处理者和监管者双主体的协同参与。原因在于,基于算法的不透明性和技术的专业性、复杂性,数据监管者单方作为规制主体的监管成本过高,数据处理者作为享受数据收益权的主体承担与之匹配的社会义务具有正当性;同时,数据处理者所承担的数据安全义务、技术安全注意义务应当具有一定的范围,过重的合规成本会阻碍数据的流通利用,政府或第三方机构应作为该种“强制自律”模式的监管者和督促者,并合理分配主体之间的风险承担。

以数据处理者和监管者双主体为坐标,可以将“基于风险的方法”细分为“基于风险的监管”和“基于风险的合规”。两者的相互协同是采用基于风险的方法的内在应有之义。

一是基于风险的监管。将风险作为监管工具使用,标志着“对风险的监管”向“通过风险监管”的转变。〔83#〕这是一种有针对性的监管模式,即依据风险评估赋予与数据处理者相对称的义务,或依据风险等级采用不同的监管方式。〔84#〕简言之,它允许根据相关风险的严重程度优先考虑监管执行或标准制定。〔85#〕风险为监管者提供了监管对象,并且成为监管活动正当化的依据。例如,欧洲议会全体会议于2023年6月14日表决通过的人工智能法案采用基于风险的监管的方法, 将人工智能分为禁止型人工智能、高风险型人工智能、有限风险人工智能和无或低风险人工智能,其中对高风险型人工智能的参与者赋予更严格的全生命周期合规义务, 规定了专门针对高风险型人工智能的风险管理系统条款。〔86#〕基于风险的监管允许监管机构根据对受监管者存在的风险进行评估,确定优先事项并明确解释其选择性决策。〔87+〕在基于风险的监管之下,监管者将其监管资源和监管成本集中在风险最大和最有害的活动上,从而能够解决更广泛的合法性和问责问题。

二是基于风险的合规。政府作为监管者受到信息不对称的影响需要付出较高的监管成本,需要将监管责任一部分转移至数据处理者,使之承担相应的合规义务。如欧盟《通用数据保护条例》所采用的基于风险的方法主要依赖于私人实体,即数据处理者,并在很大程度上委托他们对与其数据处理活动相关的社会风险进行详细的定义、评估和管理,体现一定的自律性。〔88#〕有学者指出,在对监管的深入理解下,可以将数据处理者本身视为从事基于风险的监管机构。〔89#〕数据安全法第四章明确规定了数据处理者的数据安全保护义务,这即是基于风险的合规,如第27条规定,开展数据处理活动应当依照法律、法规的规定,建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全。同时,本条第2款规定,要求重要数据处理者明确数据安全负责人和管理机构,落实数据安全保护责任。

本文认为,基于风险的方法的目标并非禁止所有具有风险损害行为或消除所有损害风险,而是从概率和成本的角度出发,数据处理者对风险不同的技术措施予以不同的关注和合规措施,监管者同样应基于数据处理行为风险的高低予以不同的监管力度。在上述四个爬虫风险场景下,数据处理者和监管者应当实施动态的合规制度和监管措施。以数据处理者为例,首先,企业应严格遵守爬虫红线,禁止任何确认违法的爬虫行为。其次,除了一般的合规义务外,数据处理者进行高风险的数据抓取行为还要求构建完善的事前合规评估、重大事件报告机制,建立详细的风险管理流程机制,严格实施人员权限管理,对重要数据和核心数据的处理活动进行严格管理并留存记录,不得以任何理由、任何方式对销毁的核心数据和重要数据进行恢复;通过间接途径获取重要数据和核心数据的,应当与数据提供方以签署相关协议、承诺书等方式,明确双方法律责任。再次,针对中风险的数据抓取行为,应当具有数据质量控制义务、数据安全保护义务,同时具备爬虫技术控制能力。

结论

网络爬虫抓取数据引发的争议愈演愈烈,可以归结为两大原因:一是立法方面,传统部门法具有一定的滞后性与被动性,行政法规制路径存在边界不清晰、难以和传统部门法有效衔接等问题;二是司法方面,主要以传统部门法为依据,导致刑事领域对爬虫概念的认定较技术领域有所扩张,竞争法领域则存在过于依赖原则性条款,商业道德的标准认定不明晰。面对以上立法与司法困境,本文认为应以“基于风险的方法”作为爬虫規制的路径,形成基于风险的合规和基于风险的监管。进而,通过归纳既有司法判例,并对不同数据抓取行为构建流程化的风险场景识别框架,将其划分为禁止行为、高风险、中风险、低风险或无风险四个风险等级,数据处理者对风险不同的技术措施予以不同的关注和合规措施,监管者同样应基于数据处理行为风险的高低予以不同的监管力度。该种“基于风险的方法”与我国数据安全法第29条规定开展数据处理活动应当加强风险监测的方法相吻合,可以为数据处理者和监管者提供一个具体的风险管理指南,不仅为企业提供具有引导性、可操作性的数据抓取规则和合规目标,对可预期的法律风险进行动态的防范与控制,也使行政机关能够对风险较大的抓取行为进行全阶段的有针对性监管,以提高行政效能。

猜你喜欢
爬虫数据处理规制
利用网络爬虫技术验证房地产灰犀牛之说
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于Python的网络爬虫和反爬虫技术研究
主动退市规制的德国经验与启示
保护与规制:关于文学的刑法
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
论《反不正当竞争法》的规制范畴
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用