网络爬虫行为刑事规制问题研究

2022-02-26 18:22甘肃政法大学甘肃兰州730070

贵州警察学院学报 2022年3期

旷银（甘肃政法大学，甘肃兰州 730070）

一、问题的提出

网络爬虫（web crawler），又称自动索引、网络蜘蛛、蠕虫等，是一种根据一定的规则算法自动捕捉互联网相关信息的脚本或程序。当前搜索引擎在用户使用过程中存在诸多局限性，例如搜索得到的结果与用户检索目的和需求不相关，基于关键信息的搜索模式不能根据语义信息进行查询等。而网络爬虫技术作为一种高效的数据信息聚合工具，填补了常规搜索引擎的不足，提高了搜索的准确性和高效性。简言之，网络爬虫是一种基于算法的程序，旨在检索及存储互联网络中的信息和数据，具有一定的中立性。该技术虽然主要涉及竞争法与著作权法争端，但与之相关的刑事法问题不应当被忽视。

综观当前对网络爬虫的刑事规制研究，对于网络爬虫行为的刑法干预范围有以下几种主张：一是主张形式判断与实质判断双重机制的观点。[1]形式上以合法性原则（国家相关法律法规）和行业规则（robots 协议）为标准进行判断；实质上以法益侵害性的程度、所抓取数据是否具有法益保护的需求作为判断标准。二是主张行为不法和对象不法的两个维度的观点。[2]在不法侵入状态下，如故意规避、绕过、强行突破网站技术措施，可以从行为上认定为“非法”，因此应承担刑事责任。从对象不法的维度来看，对限制访问和获取的数据实施抓取的行为需负刑事责任。其理由是这些数据往往表征如财产等不同法益，对此类数据的抓取就构成了对法益的侵害。三是有观点主张刑法规制的边界应从许可访问权限、数据性质、合理使用三个方面来进行限定。[3]四是有观点认为，数据性质影响具体罪名的适用，因此在刑法条文之间存在法条竞合的可能性。[4]五是有观点认为，数据和信息属于计算机网络的不同层次，刑法设置了不同的保护制度，应当通过想象竞合原理进行充分评价。[5]上述观点从不同角度和方向对网络爬虫行为的刑法规制提出思考，但均存在相似之处，主要集中于以下几点。首先是数据本身，包括数据的性质、数据的法益保护需求度、数据主体的知情同意等；其次是不法的客观标准，如“未经授权”或“超越授权”的认定，在这一点上，与德国、美国的规定有类似之处，判断的核心在于“技术强渡”和“协议忽视”；最后是罪与非罪、此罪与彼罪的研究。总体而言，研究思路在于尽量通过明确化的客观表现这一判断依据对入罪的门槛进行划分，并从正当性、合法性、法律适用性等不同侧面进行论证。这么做有利于定性网络爬虫行为的行为性质，也能够避免过于模糊的相应规定所造成的入罪范围的不当扩大。笔者认为，当前研究仍有诸多没有解决的问题：在客观方面，对于授权访问而言，其仅由技术标准决定，还是也取决于书面规则？主观方面，上述研究缺乏对使用行为主观因素的探讨，毕竟“犯罪的主观方面在犯罪构成中具有重要的意义，是行为人负担刑事责任的主观基础”[6]。本文拟从主客观相统一的视角明确网络爬虫行为的构罪标准。

二、网络爬虫行为刑事规制必要性及立场

（一）网络爬虫行为刑事规制必要性分析

网络爬虫由于技术的中立性，本身并无善恶之分，在当今信息共享时代作为基本程序被广泛使用。但由于其技术性要求较低，加之在网络领域的重要应用，又在数据蕴含的巨大价值的驱动下，网络爬虫技术的使用出现了无序状态，大量无视规则、任意爬取的行为不断发生，因此，恶意及滥用网络爬虫行为就具有规制的正当性及必要性。

1.网络爬虫行为的危害性

结合实际情况以及从《刑法》第285 条第2 款、第253 条之一、第217 条来看，刑法对于网络爬虫行为的规制主要在于著作权、个人信息、计算机信息系统安全三个方面，通过数据信息窃取、传播和使用等途径，导致目前实务中存在知识产权犯罪、商业秘密犯罪、侵犯个人信息犯罪、网络安全犯罪等。网络爬虫技术通过将大量信息集中，为网络服务提供者带来更多流量的同时也方便了访问者对信息的快速检索，可谓是双赢行为。正当且适度使用爬虫技术可以大大降低检索各类信息的时间成本，处理海量的数据，并有极高的精确性，但若实施恶意的网络爬虫行为，则会产生极大的危害性。

首先，大量的网络爬虫通过高频率的访问网站，在未获得网络管理者允许的情况下，会对目标网站的重要信息进行窃取，例如对国家知识产权局等相关涉及知识产权的管理部门、信息收集部门的网站的重要信息进行盗取，会造成网站内保存的相关申请文件及具体信息的泄漏，对其隐私性和保密性造成极大的损害，甚至会造成行业内的混乱。

其次，对公民个人信息的侵犯。随着网络和通信技术的飞跃发展，人们享受到快捷便利的服务，在此过程中“授权获取用户信息”“获取位置信息”“面部、指纹识别支付”等已经逐渐与公民个人生活绑定，相关应用通过广泛汇集这些用户个人信息，利用大数据分析，为每位用户提供个性化服务。然而，这其中包含了大量且重要的个人信息，若保护不当，一旦泄漏则会造成严重后果。与此同时，不仅是个人的信息安全，相关社会组织的合法权益也会受到损害。

最后，对国家计算机信息系统安全的威胁。恶意爬虫行为通过非法入侵、篡改、毁坏计算机信息系统，同时散布计算机病毒，会对国家网络系统造成严重威胁，造成国家秘密的泄漏。另外，通过互联网这个虚拟平台，不法分子能够在不被轻易发现的情况下，隐藏自己的踪迹，实施网络犯罪，从而危害网络安全。

2.网络爬虫行为刑事规制的必要性

首先，维护网站的信息所属权。网站的生存运营是通过其所拥有的信息吸引流量来实现的。然而，有分析表明，网络中有三分之二的信息获取是恶意的①参见http：//www.cac.gov.cn/2019-06/16/c_1124630015.htm?from=singlemessage，最后访问日期为2021年9月30日。。即大多数网站的信息是从其他网站窃取得到，而不是通过正规渠道获取。这样会导致不正当竞争行为的产生，同时行为人在其发布的窃取信息处建立虚假站点，访问者若点击会造成财产的损失等危害后果。

其次，大量网络爬虫同时对同一网站的访问，会导致网站的崩溃，对网络稳定造成影响。同时，由于网络平台对恶意爬虫行为无法进行准确的辨别和阻止，在面对非法行为对网站的攻击时，无法采取合理有效的管理和制止措施，这就对网站的安全造成威胁，从而影响网站或程序的正常运行。

最后，恶意爬虫行为对法益的侵害是多方面的。这种行为对公民的个人权益、网络信息安全、国家安全等造成不同程度的侵害，因此有必要对网络爬虫行为进行刑法规制。

（二）网络爬虫行为刑法规制的立场解析

1.权益平衡，审慎对待

恶意网络爬虫行为本质是一种非法的数据抓取行为，判断其违法的标准主要是其对法益的侵害。然而在司法实践中，违法者对其自身的真实主观目的加以掩饰，从而导致难以从主观目的出发判断违法性。在判断违法性时应当注重权益平衡与审慎中立原则。权益平衡，就是要兼顾数据共享，兼顾社会个体和组织的合法权益。审慎中立，即在看待网络爬虫行为时，并保持审慎中立的态度，否则极易失之偏颇。网络爬虫并非仅具有危害性，其高效性、准确性等特点也帮助我们在信息网络时代拥有了更广阔的视野，仅因为其危害而忽视其贡献是不妥当的。

2.加强打击，细化规则

笔者认为，未来的修法方向应当是提高网络爬虫行为承担刑事责任的几率，也就是加大刑法保护力度。同时也要特别注意对于风险和自由的平衡，有必要引入风险理论，加强源头规制，但也要注意避免形成寒蝉效应。应当在技术发展的过程中，根据实际情况不断细化相应的法律规定及具体规则。

三、网络爬虫行为刑法规制的路径：主客观相统一原则

（一）主观方面

1.对抓取数据“行为目的”的认定

网络爬虫技术的运用价值在于对数据信息的高效收集和汇总，而利用网络爬虫抓取数据收集汇总后的“行为目的”是判断其主观心理状态的标准之一。一般来说，其使用目的应符合“合理使用”的要求。例如，应用于科学研究和学习等数据抓取行为应属于“合理使用”的范围。具体应当符合以下几个条件：第一，使用不会也没有造成目标主体的网络负担；第二，数据信息没有技术壁垒；第三，数据信息获取能够产生正向的使用价值，例如在商业竞争中，通过获取授权范围内的数据信息能够推动行业的经济发展，并且不破坏正当竞争秩序的健康和平衡；第四，数据并未侵害数据生产主体及数据源主体的合法权益。

在实务中，利用网络爬虫的行为在手段上往往具有一定的“不法性”，体现在对于反爬虫技术措施的规避、绕过或强行突破。但从“行为目的”来看，往往存在一些非商业性、无社会危害性的使用行为，例如出于学习目的，利用网络爬虫技术收集相关资料的行为。因此不能仅从是否存在“技术突破”的手段来判断该网络爬虫行为是否违法，还应从实际使用范围来判断行为的使用目的。究其根源，大量的数据垄断行为导致了一些具有特定价值，本应被共享流通的数据出现了“闭塞”，由于资本逐利的本性拔高了“共享”数据使用的门槛，造成了不公平的现象，这类行为人只能寻求技术上的突破来弥补不合理的“弱势地位”。因而在严格惩治网络爬虫不法行为的同时，应当从数据流通领域引导、规制数据使用、开放路径，从源头上认定数据的开放程度、使用路径以及数据使用的正当性。

2.对“明知”的认定

在一定数量的案件中，被告人否认犯罪的理由是否定刑法上的“明知”，依据是其并不知晓网络爬虫行为可能造成的侵害。在网络爬虫违法犯罪的场合，行为人的主观认识应该纳入违法性认识的范畴内进行考察。按照传统刑法理论，违法性认识的缺少不影响主观故意的成立，即无论行为人是否对自己行为的违法性有所认识，只要对犯罪事实有认识，就可以成立故意。例外的是，如上述情况，行为人对行为危害性的认识不足导致对违法性的认识不足，可以排除主观上的故意。因此，主观故意的判断侧重于行为人对网络爬虫行为后果危害性的认识。

网络爬虫技术的行为人可以分为开发者和使用者。尽管网络爬虫由于较为简易便能入手，但这只是相对于其他计算机技术而言，事实上能够产生较大危害性后果的网络爬虫技术，其开发者对技术的认识和了解都需要达到一定程度。而该技术对于单纯的使用者而言要求较低，因此单纯的使用者较大可能排除主观上的“明知”。

（1）对开发者“明知”的认定

对于开发者而言，其主观上“明知”的认定标准应当相对宽松：其一，根据犯罪需要而开发的恶意网络爬虫，一旦认定其犯罪的主要功能，对于开发者就可以认定其具备主观上的“明知”，可以构成相应犯罪的帮助犯。其二，对于网络爬虫技术抓取数据的判断，从开发者设置程序中判断抓取数据的性质，对于未经授权抓取个人信息、知识产权作品、商业秘密等数据的行为可以推定其具备主观上的“明知”，同样可以构成相应犯罪的帮助犯。其三，如果程序中已经预先设定技术手段能够绕过或突破数据主体的反爬虫措施，则可以认定开发者具备主观上的“明知”。最后，由于网络爬虫技术的开发者大部分同时也是使用者，因此，即便开发的特定网络爬虫技术并不存在上述情况，但使用过程能够反映其非法性，可以认定其主观上的“明知”。

（2）对单纯使用者“明知”的认定

对于单纯的使用者而言，可以从以下几点进行考察：其一，网络爬虫技术使用能够清晰反映出对国家相关法律法规的违反，从客观第三人视角能够得到相同认识的，可以推定其主观上的“明知”。其二，即便取得的网络爬虫技术预先为某些特定犯罪需要而开发，或存在并实际运行了反爬虫技术手段，但使用过程中不存在违背国家法律法规抓取公民个人信息等违法情形，不应推定其使用者存在主观上的故意。

（二）客观方面

目前大多数研究认为，“未经授权”或“超出授权”是判断网络爬虫行为非法性的标准之一。但该标准带来两个问题：一是对数据主体的单方授权如何看待？二是授权访问的范围仅由技术标准或书面规则限制，抑或二者兼有？

1.数据主体的单方授权并不合理

数据主体单方面授权的意思表示一般通过爬虫协议、弹窗等形式告知网络爬虫程序，当证据显示通知意思被网络爬虫所知悉时，如果违反了数据主体的授权意思，一般就会被认为“未经授权”或“超出授权”。然而从上述阐释的立场来看，仅有数据主体根据自身利益考量单方面设置访问权限或数据获取的权利义务作为“违法性”判断的标准并不合理。其实质是将入罪的决定权交给了数据主体，这个范围可大可小，也就是说，数据主体一方设置访问权限后，包括后期可能产生的变动都会影响到违法犯罪的判断，这就造成了法律的不确定性，大量的网络用户会面临普遍的法律风险。其后果是严重限制了人们网络行为的自由，影响数据流转，给法治理想带来威胁，在经济上极易造成强势主体的数据垄断，更不利于互联网行业以及大数据时代下的经济发展。因此，笔者认为，不宜将访问权限完全交由数据主体单方予以设置，而应将授权协议等进行备案，受到行政机关和社会大众的监督。具体而言，授权协议可以遵循“机关备案+核心利益保护+部分限制用途”的思路进行设置，综合考虑到自身利益、数据流通、自由竞争等利益衡量，形成互联网行业的一种共识性规则。否则在未来极有可能发生互联网数据“炒作”的情况，引发“互联网数据经济危机”。

2.授权访问的限制

数据主体一般使用反爬虫技术来防御网络爬虫的数据抓取行为，而规避、绕过或强行突破反网络爬虫技术屏障的行为在手段或方法上一般被视为具有“不法性”。欧洲委员会通过的《网络犯罪公约》（Cyber-crime Convention，简称CCC）第2 条规定，对于未经授权访问整个计算机系统或其任何部分的行为，缔约国有义务予以刑事处罚。这一规定可以反映出，与我国相比，欧洲国家对网络爬虫抓取数据的行为规制较为严格，欧洲国家可以将借助网络爬虫访问网站的行为认定为可罚行为。其中的核心问题在于：没有“强行性”突破技术屏障但违反了书面规则（如数据主体的用户协议）的网络爬虫行为是否属于“未经授权”？同样，手段上存在技术突破，但从抓取数据的性质和范围来看并未违反书面规则的网络爬虫行为又是否属于“未经授权”？

上述问题的关键在于访问权限的限制标准如何选择的问题，其实质是对于技术措施和书面规则何者更为接近数据主体的授权意思，进一步而言则是对于网络爬虫行为法律应该采取较为宽容还是更为严厉的态度对待。

笔者认为，由于人们对于网络数据的价值观尚未形成，目前我国法律对于网络爬虫与反爬虫之间的攻防战持较为谨慎的介入态度，所以给网络自治留下了大量的空白空间。反爬虫技术措施确实更能反映数据主体“强”保护意愿，而书面规则往往反映的是数据主体缺乏强制性的“弱”保护意愿。[2]以“技术屏障”或“技术屏障加书面规则”的方式能使法律更有效保护数据安全，也更有利于对数据主体的保护，但技术屏障无法明确数据主体意思表示的内涵，有过度保护之嫌。因此，应该加强书面规则与技术措施之间的互联，通过反网络爬虫技术措施体现对书面规则中核心内容的保护，以此明确数据主体的意思表示，同时限缩保护范围，更多地交给其他部门法和网络空间自治原则进行处理，以实现网络生态的健康发展。

（三）具体路径：数据源头规制

网络爬虫的刑事规制应重视数据源头规制，在具体路径上融入风险社会的理念，对其规制不仅要重视刑法干预节点的提前，还应从源头予以一定的规制，涉入场景理论，进一步在法律中细化数据公开程度。具体包括用户知情同意和数据主体知情同意。

1.用户知情同意

对于个人数据保护而言，除完全公开共享数据外，无论是非公开数据还是公开数据都应当对其进行一定的细化规制，才能从源头上遏制网络爬虫抓取数据的恶意行为。有观点认为，在当前大数据时代环境的影响下，信息自决权受到严重限制，因此主张“弱同意”机制，即通过“合理使用”与“拟制同意”相结合，保护个人数据信息。[7]从实践的角度来看，网络爬虫抓取的数据大部分是汇集的个人数据，这就要求对其上游进行监管，即从数据收集的源头开始做出一定的规制。现实情况表明，我国市场上大多数APP以及网站为了收集用户信息，往往利用用户对于自身服务的依赖性强制用户接受其提出的隐私协议，情形包括但不限于：长篇累牍的协议内容，让用户很难阅读理解其中的关键信息；隐瞒或欺骗用户数据收集后的使用目的或使用范围；不同意数据采集就无法使用任何服务，从而架空用户的信息自决权。因此，本文赞同上述观点，并认为应当更进一步予以规制。

首先，对于数据收集方（APP 服务提供商或网站等），应当在用户首次使用服务时，以独立的隐私说明栏呈现数据收集相应内容，并应该对关键信息进行显著标注，以充分保证用户的知情权。其次，数据收集协议中必须依法依规明确相应的收集范围和使用范围，其中包括将来用户数据运用的具体场景、用户使用日志的保密、大数据统计前去除可识别性特征、是否可授权第三方获取对应权限数据等等。再次，在数据收集方面，应出台数据收集相关的法律法规或新增法条，在立法的过程中涉入场景理论，明确化和具体化数据收集的使用范围和边界，以合理性和必要性为基础，遵循比例原则，尽可能限缩数据收集和使用的范围，以此作为数据收集者行为的指导并进行差异化规制。一旦数据收集行为或者其隐私协议违反了相应法律，在达到一定罪量要素标准的情况下，刑法便可发挥“二次规范性”作用，“入场”进行规制。最后，重建行业规范，在互联网行业中根据法律法规制定行业规则，并将该普遍性的行业规则予以公开，在维护用户权益的同时，保证信息共享时代数据收集应用的效率。具体而言，当互联网公开知晓的数据收集规则具备普遍性时，能够为公众和法律所监督，一旦受到认可，便可普遍应用于各类互联网公司企业，在节省时间提高效率的同时，也提升了数据收集的安全性。

通过上述具体的几类措施，保护用户的知情权及对于协议作出承诺的真实意思表示，在此基础上，通过民事法律对后续纠纷进行规制，在超出民事法律规制范围外的情况下，运用刑法对其进行评价，并作出相应规范。

2.数据主体的知情同意

个体数据在广泛汇集后会产生一定的财产属性，同其他数据一样，会成为公司的商业秘密以及构成竞争力的一部分。因此，对于数据主体而言，网络爬虫行为的规制可以从以下两个方面考虑。

（1）赋予爬虫协议一定的规范意义

爬虫协议，或称robots协议（robots exclusion protocol），是指ICP（网络内容服务商，Internet Content Provider）利用robots.txt文件指导网站如何处理robots 程序的协议。换言之，爬虫协议即是指ICP 告知搜索引擎是否允许或禁止其抓取特定网站内容或网页并将其作为搜索结果提供给用户的协议。[8]2019 年5 月28 日，国家互联网信息办公室发布《数据安全管理办法（征求意见稿）》，其中第14 条提到，网络运营者从其他途径获取个人信息，与直接收集个人信息负有同等的保护责任和义务。可以借鉴该条规定：如果行为人运用网络爬虫收集相关信息，同样应当富有相应的保护责任和义务，以此对网络爬虫进行规制。恶意的网络爬虫使用行为往往出于非法目的，因此，一旦违反规定的责任和义务，行为人客观上便具有了非法性，也能由此推知其主观恶性，遵循主客观相统一的原则，在罪量要素标准下，便可由刑法介入规制。

（2）避免单边保护，平衡数据主体与公共利益之间的关系

针对当前存在的大量网络爬虫纠纷以及违法犯罪问题，笔者认为其中一大根源在于我国互联网畸形的市场生态问题，即数据过度保护的问题。难以否认，数据生产主体投入大量成本以获得较强的市场竞争力，应当对其权益进行保护。但问题在于，信息共享时代，人们对于信息数据的需求不断上升，数据甚至是现今以及未来的重要资源之一。而当下较为薄弱的法律规制尽管没有对此类数据主体保护过度，但由于规则的缺乏，市场竞争的弱肉强势，薄弱的法律规制同样造成了“变相保护”。无论是阿里巴巴、腾讯等互联网巨头在数据收集方面的优势地位，抑或是爱奇艺、优酷等视频公司的超前点播等等，都在一定程度上违背了社会公共利益。正如前所述，一部分网络爬虫运用的行为存在主观上的故意，客观上也存在“未经授权”或“超越授权”，强行突破、规避、绕开技术屏障的事实。但不容回避的是，由于信息数据本身的广泛需求性、流通性和过度保护的事实之间存在冲突，挤压、切断数据的正常获取渠道，产生了异化的市场需求，导致行为人主观上并无违法犯罪的故意，但仍然在客观上实施相应行为的情况，这必然导致更多网络爬虫危害行为的产生。因此，从源头而言，更应通过细化具体的法律法规的出台，平衡好数据主体和社会公共利益之间的关系。