人工智能时代算法黑箱的法治化治理

2021-08-17 02:19吴椒军郭婉儿

科技与法律 2021年1期

吴椒军郭婉儿

摘要：算法作为人类利用机器抓取、处理并输出数据的手段，其所得结果受到编写者主观偏差，技术偏差等多种影响。因算法编写的高度专业性，用户无法知悉有关于自身信息数据被抓取，处理以及应用的细节，这样的不透明性显然对用户的权益与社会秩序造成影响，对我国的法律机制也带来极大挑战。针对算法的运行模式，剖析算法黑箱带来的个人信息数据侵权、算法偏见及司法救济三重危机。通过对欧盟《通用数据保护条例》与欧洲《人工智能伦理与数据保护宣言》对算法黑箱的治理条款，针对上述三重危机从技术角度、法律角度与伦理角度对算法黑箱进行法治化管理，以实现算法黑箱法治化治理层面的合法性与最佳性耦合。

关键词：算法黑箱;算法偏见;个人信息;人工智能;技术伦理

中图分类号：D 923.8 文献标志码：A 文章编号：2096-9783（2021）01-0019-10

引言

2013年，美国康斯威星州法院以五项罪名指控一位名叫Eric的公民，在量刑阶段，州法院根据政府罪犯改造部门提供的量刑前调查报告，判决Eric 6年监禁5年监外管制。该判决依据由美国一技术开发公司研究的COMPAS算法，根据其各项个人数据和先前的调查，计算出被评估者再次犯罪的可能性。Eric不服判决，认为COMPAS算法的技术提供方亦无法确保该算法计算出的数据是否绝对准确。然而COMPAS算法技术提供方以算法逻辑是商业机密为由拒绝公开，最高法院也未曾要求其做出解释。

算法作为一种输入-处理-输出结果的方法，其运作依靠数据汇集和机器深度学习。这种运作过程虽来自于人类的编写，但其自身的深度学习呈现出的却是常人无法参与的未知地带。这种未知，即是算法黑箱的体现。在人工智能时代下，算法被应用在人类生活的方方面面，而作为无可避免的弊端之一的算法黑箱亦是紧跟而来。例如在商业领域中，算法黑箱不透明与不可解释的特征必然导致开发使用者与消费者之间存在信息不对等;在个人征信情境下，算法黑箱所带来的歧视与偏见会操纵个人信用评分等等。本文认为，实现算法黑箱的法治化路径应当针对其每一级运行中反映出的法律问题，找寻解决方法，以实现算法黑箱法治化管理层面的合法性与最佳性耦合。

一、算法黑箱引发三重法律危机

人工智能实现的基本方式是算法。人类借助计算机，将已获得验证的人类经验以程序语言输入，组建模拟人类思维模式的模型，然而该技术的算法运行逻辑存在着难以探究的隐秘层面，即所谓的“黑箱”。它指的是为人所不知的那些既不能打开、又不能从外部直接观察其内部状态的系统。而“算法黑箱”在笔者看来特指机器深度学习时，其复杂的神经元网络中存在的不为人所直观捕捉到的隐层。算法黑箱的威胁贯穿于数据采集，算法运行以及应用于社会服务三个层级，在此三个层级中存在三重法律危机，即：数据采集阶段的个人信息数据侵权危机，算法计算运行阶段的结果偏见危机，算法应用于社会服务阶段的救济危机。

（一）算法黑箱引发个人信息数据侵权危机

2013年，朱某在网上搜索“减肥”“丰胸”等关键词后，再登录其他网站时出现了与该关键词相关的各种推送广告。朱某认为百度公司在其毫不知情的情况下，滥用cookie技术跟踪记录了自己的搜索关键词;在自己未明确授权的情况下，收集并公开了其个人隐私内容并大力投送相关广告，故向南京市鼓楼区人民法院起诉百度公司。2015年， Facebook上的一款第三方测试小程序通过用户的使用而获取了其家庭、交友圈等个人资料。而资料的获取者随后将数据卖给一家数据分析企业，用以在用户中针对性的为某位总统候选人提高知名度与曝光度。

算法的运行需要以掌握个人信息数据作为先决条件，而个人信息数据安全则是算法运行中的阿喀琉斯之踵。算法在数据采集阶段，自Web站点根据既定规则采集原网页中所需要的信息，保存至数据库等待进一步处理。而与数据采集无法割裂的一项技术在这里则成为了本阶段频发个人信息数据侵权危机的问题核心——cookie技术，该技术在全球范围内被Google、Amazon等网络平台频繁使用。它连接服务器与浏览器进行信息交互，以支持服务器在浏览器上储存信息。即用户在使用电脑浏览网页时，其每一个浏览的Web站点都会以cookie文本文件形式自动保存浏览信息。对于网络经营者来说，cookie的使用与运行能够为其提供大量的用户信息数据，以便经营者进行深度分析后实现精准有效的个性化推送，因此也成为了网络经营者趋之若鹜的重要资源。技术本身作为科学进步的标志，不应当有非善即恶的评判，因此在现今世界各国都认为cookie技术是中立存在的，对其规制都尽在发生侵權行为后以事后救济的手段解决法律问题。本文将cookie技术对个人信息数据侵权做如下阐述：

第一，cookie技术通常不需获得特别许可即可储存用户信息。以搜索引擎为例，在用户使用搜索引擎搜索相关信息时，并未有醒目的条款在第一时间提醒他们，是否同意由该服务器保存其搜索内容，以及这种行为是否会涉及到用户的隐私。用户对收集其数据、处理其数据的算法都具有知情权，人们有权知道该种算法如何搜集他们的信息，搜集信息的目的，如何处理信息以及被处理后的信息流向等。用户对该算法是否能够收集处理其数据，收集的部分有多少，处理的程度如何，是否能够被第三方索引等也同样具有选择权利。然而网络平台经营者虽然都会提供用户须知事项，但所占页面篇幅小、另有独立页面且不明确告知等情况的存在，使用户陷入了一种“被迫自愿”允许个人信息数据被储存的风险中。如百度公司在用户使用搜索引擎时列出的《使用百度前必读》，位于偌大网页的最下方，字体较小且不明显，容易被大多数用户忽略。在百度搜索框中打出“使用百度必读”，搜索页自动推荐最高搜索量的关键词是“使用百度前必读在哪里”。

第二，cookie技术获得的用户个人数据存在非自愿被交易的可能性。Cookie技术保存用户个人信息数据的行为，原本应当是网络平台经营者与用户双方之间的交互行为，但此类数据并不会仅仅作为被储存的文件闲置。网络平台经营者会将该类数据储存文件作为商品，向第三方公司提供OpenAPI接口，以便第三方公司使用协同过滤算法分析计算用户信息，提取其偏好与需求，与购买广告推送的第三方公司进行交易，针对用户进行个性化推送服务。更有甚者，会利用爬虫技术通过Web端或APP端，非法窃取储存的cookie文件，以进一步抓取用户性别，职业，工作地点等可以识别用户个人身份的更加隐私的数据。此时，用户对个人信息数据已被整合分析毫不知情，甚至不会知道第三方的存在。用户的个人数据海量流向市场，通过协同过滤得到用户的偏好、需求甚至个人隐私信息，有针对性的投放广告或者出卖信息以作非法用途，对于用户来说，该行为会侵犯消费者的公平选择权，或暴露用户个人隐私，将其放置在被电信诈骗等风险中。对其它商家来说，该行为会导致各商户信息的横向不对等，掌握大量资源分析的一方能够得到更多利益，以产生不正当竞争的风险，甚至会激起商家不惜利用非法手段竞相争夺个人信息数据的局面，从而破坏社会经济秩序与法制秩序。

第三，cookie技术获得的用户个人信息数据定性有异议。我国2012年11月5日批准发布的《信息安全技术公共及商用服务信息系统个人信息保护指南》中明确个人信息指可为信息系统所处理、与特定自然人相关、能够单独或通过其他信息结合识别该特定自然人的计算机数据。个人信息的定义要求通过该信息能够准确识别其来源于某个特定主体，网络隐私权则将公民的私人信息和敏感信息作为保护的对象。以如根据个人信息的定义来看，cookie技术传输至服务器的信息仅能让服务器识别浏览器，即不同人使用同一个浏览器检索信息，服务器会将其识别为一个浏览器，即无法以获取的信息识别某一个特定的用户。因其获得的数据无法识别特定用户的身份，就不应当算做个人信息的范围。但网络用户注册的ID的邮箱，IP登录地址，甚至是有可能暴露用户的个人定位、个人需求、个人秘密的搜索痕迹，属于用户的个人痕迹信息，是未经其许可不能被公开的信息，应当是公众视角下的私密信息，不应当存在与法律保护的灰色地带。仅仅将个人信息的定义作狭义解释，忽略其在被应用环境下的现实情况，实在有违个人信息保护立法的初衷[1]。

（二）算法黑箱引发结果偏见危机

在抓取了所需数据后，算法开始进行运算。在此阶段算法的运行可以分为两种情况：一是算法编写者根据其需要，撰写算法运行的程序，以人为设置与干预的方式使算法进行运算，最后得出想要的结果。二是算法具备自我学习的能力，在建立一个神经元的基础上，处理数据得出结论后再将该结论传递给其他相邻神经元，再由该神经元继续以上操作直至得出有效结论的深度学习。在此，本文仅对第一种情况做讨论。依靠人为编程的算法运行极易出现算法偏见（也称算法歧视）：算法编写者是具有社会性的人类，其自身的价值观、所处的文化氛围社会制度，以及外部需求（如提出要求驱使编程人员编写代码以实现需求的企业），都会影响到最终编写出的算法，即所谓的先行存在偏见（Pre-existing Bias）[2]。但先行存在偏见并非只来自于算法编写者的个人偏见，同样也会有来自数据的偏见与机器自主学习的偏见。本文对算法偏见危机将做如下阐述：

第一，来源于算法编写者的个人偏见与需求会导致算法偏见发生。以搜索引擎为例，搜索引擎所能够提供的网页是有限的，超出该引擎索引库的网址并不能够出现在用户的搜索范围内。如百度公司提供的用户必读中有这样一段叙述：“任何网站如果不想被百度收录（即不被搜索到），应该及时向百度反映，或者在其网站页面中根据拒绝蜘蛛协议（Robots Exclusion Protocol）加注拒绝收录的标记，否则，百度将依照惯例视其为可收录网站。”[3]基于上述表达可知，索引库中的网址信息的包罗是由网络机器人抓取的，而该抓取路径则是由技术人员依照一定的基准预先设立，技术人员要依照公司的需求通过编写算法选择是否将各网站纳入搜索引擎的索引库，亦可以通过编程优先使支付高额广告费的网页高居搜索结果之首，即所谓的“竞价排名”。搜索引擎平台与广告商利用算法进行黑箱操作，得出的歧视结果在一定程度上迷惑了用户的选择。除此之外，招聘网站为女性用户投放幼儿教育、护理等岗位信息，而非程序员等社会默认的以男性为主的岗位信息，同样能看出算法的编写运行带有个人偏见色彩。

第二，来源于数据的偏见会导致算法偏见发生。数据本身也存在实效的要求，如数据库不能被实时监控，做出定期的更新，算法整合与计算后得出的结果就无法保证精准。譬如在个人征信系统中，包含个人信息的数据库更新频次不足，导致数据不准确，在算法对数据进行分析后对个人的信用评价将会与真实情况有出入，则会影响到个人贷款的成功率等等。如数据库数据出现错误，或者一些敏感数据在被采集整合的过程中受到社会制度与文化价值所影响，算法所得出的結果依旧存在歧视。譬如美国有色人种的信贷利率要高于白人的情况时有发生，该结果并非一定是由于个人信贷能力评估的，，而是算法编写者带有主观色彩，在这套评估体系下对借贷人的还款能力以其职业，收入等因素作为评价标准，忽略了这类数据背后存在的种族歧视等社会观念的现状[4]。

第三，来源于机器自主学习的偏见会导致算法偏见的发生。机器自主学习的本质颇具预测属性，当算法面对大量数据时，会优先使用先前的训练集对数据进行整合归纳，提取出该部分数据共同特征，后再对新数据对象按照先前的特征归类到与其属性最相似的类别里，若这些同类数据还有其他的特征，算法会自动预测相似数据也同样拥有该特征。以Twitter公司研发的可供用户进行聊天交流的机器人Tay为例，Tay与用户先进行一段时间的语言互动，在对人类的引导性语言进行自主归纳整合再运算处理后，仿照人类的语言思维与人类的继续对话。然不幸的是，Tay在与人类对话不到24小时即变身成满嘴粗话的种族歧视者[5]。可见人类与机器的交互行为，会放大机器自主学习的预测能力，继而放大本源于人类社会的偏见与歧视。

（三）算法黑箱引发司法救济危机

算法经过抓取数据，计算处理数据后，步入产出结果阶段。算法产出的结果在现今追求生产力智能化的时代，能够高效率的转变为生产力投入社会。在算法作为生产力投入社会应用后，上文所述的算法本身存在的缺陷转变成为对社会经济秩序与法律秩序的巨大威胁。法律界应对这类新生换代速度极快的科技风险明显存在理论上的滞后与实务上的疲软，在此笔者将从对我国相关案例与裁判文书的文本挖掘与分析对此部分进行阐述。本文选取的样本为有关算法的案例共计4629篇，源自北大法宝网站，时间跨度由2012年至2020年，地域维度覆盖全国27个省、自治区、直辖市。在这些样本中，运用Python语言编写程序（代码运行步骤如图 1所示），以“数据”、“个人信息”为关键词同时进行全文遍历搜索，提取出123个相关样本。再列出每份样本中两个关键词的词频数，从高到低排列，将同时命中两个关键词且其中任意一个命中次数在25次以上的样本选中，得到10个符合本文研究目的的样本。再以“数据”“人工智能”为新关键词按照同样标准重复上述操作，得到6个符合本文研究目的的样本。以上样本除去重复案例后共计取得7个符合本文研究目的民事案例样本（如表1所示）。

依据表1，笔者认为，可以从以下几个角度对算法结果转化为服务阶段的救济危机予以探讨。

1.算法运行中的黑箱行为难以被取证

表1中被定性为隐私权纠纷的两个民事案件中，原告都在诉讼请求里要求被告方公开涉案算法的运行步骤，被告皆以涉及商业秘密为由拒绝公开，而这一行为得到了法院的支持。在本文开始提及的康斯威星州法院使用COMPAS算法评估犯罪风险作为量刑依据的案件中，该算法开发商也以算法属于其商业秘密而拒绝公开。算法属于技术类知识产权，本身具有秘密性、价值性、实用性及保密性。多数企业都将其开发的算法作为商业秘密以保护，这种保护在法律上亦是有依据的，但这种不可公开性在算法侵犯权利之时成为了开发者逃避责任的主要方式。首先，被侵犯权利方对算法的运行方式本就缺乏了解，在这一层面，被侵权方和算法开发者所掌握的信息并不对称，在诉讼中的举证等问题下地位自然不平等;当法院要求开发者解释算法运行的逻辑时，即使开发者同意展示算法运行过程，由于算法的专业性，司法人员也并不能够完全理解，仍旧依赖算法开发商自行解释。算法本身是否有违法之处，运行过程中是否有黑箱操作等问题，成为法院审查过程中的障碍。在这当中，判决结果偏向算法开发商的几率就会大大增加，给被侵权人寻求救济造成了较大困难。

2.算法结果转化为服务后的数据产品法律属性存在异议

在表 1中，被定性为不正当竞争的案例共有5个，观其裁判文书判决部分皆出现对于数据产品法律属性的讨论。因在我国现有法律框架下，数据产品既无法被纳入知识产权范畴，无法派生其专属的民事财产权利，故此5个案例中原告所收集、整合、分析的数据应当属于用户，还是属于运营者，法院都未能给出正面回答。学界对此现象存在不同看法。一种观点认为数据产品虽然源于用戶的个人信息，但经过网络运营者加工整合后已成为新的产品，被赋予了商业性，抓取、加工的算法作为知识产权，为该数据附加了商业价值，因此不再与用户本身有直接联系，相应权利应当属于网络运营者。这种看法看似有理有据，实则将个人信息与数据产品割裂看待，否认了数据产品的本质来源，有悖于个人信息保护立法的精神。另一种观点否认上述看法，认为数据产品来源于用户的个人信息数据，运用算法单纯整合分析不能破除其本质属性，即数据产品仍旧保留用户的个人信息，用户有权保留对个人信息流向与运用的控制权。然而在司法实践中，并未有典型判例以精准标准界定上述控制权究竟为何物。表 1被定性为不正当竞争的5个案例中，法院采取了折衷办法，赋予了数据产品以竞争法性质的财产权益，确认数据产品为原告带来的商业价值，且认定该商业价值是原告市场经营活动中的自身优势，被告行为有违商业道德，对原告产生了实际损害，故可以适用反不正当竞争法予以规制。

二、算法黑箱治理的域外经验：欧盟《通用数据保护条例》与欧洲《人工智能伦理与数据保护宣言》

（一）技术与法律治理角度：欧盟《通用数据保护条例》的基本规定

2018年5月25日，欧盟《通用数据保护条例》（以下简称“GDPR”）正式宣布生效，该条例以1995年《数据保护指令》为基础，对于个人数据的使用做出了较为全面的规制，以技术手段与法律规制手段双管齐下，为应对算法黑箱带来的威胁提供了新颖且细腻的策略。其贡献不仅在于明晰算法黑箱与数据之间的交互关系，相较一般的事后规制，更将眼光聚集于事前预防控制，值得各国引以为他山之石。

1.欧盟《通用数据保护条例》的预防治理手段

第一，分类个人敏感数据，并要求使用者对数据进行脱敏处理。GDPR将以下几种个人信息作为禁止处理的个人敏感数据：（1）种族或民族出身;（2）政治观点;（3）宗教或哲学信仰;（4）工会成员身份;（5）涉及健康、性生活或性取向的数据;（6）基因数据;（7）精细处理可识别特定个人的生物识别数据[6]。以上七类最大程度涵盖了在公众眼里属于私人或个人的大多数信息内容，有效缩小了算法抓取用户信息的层面，从数据源头保障了个人信息安全，同时亦考虑到算法“GIGO”特征（“Garbage in， Garbage out”），从数据源头最大程度减少算法偏差引发的结果歧视。但该规定同样也考虑了医疗、法制等方面的特殊情况，允许该类信息在无损于信息安全的情况下予以被搜集。

第二，关于数据主体权利的扩大升级。首先，GDPR在其框架下建构了更多、更细致的数据主体权利，包括数据主体的知情权，个人数据备份请求权，更正信息权，被遗忘权与限制使用权，数据携带权以及反对应用权。以上权利的增加在数据主体对个人信息数据从使用到处理再到应用的控制链中完美融入，形成一个首尾兼顾的闭环以保护权利，令数据主体摆脱被动接受结果的局面，重新掌握对个人信息控制的主动权。其次，GDPR第4条第11款给出了数据主体同意其数据被处理的具体标准：“数据主体的同意是指数据主体依照其意志自由做出的、特定的、之情的、明确的指示。通过以声明或清晰肯定的行为做出的该等知识，数据主体表明同意处理与其相关的个人数据。”第七条同时提到，数据的采纳者或使用者必须能够证明数据主体同意对其信息进行处理，推荐使用书面形式的许可，以便于举证[6]。该条规定将数据主体的意思表示纳入规制范围，并规定了该意思表示的有效要件，即同意必须是基于真实自主且被用直观形式明确清晰表示的。对于“知情同意”的细化更进一步保护了数据主体的自决权，为上述各项权利的行使保驾护航。

第三，对数据处理过程的多方面约束，即个人数据处理原则的细化。GDPR要求数据使用者对所使用的数据负责，向其提出了如下原则：合理合法的抓取用个人数据，且过程确保公正透明;除用于研究公共科学或历史问题的目的外，抓取使用个人数据必须拥有合法目的且详细说明，不得违反初始目的;抓取使用个人数据要在适当范围和程度内进行，不得超出合理需要;及时跟进数据更新，以确保数据准确性;对于可识别数据主体身份的数据应当有一定合理期限;对个人数据必须做到安全使用，且负有保护数据不受毁损与灭失的义务[7]。

2.欧盟《通用数据保护条例》的事后规制手段

在算法侵犯个人数据信息时，必要的问责机制可以更好的提供救济并预防此类威胁的再度发生。GDPR第30条规定了问责的具体方法，条款中明确要求数据控制者或处理者必须对其握的数据，在处理过程中的方式方法予以记录。这一条款在数据处理的过程中起到了良好的监督作用，并在数据处理完毕后的时间里为可能出现的侵权纠纷提供了可被获得的直接证据，扩大了该类纠纷的救济路径。如数据主体对控制方处理数据的方法提出质疑或者不满，数据控制方有义务对该质疑进行解释说明。该种解释并不是需要透露算法的编写细节或可以被称作是商业秘密的内容，只需要做被大众普遍认知所接受的简单易懂的逻辑分析。大众所要求的可理解的解释，是对输入数据与输出结果之间存在何种因果联系的好奇，而不是对于该算法本身如何编写的好奇。此机制在一定程度上减轻了算法黑箱带给公众的恐惧感和不信任感，也在主观上抑制了算法编写者的个人偏向。

GDPR认为，针对数据安全的保护不应当仅从数据使用者角度进行，如果缺乏政府的干预与监管，手段依旧疲软。因此，GDPR倡导每一个成员国应当建立至少一个特有的数据监督保护机构。该机构以政府作为依托，调试数据内部如处理者、控制者几方之间的联动，从外部对数据治理与规制起到良好的监督、引导作用。即保持数据内部各方自治的灵活性，亦在外部对其监控评估。GDPR还设定了对违规者最高罚款2000万欧元或上一年度全球营业额的4%的惩罚标准，针对违规程度赋予政府监管机构自由裁量的权利，政府监管机构亦可以从市场角度激励违规者，如对严重违规者处以市场准入资格的剥夺等商业化手段[8]。

综上所述，笔者认为，欧盟GDPR条例对于个人数据的保护，是一个从数据来源管理到问责机制设立的闭环。其从数据源头就开始进行具体的规制，在数据处理过程中予以监督引导，并针对可能出现的侵权问题做出有效可行约束，值得我国借鉴。

（二）伦理治理角度：欧洲《人工智能伦理与数据保护宣言》的基本规定

2018年10月23日，《人工智能伦理与数据保护宣言》（以下简称“宣言”）在第40届数据保护与隐私专员国际大会上通过。该宣言立足于对人工智能利弊的充分了解，为应对人工智能在数据隐私方面存在的潜在威胁，以在人工智能发展中维护人权、保护人类尊严为核心价值[9]，提出以下原则。

1.尊重人权及公平原则与保护隐私原则

人工智能的设计，开发与使用应当具有目的的合理性，对人类发展的促进性，使用与开发目的一致性，在特定领域的使用要具有界限。现今不论计算机学科或是法律学科，似乎皆默认人工智能发展终有一日会覆盖全人类社会。然而就上文所述cookie侵犯隐私权案，脸书允许小程序收集贩卖用户信息，美国以COMPAS评估再犯可能性程序协助审判，无一不为泛用人工智能技术敲警钟。人工智能技术有其本身的缺陷，暂时无法做到在价值观等主观判断能力上与人脑同步。因此，无论是在开发阶段还是使用阶段，人工智能技术都应当以维护人权为核心价值，以人类理性、道德良知与社会正义为内在精神，保护隐私等个人数据，在人工智能技术的发展中融合法治伦理以保护人类的尊严。

2.提高人工智能系统的透明度和可理解程度

需要对人工智能的潜在影响保持持续的关注、警惕以及问责[9]。不论是单一依靠政府管理，还是依靠人工智能技術开发者与使用者自我规制，都无法实现人工智能的最佳优化。在系统透明度与可理解程度层面，不仅应当有来自于公权力的强制披露，还应当从使用人群的角度出发，鼓励对人工智能技术教育、认知等方面投资，以保证社会对人工智能的理解达到与其发展相适应水平。政府作为公权力一方，应当联动人工智能行业自治组织，对人工智能系统本身及其绩效进行审核与评估，在发生技术侵权纠纷时建立多方问责机制，试行利益链各方连带责任制度，为各方参与者提供可信赖的维权制度。

3.扩大个人授权原则与减少偏见与歧视原则

扩大个人授权原则的首要要求即为保障公众的知情权与选择权。在人工智能技术的应用中，公众数据采集作为第一步，存在侵犯用户网络隐私权的可能性。在上文中我国学者赵华明认为网络隐私权应当是一种人格权，人格权是具有排他性的支配权。技术应用者不能在没有本人授权时擅自对包含其隐私的数据进行收集、二次加工甚至贩售。如若不对数据的使用以授权限制，性别人种等各类敏感数据被轻易获取，而人工智能技术基于这类未脱敏数据得出的分析结论，有极大可能存在偏见、误差甚至于歧视。因此，应当赋予用户以自主授权的权利，使人工智能技术应当在数据采集时即被约束限制，以正义的数据尊重和保护人权。

综上所述，笔者认为，宣言注意到了人工智能对人类基本权利的行使与自由的威胁，提出了对该种威胁更具针对性的一系列措施，在数据保护方面从人权与社会角度入手，强调技术伦理观念的灌输，以伦理约束技术，为人工智能的法治化管理开辟了更广泛，更具实践性的路径，亦值得我国借鉴。

三、我国应对算法黑箱法律挑战的对策及建议

（一）从技术规范角度规制算法黑箱侵权

第一，数据库管理过程中对用户权限应当严格控制，数据库囊括的数据应当被更加精细的分级。数据库管理者对用户的权限有功能权限和数据权限两种，功能权限在此不表，数据权限应当被严格控制。对于属于个人敏感信息的数据，对其访问数据权限应当提高，如只能由政府做人口普查等数据统计，或是医疗、司法部门工作需要之时，才可以对此类敏感数据有权限访问并操作。普通的用户则不能对该类数据进行访问或抓取。欧盟《通用数据保护条例》中对宗教、肤色等作为个人敏感数据，我国对数据库的数据分层也应当达到如此精准划分程度。笼统看来，应当将数据在相关业务规则中划分为普通用户有权限访问操作与非特定用户不可访问操作两种，在非特定用户不可访问操作范围内，应当涵盖个人隐私、商业秘密等私密数据。如宗教信仰，患病状况，受行政处罚情况等各类可以直接识别或通过其他手段即可识别特定人员身份的数据，应当予以特别保护。

第二，以算法规制算法。算法在被设计之初，应当在代码中加入数据保护步骤，即欧盟《通用数据保护条例》中提及的“经设计的数据保护”。由政府监管机构提出该算法设计标准，算法设计开发者在设计中应当使用算法透明度提高工具（Transparency Enhancing Tools）。比如在抓取數据环节就设以标准过滤数据，以做到数据脱敏;在算法运行环节对偏向结果予以警报甚至于自我纠正;如以政府为主导，开发政府大数据资源聚合型网络系统，在社会公共服务中以政府监管机构为主体使用数据，以公权力控制数据以对抗私权利滥用数据。

第三，算法投入市场和运行需要有专门的评估标准与管理模式。在任何工程中，对安全未雨绸缪的评估都是不可或缺的部分，科学技术工程也不例外。政府作为监管者牵头，将算法安全使用的标准量化，根据现实提出一套覆盖面较广的评估标准更加容易达到管理算法市场的目的。这种对算法安全标准的量化必须是动态的，是讲究实效主义的，即可以跟随大数据时代的飞速发展而自我完善。针对数据安全角度，参照欧盟《通用数据条例》给出的标准为数据脱敏，未脱敏的数据不得在脱离政府监管流向市场;要求数据库的实时更新在科学合理的时间内完成，政府监管者设定合理时间范围，要求数据使用者与控制者在其实用范围内自我管理，储存使用数据在必要时间内完成，对数据进行定时删除清理;针对算法运行角度，建立以政府为依托的算法监控评估机构，建立算法大类登记入库制度，使算法编写者对其所编程序负责;要求数据处理者从获取数据开始就对数据进行电子备案，以防纠纷发生后无证可取。

第四，在市场经济下对算法商业应用进行合理的技术监管。以搜索引擎为例，其开发、投入使用与后期维护都需要在市场环境下进行，用户的使用率是其收入来源的基础，但索引库的网址储备和根据搜索关键词投放的广告才是其发展的主要经济来源。搜索引擎作为算法中最直白的趋利存在，在过分的注重商业利润时将会对用户造成不良影响，例如百度搜索引擎的竞价排名行为。对此，监管部门规定搜索页面的广告投放数量比例不得超出该页面搜索结果的30%，但此规定效用似乎并不能达到预期——笔者以“考研”为关键词在百度进行搜索，第一页显示的15个搜索结果中，广告网页就有5个，且处于搜索页面的顶端。可见，我国相关监管部门还需扩大监管力度，有固定的监管标准和定期的抽查，开放民众投诉渠道，提高监管能效。然而，该种监管不得超出必要的限度，不合理的干涉将会导致信息来源范围的锐减，对民众获取有效信息的途径和数量产生负面作用。

（二）从法律规范角度规制算法黑箱侵权

第一，我国在法律规制上，可以从算法可解释性方面提高算法透明度。我国可以在立法上要求算法开发者与使用者对使用的算法作解释说明的义务，这种义务应当有双层含义：第一，事前的解释。算法开发者与使用者在使用用户数据前的协议应当被显著置放在使用页面，当出现纠纷时，应当以缔结合同意思自治为原则，而不是仅以用户的点击同意实践行为作为事实以忽略用户真实意思表达。第二，事后的解释。我国相关立法可以借鉴密码学中“零知识证明”概念，要求算法开发者与使用者在不透漏算法作为商业秘密而被保护的部分的情况下，对算法自身输入的数据与输出的结果之间的因果关系做出可以被普通大众所明晰的解释，将算法运行的黑箱予以透明化、可视化，增强大众的信任感和安全感，保护信息的对称性，防止算法编写者人工干预算法的运行[10]。对于难以解释甚至无法做到透明的算法，且并没有能够发挥同等作用的替代品存在时，立法上应当持以谨慎态度审视该类算法的使用。如司法上使用人工智能算法对犯罪嫌疑人再犯罪可能性评估，该产品需要使用的个人敏感数据过多，且评估结果对未来有重要影响，此时对于算法运行的解释就存在泄漏被评估者个人信息的风险。此类算法系统的使用应当被严格控制在司法机关手中，不应当将该系统或者与该系统评估手段相同的系统应用在社区，用人单位等场所。

第二，我国司法实践中对个人信息的定义解读含混。我国现有法律虽然对个人信息的保护做出了规定，亦要求任何主体都不得非法使用，但并未将除可识别特定个体的个人信息以外的非个人信息的保护做出规定。我国《网络安全法》中将用户信息与个人信息做了保护层面上的区分，对用户信息仅要求使用者使用时负有说明义务，对个人信息则是约束使用者的使用目的、使用范围与使用场所。对于非个人信息范围内的用户信息，在我国司法纠纷中多为关乎用户自身的私密痕迹信息。这类信息的保护可谓“两不沾”：既不能以个人信息保护，也不能以隐私保护。笔者认为，何种数据信息可以作为一般信息被抓取，何种信息作为属于私人，非经自愿提供不得擅自搜集，在该定性尚存含混解读时，应当要求司法机关将数据信息的定性放入案件实际情况中看待，以案件中数据信息的原貌结合其纠纷场景，再对数据信息做法律定义，而非割裂二者联系单独对待。则容易在司法实践中造成分歧和不公。

第三，政府监管与市场经济激励双管齐下，建立合理的问责机制与惩罚制度。仅依靠政府为主导建立各种监管机构推行各种防治措施，在面对日新月异层出不穷的算法时，治理效果日渐衰退，算法黑箱危机频发。因算法商业性的一面日益明显，对算法黑箱的防治须得放入社会市场经济中，然而仅依靠市场的自我调节与激励，更容易因人类趋利性而导致数据控制者恶意竞争，扰乱市场经济秩序，形成数据失控的局面。由此可知治理算法黑箱侵权，政府监管与市场经济激励缺一不可。政府首要须对数据市场进行实时监控，控制数据市场的占有份额，以防止某一数据控制者独大引发不正当竞争与垄断。其次，在数据控制者违反行业道德或相关法律规定时，除经济处罚外，还应当从时间上或经营范围限制其进入市场，甚至剥夺其进入市场的资格。最后，针对不符合算法评估标准的数据控制者，政府应当有严格的惩罚制度和相对弹性化的自由裁量权，如欧盟《通用数据保护条例》中设定最高罚款数额与以营业额作为罚款参照标准，即不能过于严苛致使数据市场颓靡，也不能放任数据被不正义、不合法的使用。

（三）从伦理角度治理算法编写与应用环境

第一，参照人工智能开发六项原则中的福祉原则与安全原则，要求算法开发者应使算法符合人类社会的基本道德伦理要求，以公共利益与人类发展为目标，为社会创造福祉。保证算法的可追溯性与透明性，使用户对其数据被挖掘使用有权利要求使用人员做出合理使用的保证，在发现数据被不合理使用后，有权利提出质疑，使用者有义务对其质疑做出清晰明确的回应。建议保险行业针对算法侵权损害设立新型险种。算法开发商对其算法运行所致后果投保，用以应对在所开发的算法导致侵权损害的情况下，能够通过保险公司对被侵权人的损失进行部分基本赔偿，以减轻开发商本身的赔偿压力，亦使被侵权人拥有较为可靠的求偿渠道。这对算法开发商本身而言，既是一种合理规避风险的路径，又是一个时刻提醒开发商不可突破法律与道德、技术伦理底线的“紧箍咒”。

第二，参照人工智能三项原则中的目的原则与技能原则，在算法设计开发之初，考虑算法开发人员与数据拥有人的个人合理期望，确保算法的使用与个人信息的抓取处理不违背其本身所期望的合理目的。算法开发人员应当在其算法编写之时就明确使用目的，算法使用者应当在使用之前被评估其使用目的是否与算法编写人员目的一致且合法。国家在教育与培训方面投资，以提高社会对人工智能产物的认知度。各高等学校可多注重学科交叉教育，开设关于人工智能与各专业相结合的理论或实践课程;相关政府机构或企业、伦理委员会等，可聘请专业人才对成员做相关培训;针对可以用被大众理解的语言解释人工智能的私人或者高校科研机构进行投资，以提高算法的透明度、可理解度，鼓励公众参与监督，以应对人工智能的高速发展，使社会认知与该发展程度相匹配。

第三，政府联合企业推动建立有关因算法侵权损害赔偿专项基金。我国立法中并没有与算法侵权损害赔偿有关的独有赔偿模式，现如今对于涌现的此类案件，各地法官多用普通侵权责任分配原则解决纠纷。但由于算法侵权本身难以认定，其侵权赔偿更无明确标准，各地作法难以统筹监督，对被侵权人的损害赔偿也难以做到公平公正。对于此问题，笔者认为可以参考我国船舶油污损害赔偿机制，即建立专项赔偿基金。由政府发起，投入相应资金作为基金的一部分，再由算法开发企业缴纳部分费用，以对其开发的算法如导致侵权损害赔偿作担保。在算法侵权发生后，被侵权人就其损害与算法有因果关系做出证明后，即可向算法侵权赔偿基金会提出申请，先予支付部分基本赔偿款，缓解算法侵权求偿难的问题。建立专项基金对于算法开发企业亦是缩小风险的优选之举，在发生群体算法侵权赔偿事件时，算法开发企业能够因基金会的赔偿而减少部分赔偿金的支出，从而对算法行业的良性发展保驾护航。

第四，推进我国算法伦理委员会的建设，规范行业自治。我国可仿照日本设立算法伦理委员会，作为行业自律的监督者与保护者，分担政府监督的重担。赋予伦理委员会以部分自我治理自我调节的空间，可设定奖惩机制，以调动数据控制者积极参与自治，实现行业联动发展。在产生纠纷时可以首先由算法伦理委员会出面协调，无法合理合法解决纠纷时，再付诸法律，以减轻司法机关办案压力。但不可以算法伦理委员会的协调作为诉讼的必经前置程序，应当尊重当事人意思自治，防止当事人得不到有效法律救济。

结语

大数据时代的来临带来的新成果便捷了人类生活，但与之而来的社会各方面的新问题、新盲区也不容忽视。科技发展是无罪的、中立的，但在其之上赋予的价值则需要引导和规制，而这种引导与规制，正是法律所要起到的作用;算法黑箱的存在是无可避免的，但这个黑匣子对信息的蒙蔽程度是可以通过人为改变的，而这种改变，正是法律通过不断的发现盲区、完善自我才能够促进的。2017年，我国政府工作报告首次将人工智能收纳其中，党的十九大报告中明确指出：“加快建设制造强国，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度融合，在中高端消費、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能”。作为势头最劲的发展中国家，我国对于人工智能发展及其影响的重视在逐步增加。只有跟随时代发展的脚步，对新事物给与足够的重视与关注，善于发现遗漏和盲区，不惧于迎接挑战，才能为科学技术的发展多做助力，提高民众对接受新事物的安全感和信任感。

参考文献：

[1] 刘友华.算法偏见及其规制路径研究[J].法学杂志，2019，40（6）：55-66.

[2] Goldman Eric.Search Engine Bias and the Demise of Search Engine Utopianism [M].Yale Journal of Law & Technology，2005：42-47.

[3] 赵鹏.搜索引擎对信息传播的影响及其法律规制[J].北京：比较法研究Journal of Comparative Law，2018（4）：188-200.

[4] 姜野，李拥军.破解算法黑箱：算法解释权的功能证成与适用路径——以社会信用体系建设为场景[J].福建师范大学学报（哲学社会科学版），2019（4）：84-172.

[5] 张玉宏，秦志光，肖乐.大数据算法的歧视本质[J].自然辩证法研究，2017，33（5）：81-86.

[6] 王融.《欧盟数据保护通用条例》详解[J].大数据期刊，2016，2（4）：93-101.

[7] 王文华，李东方.论司法实务对数据保护立法的推进——以欧盟《通用数据保护条例（GDPR）》为例[J].中国应用法学，2020（3）：132-144.

[8] 程莹.元规制模式下的数据保护与算法规制——以欧盟《通用数据保护条例》为研究样本[J].法律科学（西北政法大学学报），2019，37（4）：48-55.

[9] 歐洲数据保护专员，意大利个人数据保护专员，孔祥盛，等.人工智能伦理与数据保护宣言[J].北京：办公自动化，2019（1）：12-15.

[10] 张凌寒.商业自动化决策的算法解释权研究[J].法律科学（西北政法大学学报），2018，36（3）：65-74.

The Governance of the Algorithm Black Box in the Era of Artificial Intelligence

Wu Jiaojun， Guo Wan'er

（School of Humanity and Law， Hefei University of Technology， Hefei 230009， China）

Abstract：As a means for human beings to capture， process and output data by machines， the results of the algorithm are affected by the subjective deviation of the writer， technical deviation and so on. Because of the highly professional nature of the algorithm， users can not know the details about the capturing， processing and application of their own information. This opacity obviously affects the rights and interests of users and social order. It also brings great challenges to the legal mechanism of our country. According to the operation mode of the algorithm， this paper analyzes the triple crisis of data security， algorithm bias and judicial relief brought by the algorithm black box from three aspects： data collection， algorithm operation and application. Based on the governance provisions of the algorithm black box in the EU General Data Protection Regulation and the European Declaration on Ethics and Data Protection of Artificial Intelligence， and in view of the above triple crisis， this paper discusses the governance of the algorithm black box from the perspectives of technology， law and ethic to achieve the legal and optimal coupling of the legalization management of the algorithm black box.

Key words： algorithm black box; algorithm bias; personal information; artificial intelligence; technical ethics