如何打造安全可信的人工智能

2021-12-09 09:20中国信息通信研究院

检察风云 2021年19期

人工智能的稳定问题引起了持续而广泛的研究

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在对经济发展、社会進步、国际政治经济格局等诸方面产生重大而深远的影响。2020年人工智能产业保持平稳增长，根据IDC（互联网数据中心）测算，全球人工智能产业规模为1565亿美元，同比增长12%;根据中国信息通信研究院测算，我国人工智能产业规模达到约434亿美元，同比增长15%。人工智能在带来巨大机遇的同时，也蕴含着风险和挑战。习近平总书记高度重视人工智能治理工作，强调要“确保人工智能安全、可靠、可控”，倡议推动落实二十国集团人工智能原则，引领全球人工智能健康发展。

随着社会各界对人工智能信任问题的不断关注，安全可信的人工智能技术已成为研究领域的热点。研究的焦点主要是提升人工智能系统稳定性、可解释性、隐私保护、公平性等，这些技术构成了安全可信人工智能的基础支撑能力。

人工智能系统稳定性技术

人工智能系统面临着特有的干扰，这些干扰来自于针对数据和系统的多种攻击方式，包括中毒攻击、对抗攻击、后门攻击等。这些攻击技术既可互相独立也可以同时存在。例如，中毒攻击通过按照特殊的规则进行恶意评论等方式，向训练数据集投入干扰数据，继而影响推荐系统的准确度;对抗攻击通过在道路交通标志牌上贴上特殊设计的图案，可以误导自动驾驶系统使其错误识别路牌上的信息，进而造成交通事故;后门攻击具有隐蔽性，可能会被用于对AI供应链发动攻击。相比于传统软件系统，此类干扰对人工智能系统的稳定性提出了更高要求。

人工智能的稳定问题引起了持续而广泛的研究。针对人工智能模型的对抗攻击与中毒攻击早在2012及2013年就已出现。其中，对抗攻击的目的在于通过构造针对性样本来诱使人工智能系统决策出错;而中毒攻击的目的在于通过向人工智能模型的训练数据集注入中毒样本来劣化训练得到的模型的性能。在此之后，对抗攻击相继发展出了FGSM（快速梯度下降法）、Carlini-Wagner（卡里尼-瓦格纳攻击法）及PGD（投影梯度下降法）等攻击方法;中毒攻击的发展同样十分迅速，在其基础上出现了后门攻击。后门攻击通过后门样本向人工智能系统植入后门，从而达到定向操纵人工智能系统的目的。该攻击与中毒攻击存在一定相似性，且常通过中毒攻击的方式来向系统植入后门。为抵御这些攻击，一些工作提出各类异常数据检测方法来检出并清除对抗样本、中毒样本、后门样本等恶意数据，从而减轻恶意攻击带来的干扰;通过在对抗样本上进行对抗训练来抵抗对抗攻击;利用模型剪枝、后门检测等技术抵抗后门攻击。

人工智能的稳定性仍然面临着较大的挑战。一方面，各种干扰手段层出不穷、持续演进，而新的攻击方法容易让旧的防御方法失效;另一方面，干扰的形式正在逐步从数字世界向物理世界蔓延，例如通过打印对抗样本等手段能够直接对自动驾驶和人脸识别系统造成物理层面的干扰。未来在人工智能稳定性技术方面的研究将持续增多。

人工智能可解释性增强技术

目前，以深度学习算法为核心的人工智能系统的运作就像是一个黑箱，人们只能看到数据的导入和输出，而不清楚内部的工作原理和判断依据。一方面，人们对训练得到的人工智能模型为何能具有极高的性能尚不清楚;另一方面，人工智能系统在做出决策时具体依赖哪些因素，人们也不清楚。

针对人工智能算法可解释性的研究仍处在初期阶段，部分算法的理论框架有待完善。例如，优化算法的有效性在决策树、支持向量机等一些简单的人工智能模型上已被很好地证明。然而，对于随机梯度下降算法为何能高效优化深度神经网络，学术界已经开展了大量的研究，但目前对于该问题的讨论仍未有定论。又如，针对人工智能模型如何利用数据特征做出预测，学术界已通过实验取得了一定的成果，但还缺乏理论支撑。为了使人工智能模型具有更好的可解释性，研究学者提出，可以通过建立适当的可视化机制尝试评估和解释模型的中间状态;通过影响函数来分析训练数据对于最终收敛的人工智能模型的影响;通过Grad-CAM（梯度加权类激活映射）方法分析人工智能模型利用哪些数据特征做出预测;通过LIME（模型无关的局部可解析性算法）方法使用简单的可解释模型对复杂的黑盒模型进行局部近似来研究黑盒模型的可解释性;还有部分研究则提出可以通过建立完善的模型训练管理机制，提升人工智能系统实现过程的可复现性。

在人工智能的产业落地过程中，应最大限度地使人工智能系统的行为对人类更透明、更容易理解、更可信。一味地相信人工智能系统所做出的决策，而不对其决策过程进行解释，会极大限制其在国防、法律、医疗、教育等关键领域的普及，甚至引发严重的社会问题。增强人工智能系统的可解释性迫在眉睫。

人工智能隐私保护技术

人工智能系统需要依赖大量数据，然而数据的流转过程以及人工智能模型本身都有可能泄露敏感隐私数据。例如，在数据流转的任意阶段，恶意攻击者可以对匿名数据集发起攻击，从而窃取数据;在数据发布阶段，恶意攻击者可以使用身份重识别对匿名数据集发起攻击，从而窃取隐私信息;恶意攻击者也可以直接针对人工智能模型发起攻击，从而窃取隐私信息。例如，模型反转攻击可以根据受攻击模型的输出推断并重建其训练数据，从而窃取隐私信息;成员推断攻击可以推断给定数据样本是否来自受攻击模型的训练数据集，从而造成隐私泄露。

学界针对上述隐私泄露问题提出了多种针对性的保护方法，最常见的为基于差分隐私和基于联邦学习的隐私保护方法。差分隐私最早由美国学者辛西娅·德沃克于2006年提出，是人工智能系统隐私保护能力的一个主要量化指标。其核心思想是一个具有优秀隐私保护能力的人工智能算法应当对输入数据中的微小扰动不敏感。基于该思想，可以通过对数据进行下采样、顺序置换、添加噪声等方式，来防御攻击者进行隐私窃取。目前，一些头部科技公司已将差分隐私法应用于部分真实的业务中。联邦学习在2015年提出，其能在不收集用户数据的条件下进行人工智能模型的训练，以期保护隐私信息。需要指出的是，一些初步研究表明，联邦学习方法仍存在一定的隐私泄露风险。因此，还需要针对联邦学习进一步优化，提升其用户隐私保护的能力。一个可行的方向是将联邦学习和差分隐私相结合，以构建隐私保护能力更强的人工智能系统。

在当前时代下，越来越多的隐私信息承载于数据之中，人们对隐私数据保护的关注更胜以往，部分国家也开始从立法层面制定隐私数据的使用规范。针对隐私保护进行研究能使得人工智能系统符合法律的基本规范和要求，完善可信人工智能的建设。

人工智能公平性技术

随着人工智能系统的广泛应用，其表现出了不公平决策行为以及对部分群体的歧视。学术界认为，导致这些决策偏见的主要原因如下：受数据采集条件限制，不同群体在数据中所占权重不均衡;在不平衡数据集上训练得到的人工智能模型，可能会为了在整体数据上的平均性能，而牺牲在少量数据上的性能，造成模型决策不公平。

为了保障人工智能系统的决策公平性，相关研究者主要通过构建完整异构数据集，将数据固有歧视和偏见最小化;对数据集进行周期性检查，保证数据高质量性。此外，还有通过公平决策量化指标的算法来减轻或消除决策偏差及潜在的歧视。现有的公平性指标可以分为个体公平性与群体公平性两大类。其中，个体公平性衡量智能决策对于不同个体的偏见程度，而群体公平性则衡量智能决策对于不同群体的偏见程度。另一方面，基于公平性指标的算法大致能分为预处理方法、处理中方法及后处理方法共三大类。预处理方法通过删除敏感信息或重采样等方式对数据进行清洗，从而降低数据中存在的偏差。处理中方法通过在人工智能模型训练过程中加入与公平性量化有关的正则项，提高训练得到的模型的公平性。后处理方法通过对模型输出进行调整，进一步提高训练得到的模型的公平性。例如，有工作基于多重精确度（Multiaccuracy）的概念提出多精度提升法（Multiaccuracy Boost），以减轻黑盒人工智能系统的决策偏差。

人工智能在敏感领域的应用越来越多，包括招聘、刑事司法、医疗等，其公平性也受到了广泛的担忧。公平性技术能够从技术角度对数据进行均衡，从而进一步引导模型给出公平的结果，这对于提高人工智能系统决策公平性具有重要意义。

当前越来越多的研究关注到人工智能在稳定性、可解释性、隐私保护、公平性等问题上的挑战。随着研究的不断深入，势必将会涌现出更稳定、更透明、更公平的人工智能理论及技术，这些技术是未来实现可信人工智能的基石与重要保障。

编辑：张程 3567672799@qq.com