人工智能技术研究进展综述

2023-11-16 03:17张天河

电子元器件与信息技术 2023年8期

关键词：梯度机器神经元

张天河

北京理工大学，北京，100081

0 引言

通过对人工智能技术进行深入研究和分析，可以更好地了解其优势、挑战和前景，从而能够做出准确有效的预测和规划，推动科技发展和社会进步。本文聚焦于人工智能技术中的机器学习和神经网络等关键技术，深入探讨它们的原理、进展和案例分析。

1 机器学习与神经网络技术领域的要点和最新进展

1.1 机器学习

1.1.1 机器学习的要点

文献[1]提出机器学习的目标是从数据学习算法，算法通过有限的数据学习到一般性的规律，也就是输入到输出的映射函数，并应用在测试集上来检测学习效果。一般的算法学习过程是将设置好初始参数的模型应用于输入的数据，得到模型对输入数据的预测，再用预测结果计算误差，利用优化算法降低误差，对模型进行调优。机器学习的要点是数据、模型、学习规则、优化算法。

1.1.2 机器学习的最新进展

近年来，机器学习中涌现出许多大型模型，如Meena、Turing-NLG、BST、GPT-3。Turing-NLG是一种基于Transformer的语言生成模型，可以生成单词以完成开放式文本任务。除了填充不完整的句子外，它还可以生成直接答案以及输入文档摘要。文献[2]提出由于拥有超过13亿参数，该模型无法在单个GPU上部署，因此需要通过并行化或分解在多个GPU之间进行训练。2020年，DeepMind的AlphaFold在CASP蛋白质折叠挑战赛中取得了突破性的表现，并在2021年7月开放由AlphaFold生成的整个人类蛋白质组的预测三维模型。文献[3]提出AlphaFold算法结合同源模板和多序列比对等蛋白质三维建模方法的特征来生成预测结构。

1.2 神经网络

1.2.1 神经网络的要点

（1）神经网络基础

激活函数类似神经元的阈值，控制神经元是否被激活。Ramachandran P等表明理想情况下的激活函数是单位阶跃函数，但是由于单位阶跃函数不光滑、不连续，通常并不被采用[4]。Elliott D L指出常用的激活函数有sigmoid函数、ReLU函数和softmax函数[5]。sigmoid函数的表达式为：

它相比阶跃函数有了光滑性和连续性，激活函数由阶跃函数的0和1变成了0到1之间的连续值。ReLU的公式为：

由于计算简单，激活函数大都采用ReLU函数。

在分类问题中常用softmax激活函数。函数表达式为：

感知机和多层感知机：感知机是一个二分类模型，可以看作单层神经网络，是人工智能最早的模型之一，感知机由若干输入神经元和一个输出神经元组成。

感知机只能对二分类问题做线性分割，而不能拟合XOR等函数，多层感知机可以解决这个问题。多层感知机在感知机的基础上加了隐藏层，隐藏层的大小是超参数，而输入层和输出层大小由数据决定。

（2）深度神经网络

深度神经网络的层数和规模大大增加，需要采用一些优化算法。梯度下降是最常用的参数更新的方法。梯度下降就是沿着梯度下降的方向，不断用梯度乘以学习率来更新参数，使得损失函数不断减小，直至到达极小值点。Dong Y等发现梯度下降面临的问题是无法识别局部极小值点和鞍点[7]。

梯度下降的过程如下：①确定损失函数；②确定函数参数、学习率、算法终止距离；③计算当前位置的梯度；④用学习率乘以梯度，得到当前位置的下降距离；⑤确定是否每个参数的下降距离都小于算法终止距离。若是，则算法停止。若不是，则进行下一步；⑥用下降距离更新参数，回到第1步。

由于每次更新参数需要遍历训练集的所有数据，更新周期较长，梯度下降衍生出随机梯度下降和小批量梯度下降等技术。随机梯度下降每次更新参数只用一个样本，这个样本从训练集中随机抽样选出。这样计算速度较快，但是由于只采用了一个样本，下降方向可能不是最快的方向，造成振荡下降的现象。Ray S指出小批量梯度下降每次将训练集随机排列一次，从中选取batch_size个样本，作为计算梯度的数据。这样既加快了计算速度，也解决了振荡下降问题[8]。

前向传播和反向传播公式中的符号对应如表1所示。

表1 公式表

前向传播是前馈神经网络的数据流向，数据经由输入层流向隐藏层，再流向输出层。数据的传播公式如下：

仍然采用梯度下降法来更新网络的参数矩阵。考虑基于交叉熵损失函数的结构化风险函数：

对于每层的参数矩阵和偏置向量，更新策略为：

而对于每个参数的更新，涉及矩阵微分，计算烦琐，会拖慢神经网络的训练速度。Rumelhart D E等提出训练中采用反向传播算法计算梯度[9]。

根据链式法则，结构化风险函数对权重求梯度可以变为：

因此，偏导的计算转化为结构风险对净输入的偏导（误差项）、净输入的偏导对权重的偏导、净输入的偏导对偏置的偏导三部分。

①净输入对权重的偏导：

②净输入对偏置的偏导：

③结构化风险对净输入的偏导：

Hecht-Nielsen R指出上面的公式就是反向传播的误差项的公式[10]。该公式表明，第i层的一个神经元的误差项是该神经元激活函数的导数，乘以所有与之相连的下一层的神经元的误差项。再与前两个偏导结合，可以得到第i层的下降距离：

反向传播算法的训练过程和梯度下降没有区别。

1.2.2 神经网络的最新进展

神经网络在最近几年有很多进展，图神经网络是其中一个新的研究热点。图神经网络可以分为五类，分别是图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。传统神经网络主要用于处理图像、语言等结构化数据，但对社交网络、物联网等非结构化数据难以高效处理。Ying Z指出图神经网络的出现提供了问题的解决方案，图能够很自然地表示出现实场景中实体与实体之间的复杂关系，有非常广阔的应用场景[11]。图神经网络在许多重要领域得到了广泛应用，但是仍存在一些问题。Hu Z提出深度神经网络通过堆叠不同网络层提升表达能力，但现有图神经网络结构层次较少，限制了图神经网络的表达能力[12]。同时，在社交网络、推荐系统等应用场景，需要对大规模的图结构数据进行处理，但现有的许多图神经网络不能满足处理大规模图的需求。

2 人工智能技术的相互关系以及相关的案例分析

2.1 相互关系

机器学习、进化计算等人工智能技术之间有着密切的关系。例如强化学习属于机器学习的一种算法，同时采用了行为人工智能和行为主义的思想。大体上人工智能可以分为三大学派：符号主义学派、连接主义学派、行为主义学派。

2.2 案例分析

2.2.1 深度学习和符号智能逻辑推理融合解决医学问题

Han Z等人在论文中对深度学习和逻辑推理融合，以自动生成医疗报告进行了探索[13]。文中提出了神经符号学习（NSL）框架，利用深度神经网络学习模仿人类的视觉感知，用以检测目标脊柱结构的异常，框架结构如图1所示。

图1 理论框架结构图

2.2.2 遗传算法和人工神经网络融合优化钢材寿命

Nejad R M在论文中提出了用神经网络预测动车车轮和钢轨磨损的方法[14]，并使用遗传算法计算钢材的疲劳寿命。基于遗传算法和人工神经网络相结合，优化铁路应用中使用的珠光体900A级钢的疲劳寿命，拟合的表面可视化了材料的行为。

3 结语

综上所述，人工智能技术在未来的发展中具有持久成熟的趋势，其不断完善将为人类社会带来更多的便利和创新。然而，人们也必须认识到人工智能技术所带来的问题和挑战，并积极探索解决方案，以更好地应对其可能造成的风险和影响，从而促使人工智能技术得到更加全面和深入的发展。