基于渐进式神经网络架构搜索的人体运动识别

2022-07-29 08:49王震宇张雷高文彬权威铭

计算机应用 2022年7期

王震宇，张雷，高文彬，权威铭

王震宇，张雷*，高文彬，权威铭

（南京师范大学电气与自动化工程学院，南京 210023）（ ∗ 通信作者电子邮箱leizhang@njnu.edu.cn）

为了解决基于传感器数据的运动识别问题，利用深度卷积神经网络（CNN）在公开的OPPORTUNITY传感器数据集上进行运动识别，提出了一种改进的渐进式神经网络架构搜索（PNAS）算法。首先，神经网络模型设计过程中不再依赖于合适拓扑结构的手动选择，而是通过PNAS算法来设计最优拓扑结构以最大化F1分数；其次，使用基于序列模型的优化（SMBO）策略，在该策略中将按照复杂度从低到高的顺序搜索结构空间，同时学习一个代理函数以引导对结构空间的搜索；最后，将搜索过程中表现最好的20个模型在OPPORTUNIT数据集上进行完全训练，并从中选出表现最好的模型作为搜索到的最优架构。通过这种方式搜索到的最优架构在OPPORTUNITY数据集上的F1分数达到了93.08%，与进化算法搜索到的最优架构及DeepConvLSTM相比分别提升了1.34%和1.73%，证明该方法能够改进以前手工设计的模型结构，且是可行有效的。

人体运动识别；深度学习；神经网络架构搜索；卷积神经网络；基于序列模型的优化

0 引言

移动智能设备的不断普及给研究人员提供了一系列新的研究方向。由于在运动跟踪［1］、健康监测［2］和智能家居［3］中的广泛应用，基于可穿戴传感器数据的人体运动识别（Human Activity Recognition， HAR）已经成为一个重要的研究领域。常见的传感器包括加速度计、磁性传感器和陀螺仪［4］，它们被嵌入移动设备中收集佩戴者的活动数据。经典的机器学习识别技术，如朴素贝叶斯、改进随机森林和支持向量机（Support Vector Machine， SVM）等，通常都会从传感器数据中人工提取特征。近年来，深度学习技术由于能够从原始数据中自动学习特征而备受关注。深度学习技术在HAR中的有效性已经在一些公开数据集中得到了验证。

随着传感器数量的不断增加，有关HAR的传感器公开数据集也在不断增加。OPPORTUNITY数据集被广泛使用，其中包含了一组在布满传感器的环境中收集到的人类活动数据。该数据集已被用于公开的活动识别挑战赛中，参赛者需要在运动模式识别和手势识别两种任务中比拼识别性能。

卷积神经网络（Convolutional Neural Network， CNN）是目前流行的深度学习技术，具有充当特征提取器的能力。该模型可以自动学习多层次的特征结构，这项技术先前已在Ordóñez等［5］和Hammerla等［6］工作中被应用于HAR和OPPORTUNITY数据集。尽管这些模型在HAR中表现良好，但设计出这些模型都是依赖于设计者的不断尝试和其丰富的先验知识。神经网络的性能极易受到网络拓扑结构的影响，在目前的HAR领域中如果想要获得一个表现良好的架构，设计者就需要调整大量模型超参数，手动尝试不同的拓扑直到找到一个合适的网络结构［7-9］。这种依靠人工不断试错的过程是极度耗时的，同时也使得深度学习技术的应用有较高的门槛，因为只有经验丰富的专家才能在有限的时间内设计出良好的架构。基于这些HAR领域中普遍存在的问题，人们希望有一种更高效的方法来自动设计CNN的结构。

神经网络架构搜索（Neural Architecture Search， NAS）是自动机器学习的一部分，它采用一些搜索策略优化神经网络超参数。搜索策略的最新进展大致可分为三类，分别是进化算法（Evolutionary Algorithm， EA）、强化学习（Reinforcement Learning， RL）和基于代理的优化（Surrogate-based Optimization， SO）。当使用进化算法（EA）［10-13］时，每个神经网络结构被编码为字符串，在搜索过程中执行字符串的随机突变和重组，每个字符串都将在验证集上进行训练和评估，表现最好的模型将会产生新的后代继续重复这一过程；当使用强化学习（RL）［14-17］时，控制器产生一系列动作，该动作指定模型的结构，然后对该模型进行训练，并返回其验证集上的准确度作为奖励，用于更新循环神经网络（Recurrent Neural Network， RNN）控制器。虽然EA和RL都能够设计出优于人工设计的体系结构的网络结构，但它们需要大量的计算资源，不太适合于目前的HAR任务。

与进化算法和强化学习直接搜索完全指定的结构空间不同，基于代理的优化（SO）方法可以按照复杂度从低到高的顺序搜索结构空间。最近，渐进式神经网络架构搜索（Progressive Neural Architecture Search， PNAS）算法成功在多个图像分类数据集上取得了最优表现［18］。该算法能够对搜索空间进行渐进式扫描，在每一步中选择最优的个架构，并在数据集上对所选架构进行训练和评估。评估结果将被用来训练一个代理模型，它可以在不训练神经网络架构的情况下预测架构的性能。代理模型通过减少实际训练的神经网络数量，使得算法能够更高效地探索搜索空间。虽然该算法的效率已经比之前的方法要高得多，但是其计算代价仍然很高，需要在100个GPU上训练两天才能得到最佳效果。

为了能够将神经网络架构搜索成功应用于HAR中，本文重新定义了PNAS方法中的搜索空间和CNN结构，提出了一种改进的渐进式神经网络架构搜索算法。得益于新的搜索空间和CNN结构，改进后的PNAS将不再依赖于上百个GPU耗时数天的并行计算，仅需单块GPU即可完成神经网络架构搜索的任务。通过在OPPORTUNITY数据集上与神经网络进化算法以及手工设计模型的对比实验，证明了该方法设计出的模型能够达到目前最高分类精度。

1 神经网络架构搜索

在过去的数十年中，神经网络已经解决了很多具有挑战性的问题，然而，它们的性能很大程度上取决于其拓扑结构。目前使用的大多数神经网络架构都是由设计者通过反复实验手工设计的，这需要设计者投入大量的时间和精力，因此，研究者对自动设计神经网络架构的算法越来越感兴趣。

神经网络架构搜索可以采用多种不同的搜索策略，包括随机搜索、贝叶斯优化、进化算法、强化学习和基于代理的优化。随机搜索无法利用先验知识来指导对超参数的选择，当模型很复杂时会导致训练成本很高，尽管随机搜索最终能得到最优解，但是其搜索时间过长，仅具有理论可行性，不具备实际实施的条件。贝叶斯优化（Bayesian Optimization， BO）不同于随机搜索，该方法会先建立目标函数的概率模型，之后再基于概率模型来选择最有潜力的超参数，最后利用目标函数对所选的超参数进行性能评估，同时依据之前的信息来不断更新概率模型；然而，贝叶斯优化不能处理可变大小和可变连接模型。

2002年，Stanley等［10］提出了一种可同时优化模型结构及其权重的进化系统。然而，将具有数百万权值的现代神经网络用于监督学习任务上时，基于随机梯度下降的权重优化方法的表现会优于进化算法。因此，近年来的工作［11-13］仅使用进化算法优化神经网络结构本身，并使用基于梯度的方法来优化权重。一种基于语法进化的神经网络进化算法已经被应用于可穿戴传感器数据的人体运动识别［19］。该算法被用于设计能够最大化OPPORTUNITY数据集上F1分数的最优架构，证明了进化算法能够设计出在OPPORTUNITY数据集上表现优异的分类模型。

许多研究者将神经网络架构搜索定义为强化学习问题，将网络结构的生成过程看作是智能体选择动作的过程，其动作空间与搜索空间相同，将网络结构在测试集上的性能评估结果作为奖励返还给智能体更新参数。不同的强化学习方法使用不同的策略来训练智能体，包括策略梯度［14］、Q学习［15］和近端策略优化方法［16］。Zoph等［17］提出了一种基于cell的搜索空间，最终的网络结构由cell堆叠组成。由于cell的层数通常比整体结构的层数少很多，因此其搜索空间大大减小。

最近，基于代理的优化方法因其高效的评估策略而受到人们的关注，核心是基于序列模型的优化（Sequential Model-Based Optimization， SMBO），该方法需要学习一个能预测抽样模型的验证准确度的代理函数。每一步都只选择预测性能最优秀的个候选架构用于进一步的顺序搜索。Negrinho等［20］首次将SMBO应用到神经网络架构搜索中，但是由于其扁平的CNN结构，最后搜索得到的网络架构表现并不是很好。最近，Liu等［18］率先将SO方法和cell搜索空间结合并成功在多个图像分类数据集上搜索到了性能优异的网络架构。

2 架构搜索空间

本文方法建立在Zoph等［17］提出的分层方法之上，首先在搜索空间中学习cell的结构，然后将得到的cell进行堆叠以生成最终的网络。

2.1　基于cell的搜索空间

所有的候选操作都是由2个卷积层堆叠而成，本文最终构建的CNN模型的层数相较于图像识别模型的层数更少，相较于使用单个卷积层，堆叠的卷积层拥有更好的性能。

2.2　CNN

要评估1个cell的结构，首先得将其转换为最终的CNN，为此将3个cell进行了堆叠形成最终的CNN，如图1所示。3个cell的步长均为2，卷积核数量分别为16、32和64。网络的最后两层为全局平均池化层和softmax分类层，之后将在传感器数据集上对堆叠好的模型进行训练。

图1　堆叠成的CNN结构

本文CNN的构造过程只使用了步长为2的cell而没有使用步长为1的cell，这是因为传感器数据的特征相对于图像特征更容易提取，无需使用更深层的网络即可完成特征提取；其次在于本文可选的操作和输入更少，基于cell的搜索空间略小。

3 渐进式神经网络架构搜索算法

许多搜索算法直接探索基于cell的搜索空间，如NAS网络［17］是由50步的长短期记忆（Long Short-Term Memory， LSTM）控制器直接生成的完整cell结构堆叠成的。然而在指数大的搜索空间中找对探索的方向是非常困难的，特别是在一开始控制器并不知道好的模型是什么样时。

采用学习代理函数来预测候选结构已经用于许多工作［21-23］中。由于循环神经网络非常适合处理渐进式搜索算法所产生的可变长度的序列结构，本文采用LSTM循环神经网络作为代理函数来处理长度为2的输入序列，每一步都将2个操作的one-hot编码经过一个嵌入层的输出作为循环神经网络的输入。LSTM最后一步的隐藏状态将传入一层全连接层，全连接层的输出经过sigmoid激活函数转换为对输入的序列结构在验证集上识别准确度的回归预测。输入的序列结构都会被存储起来，每次训练新的结构时都先与存储的结构进行对比，以避免训练重复的网络结构。代理函数训练时使用的优化器为Adam，损失函数由网络结构实际准确度和预测准确度之间的均方误差加上L2正则项组成。

图2　当最大块数为B=3时PNAS过程说明

4 实验和结果分析

4.1　实验设置

本文全部实验都是在OPPORTUNITY数据集上进行的。OPPORTUNITY数据集［24］包含一组从布满传感器的环境中采集的人类日常活动（Activities of Daily Living， ADL）数据和按规定流程执行的活动（drill）数据，传感器的采样频率为30 Hz。此数据集的一个子集还被用于OPPORTUNITY运动识别挑战赛，该子集由5名受试者的运动记录组成，传感器设置方面只考虑了放置在受试者身上的传感器。将每个传感器轴都视为一个维度，数据尺寸一共有113个维度。

本文实验部分集中解决挑战赛中定义的对非周期性手势进行识别的任务。本文对传感器数据进行了预处理，先用线性插值填充缺失值，再对每个通道进行归一化处理，最后利用固定宽度为2.13 s（窗口宽度为64）滑动窗口以50%重叠的滑动步长对数据进行了分割。表1统计了数据集中不同动作类型的具体数目。

本文将使用与挑战赛相同的数据集设置，将第一个受试者的所有ADL和drill以及受试者2和3的ADL1、ADL2和drill用作模型训练。使用由受试者2和3的ADL4和ADL5组成的测试集评估模型分类性能，受试者2和3的ADL3数据集被留下来作为验证集搜索最优架构。在全部21 144个样本中，训练集和验证集共包含17 435个样本，测试集包含3 709个样本。每个候选CNN都会在训练集上训练5个epochs并在验证集上进行分类验证，验证集上的分类准确率将被保存下来用于训练代理函数。

表1　数据统计信息

本文采用基于LSTM的代理函数来预测候选网络的表现。整个网络由嵌入层、LSTM循环层和全连接层组成，其中嵌入层的作用是将不同的序列结构转化成向量作为LSTM的输入。嵌入层输出维数和LSTM循环层神经元个数都为100，嵌入层使用均匀分布初始化将参数初始化到区间［-1，1］，LSTM循环层使用全零初始化将参数初始化为0。模型训练时采用Adam优化器，学习率设置为0.001。

按照cell结构复杂度的顺序对候选CNN模型进行训练和评估。当cell只有一个block时，cell只有28种不同的结构，所以第一阶段只评估这28个网络，在其余阶段将评估128个网络。限定cell最多由=5块block组成，每个子网络都由3个cell串联而成，训练子网络时的初始学习率为0.001，为使模型在训练时更加稳定，采用余弦衰减来动态调整学习率。本文的深度神经网络算法都是基于Python 语言的 TensorFlow2.0 神经网络框架实现的。所有的实验都是在 Ubuntu linux 服务器上进行的，服务器上的 CPU 为 Intel Core i7-6850K，GPU 为 NVIDIA GTX 2080ti。

4.2　结果和讨论

表2展示了整个搜索过程中表现最好的5个模型的识别准确度和它们的拓扑结构，后续将它们整体称为top5模型。表现最优的子网络的识别准确度为0.943 8，这是在训练集上训练5个epochs后在验证集上取得的识别准确度。此外，其余的子网络也取得了与最优子网络相当的表现，识别准确度都在0.94以上。需要注意的是表中展示的仅为验证集上的准确度，并不代表模型的最终表现。

表2　排名前五的模型的拓扑结构和准确度

从表2中可以统计出不同操作组合被选择的次数，其中被选取次数最多的组合为（5×5-5×5， 3×3-3×3），总共被选取了10次；（3×5-5×3，5×5-5×5）位列第2，总共被选取了5次；（5×5-5×5，5×5-5×5）和（5×5-5×5，2×6-6×2）并列第3，都被选取了2次。Top5模型中只有一个模型是由包含4个block的cell构成的，其余4个模型的cell都包含5个block，这证明了多个block并联的序列结构能够有效提高模型识别准确度。识别准确度排在第1位的模型只包含4个block，而其中有3个block都是被选取次数最多的组合方式，这也是为什么该模型在少1个block的情况下还能排在第一位。同时没有模型选择1×5-5×1的操作，说明该操作在提升识别性能上效果并不显著。

值得一提的是在评估只包含1个block的模型时，性能表现排在前5位的组合方式与top5模型中选取次数最多的组合方式是高度重合的，这意味着代理函数能够根据现有子网络的表现有效筛选出更有潜力的候选网络。此外，还可以看到所有模型都至少选择了四种选取次数最多的操作组合中的两种，这种不同个体之间在结构上的一致性也证明了这些组合方式的优越性。

在渐进式神经网络架构搜索完成对所有子网络的评估之后，本文使用整个训练集对表现最好的20个模型进行60个epoch的训练，并在测试集上进行评估，当模型在20个epoch内测试集准确度没有提高就提前结束训练，最后30个epoch的F1分数将用来计算统计值，最终统计结果见图3和表3。

图3　表现最好的20个模型的F1分数分布

表3　表现最好的20个模型的F1分数的统计信息

表3中模型F1分数最大值达到了0.930 8，高于现有记录中手工设计模型的最高得分0.927［6］，同时显著高于由进化算法搜索得到的单个模型的最高得分0.918 5［19］，模型得分对比见表4。其中：DeepConvLSTM是由卷积层和LSTM循环层组成的深度学习框架，b-LSTM-S是基于双向LSTM的神经网络架构，EA-single-best是进化算法搜索到的最优架构，EA-Ensemble-best是进化算法搜索到的表现最好的前20个模型组成的集成模型，PNASNet-best是渐进式神经网络架构搜索算法搜索到的最优架构。

从表3中可以看到前20个模型的表现基本都与目前最优秀的手工设计模型相当，这不仅依赖于模型本身的结构更依赖于搜索算法从成千上万个模型中筛选出这些最具潜力的模型。表3中表现最好的两个模型分别是13号和18号模型，两个模型的F1分数最大值均达到了0.93，其中13号模型在均值、中位数以及最大值得分上均略高于18号模型，这说明13号模型的表现更加优异，所以将13号模型作为搜索到的最优架构，模型的cell结构见图4。

表4　不同模型的最优结果比较

图5是最优架构在OPPORTUNITY数据集上的混淆矩阵。混淆矩阵含有模型预测类别和实际类别的信息，可以确定分类错误的类别和数量，方便对分类错误的原因进行分析。由于类别数量分布不均衡，本文对每一个类别都进行了归一化处理以便可视化。不足1%的情况都已经被遮盖，因此一行中的数字之和可能不等于1。大多数动作都或多或少地被归类为“无动作”，这种情况在关闭抽屉1、擦桌子和拨开关这几类中最为明显。打开动作和关闭动作也非常容易混淆，然而这种混淆主要发生在开关门1时，另一扇门并没有出现这种情况。系统有时无法区分抽屉1和抽屉2，唯一一个召回率低于50%的动作就是打开抽屉2（31%），有19%的该动作被错误地分类为打开抽屉1。这可能是因为不同的抽屉都是相邻的。

模型对拨开关和擦桌子两种行为识别也不够准确。对拨开关识别不准确的原因可能是拨开关的动作幅度非常小，因此模型可能无法识别到受试者已经执行了一个动作；而对擦桌子识别不准确可能是因为没有具体指定擦桌子的方式和范围，导致不同受试者执行该动作时行为存在差异。另一方面，模型在识别开关门和开关冰箱时拥有更高的准确性，这可能是因为不同受试者在执行这些动作时行为非常相似。

图4　渐进式神经网络架构搜索算法找到的最优cell结构

图5　OPPORTUNITY数据集上的混淆矩阵

在大多数情况下，打开某个对象总是容易和关闭某个对象混淆，反之亦然。例如59%的开门1被正确分类，但27%的该动作被错误分类为关门1；同样地，77%的关门1被正确分类，23%的关门1被错误分类为开门1。这种错误在所有对象上都有不同程度的体现。然而，在对象为抽屉时行为间的混淆更为严重，错误的分类不仅仅发生在打开和关闭之间，同样也出现在不同抽屉之间。例如，19%的关闭抽屉3被认为是关闭抽屉2，但是这些错误是可以被接受的，因为这三个抽屉是在同一个家具内相互挨着的［24］。尽管抽屉和洗碗机并没有彼此挨着，还是有17%的关闭抽屉2被错误地分类为关闭洗碗机。

5 结语

本文的主要贡献是通过实验证明了在基于可穿戴传感器的人体运动识别任务中应用渐进式神经网络架构搜索能够取得良好的结果。与许多之前的方法相比，本文最终使用的神经网络的拓扑结构是自动设计的，避免了手工设计拓扑结构时需要大量时间和专家先验知识的问题，这是大多数深度学习应用中的显著缺陷。此外，OPPORTUNIY数据集上获得的最优架构在应用到其他具有不同传感器设置或不同人类活动的识别任务上时可能无法正常工作，在这种情况下能够自动搜索最优拓扑的架构搜索算法可以更加便捷地将深度学习应用于各种领域和问题。

在未来的工作中，计划将该方法应用于涉及更多传感器的数据集或使用更常见的传感器设置的人类运动识别任务中，如利用智能手机或其他可穿戴设备中的传感器数据；在传感器通道数、传感器设置等任务参数存在差异但整体相似的情况下，研究不同任务中学习到的最优拓扑是否可以相互迁移。

[1] 郑浦，白宏阳，李政茂，等. 抖动干扰下运动目标精准检测与跟踪算法设计［J］. 仪器仪表学报， 2019， 40（11）：90-98.（ZHENG P， BAI H Y， LI Z M， et al. Design of accurate detection and tracking algorithm for moving target under jitter interference［J］. Chinese Journal of Scientific Instrument， 2019， 40（11）： 90-98.）

[2] 吴天舒，陈蜀宇，吴朋. 全生命周期健康监测诊断系统研究［J］. 仪器仪表学报， 2018， 39（8）：204-211.（WU T S， CHEN S Y， WU P. Research on the life cycle health monitoring and diagnosis system［J］. Chinese Journal of Scientific Instrument， 2018， 39（8）： 204-211.）

[3] ALAA M， ZAIDAN A A， ZAIDAN B B， et al. A review of smart home applications based on internet of things［J］. Journal of Network and Computer Applications， 2017， 97： 48-65.

[4] CORNACCHIA M， OZCAN K， ZHENG Y， et al. A survey on activity detection and classification using wearable sensors［J］. IEEE Sensors Journal， 2017， 17（2）： 386-403.

[5] ORDÓÑEZ F J， ROGGEN D. Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition［J］. Sensors， 2016， 16（1）： No.115.

[6] HAMMERLA N Y， HALLORAN S， PLÖTZ T. Deep， convolutional， and recurrent models for human activity recognition using wearables［C］// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California： IJCAI.org， 2016： 1533-1540.

[7] WANG K， HE J， ZHANG L. Attention-based convolutional neural network for weakly labeled human activities’ recognition with wearable sensors［J］. IEEE Sensors Journal， 2019， 19（17）： 7598-7604.

[8] TENG Q， WANG K， ZHANG L， et al. The layer-wise training convolutional neural networks using local loss for sensor-based human activity recognition［J］. IEEE Sensors Journal， 2020， 20（13）： 7265-7274.

[9] 郑增威，杜俊杰，霍梅梅，等. 基于可穿戴传感器的人体活动识别研究综述［J］. 计算机应用， 2018， 38（5）：1223-1229， 1238.（ZHENG Z W， DU J J， HUO M M， et al， Review of human activity recognition based on wearable sensors［J］. Journal of Computer Applications， 2018， 38（5）： 1223-1229， 1238.）

[10] STANLEY K O， MIIKKULAINEN R. Evolving neural networks through augmenting topologies［J］. Evolutionary Computation， 2002， 10（2）： 99-127.

[11] REAL E， MOORE S， SELLE A， et al. Large-scale evolution of image classifiers［C］// Proceedings of the 34th International Conference on Machine Learning. New York： JMLR.org， 2017： 2902-2911.

[12] SUGANUMA M， SHIRAKAWA S， NAGAO T. A genetic programming approach to designing convolutional neural network architectures［C］// Proceedings of the 2017 Genetic and Evolutionary Computation Conference. New York： ACM， 2017： 497-504.

[13] ELSKEN T， METZEN J H， HUTTER F. Efficient multi-objective neural architecture search via Lamarckian evolution［EB/OL］. （2019-02-26）［2021-05-17］.https：//arxiv.org/pdf/1804.09081.pdf.

[14] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning［J］. Machine Learning， 1992， 8（3/4）： 229-256.

[15] BAKER B， GUPTA O， NAIK N， et al. Designing neural network architectures using reinforcement learning［EB/OL］. （2017-03-22）［2021-05-17］.https：//arxiv.org/pdf/1611.02167.pdf.

[16] ZOPH B， LE QUOC V. Neural architecture search with reinforcement learning［EB/OL］. （2017-02-15）［2021-05-17］.https：//arxiv.org/pdf/1611.01578.pdf.

[17] ZOPH B， VASUDEVAN V， SHLENS J， et al. Learning transferable architectures for scalable image recognition［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 8697-8710.

[18] LIU C X， ZOPH B， NEUMANN M， et al. Progressive neural architecture search［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11205. Cham： Springer， 2018： 19-35.

[19] BALDOMINOS A， SAEZ Y， ISASI P. Evolutionary design of convolutional neural networks for human activity recognition in sensor-rich environments［J］. Sensors， 2018， 18（4）： No.1288.

[20] NEGRINHO R， GORDON G. DeepArchitect： automatically designing and training deep architectures［EB/OL］. （2017-04-28）［2021-05-17］.https：//arxiv.org/pdf/1704.08792.pdf.

[21] BROCK A， LIM T， RITCHIE J M， et al. SMASH： one-shot model architecture search through HyperNetworks［EB/OL］. （2017-08-17）［2021-05-17］.https：//arxiv.org/pdf/1708.05344.pdf.

[22] DOMHAN T， SPRINGENBERG J T， HUTTER F. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves［C］// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2015： 3460-3468.

[23] BAKER B， GUPTA O， RASKAR R， et al. Accelerating neural architecture search using performance prediction［EB/OL］. （2017-11-08）［2021-05-17］.https：//arxiv.org/pdf/1705.10823.pdf.

[24] CHAVARRIAGA R， SAGHA H， CALATRONI A， et al. The opportunity challenge： a benchmark database for on-body sensor-based activity recognition［J］. Pattern Recognition Letters， 2013， 34（15）： 2033-2042.

[25] YANG J B， NGUYEN M N， SAN P P， et al. Deep convolutional neural networks on multichannel time series for human activity recognition［C］// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2015： 3995-4001.

WANG Zhenyu， born in 1996， M. S. candidate. His research interests include deep learning， pattern recognition， natural language processing.

ZHANG Lei， born in 1979， Ph. D.， associate professor. Hisresearch interests include motion recognition， machine learning.

GAO Wenbin， born in 1996， M. S. candidate. His research interests include computer vision， signal processing， object detection.

QUAN Weiming， born in 1996， M. S. candidate. His research interests include artificial intelligence.

Human activity recognition based on progressive neural architecture search

WANG Zhenyu， ZHANG Lei*， GAO Wenbin， QUAN Weiming

（，，210023，）

Concerning the sensor data based activity recognition problem， deep Convolutional Neural Network （CNN） was used to perform activity recognition on public OPPORTUNITY sensor dataset， and an improved Progressive Neural Architecture Search （PNAS） algorithm was proposed. Firstly， in the process of neural network model design， without manual selection of suitable topology， PNAS algorithm was used to design the optimal topology in order to maximize the F1 score. Secondly， a Sequential Model-Based Optimization （SMBO） strategy was used， in which the structure space was searched in the order of low complexity to high complexity， while a surrogate function was learned to guide the search of the structure space. Finally， the top 20 models with the best performance in the search process were fully trained on OPPORTUNIT dataset， and the best performing model was selected as the optimal architecture searched. The F1 score of the optimal architecture searched in this way reaches 93.08% on OPPORTUNITY dataset， which is increased by 1.34% and 1.73% respectively compared with those of the optimal architecture searched by evolutionary algorithm and DeepConvlSTM， which indicates that the proposed method can improve previously manually-designed architectures and is feasible and effective.

Human Activity Recognition （HAR）; deep learning; Neural Architecture Search （NAS）; Convolutional Neural Network （CNN）; Sequential Model-Based Optimization （SMBO）

This work is partially supported by National Natural Science Foundation of China （61971228）， Natural Science Foundation of Jiangsu Province （BK20191371）.

TP391.4

1001-9081（2022）07-2058-07

10.11772/j.issn.1001-9081.2021050798

2021⁃05⁃17；

2021⁃09⁃13；

2021⁃09⁃22。

国家自然科学基金资助项目（61971228）；江苏省自然科学基金资助项目（BK20191371）。

王震宇（1996—），男，江苏扬州人，硕士研究生，主要研究方向：深度学习、模式识别、自然语言处理；张雷（1979—），男，江苏南京人，副教授，博士，主要研究方向：运动识别、机器学习；高文彬（1996—），男，江苏盐城人，硕士研究生，主要研究方向：计算机视觉、信号处理、目标检测；权威铭（1996—），男，安徽宿州人，硕士研究生，主要研究方向：人工智能。

基于渐进式神经网络架构搜索的人体运动识别

0 引言

1 神经网络架构搜索

2 架构搜索空间

2.1 基于cell的搜索空间

2.2 CNN

3 渐进式神经网络架构搜索算法

4 实验和结果分析

4.1 实验设置

4.2 结果和讨论

5 结语

2.1　基于cell的搜索空间

2.2　CNN

4.1　实验设置

4.2　结果和讨论