人体动作识别中的深度学习模型选择

2016-03-13 18:02广州中医药大学医学信息工程学院谭火媛罗晓牧
电子世界 2016年15期
关键词:卷积神经网络人体

广州中医药大学医学信息工程学院 谭火媛 罗晓牧



人体动作识别中的深度学习模型选择

广州中医药大学医学信息工程学院谭火媛罗晓牧

目前深度学习已成为机器学习领域最热门的研究方向,在众多应用领域取得良好的效果,这使得不少深度学习爱好者跃跃欲试。然而,虽然关于深度学习的研究论文日益增多,但是仍然缺乏如何针对不同的应用场景选择合适的深度学习模型的指导。本文探讨了根据可穿戴式传感器在人体动作识别中的信号特点,为如何根据不同的动作识别任务选择合适的深度学习模型提供参考。

深度学习;动作识别;卷积神经网络(CNN);递归神经网络(RNN)

在普适计算 (Ubiquitous Computing) 中,基于深度学习的人体动作识别开始逐渐地取代现存依赖于人工手动特征提取和分类的分析方法。但是对于各种不同的动作识别任务,包括精准手势动作识别、跑步、上楼梯等不同粒度的行为,如何选择合适的模型仍然没有一个统一的分析方法。本文通过结合深度学习领域最新的论文,探索卷积神经网络 (Convolutional networks, CNN)和递归神经网络(Convolutional Neural Network, RNN)在人体动作识别中的应用。通过大量随机采样模型配置的动作识别实验,比较不同模型在人体动作识别的不同任务上的适用性,可以为对深度学习感兴趣的研究人员提供一定的参考。

1 深度学习在人体动作识别中的研究现状

在过去十年中,深度学习已成为机器学习领域最热门的研究方向,并且在学术研究和商业用途的驱动下,出现越来越多的变体。通过 Torch7[1]等机器学习框架,深度学习能被大众所使用,并且在很多应用领域中发挥重要作用。

1.1人体动作识别的研究现状

普适计算中的人体动作识别是受益于深度学习的领域之一。人体动作识别中相关的研究方法包括:对穿戴设备时序数据的滑动窗口分段、手动特征提取过程以及一系列的(有监督)分类方法。很多情况下,这些相对简单的方法已经能够获得较高的识别准确度。然而,一些更复杂的行为动作对这些需要手动设计的方法提出了一定的挑战,例如在医疗应用中的动作识别等[2]。

1.2深度学习在人体动作识别中的应用障碍

深度学习将对普适计算中的人体动作识别带来巨大影响,它将取代缺乏鲁棒性且需要手动设置的特征提取过程。然而,对于研究者而言,为他们的具体应用场景选择合适的深度学习模型是一件比较困难的事情。很多促进深度学习发展的研究几乎都只是呈现了系统的最优效果,而很少介绍这些看起来最优的参数是如何确定的。在参数探索过程中,对于最佳效果是如何与一般情况下的效果比较,也没有做出很好的解释。

尽管已经有一些关于深度模型在动作识别的各种应用场景中的探索,但是缺乏一个系统的关于深度模型适用性的分析。各种论文的作者报告他们在初步实验中探索参数空间,但是通常忽略细节。实验的整个过程不但不清晰,而且难以复制。一些论文中展现单个实例,例如卷积神经网络在某一特定场景获得较好的识别效果,然而单单报告峰值性能数据并不能反映一种方法在普适计算中的所有识别任务具有适用性,因为还需要花费多少精力去优化提出的方法以及调试与之比较的方法仍然是未知的。一个研究者寻找到跟论文中效果同样好的参数配置的可能性有多大?在参数探索的过程中报告的与其他模型比较的识别效果有多大的代表性?哪一个参数对识别效果的影响最大?这些问题对于研究者是非常重要的,但是目前在相关研究中很少有提及,这很大程度上限制了深度学习在人体动作识别中的应用和推广。

2 常用的深度学习方法在人体动作识别中的应用

使用可穿戴传感器收集的人体运动数据是多变量时间序列数据,在普适计算中分析这些数据通常是使用基于管道(pipelinebased)的方法。首先是将这些时间序列数据分割成连续的段或者帧,可以基于一些信号特征例如信号能量来划分,或者通过时间滑窗的方法分段。然后从每一帧或每一段提取一组特征,其中最常见的包括统计特性或频域特性。

2.1卷积神经网络在人体动作识别中的应用

目前在普适计算中比较受欢迎的是基于卷积神经网络的模型,许多研究人员都在探索它们在不同动作识别任务中的识别效果。卷积神经网络因其可以采用原始信号直接作为网络输入而避免了复杂的特征提取过程,已经应用在特定领域,例如检测自闭症的典型动作[3],这一应用很显然优于之前领先的识别方法。

2.2递归神经网络在人体动作识别中的应用

在普适计算中,帧与帧之间通常被看作是统计独立的,因此生成模型的应用也是非常成功的,例如隐马尔科夫模型(HMM)。那些能够利用时序数据的时间相关性的方法,自然也就成为构建人体运动模型的选择。深度递归神经网络,尤其是那些依靠长期短期记忆单元(LSTMs)的递归神经网络,最近在各种应用场景中已经取得了令人印象深刻的识别效果。 首先,Neverova等利用记录在人们手机上的运动数据研究了各种递归方法在人体识别中的识别效果[4]。接着Ordonez和 Roggen等在OpportunityDataset和SkodaDataset两个动作识别数据集上将递归神经网络与卷积神经网络联合使用[5]。实验表明,在OpportunityDataset这个数据集中,递归神经网络与卷积神经网络联合使用的识别效果优于其他方法;在SkodaDataset数据集中,使用递归神经网络优于不使用递归方法的模型。应用递归神经网络仅仅是为了在更抽象的层面上更有效地拟合时间相关性。目前,递归神经网络还没有用于拟合更低层面的用传感器采集到的相互独立动作数据。

3 结论

本文探讨了目前最常用的深度学习方法应用于基于可穿戴式传感器人体动作识别的识别效果。从研究者的角度来看,他们感兴趣的并不是每种模型的最好识别效果是多少,而是探索参数的过程和理解每种模型的本质并知道它们在不同动作识别任务中的适用性。

通过探讨大量最新的论文,本文得出[6]:(1)对于那些持续时间短但是有序的动作,递归神经网络的识别效果明显优于卷积神经网络。因为递归方法在一段长时间序列内可以联系上下文,结合上下文做出判断。(2)在大部分数据集中,对于双向的递归神经网络(bi-directional RNNs),每一层的单元个数对于模型最终的识别效果有很大的影响。(3)对于持续时间长且不断重复的动作例如走或者跑,推荐使用卷积神经网络。研究者在实验过程中可能会发现有些数据集使用递归神经网络识别效果会和卷积神经网络相差无几,甚至是优于卷积神经网络,但是研究者可以通过平均识别效果选择适合的结构模型。(4)在开始优化网络结构之前,建议先探索学习速率,因为学习到的参数对于模型的识别效果有很大的影响。

通过对论文的探讨发现,对于不同模型的不同参数设置,最终的识别效果会有很大的区别。普通的深度神经网络对于研究人员来说也许是最容易应用到不同的数据集中的模型,但它需要投入大量的精力来调试参数。所以,尽管在初始的模型探索中模型的识别效果较差,但是研究人员也不应该丢弃该模型。更加复杂的方法例如卷积神经网络或者递归神经网络的识别率差异较小,这样就更有可

能在仅仅几步的迭代中找到一个识别效果较好的模型。

[1]Ronan Collobert,Koray Kavukcuoglu,and Clement Farabet. Torch7:A matlab-like environment for machine learning.In BigLearn,NIPS Workshop,2011.

[2]Nils Y Hammerla,James M Fisher, Peter Andras, Lynn Rochester,Richard Walker,and Thomas Plotz.Pd disease state assessment in naturalistic environments using deep learning.In AAAI,2015.

[3]Nastaran Mohammadian Rad,Andrea Bizzego,Seyed Mostafa Kia,Giuseppe Jurman,Paola Venuti,and Cesare Furlanello.Convolutional neural network for stereotypical motor movement detection in autism. arXiv:1511.01865,2015.

[4]Natalia Neverova,Christian Wolf,Griffin Lacey,Lex Fridman,Deepak Chandra,Brandon Barbello,and Graham Taylor. Learning human identity from motion patterns. arXiv:1511.03908, 2015.

[5]Francisco Javier Ordonez and Daniel Roggen. Deep convolutional and lstm recurrent neural networks for multimodal wearable activity recognition. Sensors,16(1):115, 2016.

[6]Nils Y.Hammerla,Shane Halloran and Thomas Ploetz.Deep,Convolutional,and Recurrent Models for Human Activity Recognition using Wearables.arXiv:1604.08880[cs.LG].

谭火媛(1993-),女,广东云浮人,本科在读,医学信息工程专业,研究方向:机器学习。

罗晓牧(1980-),男,广东广州人,讲师,工科博士研究生毕业,研究方向:机器学习,无线传感器网络,生物信号获取。

国家自然科学基金(No.61301294)、2016年广东省大学生创新训练计划项目(No. 201610572084)。

猜你喜欢
卷积神经网络人体
人体“修补匠”
人体冷知识(一)
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
人体可笑堂
从滤波器理解卷积
基于神经网络的中小学生情感分析
奇妙的人体止咳点
基于傅里叶域卷积表示的目标跟踪算法