篮球技术动作识别算法探究

2021-03-15 06:59李伦钦刘波涛

电脑知识与技术 2021年1期

李伦钦　刘波涛

摘要：人体动作识别相关研究一直是计算机视觉的研究热点，并且在现实生活中有着广泛且重要的应用。大部分的研究从运动目标检测、动作特征提取和动作特征理解三个方面着手，基本解决了简单场景下的人体动作的识别问题。但在篮球技术动作识别领域几乎没有研究，该文结合深度学习以及前人在人体动作识别的积累，将其与视频中篮球技术动作识别结合进行探究。

关键词：深度学习;卷积神经网络;动作识别;篮球技术;视频识别

中图分类号：TP183 文献标识码：A

文章编号：1009-3044（2021）01-0016-03

Abstract： Human action recognition related research has always been a research hotspot of computer vision， and it has a wide range of important applications in real life. Most of the research started from three aspects： moving target detection， action feature extraction and action feature understanding， and basically solved the problem of human action recognition in simple scenes. But there is almost no research in the field of basketball technical action recognition. This article combines deep learning and the accumulation of predecessors in human body action recognition， and combines it with basketball techniques action recognition in video to explore.

Key words： deep learning; convolutional neural network; action recognition; basketball techniques; video recognition

1引言

近幾年，诸如卷积神经网络的深度学习方法在图像识别、语音识别、时序学习等任务中显示出优异的性能。图像识别方面，通常使用经典结构AlexNet、VGG、GoogleNet、Resnet等CNN网络结构替换传统方式，成为图像特征提取的主要工具。时序学习方面，经典结构RNN、LSTM、GRU等网络结构能够记录时序数据的上下文信息，从而成为处理时序数据的重要手段。运动类视频中的技术动作检测是计算机视觉领域在体育方面的重要应用，通过智能检测运动类视频，为运动员、教练或分析人员提供动作技术方面的指导意见，或者辅助运动场上裁判人员进行更为合理有效的判断。

篮球在我国国内是很流行的运动，在高水平篮球运动员中，所用到的技术动作有着明显的特点。而这些技术动作，对于篮球爱好者、专业篮球运动员、教练等人士来说，一眼就能识别出这个动作，而且它们有着公认的称呼。平时爱好者在观看这些视频往往是某些作者自己挖掘这些素材做成精彩集锦，抑或是自己被动地接收视频门户的推送，如果主动去搜特定动作，虽然会有相关视频，但是资源不多且存在无关资源。

所以，开展利用深度学习的方法来识别篮球技术动作这方面的工作，并将其应用起来有着现实意义。对于视频门户，有利于加强篮球社区版块的用户黏性，提高用户体验;对于教练运动员，使得他们能快速找到相关视频资料，对运动员进行有针对性的指导和训练;对于用户，有助于用户快速找到感兴趣的体育视频节目或片段。

2相关技术

2.1深度学习

深度学习是机器学习的一个研究方向，通过模拟生物神经元，基于感知机构成的神经网络，用来学习大量样本数据中的潜在规律。通过神经网络训练得到的权重模型，使得机器拥有像人一样的识别文字、图像、视频等数据的能力。

2.2卷积神经网络

卷积神经网络（ConvolutionalNeuralNetwork）是引入了很多新特征的一种神经网络，相较于传统神经网络，卷积神经网络中主要在中间层引入了卷积层进行卷积运算，引入了池化层保证数据降维的情况下提取更为重要的特征。

（1）Conv层主要作用是对图像数据进行特征提取。层次浅的卷积层提取图像中物体的边际或者局部图像块等的“低级”信息，接下来的卷积层对图像纹理有反馈，随着卷积计算的层次越高，提取的信息越抽象，再后面的卷积层对目标的复杂部位有反应。随着层次的加深，感知机提取的信息变得更加复杂，从简单的形状到“高级”信息方向变化。

（2）ReLU层是激活层。激活函数是以阈值为界，当输入数据超过阈值，就切换输出。具有类似作用的函数还有sigmoid函数。

（3）Pooling层。池化层在连续的卷积层之间，在保证尽量不改变特征的情况下用来压缩数据和减少参数的量。当数据产生微小偏差，通过池化运算后仍会得到相同的结果。因此，池化对输入数据的微小偏差具有健壮性。

（4）Affine层。全连接层，将相邻层的每一个神经元都连接到一起。

（5）Softmax层。经过Affine层，得到的结果是一个得分，而Softmax是将这个得分换算成概率，通过使用Softmax函数，研究者可以通过使用概率统计的方法来处理问题。

神经网络中通过这些层将数据正向和反向地传播，可以高效地计算权重参数的梯度。将这些层模块化，研究人员可以自由地组装，构建出解决领域问题的网络。

2.3 视频分类技术

卷积神经网络在图像分类领域的成功使得研究者把目光投向视频分类。最简单视频分类算法是基于单帧视频图片实现的，而采用CNN做图片分类是目前最好的算法，所以在视频分类算法中使用CNN是较为合适的选择。由于视频存在大量的图像序列帧，相邻帧之间存在关联性，如果直接使用CNN做分类不是更好的选择，将一般卷积神经网络进行扩展或者将其与其他算法结合起来的分类算法，可以获得理想的结果。

3 篮球技术动作特点

3.1Crossover

“Crossover”，国内街球场俗称“变向”。视觉效果进攻者把防守者欺骗，使防守者向进攻者反方向失位。在进攻者突破防守者时，该动作通过较长时间展球制造与防守者0.5到0.75的肩宽身位，再通过膝盖指向和身体发力的爆发以右脚掌蹬地向左顺带带动左腿向左，达到突破防守者的目的。

3.2 Fake Hesitation

“Fake Hesitation”字面翻译是“假犹豫”，由于其视觉效果仿佛要双手合十，国内街球场上俗称“拜佛”。拜佛这个动作的特点是进攻者利用在突破运球过程中的停顿犹豫，使对位的防守者误以为进攻者会进行跳投或传球的一个欺骗动作，本质是利用假动作破坏防守者重心和节奏使其失位，再找到时间差进行突破。

3.3 Shamgod

“Shamgod”名字是来源于一个使用者，因为该动作花哨广为篮球爱好者所知，所以以他的名字作为该动作的名字，最早出现于街球动作中，动作华丽，在球场上适用广泛。往往进攻者做出一次成功的shamgod并得分，既可以在球场上呈现出令观众惊艳叫绝的观赏性，又可以起到提高我方士气、打压对方的作用。动作视觉效果是以左手送球在左侧，以右手拉回，动作大开大合，需要球员有着很强的球感和熟练的重心转移。Shamgod与变向类似，都是通过一步假动作欺骗诱导让防守者产生错误判断导致防守重心转移，使其丧失防守位置，进而攻击弱侧，达到突破。

4动作识别算法

视频分析中的动作分类任务可以看作图像理解和时序学习的结合，因此有大量研究人员采用深度学习方法研宄动作分类任务。许多研究者对这些经典结构进行改进或者创新来进行动作分类的研究，首先通过卷积网络和递归网络获取视频中的每帧图像特征和时序信息，然后构造动作分类识别框架。

4.1多核3D-CNN

单核3D-CNN只能从视频立方体中提取一种类型的特征，特征表示过于片面。文献[5]提出基于多核3D-CNN，如图5，三个立体代表不同特征，分别是灰度特征、梯度特征、光流特征，3个立方体用来描述视频连续帧的不同属性。此外，不同于单个卷积核只能提取一种特定特征，采用多个卷积核可以提取更为合理的深度特征，对后续篮球动作识别具有重要意义。

（1）图片序列检测与跟踪。将连续的7个视频帧图像输入，对输入的图像序列进行目标检测与跟踪，并对目标运动区域进行提取。

（2）视频图片帧底层特征提取。每帧提取5个特征，分别为水平梯度特征、垂直梯度特征、灰度特征、水平光流特征和垂直光流特征。其中水平梯度特征、垂直梯度特征、灰度特征可以有一個相同大小的特征矩阵表示，水平光流特征和垂直光流特征由6个相同大小的特征矩阵表示，共有33个特征用作卷积输入。

（3）第一次卷积操作。为了提取多种特征，选用3种不同的卷积核进行卷积操作，其中，对灰度特征、梯度特征、光流特征分别选用不同的卷积核。

（4）第一次降采样。池化操作，给前一层卷积操作输出特征图做降维处理。

（5）第二次卷积操作。同样通过对3组特征采用不同的卷积核分别进行卷积操作，从输入数据中提取多种特征。

（6）第二次降采样。同样也是数据降维处理。

（7）全连接层。对每个特征图进行2D卷积操作，得到最终的深度特征。分类的人体动作数与输出层的单元数一致，通过最后的线性分类器进行动作识别。

4.2多分辨率3D-CNN

由于CNN在GPU上训练大规模数据集所需时间过长，一种方法是减少网络层数和神经元数，但是这会降低神经网络性能，文献[6]提出采用多分辨率3D-CNN的架构，目的使视频在一个低分辨率下图像序列和一个高分辨率图像序列达到一致。这样设计的原因是视频中存在大量摄影偏见，而主要检测的动作目标往往占据图像中心。将两个图像流通过相同的3D-CNN后得到的特征向量合并为新的特征表示，再通过softmax分类器得到结果。

（1）输入层。将连续的7个视频帧图像经过归一化和二值化等的图像处理操作后，得到灰度图像。

（2）第一次卷积。对输入图像进行卷积运算。

（3）子采样层。经过池化操作压缩特征图的分辨率，提高对输入视频帧畸变的容忍能力。

（4）第二次卷积。为了获得更多抽象特征，在每相邻3个帧图像采用2个不同卷积核，得到2组不同的特征图。

（5）下采样。进一步得到更小的特征图。

（6）第三次卷积。此阶段，时间维度上的帧数较小，仅需作空间维度上的卷积运算。

（7）全连接层。多次经过卷积和下采样后，合并由双流结构得到的特征向量。由最后一层softmax线性分类器达到动作分类的结果。

5结论

本文介绍了深度学习在图像、视频领域上的应用，介绍了卷积神经网络相关技术，并针对篮球视频技术动作识别的需求特点，利用前人在人体动作识别方面的积累，提出两种适用于篮球技术动作的算法。其中基于多核的3D-CNN可以提取到视频图像序列更多的组合特征，基于多分辨率3D-CNN用来保证不损失性能的情况下提高网络训练速度。

参考文献：

[1] 朱云鹏，黄希，黄嘉兴.基于3D CNN的人体动作识别研究[J].现代电子技术，2020，43（18）：150-152，156.

[2] 许泽珊.基于深度神经网络的视频动作识别研究[D].广州：华南理工大学，2019.

[3] 李松龄.基于卷积神经网络的人体动作识别研究[D].成都：电子科技大学，2019.

[4] Zhang Hong-Bo，Zhang Yi-Xiang，ZhongBineng，et，al. A Comprehensive Survey of Vision-Based Human Action Recognition Methods[J]. Sensors （Basel， Switzerland），2019，19（5）.

[5] 刘宇琦.视频人脸及人体行为识别关键技术研究[D].长春：吉林大学，2018.

[6] 耿驰.基于深度学习的人体动作识别[D].南京：南京邮电大学，2016.

[7] An-An Liu，NingXu，Yu-Ting Su，et，al. Single/multi-view human action recognition via regularized multi-task learning[J]. Neurocomputing，2015，151.

[8] Ju Zhong，Hua Wen Liu，Chun Li Lin. Human Action Recognition Based on Hybrid Features[J]. Applied Mechanics and Materials，2013，2594.

[9] XiaoyuDeng，XiaoLiu，MingliSong，et，al. LF-EME： Local features with elastic manifold embedding for human action recognition[J]. Neurocomputing，2013，99.

[10] Tseng Chienchung， Chen Juchin， Fang Chinghsien， et al. Human action recognition based on graph-embedded spatio-temporal subspace[J]. Pattern Recognition，2012，45（10）.

【通聯编辑：代影】