所属领域: A 电子信息技术
技术成果简介
动作识别是计算机视觉领域的一个重要细分领域, 在智能安防、人机交互、视频检索分类、虚拟现实、视频监控等领域有着广阔的应用前景. 而基于骨骼数据的动作识别方法在复杂背景和动态场景下具有很强的鲁棒性, 因此受到了很大的关注.早期基于骨骼数据的动作识别模型采用手工提取特征的方法. 因为其效果不理想存在计算复杂度高、泛化能力弱等问题, 所以引入深度学习方法。目前基于深度学习的动作识别方法的研究已经成为主流. 而深度学习方法主要可以分为三类:基于卷积神经网(Convolutional Neural Network, CNN)、基于递归神经网络(Recurrent NeuralNetwork, RNN)和基于图神经网络(Graph Convolutional Network, GCN). 基于CNN的方法将骨骼数据按照人工设计的规则构建为伪图像; 基于RNN的方法是将骨骼数据构建为骨骼点坐标向量序列. 然而,人体骨骼本身就是拓扑图结构, 构建为伪图像和向量序列并不能充分表示出图结构的丰富信息, 这些方法的缺点是都忽略了人体骨骼点间的内在依赖关系. 基于GCN的方法能直接处理骨骼数据这类图结构信息,能充分发掘骨骼点间的内在依赖关系,因此基于GCN的方法成为当下该领域的研究热点。针对现有技术中的上述不足,本发明公开了一种基于时空图的人体骨骼动作识别方法,包括以下步骤:S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。
技术成果前景
(1)本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。(2)本发明提出多尺度混合自卷积模块捕捉在时域上关节点的长期上下文依赖关系的方法,该方法在两个不同的大小的自卷积核上构建连续帧间的时间依赖关系,并使用特征融合的方式融合这两个尺度的时间消息。这个方法可以明显的降低参数量加并有效的捕捉时间相关性。(3)本发明提出了的整体网络模型更为轻量,使用多分支网络不同于现有的方法如2sgcn在最后阶段融合分支特征。本发明的多分支网络在输入前就进行融合输入多分支网络的特征信息,大大降低了网络模型的复杂度。在更小参数量的情况下实现更高的准确率,综合性能优于现有的方法。