基于注意力机制骨架动作识别的算法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33522 论文编号:sb2022092820345849465 日期:2022-10-19 来源:硕博论文网
本文是一篇计算机论文,笔者认为骨架动作识别在实际应用中对网络规模有着非常严格的要求,所以深度神经网络优化问题也是值得研究的问题,怎样加快网络的计算速度,网络规模怎样能做到又小又容易部署也非常重要。
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
自从机器学习技术和深度学习方法中的AlexNet比较并败给深度学习方法,成为视觉识别大赛图像分类ImageNet的冠军。这项比赛对机器视觉技术发展有着重要的作用,让深度学习成为了神经网络的名牌,并逐渐被大众所认知。计算机视觉的概念是用计算机模仿人类的视觉功能,让机器可以像人一样去观察并了解真实的生活世界。计算机视觉方向是研究以人为中心的技术,诸如目标检测和图像识别(如图1.1所示)这些应用领域中。在人类语言形成前,人们就可以使用较为简单的肢体互动和语言信息,实现简单的群体交流和合作,维持正常的生活。
身体动作是人可以自觉读取和识别当前人类的躯体活动,做出准确反应的过程。在人类信息交流表达方式上,心理学家研究表明:全世界约有百分之七的讯息是通过语言来直接表达的,百分之三十八的人是使用不同的口吻和语速来传达讯息,而使用脸部表情和手势来表达讯息的人则占比高达百分之五[1]。从20世纪初期到现在,自然语言处理和语音识别进展的十分迅速,并随着计算机科学和人工智能技术的发展,在文字认知和推理、语言对话等实际生活中有所运用。自然语言和语音识别相比较可知,动作识别算是一个较为崭新的技术,主要利用人体动作与语言方法即姿态来表达信息。人体动作识别[2-5]是跟踪和预测[6, 7]的根本,机器视觉的重点研究领域,并且在智能监控、公共安全、国防安全、人机交互、生产安全等这些方面的应用都有广阔的前景(如图1.2所示)。并且经过研究人员的不断研究,一直在尝试提出更高级、更准确的动作识别方法,使得基于视频的人体动作识别方法的研究结果已经达到了颠峰,但识别精度仍难以突破。
计算机论文怎么写
计算机论文怎么写
...................................
1.2 国内外研究现状和主要难点
1.2.1 国内外研究现状
因为深度学习的飞速发展,人体动作识别是人体动作预测和跟踪的根本方法。最近,人体动作识别方法的研究受到了越来越多专家学者们的重视,在各大计算机视觉的国际顶尖会议如CVPR、ICCV上发表的关于人体动作识别的相关文章不断增加。这其中大多数的人体动作识别方法都是基于视频为研究对象进行的,使动作具有一定的完全性和连续性。
但在研究早期,大部分的人体动作识别的研究任务都是在静态图像的技术中进行的,在静态图像上进行人体动作的特征提取并根据所得信息对动作进行分类。可是因为时间差异性、环境和行为表现等这一系列外界环境原因的限制,现在人体行为识别还是很难应用开来,非常的具有挑战性。
关于动作特征识别方面的国内外最新研究结果,可大致按照动作特征的信息数据的获取方法划分为基于传统手工特征提取的动作识别方法[15, 16]和基于深度学习特征提取的动作识别方法。近期,由于计算机深度学习技术领域的快速发展,很多动作识别网络被提出。按照其应用和数据所收集对象的类型不同可分为基于RGB视频的动作识别和基于3D骨架数据的动作识别研究。本文主要采用了基于3D骨架数据的深度学习方法。
使用性价比高的深度学习摄像机就像Kinect 3D来收集骨架的坐标信息,骨架数据十分简单、计算量小、鲁棒性强并且对硬件需求的要求极低,使得动作识别的结果更准确稳定。最关键的是基于骨架数据的人体动作识别与基于RGB视频图像的动作识别不一样的地方,是不能随意受到外部因素的影响。
.........................
第二章 骨架动作识别研究综述
2.1 骨架动作识别方法
骨架动作识别方法都由3D骨架数据[17, 18]表示,每个动作都是由很多序列帧组成,每个时间的视频帧之间信息都包含骨架的多个关节点的三维关节坐标信息。即,使用一组骨架关节点,和骨架关节点之间的连线来表示身体结构,在某种程度上,可以理解为相邻骨架关节点之间的数据存在着某种依赖关系,提供动作识别的高效特征信息,从而达到提高识别精度的效果。
骨架动作识别的流程,一开始是要先将一组动作视频中每一帧的视频动作用3D骨架序列信息来表示,然后对骨架数据预处理。处理完后的数据首先要满足研究人员构建的网络模型的数据格式要求,再把处理好的骨架数据注入到设计好的网络模型中,经过模型训练,按层次来提取视频中关键的动作特征信息,并对提取出的特征信息分类,最后得到动作识别结果。
3D 骨架数据集的人体动作识别方法通常包含了以下几类方法:(1)基于传统手工特征的提取方法;(2)基于循环神经网络的方法;(3)基于卷积神经网络的方法;(4)基于循环神经网络和卷积神经网络相融合的方法;(5)基于图卷积神经网络的研究方法。因为深度学习技术还在不停的发展,这些方法也在不断地优化,动作识别的准确率也一直升高[19-21]。
...........................
2.2 注意力机制在动作识别上的应用
注意力机制(Attention Mechanism)是一种类似于人类大脑的一种信号处理机制。当一个人看见一个情形时,大脑就会迅速的从视觉信息中选出需重点关注的画面,即注意力焦点,然后人们的大脑做出反应,对需要重点关注的画面中的细节信息进行处理。人们的视觉注意力机制可以利用有限的大脑资源从很多信息中抉择出实用的信息,因为注意力机制的这一作用,使其在动作识别任务中应用十分广泛,并且取得了显著的效果。
Wang等人提出了非局部神经网络[48],该网络在学习视觉任务中的远程依赖关系方面很有优势,而且这是第一个在视觉任务中使用的注意力机制的网络模型,该方法的非局部操作将某个位置的响应计算为所有位置特征的加权求和。
Ahmad等人提出了一个注意关节图卷积神经网络[49],该网络由两部分组成:注意力网络和图卷积网络,如图2.11所示。使用的注意力网络是残差注意力网络,是以残差方法来堆叠大量注意力模块,作用是用来获取注意力关节和人体中心的距离、相邻注意力关节之间的距离和关节流的特征。
计算机论文参考
计算机论文参考
................................
第三章 提升信息获取的增强型有向图卷积网络模型 ........................ 25
3.1 背景介绍 ................................. 25
3.2 ADGCN模型设计与训练 ........................ 26
第四章 增强时空信息的中心差分转换器图卷积网络模型 ......................... 38
4.1 任务背景 ....................................... 38
4.2 CDTG模型设计与训练 .................................. 39
第五章 总结与展望 ................................... 49
5.1 研究工作总结 .................................... 49
5.2 未来工作展望 .................................. 49
第四章 增强时空信息的中心差分转换器图卷积网络模型
4.1 任务背景
本文第三章提出一种提升信息获取的增强型图卷积模型应用在骨架动作识别任务中,将骨架动作的关节信息、骨骼信息、关节运动信息和骨骼运动信息输入到一个四流框架中,利用有向图卷积网络对输入的数据进行特征提取,并利用注意增强网络将提取出的特征较为明显的信息进行加强,提高模型的识别精度。这种方法虽然提高了模型获取时空通道信息的能力,然而忽略了动作中的动态梯度信息和局部依赖关系。为了解决这些问题,考虑到采用中心差分网络来获取动态梯度信息,然后使用转换器机制来获得节点间的局部依赖关系。
中心差分图卷积引入面向中心的局部梯度特征来增强模型的识别能力,该方法已应用于人脸抗欺骗[86-90],远程心率测量[91]和手势识别[92]等领域,并取得了良好效果。由于关节和骨骼都是由人体的自然结构决定的,基于图卷积的骨架动作识别通常是将骨架看作为一个图,其中每一个关节是图中的一个节点,两个关节之间连接的骨骼为图中的边。对骨架图中关节之间的动态链接的拓扑结构进行了广泛的研究,Shi等人从相邻关节和自然连接的关节计算出的骨骼首次作为额外的输入方式引入[70],从而提高了识别性能。许多研究试图通过设计复杂的多流网络结构[93, 94]来提取更丰富的特征。然而这些方法都是直接使用普通的图卷积操作,将图拓扑中关联节点的信息聚合到中心节点,忽略了中心节点与相邻节点之间的局部运动信息。
计算机论文参考
计算机论文参考
..............................
第五章 总结与展望
5.1 研究工作总结
人体动作识别受深度学习的影响,发展逐渐成熟并在智能驾驶、无人安防、人机交互等方面皆有应用。但在现阶段对在复杂场景中的动作识别依然具有很大的挑战性。真实的人体动作识别中,往往因为数据集的关系模型在对数据提取特征的过程中会受到如身体部位之间的时空关联程度不够、识别动作视角差异、动作幅度差距变化和人与人或背景之间的遮挡情况等外界因素的影响。使计算机在对动作识别的前期特征提取过程中出现了巨大的困难。 在此基础上,本文分别提出了两种网络模型:基于增强型图卷积的骨架识别模型和基于中心差分转换器的骨架识别模型,各模型的主要工作如下所示:
(1)现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN网络。首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流。然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络,增强每层网络中关键关节的时间、空间以及通道的信息。最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果,证明该方法对动作识别精度的提升具有很大帮助。
(2)考虑到现阶段的动作识别模型在特征聚合的邻域约束方面缺乏特征提取的灵活性,且只能聚焦节点信息的问题,提出一个中心差分时空图卷积网络。首先将关节和骨骼的运动信息输入到模型中,经过处理后将数据传送到本文提出的中心差分图卷积网络中进行聚焦节点和节点间的信息,增加网络的表示能力和泛化能力。随后利用提出的时空转换器图卷积,用于提取出中心差分网络中的时空特征,被关节标记的空间和时间依赖关系。最后将这两个子模块融合,输出动作识别结果,证明该网络模型方法的有效性。 
参考文献(略)
如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217