基于动态空间移位和注意力机制的连续手语识别方法

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:38566 论文编号:sb2025090815483953535 日期:2025-09-17 来源:硕博论文网

本文是一篇计算机论文,本文提出了动态空间移位模块(DSSM)。通过在空间维度上对数据特征进行小范围的移动,使得特征在一定范围内能够充分交互。该模块能够跨帧移动特征,从而让每一帧的局部特征与不同帧的特征进行交互,不仅仅局限于当前的局部窗口。
1. 绪论
1.1 研究背景及意义
中国残疾人联合会根据第六次人口普查的数据显示,我国现今残疾人数量已经达到8500万,其中听障人士约2700多万,占全国残疾人口的约30%。听障人士主要使用的语言系统为手语。手语是一种较为复杂的语言,利用手势、身体动作、面部表情、姿态变化等多线索进行交流的可视化语言系统,是听障人士重要的沟通方式,也是其日常交流和社会融入的重要手段。但由于正常人一般缺乏手语知识储备和系统性的手语学习,导致了普通人和听障人士的沟通障碍。例如在医院、水电缴费处、银行等场所,听障人士往往需要拥有手语知识的人员协助才能进行后续活动。这种沟通障碍极大地影响了听障人群的生活质量,而手语识别技术能够打破这种沟通障碍,帮助正常人和听障人士的顺利沟通。
手语识别技术主要分为两类,连续手语识别任务(CSLR)和孤立手语识别任务。其中,连续手语识别任务尤为关键,其主要对由多帧连续动作构成的手语视频解析和识别,最终输出为一个注释序列(gloss sequence)。连续手语识别研究的核心目标是实现手语视频的自动识别,从而促进手语和文本之间的转换,推动手语信息在不同人群中的无障碍化。对于听障人士或者单纯想学习手语知识的人来说,CSLR技术可以帮助实现更高效的学习,例如一些在线课程、课堂讲解、教学视频中,CSLR可以实时的将手语视频转为文字,帮助用户更好的理解手语。在一些公共场所,例如医院、公共交通上和银行网点,听障人士和正常人沟通困难。但是利用CSLR技术,可以结合一些智能化产品,如智能客服、智能服务,将手语转换为文本进行交互,为听障用户提供服务。不仅如此,研究CSLR技术还能够推动人机交互技术的发展,例如触摸屏交互、AR/VR交互、汽车智能控制等场景,用户可以通过手语与设备进行交互,无需传统的键盘或语音输入,为用户提供新的交互方式,扩展人机交互的应用范围。

计算机论文怎么写
计算机论文怎么写

........................
1.2 国内外研究现状
1.2.1 研究现状
连续手语识别(CSLR)是计算机视觉和自然语言处理的交叉领域,旨在将手语视频转换为一个注释序列(gloss sequence)。CSLR任务较有挑战性,因为需要处理时间对齐问题、上下文相关性、手势间的细微差别等问题。近年来,随着深度学习的快速发展,连续手语识别技术取得了显著的进展,尤其在时序建模、多模态线索融合、端到端模型等方面有了较大进步。目前CSLR任务主要采用深度学习方法进行特征提取、时序建模和预测输出。
针对CSLR任务,空间和时间特征提取较为关键。卷积神经网络(CNN)在提取特征方面表现突出,2D CNN[10]网络无法兼顾到时序方面的特征,所以人们选用3D CNN[12][17]网络作为骨干网络,对输入的手语视频进行特征提取。这类网络能够同时处理视频的空间和时间维度的信息,捕捉手语动作的时空动态变化,学习手语中手部动作的运动轨迹、手部的位置和姿态变化等时间信息。但是基于3D CNN的网络容易忽略手势的细粒度信息,例如手部、嘴部、身体姿态的局部特征。因此衍生出了多流网络模型,该类网络会将面部和身体姿态等人体额外线索作为额外分支输入到模型中,模型根据这些额外线索会更加关注这些细粒度的信息,对最终模型的识别精度有较大的提升。STMC[16]网络将图像进行剪裁输入到模型中,让模型更加关注局部特征。Two-Stream[17]网络将人体关键点作为辅助分支输入到网络中,从而能够更准确的识别到人体部位的运动轨迹。然而因为该类网络需要处理多路分支的特征提取和多路分支的特征融合,所以往往会存在一些缺陷。例如计算量过大、模型训练难度高、网络复杂等问题。而端到端网络模型将任务的输入和输出直接关联起来,不需要将任务拆分为多个并使用不同的模块进行处理,整体是一个连贯统一的模型结构。该类网络相比多流网络能够提高模型的训练效率和减小训练复杂度。CorrNet[18]网络提出了相关性模块和识别模块,通过计算相邻帧的相关性映射并强调重要区域,不借助额外的人体线索,以端到端的方式训练网络,达到较好的识别精度。
................................
2. 相关工作
2.1 手语识别
手语识别任务是计算机视觉和自然语言处理的一个重要研究方向。手语识别任务主要分为连续手语识别(CSLR)和孤立手语识别。连续手语识别任务旨在将输入的手语视频转换为一个注释序列(gloss sequence),该序列包含多个gloss,并且 gloss顺序对应手势片段出现的顺序,序列包含的gloss数量通常远小于手语视频中图像帧的数量。孤立手语识别任务旨在将输入的手语转换为单个注释或字节。连续手语识别任务和孤立手语识别任务相比,连续手语识别任务对上下文的依赖性更强,并且时序分割困难,其训练数据通常只给出粗粒度标签,并且句子种类丰富多样,使得特征提取的难度较大。本文主要研究连续手语识别任务(CSLR)。
有关手语识别的模型主要包括两部分:视频编码器和解码器。编码器主要用于特征提取通常基于CNN架构,包括3D-CNN网络架构[19][28] [29][30]、2D-CNN网络架构[10][27]和2D+1D CNN网络架构[16][31],以及单流网络架构[11][12][13]和多流网络架构[16][32]。2D-CNN和 3D-CNN用于对手语视频中的空间特征和时空特征进行提取。Li等人利用RGB和骨架线索,使用2D-CNN提取特征[27]。Wei等人用到了采用3D-CNN来学习手语视频中的运动特征[28]。多流网络架构在手语识别中有了广泛的探索,通过针对人体的多个线索作为模型的辅助分支来更好的识别。例如CNN-LSTM-HMM[36]采用多流HMM整合多个人体视觉线索输入以提高模型识别精度。STMC[16]利用姿态估计进行建模,将视频帧进行剪裁作为模型的额外线索。Slow-Fast[19]网络通过设置不同的帧率对视频进行编码。C2SLR[34]利用预先提取的姿势关键点来指导模型关注手部和面部区域。Two-Stream[17]网络通过双编码器对RGB 视频和关键点进行建模。然而双流和多流网络架构往往存在网络复杂,计算成本较高等问题。CorrNet[18]网络不借助额外线索,通过计算相邻帧的相关性捕捉人体运动轨迹,以端到端的方式训练模型,达到较好识别精度,相比双流网络方法要轻便许多。
...........................
2.2 移位模块
2D卷积神经网络(2D-CNN)被广泛应用于深度学习的各个领域。在视频领域,针对视频数据的多维线索,基于2D-CNN设计了双流架构,分别从RGB和和光流中学习视频特征,并且可以融合双流网络的输出以获得最终结果。针对视频中的时间维度,一些网络对时间建模以捕获时间特征。Ren等人提出的网络[41]通过稀疏采样生成多动作片段,提升模型对长视频的时间建模能力。TDN[42]使用时间差算子设计了一个可以捕获多尺度时间信息的模块,实现有效的动作识别。TRN[43]使用采样帧之间的多尺度时间关系来提高模型性能。TEA[44]通过结合短期和长期信息来提高动作识别的准确度。
3D卷积神经网络(3D-CNN)能够学习到良好的时空特征,是最直接的一种时间建模的方法,广泛应用于视频领域。Wang 等人[49]提出的方法将视频表示为时空区域图。X3D[14]是一种轻量级的3D架构,通过对网络的深度和分辨率等进行缩放,实现不同复杂度的模型。VideoMAE[15]利用掩码自编码器的思想,使用3D-CNN对视频进行自监督预训练。Slow-Fast网络[19]通过使用两个不同的3D-CNN架构来学习特征,并融合两个流的输出以获得更好的结果。然而,3D卷积相比2D-CNN有参数量过大的缺点,导致模型训练复杂。部分研究选择将3D卷积分解为2D空间卷积和1D时间卷积,如R(2+1)D网络[45]、S3D网络[46]、StNet[48]和Miao等人提出的网络[47],在保证一定性能的同时显著减少了计算量。使用注意力机制也会对时序建模有效[50][51] [52],但是会存在计算量大或者特征提取时丢失关键细节信息等问题。时间移位模块能够像基于3D-CNN方法一样对时序建模,保持特征中的细节信息。TSM[24]提出了一种通用有效的时移模块,使卷积操作能够学习时间特征,该方法在时间维度上对输入特征进行偏移操作,使得模型能够在提高信息捕获能力的同时,不增加额外的计算量。其拥有和3D-CNN相同的时空建模能力,同时具有与2D-CNN相同的计算和参数。
.............................
3. DSS-NTA模型 ······················· 16
3.1 问题描述 ······························· 16
3.1.1 局部窗口限制信息交互 ············ 16
3.1.2 全局时空范围内建模 ························· 17
4. 实验结果分析 ································· 29
4.1 数据集 ·································· 29
4.2 实验设计 ···························· 30
5. 在线手语教学系统的开发 ····················· 38
5.1 系统概述 ······························· 38
5.2 系统开发环境 ···························· 38
5. 在线手语教学系统的开发
5.1 系统概述
对于手语学习者来说,能够更方便的通过终端设备学习手语、搜集教学视频、检测手语水平,将大大提高手语学习者学习手语的便利性,使得手语知识能够得到更广泛的传播。因此,能够开发一种在线手语教学系统是十分必要的。本章将介绍该系统的基本架构和主要功能。该在线手语教学系统更加针对想要学习手语知识的健全者群体或者后天残疾的用户,因为对于先天性的听障和语障人士来说,手语知识会从出生不久后就开始接触,一般不需要借助某些系统学习。

计算机论文参考
计算机论文参考

......................
6. 总结与展望
6.1 总结
手语对于听障人士来说是其融入社会和日常交流的重要方式,然而由于正常人群中有较少能够理解手语的群体,并且在一些听障人士生活的必需场所,由于手语语言障碍,导致听障人士生活不便利,和正常人群的沟通存在极大的不便。因此,对于手语识别任务的研究具有重要的意义。
随着深度学习的发展,连续手语识别任务也有了较大的进展。CorrNet网络在不借助额外的人体线索的情况下,以端到端的方式训练手语识别模型,达到较好的识别精度。但是该网络也存在一定的缺陷,首先该网络提出了相关性模块,主要利用局部窗口对当前帧的前后几帧做相关性映射,但由于局部窗口的距离局限性导致一些跨帧的手语动作不能被充分捕捉。并且该模型对于长时动作依赖建模效果较差,手语视频中的一些动作可能会超越局部窗口的范围,例如手部位置的大幅移动。另外,该模型平等地看待所有输入的图像帧,不能对关键帧赋予重要性权重,也不能对一些冗余帧做忽视处理。
针对上面对跨帧动作捕捉的问题,本文提出了动态空间移位模块(DSSM)。通过在空间维度上对数据特征进行小范围的移动,使得特征在一定范围内能够充分交互。该模块能够跨帧移动特征,从而让每一帧的局部特征与不同帧的特征进行交互,不仅仅局限于当前的局部窗口。在该模块中,本文只针对空间维度移位,时间维度的移位会扰乱图像帧顺序,对相关性模块捕捉连续动作轨迹造成影响,不利于时序建模。本研究将该动态空间移位模块嵌入到ResNet中的各个Stage之间,防止在残差块中堆叠造成移动次数过多而产生对原始信息过度干扰问题。通过该种嵌入方式,移位模块能够合理地在原始数据和移动数据保持平衡。最后采用分块移动的方式移动数据,对输入数据在通道维度进行分块处理,并保留部分通道不变。通过设置移动因子来决定具体的移动通道数量,以块为单位进行移动,避免了移动通道数量受输入特征数据的影响。当输入特征数据通道数量较多时,移动通道数量能够保持稳定,不会产生移动数量过多的问题,当输入特征数据通道数量较少时,也不会有移动数量较少而作用不明显的问题。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关计算机论文论文
QQ 1429724474 电话 17821421628