本文是一篇计算机论文,本文主要介绍了基于传感器数据的人类行为识别以及域泛化方法,针对志愿者行为分布差异导致模型分类精度降低的问题开展研究。
第1章引言
1.1研究背景及意义
随着人工智能技术[1],传感器技术[2]和物联网[3]的发展,人机交互变得越来越智能化和人性化。通过人类行为识别技术,计算机系统能够更好地理解人类的意图和行为,从而实现更加智能化的交互方式并方便人类的使用。当下的人机交互已经从键盘鼠标等外设逐渐拓展到了虚拟现实眼镜、麦克风和柔性可穿戴传感器设备等。针对这些新型传感器带来的差异化数据模态,均有许多解决方案加以识别、处理和反馈[4][5]。
人类行为识别(Human Activity Recognition,HAR)是人机交互中的重要一环,其旨在理解人类的具体行为,通过采集、处理和分析人类行为数据,推断个体的行为模式和特征,并用于后续的机器反馈。人机交互方式从早期由人做出明确指令的交互形式转为机器自动化收集数据并加以识别的新型人机交互模式。其应用领域主要包括以下几方面:
1)智能家居。通过房间内安装的语音接收设备、震动传感器和路由器等设备,场景化、被动化的收集用户的行为状态以自动调整房间内照明,开关家电等[6][7];
2)医疗诊断监测。通过可穿戴传感器实时监控运动员动作姿态,培养更为科学的发力方式或是用于监控中风,心血管等慢性疾病患者的运动和饮食情况以帮助预后[8][9];
3)智能娱乐。使用虚拟现实设备收集当前用户位置、运动状态,实现跟随头部体位变化的图像场景变化。借助视觉、听觉和手部交互,产生身临其境般的游戏体验。[10]。
针对不同的人机交互场景,不同数据采集和处理方法具有差异化的优点。如固定位置摄像头常用于特定位置下的人类行为识别[11],可穿戴传感器则广泛用于无固定位置的行为、身份识别[12][13]等场景。对于更为复杂的交互场景,如智能娱乐、智能交通等,大多会采用多类传感器融合的方式以实现更为准确的行为、环境识别并帮助人机交互[14]。
计算机论文怎么写
.........................
1.2国内外研究现状
根据是否考虑不同志愿者之间差异并以此设计算法可以将当下国内外研究划分为两者,无域差异的人类行为识别方法和有域差异的人类行为识别。前者假设训练集中的志愿者数据与测试集分布基本一致,因而不存在域差异。后者假设训练集数据存在偏向性或志愿者数目不足难以覆盖所有行为特点,存在训练集和测试集志愿者的域差异。
1.2.1无域差异的人类行为识别
在域泛化、预适应等研究视角被提出之前,过去的大量工作均不考虑域差异,采用独立同分布假设并以此设计算法。在深度学习方法被提出之前,大量研究使用机器学习方法,其高度依赖特征提取技术,包括时域-频域转换、统计学特征和符号表示等方法[17]。这些特征提取方法高度依赖领域知识,需要专家进行仔细设计和长时间的研究,没有通用或自动的特征提取方法来有效捕捉有效特征。对提取到的各种特征,传统人类行为识别往往采用K近邻算法(K-NearestNeighbor,KNN)[18]和支持向量机(Support Vector Machine,SVM)[19]等方法加以识别。
在多个早期工作揭示深度学习对于传感器数据人类行为识别的有效性后,许多新的方法被引入人类行为识别领域,同时多种新型方法结合人类行为特点被设计出来,包括DeepConvLSTM[20],DanHAR[21]等。对于深度学习方法,根据人类行为识别采用的数据形式,人类行为识别主要可分为两大类识别方法,基于计算机视觉的方法和基于时间序列的方法。
基于计算机视觉的方法主要借助各类摄像头、相机甚至X射线和磁共振以获取图像、视频数据,随后采用类CNN架构[22],类Inception架构[23],类ViT架构[24]等计算机视觉方法进行处理,最后得到人类行为的球棍模型或是具体行为标签。基于时间序列的方法主要借助各类物理传感器包括加速度计,陀螺仪,磁力计,心率传感器等,主要采用LSTM[25],Transformer[26]等时间序列方法。
........................
第2章相关方法与实验数据集
2.1基于可穿戴传感器的人类行为识别
基于可穿戴传感器的人类行为识别主要通过人体上各部位佩戴或携带的多个传感器,实时记录当前状态下各种运动物理量。经数据降噪、滤波、划分和特征工程等数据预处理后,识别当前的行为状态。不同研究者会关注整个识别过程中的不同部分,如传感器研究者更关注如何减少传感器收集数据过程中的信号误差。人工智能研究者更关注如何从给定数据中挖掘特征并提升识别精度、鲁棒性。工程师则关注权衡,部署这一模型所能达到的精度和需求算力是否满足功能条件和硬件条件。
本章将会从数据采集和识别方法上简要介绍基于可穿戴传感器的人类行为识别的整体流程、域泛化的适用领域和常用方法并着重介绍与本文创新点有关的相关方法和理论。
2.1.1数据采集
基于可穿戴传感器的人类行为识别的第一步是数据采集,最常用的可穿戴传感器为惯性测量单元(Inertial Measurement Unit,IMU),是一种是测量物体三轴姿态和运动的传感器。一般而言,惯性测量单元至少包含加速度计和陀螺仪,部分惯性测量单元同时集成了磁力计。加速度计用于测量物体在空间中的加速度,通过测量物体的加速度可以推断出其运动状态,包括静止、匀速运动或加速、减速运动。陀螺仪用于测量物体的角速度,即物体绕各个轴旋转的速率,通过角速度,可以推断出物体的旋转方向和旋转速度。
..........................
2.2域泛化相关方法
域泛化,也称领域泛化是近几年非常热门的一个研究方向。简要而言,域泛化视角下研究的问题是从若干个具有不同数据分布的训练集(源域)中学习一个泛化能力强的模型,以便在未知(不可见)的测试集(目标域)上取得较好的效果。
常见的一类域泛化方法使用表征学习中的分布对齐,其通过将各个源域数据映射至同一分布空间,减少分布差异带来的泛化问题。本文第3章结合领域知识采用时序分解的方式起到了类似的分布对齐效果。
对于大多数分布对齐方法,源域数据可以被视为一个联合分布,根据不同任务和数据集的差异,分布对齐主要集中于设计差异化的分布距离度量并将其作为优化目标(LOSS)的一部分。最终使得模型提取的特征能在边际分布、类条件分布或是联合分布上保证多个域的一致。在分布距离度量上,最常用的距离度量是Maximum Mean Discrepancy(MMD)最大均值差异,也是迁移学习中常用的一种用于度量两个不同但相关随机变量的分布的距离。
另一类常用域泛化方法则是在训练流程上进行修正,主要采用集成学习方法,本文第4章在bagging方法的基础上加以改进,根据不同源域划分基模型训练集并根据源域相似性学习权重。在域泛化领域中较为常用的是类bagging方法,包括在数据集上进行分割采用同种基模型集成、使用全量数据集采用不同种基模型集成或是研究不同基模型的融合策略等。
.......................
第3章基于多通道时序分解网络的人类行为识别···················17
3.1领域知识··························17
3.2形式化定义····················18
第4章基于域相关集成学习的人类行为识别······················37
4.1形式化定义·······················37
4.2模型整体结构······················38
第5章总结与展望···························50
5.1工作总结······························50
5.2未来研究方向·······················50
第4章基于域相关集成学习的人类行为识别
4.1形式化定义
域相关集成学习和传统集成学习中的bagging方法具有一定相似性,但在基本假设上存在差异。Bagging是一种通过结合几个模型降低泛化误差的技术,被广泛用于决策树的集成,其主要用于独立同分布假设下的过拟合问题。Bagging方法主要流程是分别训练多个差异化基模型,然后让所有基模型投票表决测试样例的类别。其要求不同的模型具有异质性,因而往往会采用自助采样法在每一个基模型数据源角度迫使基模型产生差异。
DSME和bagging方法的主要区别在于,如何构建具有差异的基模型。两者的本质在于对训练集秉持的分布假设不一致。bagging方法往往针对基本服从独立同分布假设的数据集。在这一假设下,若使用全量训练集则难以构造具有差异化的基模型,因而往往采用自助采样法将原始数据集分割成具有差异化的分布。DSME针对多个源域构成的数据集设计,每一个志愿者域之间相互独立,同一个志愿者域属于同一分布,因而可以针对数据集多个志愿者域的特点,分配不同的权重以利用志愿者的行为相似性。
结合上述分布背景假设,域泛化视角下的人类行为识别任务可以按照如下进行形式化定义:X是输入数据,Y是分类标签,D表明不同的域,N是域的总数目。假定存在ns个源域和nt个目标域,其中一个域d被定义为一个联合分布di=P(xi,yi)其中xi∈X,yi∈Y以及di∈D。其中每一个域各不相同,即具有如下约束di≠dj,i≠j,ij∈{1,···,ns,ns+1,···,ns+nt}以及ns+nt=N。
计算机论文参考
.............................
第5章总结与展望
5.1工作总结
本文主要介绍了基于传感器数据的人类行为识别以及域泛化方法,针对志愿者行为分布差异导致模型分类精度降低的问题开展研究。文章共有两部分内容,分别从模型的结构和模型的训练流程角度进行了创新。
第一部分结合时序分解、特征解耦和志愿者行为特点,设计了一种多通道时序分解网络MTSDNet。在多个开放数据集下进行了详细的实验,得出如下结论。结合领域知识和志愿者行为特点,将时域信号分解为相互独立的趋势项、周期项和一般项有助于模型的跨域泛化。更多分解层数的增加有助于模型精度的提升,但精度提升幅度较小,且带来较大的算力开销。对于人类行为识别任务而言,加法模型几乎在所有情况下均优于乘法模型结构。综上,多数情况下使用趋势项、周期项和一般项构成的MTSDNet-A-tsg便可覆盖人类行为识别任务中的多数场景。当数据集中各个志愿者行为分布差异较小时,MTSDNet不具有显著优势,多数传统方法也同样具有较优精度。
第二部分参考传统集成学习bagging方法结合志愿者行为的分布差异特点,设计了一种新型域相关集成学习方法DSME。在多个开放数据集下进行了详细的实验,得出如下结论。相较于分配相等投票权重,根据源域和目标域相似性分配权重的方式具有更优表现。对于当下多个最优基模型结构而言,无关于基模型的设计特点和模型算力需求,DSME方法均可进一步提升精度。根据DSME和bagging方法的消融实验与可视化结果表明,DSME在源域分布差异较大时表现优异。当源域分布差异较小时,DSME方法逐步退化为bagging方法。
参考文献(略)