第 1 章 绪论
1.1 研究背景及意义
近年来,家庭环境行为识别的应用场景日益增多,尤其是在家庭智慧辅助以及智能看护领域。此类任务均需要理解并识别人类的行为,以使人们的日常生活在计算机的辅助下变得更加便捷。
传统的行为识别主要使用加速度计[1]及陀螺仪[2]等可穿戴传感器。近年来随着深度学习的发展,较常使用图像传感器,例如摄像机。
然而,这些方法在识别行为时依旧存在局限性,例如,基于图像传感器的方法会受到安装位置、灯光、死角和像素等因素限制,例如图像传感器需要充足的光线或照明设施,在无灯光的区域,需要使用价格高昂的红外线摄像头,此类传感器造价昂贵且分辨率通常远低于普通摄像头。不仅如此,图像传感器还存在死角问题,而且有可能会对用户的个人隐私造成侵犯;此外,陀螺仪等可穿戴式传感器设备虽然在使用的灵活性以及识别精度上有着一定的优势,但通常硬件成本较高。与此同时,可穿戴式传感器也会对使用者造成负担,使用者需时刻携带传感器,很可能会出现忘记穿戴的情况。不仅如此,通常情况下,使用可穿戴式传感器虽然可以较为精确地获取单一用户的行为数据,但由于其特性,无法获取整体环境数据,因此无法了解个体与外界环境之间的交互性的行为。
近些年来,基于声学信号的分类算法性能不断提升,从而能够更好的在人类的日常生活中提供服务,带来便利。实际生活中有很多基于声学识别的成功应用案例,例如语音识别、实时翻译、声音情感分析等等。然而,相比于传统行为识别方法,目前基于声学信号的行为识别的相关研究工作较少。但声学信号中可以获得非常重要的信息,不仅包括人体自身的动作及行为,还包括使用者与整体环境的交互行为。并且,基于声学的传感器(诸如麦克风)造价低廉,且对传感器的质量要求较低,通常使用普通质量的麦克风即可,相比于其他类型传感器更易部署,不会受到灯光及死角的影响,也无需使用者穿戴,更适合在家庭环境中应用。
...............................
1.2 国内外研究现状
1.2.1 家庭环境行为识别应用发展现状
目前,家庭环境的声学的行为识别常被用于智能辅助以及对独居老人的安全监控。此类服务通过在家庭环境内安装传感器实时获取数据,并识别出数据中包含的用户行为,并根据用户的行为做出相对的响应。
目前,大多数家庭环境的行为识别方法选择使用可穿戴式传感器[8]数据及图像传感器[9]数据。
然而,基于以上两类传感器的行为识别任务,分别会遇到死角、光线、价格、部署困难以及无法获取整体环境等问题。而基于声学传感器的行为识别则无此类问题,声学传感器能够感知整体环境,无死角问题,且价格低廉易于部署。
目前,基于声学传感器的家庭环境的行为识别应用大多仍使用传统的机器学习模型,如 GMM、SVM 以及集成方法等等。
在对于老人的安全监控方面,Hollosi 等人[10],在智能家居场景中,实时获取音频,对其中的咳嗽行为进行分析,用来对老年人提供生活辅助,并在出现潜在危险事件时,自动呼叫救护车。结合振动信号,Zigel 等人[11]在家庭环境中,监控用户行为的音频信号的 MFCC 特征与振动信号,并在识别到跌倒行为的第一时间做出反应,用以降低独居老年人的生活风险。
除了对咳嗽或跌倒等单一行为的识别外,Vacher 等人[12]使用 SVM 与 GMM模型的结合,对呼吸困难、哭泣、尖叫以及玻璃碎片等行为进行识别,并根据不同行为做出不同程度的反应。Chen 等人[5]提供了一种基于声学传感器的行为识别方法,从原始声音数据中提取出 MFCC 特征,并对 6 种浴室中的常见行为进行识别。这项工作解决了老年人护理问题,无需监护人员实时关注老人,也避免了隐私的泄露。Shaukat 等人[9]基于随机森林、贝叶斯网络等模型的集成方法,利用麦克风获取的声音数据,识别家庭环境中的老年人的日常行为,并在出现哭泣、跌倒及玻璃破碎等声音时做出反应。为了获取更丰富的数据,以及更精确地感知老人发生的意外,Fleury 等人[13]在提出的健康智能家庭应用中,于不足 50 平米的家庭场景中安装了 8 个麦克风获取屋内人员行为的声音,并实时监控以便在其遇险的情况下做出对应的处理,用以保证独居老人在家庭中的安全。
1.2.1 家庭环境行为识别应用发展现状
目前,家庭环境的声学的行为识别常被用于智能辅助以及对独居老人的安全监控。此类服务通过在家庭环境内安装传感器实时获取数据,并识别出数据中包含的用户行为,并根据用户的行为做出相对的响应。
目前,大多数家庭环境的行为识别方法选择使用可穿戴式传感器[8]数据及图像传感器[9]数据。
然而,基于以上两类传感器的行为识别任务,分别会遇到死角、光线、价格、部署困难以及无法获取整体环境等问题。而基于声学传感器的行为识别则无此类问题,声学传感器能够感知整体环境,无死角问题,且价格低廉易于部署。
目前,基于声学传感器的家庭环境的行为识别应用大多仍使用传统的机器学习模型,如 GMM、SVM 以及集成方法等等。
在对于老人的安全监控方面,Hollosi 等人[10],在智能家居场景中,实时获取音频,对其中的咳嗽行为进行分析,用来对老年人提供生活辅助,并在出现潜在危险事件时,自动呼叫救护车。结合振动信号,Zigel 等人[11]在家庭环境中,监控用户行为的音频信号的 MFCC 特征与振动信号,并在识别到跌倒行为的第一时间做出反应,用以降低独居老年人的生活风险。
除了对咳嗽或跌倒等单一行为的识别外,Vacher 等人[12]使用 SVM 与 GMM模型的结合,对呼吸困难、哭泣、尖叫以及玻璃碎片等行为进行识别,并根据不同行为做出不同程度的反应。Chen 等人[5]提供了一种基于声学传感器的行为识别方法,从原始声音数据中提取出 MFCC 特征,并对 6 种浴室中的常见行为进行识别。这项工作解决了老年人护理问题,无需监护人员实时关注老人,也避免了隐私的泄露。Shaukat 等人[9]基于随机森林、贝叶斯网络等模型的集成方法,利用麦克风获取的声音数据,识别家庭环境中的老年人的日常行为,并在出现哭泣、跌倒及玻璃破碎等声音时做出反应。为了获取更丰富的数据,以及更精确地感知老人发生的意外,Fleury 等人[13]在提出的健康智能家庭应用中,于不足 50 平米的家庭场景中安装了 8 个麦克风获取屋内人员行为的声音,并实时监控以便在其遇险的情况下做出对应的处理,用以保证独居老人在家庭中的安全。
.............................
第 3 章 基于 SEN-ECRNN 的声学行为识别................................18
第 2 章 相关技术介绍
2.1 音频信号特征提取
在音频信号处理领域,常使用 Mel 倒谱[35](Mel Frequency Cepstrum, MFC)作为音频短期功率谱的一种表现形式。其中,Mel 倒谱是基于频率的非线性的 Mel标度之上的功率谱的线性的余弦变换。Mel 倒谱系数(Mel Frequency Cepstrum Co-efficient, MFCC)则是与 Mel 频谱共同组成 Mel 倒谱的一组系数,即,Mel 倒谱是由 Mel 倒谱和 Mel 倒谱系数一同组成的。这些 Mel 倒谱是通过对音频片段取倒谱后得到的。
2.1 音频信号特征提取
在音频信号处理领域,常使用 Mel 倒谱[35](Mel Frequency Cepstrum, MFC)作为音频短期功率谱的一种表现形式。其中,Mel 倒谱是基于频率的非线性的 Mel标度之上的功率谱的线性的余弦变换。Mel 倒谱系数(Mel Frequency Cepstrum Co-efficient, MFCC)则是与 Mel 频谱共同组成 Mel 倒谱的一组系数,即,Mel 倒谱是由 Mel 倒谱和 Mel 倒谱系数一同组成的。这些 Mel 倒谱是通过对音频片段取倒谱后得到的。
传统倒谱与 Mel 倒谱有很多区别,其中,最明显的区别为 Mel 倒谱的频域在 Mel 标度上是等间隔的,因此 Mel 标度的倒谱与传统的间隔为线性的倒谱相比,更加接近人类听觉系统对声音的响应。使用此类频率弯曲会使计算机得到更好的声音表示,例如:在音频的压缩应用中,经常使用到基于 Mel 标度的倒谱系数。这种标度与人类耳部听觉系统所感知到的音频的频率及音高有关,由于人耳在低频区域与高频区域的响应不同,在低频区域辨别声音的细微改变要比在高频更加敏感。

.............................
2.2 数据增强
近年来,人类所创造的数据量以指数级暴增,对研究人员来说,能够接触到的数据来源越来越多,但能够获得的数据却十分有限,从而给算法带来非常大的限制,导致模型在对数据进行学习期间产生过拟合等不良现象。如今,随着 GPU及深度学习技术的发展,算法愈发依赖于数据的数量及质量,研究人员提出了数据增强(data augmentation)的策略以解决由于数据有限导致的算法性能的局限性。目前,数据增强策略已经在许多算法[36,37]中得以实现,并大幅度提升了模型的效率。
数据增强的大量应用开始于图像识别领域,众所周知,图像数据都是由实数或整数组成的 2 维或 3 维数组来表示。在不同任务的环境中,更改图像的可视化效果不会让图像本身所属的分类产生任何改变。
在音频的处理领域,有很多基于原始音频的数据增强[43]:常用的音频数据增强方法有:
方法 1:对原始音频数据的播放速度进行加快或放慢 在一定范围内对音频进行加速或减速,其所属分类不会产生任何变化,改变速度的情况下,人耳也能较为准确地在改变速度的情况下识别出当前声音所对应的事件。
1)从原始音频数据的长度的 0%-100%间选择一个随机的数值。
2)并以此点为基础,将原始音频数据在此节点前后分别进行加速或减速操作,加速的范围为 0.8-1.6。
.............................
由于音频信号随着时间不断改变,因此在计算 MFCC 时,通常会对音频信号进行截取,统计学研究表明,一个连续的信号在足够短的时间区域内不会有太多的变换,因此通常取间隔为 20-40ms 的音频信号按帧采样,若帧的间隔过长,则会由于缺乏足够的样本,导致无法获得可靠的谱估计。在对音频进行按帧截取后,我们会对每个单独的帧进行功率谱的计算,因为不同的声音频率会在人类耳蜗的不同部位发生震动。

.............................
2.2 数据增强
近年来,人类所创造的数据量以指数级暴增,对研究人员来说,能够接触到的数据来源越来越多,但能够获得的数据却十分有限,从而给算法带来非常大的限制,导致模型在对数据进行学习期间产生过拟合等不良现象。如今,随着 GPU及深度学习技术的发展,算法愈发依赖于数据的数量及质量,研究人员提出了数据增强(data augmentation)的策略以解决由于数据有限导致的算法性能的局限性。目前,数据增强策略已经在许多算法[36,37]中得以实现,并大幅度提升了模型的效率。
数据增强的大量应用开始于图像识别领域,众所周知,图像数据都是由实数或整数组成的 2 维或 3 维数组来表示。在不同任务的环境中,更改图像的可视化效果不会让图像本身所属的分类产生任何改变。
在音频的处理领域,有很多基于原始音频的数据增强[43]:常用的音频数据增强方法有:
方法 1:对原始音频数据的播放速度进行加快或放慢 在一定范围内对音频进行加速或减速,其所属分类不会产生任何变化,改变速度的情况下,人耳也能较为准确地在改变速度的情况下识别出当前声音所对应的事件。
1)从原始音频数据的长度的 0%-100%间选择一个随机的数值。
2)并以此点为基础,将原始音频数据在此节点前后分别进行加速或减速操作,加速的范围为 0.8-1.6。
.............................
3.1 数据集的构建与多途径数据增强................................ 18
3.1.1 数据集的构建 .......................................... .18
3.1.2 基于频谱图的数据增强 ....................................18
第 4 章 基于强化学习的声学行为识别系统..............................37
4.1 基于 SMOTE 的采样算法.........................................37
4.2 深度学习与强化学习的联合使用.................................40
4.3 实验及结果分析.............................43
4.4 模型应用场景讨论............................45
第 5 章 总结与展望.................................46
5.1 总结...........................46
5.2 展望.......................47
第 4 章 基于强化学习的声学行为识别
4.1 基于 SMOTE 的采样算法
在分类问题中,通常会遇到不同分类所的拥有的样本数差距较大,即不同类型之间的样本比例存在非常严重的失调。例如,在信用卡异常检测问题中,异常交易出现在数据集中的比例极小;而用户流失问题中,实际参与的用户通常也仅仅占很小的比例;在某营销行为的响应问题中,也同样只有少部分客户真正参与进来。
在分类问题中,通常会遇到不同分类所的拥有的样本数差距较大,即不同类型之间的样本比例存在非常严重的失调。例如,在信用卡异常检测问题中,异常交易出现在数据集中的比例极小;而用户流失问题中,实际参与的用户通常也仅仅占很小的比例;在某营销行为的响应问题中,也同样只有少部分客户真正参与进来。
通常,采样技术包括降采样与过采样,降采样通过将多数类样本分成不同的组,与少数类样本结合,训练多个分类器,并进行投票。然而,由于本课题使用的神经网络需要大量样本输入,不适合使用降采样方法训练,因此,本课题尝试使用过采样方式。在交叉验证过程中发现,针对本模型,在基于过采样技术中实验效果最好的方法为 SMOTE 方法。


.............................
第 5 章 总结与展望
5.1 总结
用户在家庭环境中的行为识别是智能家庭领域的核心技术。近年来,深度学习的理论发展迅速,尤其是在图像领域取得了很大的进步,这也正是把深度学习的知识应用于家庭行为识别上的一大契机,然而深度学习在实际的应用中仍然有着很多需要解决的难题。本文正是从这一角度出发,对声音频谱图使用基于图像的数据增强方法,并结合强化学习方法进行声学行为的识别。
本文在基于原始音频的数据增强外,提出基于频谱图的图像数据增强的方法,使用时域屏蔽、频域屏蔽以及时间扭曲 3 种完全基于 Mel 频谱图的数据增强方法来进行数据增强。同时,在使用原始频谱图之外,还使用谐波信号与冲击信号拆解方法,分别对谐波信号的频谱图以及冲击信号的频谱图进行提取,以此来抑制噪声值。
5.1 总结
用户在家庭环境中的行为识别是智能家庭领域的核心技术。近年来,深度学习的理论发展迅速,尤其是在图像领域取得了很大的进步,这也正是把深度学习的知识应用于家庭行为识别上的一大契机,然而深度学习在实际的应用中仍然有着很多需要解决的难题。本文正是从这一角度出发,对声音频谱图使用基于图像的数据增强方法,并结合强化学习方法进行声学行为的识别。
本文在基于原始音频的数据增强外,提出基于频谱图的图像数据增强的方法,使用时域屏蔽、频域屏蔽以及时间扭曲 3 种完全基于 Mel 频谱图的数据增强方法来进行数据增强。同时,在使用原始频谱图之外,还使用谐波信号与冲击信号拆解方法,分别对谐波信号的频谱图以及冲击信号的频谱图进行提取,以此来抑制噪声值。
此外,还在网络的输入层添加 GLU 模块,分别使用 Sigmoid 路径以及线性路径并元素级的相乘,以期望,进一步的对噪声进行抑制。并且,在卷积网络 CNN与循环网络 RNN 结合的基础之上,引入了 DenseNet 结构、SE Net 注意力机制、以及基于 Embedding 的迁移学习方法,以及时间分布全连接层,组成了 SEN-ECRNN 网络。并且,通过实验测试结果来对 SEN-ECRNN 网络以及传统的模型的效率进行分析。实验结果证明,本课题设计的 SEN-ECRNN 网络在家庭声学行为识别任务上表现的性能优于传统的 MFCC+GMM 模型、全卷积网络以及传统CRNN 模型。CNN 与 RNN 结合的 CRNN 网络能够对频域以及时序相关的信号进行提取,而本文中引入 SE Net 机制而建立的 SEN-CRNN 网络,提升了 CRNN模型对具体通道的敏感度。同时,在引入迁移学习的思想,将基于大样本预训练的 VGGish 网络提取的 128 维作另一输出路径的 SEN-ECRNN 网络,提升了 CNN层部分对特征的学习能力。本文提出的 SEN-ECRNN 模型在仅基于原始音频增强的数据集上训练的模型,与在引入频谱图增强的数据集上训练的模型,F-score与 AUC 分别从 0.577 与 0.634 提升至 0.639 与 0.690。本文提出的 SEN-ECRNN在经过频谱图增强的数据集上,比传统的 CRNN 模型的 F-Score 与 AUC 分别提升了 11.6%与 7.6%
参考文献(略)