本文是一篇软件工程论文,本论文围绕单模态应用场景和多模态应用场景分别设计了不同的轻量级人脸欺骗检测方法,在CASIA-SURF数据集上均能达到较低的ACER。因此,可以根据应用场景的不同要求去部署合适的模型实现人脸欺骗检测。
第1章 绪论
1.1 研究背景和意义
人脸图像蕴含的身份特征信息具有时变稳定性,加之低廉、非接触的采集方式给身份信息获取提供了极大的便利,这也促进了人脸识别技术被广泛地应用在各种身份认证场合中,例如小区门禁、手机解锁和金融支付等。然而,在这些应用场景中,计算机无法准确而快速地识别设备所捕获的人脸图像是真实人脸,还是欺骗人脸(例如打印照片、视频重放等),这可能给用户带来巨大的财产损失和身份冒认等风险。而人脸反欺骗(Face Anti-Spoofing, FAS)技术是用来准确区分真实人脸和欺骗人脸的,将其嵌入到人脸识别系统中能减少上述的安全问题。因此,研究更加准确和快速的FAS技术对于人脸识别系统的安全至关重要。
软件工程论文参考
现阶段FAS方法主要分为基于手工特征的传统方法和基于深度学习的人工智能方法,其中手工特征是指利用人工设计的算子提取人脸图像的特征。真实人脸与欺骗人脸的本质差别不是身份验证时所依赖的结构特征,而是人脸图像的纹理细节特征上。传统的FAS方法计算效率高且易于解释,在数据集内部测试场景下运行良好。然而这类方法所提取的图像纹理特征没有足够的细节区分性,且非常依赖图像质量,这导致分类器的性能受到限制。而基于深度学习的方法提取特征丰富、分类精度高,但往往过度拟合预先设置好的数据集,泛化能力不强,且模型中保存的参数多、训练难度大,无法大规模应用到复杂的实际场景中。而在实际应用中,人脸识别系统通常部署在嵌入式设备等内存和算力受限的场景中,这要求FAS方法以更少的计算成本和存储成本运行。
............................
1.2 国内外研究现状与问题
现阶段FAS方法主要分为基于手工特征的传统方法和基于深度学习的人工智能方法。传统方法通常使用人工设计的算子从RGB人脸图像中提取特征来捕捉欺骗模式,如局部二值模式(Local Binary Pattern, LBP)[1]、尺度不变特征转换[2]和高斯差分[3]等,并使用浅层分类器进行二分类来判别镜头采集对象是真实人脸还是欺骗人脸。传统方法更加注重纹理特征的提取和对图像、视频中固有属性的利用,然后再通过多特征融合和其他生物特征作为辅助来提升算法性能。经典的算子对于描述真实人脸和欺骗人脸之间的详细不变信息(例如颜色纹理、云纹)是稳定的,但这类方法提取特征过于单一、抗形变能力不强、容易受到外部环境的干扰,从而导致分类器性能受到限制,且泛化性能较差。
近年来,深度学习被广泛应用于人脸反欺骗领域,尤其是卷积神经网络(Convolutional Neural Networks , CNN)。相比于传统方法,基于深度学习的FAS方法能够自动学习不同的滤波器参数,不依赖人工设计的算子提取特征,能有效地提升模型性能。因此,本论文主要探讨基于深度学习的人工智能方法。按照输入图像的不同形式,将FAS方法分为两种:基于单源特征的人脸反欺骗方法研究和基于多源特征融合的人脸反欺骗方法研究。
..............................
第2章 相关技术与理论基础
2.2 人脸反欺骗相关基础知识
2.2.1 人脸识别中常见的攻击类型
在FAS领域,常见的欺骗攻击方式有照片攻击、视频攻击和面具攻击。前两种为2D攻击,不具有深度信息。部分攻击类型演示如图 2.1所示。
软件工程论文怎么写
照片攻击:在人脸识别系统进行识别时,攻击者通过各种渠道获得用户的照片,然后打印在纸上进行欺骗。为了获得更加真实的效果,攻击者通常会将眼睛、嘴巴等区域留出,以便可以进行眨眼和张、闭嘴唇等相关的互动指令。
视频攻击:视频攻击是照片攻击的完善版本。攻击者通过平板电脑、手机等移动设备记录真实用户的高质量视频,包含眨眼、张嘴等运动信息。在人脸系统进行识别时,攻击者将录制的视频进行回放,此时由于脸部是运动的,大多数方法很难检测出欺骗人脸和真实人脸的区别。
面具攻击:上述提到的照片攻击和视频攻击没有用到人脸的深度信息,其检测相对容易。因此,攻击者们基于真实用户的脸部制作了形状和特征十分相似的3D面具,其使用塑料、硅胶、树脂等真实材料制作。在FAS中,面具攻击不容易被检测,但在现实世界中,面具攻击因制作成本昂贵而不常见。
...........................
2.3 卷积神经网络概述
2.3.1 卷积神经网络基本结构
卷积神经网络结构最早在1989年被提出,其具有权值共享、局部感知、平移不变等特点。CNN主要通过卷积层提取图像的局部特征,使用池化层对图像进行降维,利用FC层实现图像分类、分割等功能。此外,使用非线性激活函数对卷积运算提取的特征进行变换。其中浅层卷积只能提取到边缘、纹理等浅层特征,而深层卷积可以提取到更抽象的特征。
(1) 卷积层
卷积核:卷积核又称滤波器,是一个????1×????2的数字矩阵,即模型权重,通过训练学习获得。卷积层可以包含多个卷积核,其大小和数量是可以调整的超参数。此外,卷积核在特征图上进行运算的区域被称为“感受野”。
卷积运算:给定一张二维图像????∈????????×????和一个卷积核????∈????????1×????2,卷积运算主要是通过卷积核????与特征图????上的滑动窗口进行点积运算和相加操作形成新位置的像素值。卷积运算中,每计算完一个窗口则移动到下一个区域,依次计算整张特征图,并形成新特征图????∈????????1×????1。
图像的填充:由图2.9的卷积运算过程发现,尺寸为5×5的原始图像经过卷积运算后,新特征图尺寸变为3×3,这表明卷积运算后丢失了部分像素值,特征图的边缘被“修剪”了。主要原因是按照传统的卷积运算规则,卷积核的中心不会是特征图边缘的像素,而卷积核也无法扩展到边缘区域外。为了解决该问题,研究者们通过在原始特征图的边缘填充一些数值来扩大图像的尺寸,即边界填充。常见的填充类型有两类,一是valid填充,即不对特征图进行任何处理;二是same填充,即对特征图的边缘进行填充,使得输入和输出的尺寸保持相同,避免信息的损失。
...........................
第3章 基于轻量级特征提取网络的人脸反欺骗方法 ................ 23
3.1 引言 ................................... 23
3.2 理论基础 ............................. 23
第4章 基于小波变换和双流卷积网络的人脸反欺骗方法 ........................... 39
4.1 引言 ............................... 39
4.2 理论基础 ............................. 39
第5章 交叉融合多模态特征的人脸反欺骗方法 ................. 53
5.1 引言 .................................. 53
5.2 方法 ......................... 53
第5章 交叉融合多模态特征的人脸反欺骗方法
5.1 引言
在上一章节中,针对无法获取多模态数据集的应用场景设计了基于小波变换和双流卷积网络的人脸欺骗检测模型,其利用小波变换转换单模态图像的表现形式来增强原始图像的细节信息,从而有效提升了单模态场景下的识别准确率。但这对提取人脸活体特征来说,使用单模态图像作为模型输入时信息源过于单一,提取到的有效特征十分有限。而基于多模态的方法采用多种模态图像融合互补能够有效提高人脸欺骗检测的准确率和泛化能力。
基于深度网络的多模态方法扩展到多个分支后,参数量和计算量相比于单模态方法更是成倍增长,这使得模型部署在移动设备或嵌入式设备中具有一定的挑战性。因此,在能够获得多模态数据的应用场景下,如何基于轻量级网络将多模态特征进行高效融合至关重要。
为了满足上述多模态场景下的应用需求,本章将设计一种交叉融合多模态特征的人脸欺骗检测模型。首先,数据增强方面在第3章的随机区域分块和组合决策的基础上,将RGB、Depth和IR等模态图像一同作为模型的输入,再采用第3章的LFENet作为三个分支的主干网络分别提取不同的模态特征;在特征融合阶段,以往的方法通常采用直接融合,但不同模态获得的信息明显具有差异性,直接融合会损失掉部分特征。因此,在本章中考虑由多种模态特征直接融合转移到各个模态之间的交叉中,即用两种模态交叉计算其中一种模态的注意力图,得到的特征图也能学习到另一种模态的信息,从而丰富特征表示。最后在多模态数据集CASIA-SURF和WMCA上验证本章节所提出方法的有效性。
...............................
第6章 总结与展望
6.1 总结
随着互联网技术的发展,人脸识别系统应用在越来越多的实际场景中,为了更好地保障其安全性,研究出更准确、更快和交互性更简单的人脸欺骗检测方法至关重要。因此,本论文通过分析现有FAS方法存在的不足,首先从轻量化的角度出发,设计了一个基于轻量级网络的FAS方法;其次,从图像中提取到多源特征信息(不同表现形式的图像、多模态图像等),通过不同的特征融合方案丰富特征表示,从而进一步提高模型的准确率和泛化性能。具体工作如下:
第3章提出了基于轻量级特征提取网络的人脸反欺骗方法,主要为后续两章提供通用性较强的轻量级特征提取网络和数据增强策略。在LFENet设计中,首先借鉴MobileNetV2的网络结构搭建了基本框架和组成单元;随后提出了基于深度卷积的镜像模块来缓解以往模型中特征图冗余的问题,其通过减少卷积数量、增加恒等映射来实现特征图丰富程度不变但参数量减少的目标;最后采用CDC算子替换DWConv,更好地聚合采样值的中心梯度。数据预处理分为两个方面,训练阶段采用随机区域分块,防止过拟合的同时降低模型计算量;测试阶段基于区域分块设计数据扩增策略和组合决策方案,进一步帮助模型提升识别准确率。
第4章提出了基于小波变换和双流卷积网络的人脸反欺骗方法,主要面向只能获取单模态数据的应用场景,通过引入小波换转换图像的表现形式,增强了原始图像的细节信息,在不增加参数量的情况下提高了模型的精度。具体来说,在数据预处理阶段,沿用第3章随机区域分块和数据扩增策略,然后将经过小波变换后得到的两种不同表现形式的图像一同作为模型的输入。在网络模型的设计上,采用第3章设计的LFENet作为主干网络来提取多源特征,由于小波变换后的图像包含较多细节信息,故小波分支中FEM和DSM-CA模块堆叠4层,其远小于原始图像分支中堆叠的13层。此外,小波变换后的图像具有较强的噪声,让其参与最终决策会降低模型的性能。因此,引入CMFL监督两个独立分支,实现当原始图像能够高置信度评分时,减少样本在整个网络中的损失贡献,然后采用BCE和PWL监督融合分支,多个损失函数联合监督使得模型的决策可以尽可能不受小波分支的影响。
参考文献(略)