本文是一篇计算机论文,本文从特征融合角度出发,结合注意力机制、深度可分离卷积、上下文语义信息、多尺度特征图等提出了两个不同的实时语义分割方法。
第1章 绪论
1.1 课题背景及研究的目的和意义
图像语义分割是机器视觉方向的一项基础性技术,通过分割后的图像可以推断出图像中的对象、对象间的关系以及对象所处环境等关键信息。语义分割任务目标在于把图像中的每个像素分类[1],分类后像素点将图像分割成不同的且互相之间不连通的区域,每一类像素点代表一类物体。语义分割应用在生产生活中的方方面面,如遥感图像的分割、医学影像分割、虚拟现实、人机交互等。在传统图像处理先设计特征提取器对图像的特征进行提取,再通过机器学习算法对特征计算并分类,这种算法不是端到端的算法,针对不同的图像场景要设计不同的算法操作复杂且不易推广[2]。与传统图像处理方法不同,卷积神经网络可以从大量的原始图像中学到相应的特征,通过端到端的方式对输入的图像进行处理,有效简化了特征提取过程[3]。
图像数据的日益增多和计算机计算能力的增强,为基于卷积神经网络的深度学习发展提供了条件[4]。随着卷积神经网络发展,图像语义分割已应用在工业自动化、智能质检、医学检测等领域。例如,在质检领域,产品生产时不可避免地会有一些缺陷,人工质检费时费力还不一定能取得较好的效果,基于传统方法的质检研发周期长,后期调试比较麻烦,基于卷积神经网络的质检研发周期短、结果可靠,真正实现了降本增效。在医学影像领域,可以通过对医学影像进行分割,其结果可以为临床医生筛查和预诊断患者病情提供有力的判断依据,这种方法不仅能够降低医生的工作强度,还可以提升医生诊断和评估效率。
图像语义分割可以应用在生产生活当中,但是在一些对实时性有要求的场景中,分割方法的推理速度还需要缩短。准确性较高的分割方法中通常伴随着大量的计算和参数,由此也导致了语义分割推理速度慢。随着智能手机等轻便的图像采集设备的推广,图像信息更容易采集且数量迅速增长,此时如何快速处理图像成为了主要问题。实时语义分割在自动驾驶[5]、虚拟现实[6]、现代农业等领域具有现实意义。通过实时语义分割可以对自动驾驶场景中的行人、汽车、车道线、红绿灯等物体的识别都需要以语义分割为基础,在虚拟现实场景中通过语义分割对场景分割为场景理解和程序判断奠定基础。
....................................
1.2 国内外研究现状
语义分割是由基于传统方法的图像分割发展而来的,之后卷积神经网络以其独特的优势,成为了语义分割的主流方法,但在一定程度上会导致方法计算更加复杂,耗费时间更长。
1.2.1 基于传统的图像分割方法
基于传统的图像分割方法以图像本身的相关属性作为评判标准对图像进行预处理,再结合机器学习中的最近邻算法等对分割结果进行处理。主要方法有以下三类[7]:
第一,基于阈值的分割方法。其特点是效果直观、易于理解且结果可靠。其基本原理是不同的物体对光的反射程度不相同,通过设定多个阈值将对图像的像素分类,具体操作方法是根据设定的多个阈值,把处理后的灰度图像划分为不同的区域。其主要应用于目标对象和所处环境之间灰度值差别较大的情况,它可以降低操作复杂度,压缩阈值之间的数据,减少图像的数据量。这是一种基础的且利用率较高的分割方法。
第二,基于区域的分割方法。该方法是通过对图像的颜色、纹理等信息来分析判断不同的区域,并可分为区域生长、区域合并和区域分裂合并三种基本提取方式。区域生长以随机的单个像素作为种子像素,之后检索周围的未被标记的像素点将具有相似特性的像素点合并到一起形成一个区域直到区域停止扩张,之后再随机选取种子像素重复上述步骤。区域合并与上述过程相反,根据分割顺序对图像进行整体分割,但其分割结果取决于分割顺序,结果具有不可控性,因此又有了将两者相结合的区域分裂合并方式。区域分裂合并以图像本身为起点,经过像素之间的分裂划分出多个子区域。
第三,基于边缘的分割方法,该方法的特点是搜索检测速度快、对边缘检测效果好且性能稳定,其基本原理为物体的边缘会导致图像灰度等变换较大,通过图像中边缘像素的连接,对图像进行分割[8]。方法的具体操作为通过对图像的灰度图求导得到图像的边缘,最终得到分割结果。该方法适用于噪声低,边缘变化大的图像。
..............................
第2章 理论基础介绍
2.1 卷积神经网络
2.1.1 卷积神经网络及特点
卷积神经网络(Convolutional Neural Network,CNN)产生的灵感来源于仿生学原理中生物的神经网络结构。1998年由Lecun等人首次提出了LeN et[40]。2012年,AlexNet[14]被提出。同时随着图像数据的日益增多和以GPU为主的计算能力的增强,卷积神经网络的类型不断更新,之后又有采用11和33的卷积核的VGGNet[41],基于并联卷积的GoogleLeNet[42],基于残差结构的ResNet[43]。卷积神经网络的特点有:
(1)局部连接性即提取局部特征,优于卷积中卷积核大小的限制导致每个卷积核只能提取有限信息,随着卷积的层层叠加,在高层的卷积中将感受到的局部区域进行合并得到全局信息。
(2)权值共享,在卷积神经网络中一个卷积核可以得到一种特征信息,将这一个卷积核作用于整个网络,即可得到一张具有某种特征的特征图。在这一过程中仅使用一个卷积核进行权值共享,能有效的减少参数量,并降低训练复杂度。
(3)自动特征提取,对图像进行卷积操作得到的矩阵即是特征图,即自动特征提取。多次卷积可以得到多种不同的结果,即高维特征图,高维特征图中包含较多的特征信息。
(4)平移不变性,即目标对象变换到其他位置,卷积神经网络仍能识别目标,卷积后的结果与变换之前相同,这一特性使得可以对原图使用反转等图像增强方法。
...................................
2.2 残差网络
2.2.1 残差网络的产生
随着卷积神经网络的发展,模型复杂度更高,得到的结果也更符合预期。但是随着卷积层数不断的增加会出现“退化”的情况,其具体表现是网络性能快速下降,预测效果越来越差[43]。
解决上述问题的方法有两种,第一种可以通过调整初始化的参数和梯度下降方法,第二种方法可以通过调整网络结构,使其更易于优化。残差网络即是通过提出了残差结构来解决,通过提出的残差结构弱化每层之间的强联系,使得网络结构可以有多层,并且提出使用批归一化(Batch Normalization,BN)来解决梯度消失和梯度爆炸的现象。
2.2.2 残差结构
残差结构(Residual Block)模型的构造如图所示,残差模块中包含着两个不同的分支,其中F(x)由x通过多个连续的权重层和ReLU函数计算得到,将得到的特征图F(x)和原特征图x通过旁支(shortcut)结构连接并使对应元素相加,这里要求特征图F(x)和x大小相同并且通道数相同,最终得到残差结构的结果。
计算机论文怎么写
文中提出了两个具体的残差模块,如图2-6所示。图2-6a)为基础模块,其输入通道数为64的特征图,通过两层的网络处理得到通道数仍为64的特征图,之后将其与原图对应元素相加并输入relu函数中得到最终结果。图2-6b)为瓶颈模块,其输入的矩阵的通道数为256,先降低通道数再进行之后的操作,以此减少参数量和计算量,之后通过33卷积最后使用11升维卷积将通道数恢复至256,并将两者的对应元素相加。
...............................
第3章 基于双通道特征融合的实时语义分割网络 ...................... 20
3.1 网络整体结构 .................................... 20
3.2 网络详细结构 ................................. 21
第4章 基于多尺度特征融合的实时语义分割网络 ......................... 33
4.1 网络整体结构 .................................. 33
4.2 网络详细结构 ......................................... 34
结论 ................................. 50
第4章 基于多尺度特征融合的实时语义分割网络
4.1 网络整体结构
网络整体结构如图4-1所示,其中包含骨干网络ResNet-18、改进的空间金字塔池化DS-ASPP模块和改进的自适应空间特征融合CA-ASFF模块。
计算机论文参考
网络首先通过骨干网络获得不同阶段特征信息,骨干网络仍采用轻量化残差网络ResNet-18,保证实时性和准确性。之后通过改良的空间金字塔池化DS-ASPP模块,模块采用计算量更小的卷积来获取多尺度特征图,并使用获得的多尺度特征图解决轮廓模糊问题。最后通过改进的自适应空间特征融合CA-ASFF模块,将上述模块中得到的多尺度特征图有效的自适应融合,得到预测结果。
...............................
结论
图像语义分割的使用遍及生产生活中,但在具体应用过程中由于生产环境的设备等其他条件限制,实时语义分割还需要向着精度高速度快的方向发展。本文深入研究分析基于特征融合的语义分割方法,对实时语义分割方法中的不足,通过对现有方法中利弊的分析提出改进方向,并结合具体的实验对基于特征融合的实时语义分割方法进行了详细的研究。具体的,本文从特征融合角度出发,结合注意力机制、深度可分离卷积、上下文语义信息、多尺度特征图等提出了两个不同的实时语义分割方法,主要得出以下两个结论:
(1)构建了基于双通道特征融合的实时语义分割方法。本文对当前的特征融合方式进行深入的研究和分析,设计了一个高效的双通道特征融合模块。为了提高模型的感受野并且加快模型推理速度,设计了一个轻量化注意力模块。骨干网络采用轻量化的残差网络ResNet-18保证分割精度的同时也能有效提升分割速度。实验结果表明,提出的分割方法能够达到分割应用的要求,能够适用于实时语义分割任务中。
(2)提出了基于多尺度特征融合的实时语义分割方法。本文对于当前的多尺度特征图融合方法进行分析,结合注意力机制优化每个分支的结构,并细化每个分支的作用,强化主分支的作用,对于其他的辅助分支仅在训练阶段提供损失函数,在预测阶段不再计算辅助分支以减少计算量。之后研究了深度可分离卷积的计算优势,提出了基于深度可分离的金字塔池化模块,该模块可以通过较少的计算量提取多尺度特征图。
参考文献(略)