基于图像级标注并融合自监督机制的弱监督实例分割

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:42522 论文编号:sb2024032215553252042 日期:2024-03-31 来源:硕博论文网

本文是一篇软件工程论文,本文首先根据图像分割技术的研究意义,引出了实例分割现目前国内外的研究现状,然后提出本文拟解决的关键问题。然后对本文所使用的一些机器学习和深度学习算法进行了简单介绍。
第一章 绪论
1.1研究工作的背景与意义
近年来,越来越多的研究者投入到实例分割的研究领域中,使得这一领域热度日益高涨。目标检测是指不仅需要预测出图像中不同目标的类别,还需要对不同的目标进行定位,即画出目标检测框。语义分割任务则是像素级别的任务,它需要预测出不同的目标类别,还要进行目标区域的掩码预测。实例分割[1]可以看成是这两种任务的结合体,它不仅需要进行实例掩码的预测,还需要区分出不同的实例对象,即属于同一类别的不同实例。
实例分割是计算机视觉研究领域中非常重要并且具有前瞻性的任务之一。它主要是用于实例对象区域的掩码预测和不同实例的区分。它可以对属于同一类别但是却是不同的实例进行定位。实例分割在很大程度上帮助了机器人技术,用于自动驾驶技术,自动监视等。
随着深度学习[2]的出现,更具体地说是卷积神经网络(CNN)[3],提出了许多实例分割框架,分割精度迅速提高。
Mask R-CNN[4]是实例分割现有框架中最具代表性的模型之一,它是基于目标检测经典网络Faster R-CNN [5]生成的,为了进行掩码预测,Mask R-CNN加入了FCN,这样一来,就完美的融合了目标检测的框回归与分割掩码任务,达到了实例分割的目标。除此之外,为了提升网络特征提取的高效性,还使用了FPN来进行多层次特征的提取。
实例分割是一项联合估计单个对象的类标签和分割掩码的任务。与其他视觉识别任务一样,卷积神经网络(CNN)的监督学习推动了实例分割的最新进展。由于深度CNN的数据饥渴性质,这种方法需要大量带有真实标签的训练图像,这些图像通常是手工给出的。然而,实例分割掩码的手动注释非常耗时,这是现有数据集在类别多样性和数据集标注数据量不易扩充的主要原因。所以,通过训练实例分割模型,来处理现实世界中的分割任务是比较困难的。
............................
1.2国内外研究现状
基于深度学习的实例分割方法,随着计算机视觉相关算法的不断发展,也逐渐蓬勃发展起来,越来越多的国内外研究学者投入到这一领域中。近几年,实例分割任务在全监督、半监督和弱监督方向都取得了较大的进展,分割精度得到了很大的提升。
现目前实例分割主要有两种框架,主要是两阶段实例分割与单阶段实例分割。 由于两阶段框架将分割任务和检测任务分为了两步,所以计算的复杂度较高,对计算资源也会要求较高,但是因为分了两个阶段,可以在任何阶段进行修改,所以是较为灵活的。单阶段由于缺乏预处理,轻型骨干网,较少的候选区域和使用全卷积检测子网,通常比两阶段的要快。 实例分割囊括了语义分割和目标检测两者的特点,既要进行分类任务,也要进行目标区域定位。因为包含了两种任务,所以实例分割是两阶段的方法,语义分割与目标检测谁在先谁在后,这也成为了两阶段方法的两个不同的研究路线。 下面将分别进行简单介绍。
(1)先基于语义分割的自下而上的分割方法
采用自下而上方法的研究学者将实例分割任务看作一个聚类任务。首先会进行语义分割任务,然后再区分不同的实例,主要采用的方法是聚类[6]、度量学习[7]等。通过学习关联嵌入向量[8],我们可以将不同实例的像素点拉开,并将相同实例的像素点拉近,从而提高关联度。最后,通过聚合处理技术,我们可以将实例有效地分离出来。
BAIM[9]是基于FCN来进行的,图像通过FCN网络训练后会得到一个可以用来进行能量分割的分水岭变换的能量,通过分水岭的界线就可以区分出不同的实例。S. Kong [10]等人给出了一个使用Metric learning的办法,可以有效地实现语义分割和实例分割。他们提出了一种新的Loss函数来进行网络训练,训练完成后会得到相应的指标,这是一种映射关系,它会将具有相同类别的像素信息映射到相应的高维空间,拉近Embedding vector[11]之间的距离,从而使用聚类的方式完成分割任务。SGN[12]是通过划分子类分组问题来实现实例分割的,主要使用的是序列组合网络,随着子分组问题难度的提高,也会使用不同的组合网络来进行像素的组合。Gao[13]学习了两个像素之间的关联性,通过像素对亲和力相关原理生成一个语义相似性的概率,然后将区域内具有高概率的像素进行级联操作。
...............................
第二章 实例分割的基础理论及模型
2.1深度卷积神经网络
20世纪五六十年代,"人工智能"这项用语就开始被真正提起,经过几十年的发展,alphago最终打败李世石,人工智能获得了重大突破,开启了一个全新的时代,从而越来越多研究者将目光聚焦到这个方向中来。人工智能在生活中可以扮演极其重要的角色,能够让机器像人一样拥有“学习能力”和“行为意识”。衍生出来的机器学习和深度学习两个概念,人工智能的飞速发展离不开这两个基础领域的深度挖掘。
机器学习是实现人工智能的一种主要途径:由于人善于学习,而机器善于计算,所以就可以由人提供机器一套学习的方法/流程/套路,让机器通过数据、经验的学习并总结出相关的规律,得出有价值的结论,如预测、分类、调整、识别、创作等。 机器学习是要学习一个经验函数,这个经验函数能够使机器将输入转换为正确的输出。图2-1展示了机器学习大致的学习流程,主要有以下几个概念:经验E指的是学习到的特征,任务T是指需要解决的相关问题,指标表现P指的是学习到的特征在解决相关问题上的准确性。从流程图中可以看出,经验E是用于处理任务T的,处理的结果好坏经过指标表现P来进行度量,度量的结果又会反馈到经验E处,对学习到的经验E进行优化。
深度学习是机器学习的一类衍生物,他比机器学习更为贴近人的大脑思考模式,从输入的数据集当中学习相应的特征信息,从而进行表征。深度学习模仿人的大脑结构,构建相应的神经网络,网络中含有多个神经元,并且有多个隐藏层,不同的层数能够学习到不同的层次的特征,将这些特征组合起来,就能变成相应任务的整体特征。目前很多领域都在利用深度学习的知识,例如语音识别、图像分割和检测和文本检测等,这些都希望使用机器代替人工,从而解放人力资源,资源利用更加高效和实时。

软件工程论文怎么写
软件工程论文怎么写

...............................
2.2相关模型理论及算法
语义分割,顾名思义,就是进行语义上的分割任务,图像中的语义就是指的是图片中的像素信息,分割就是需要进行像素的分类识别,并将属于同一类别的像素汇集起来,组成目标对象的掩码预测。这就是语义分割任务的工作机制,是分类任务的一种复杂变形。
(1)Patch classification
Patch classification是最早用于语义分割领域的。由于早期的神经网络都是由全连接层作为分类网络的最后一层,全连接层的尺寸需要固定大小。这种方法主要是将图片切成很多块,然后对每一块进行分类任务的识别,最后进行块的组装。
(2)卷积方法
卷积方法已经成为语义分割领域最主流的研究方法,因为卷积方法不仅可以进行整合局部特征,还可以连接多层次的卷积网络层,来进行特征信息的深度扩展。对于图像任务来说,处理高分辨率图像对计算资源的要求极高。卷积中有池化等操作,可以修改图片尺寸,但是不会损失太多有用信息,以此来减少模型训练过程中的参数量。
1、Encoder-Decoder架构
目前语义分割其中一个研究方向就是Encoder-Decoder[27],这种方法将语义分割任务变形为编码器和解码器。编码器是连接多个下采样层进行低维特征的提取,而解码器则连接多个上采样层,进行特征图尺寸的扩大,最后变为原始尺寸。
2、空洞卷积
空洞卷积代替了池化,一方面它可以保持空间分辨率,另外一方面它由于可以扩大感受野因而可以很好地整合上下文信息。进行池化操作也会扩大感受野,但是以损失部分有效信息为代价的,而空洞卷积确能有效地避免这种情况。
.............................
第三章 弱监督实例分割模型设计............................... 20
3.1 整体模型设计 ........................................ 20
3.1.1 数据集选择 ........................................ 21
3.1.2 模型输入输出 ................22
第四章模型损失函数及伪标签算法...................42
4.1 分类损失函数 .................................. 42
4.2 相似性损失函数 .......................................... 43
4.3 背景相似性损失函数 ................................ 43 
第五章 实验验证及结果分析.................... 47
5.1 实验数据集及数据预处理 ......................... 47
5.2 评价指标 ............................................. 47
第五章 实验验证及结果分析
5.1 实验数据集及数据预处理
本文提出的框架训练和评估都是基于PASCAL VOC 2012数据集,该数据集包含了分类任务、检测任务、分割任务、行为识别和人体布局检测等任务所需要的图像及标注。而本文虽然是用来完成分割任务的,但是我们只使用图像级的分类标签。
PASCAL VOC 2012数据集一共有二十一个类别,包括20个前景像素类别和一个背景像素类别。官方数据集将这些图像进行了划分,将1464张图像用于训练,1449张用于验证,1456张用于测试。遵循语义分割的通用实验协议,本文从SBD[35]中提取额外注释,将SBD中的训练集用来扩展原有的训练集。SDB数据集中的11355张图片实际上在VOC 2012数据集中是包含的,但是VOC 2012数据集只有1462张图片可以用来进行语义分割任务的训练。融合了SDB数据集之后,现在总共有10582张图像用于训练,1449张图像用于验证。
分类标注各类别对应的id如表3-1所示,将XML文件中的分类标注提取出来,并对应各类id,结合相应的图片输入到网络中就可以进行训练。验证则需要使用语义分割标签和实例分割标签进行验证。

软件工程论文参考
软件工程论文参考

..........................
第六章 总结与展望
6.1全文总结
本文是基于图像级标注来进行分割任务,面临的最大的困难就是图像级标注并不会提供特定于实例的语义信息,并且图像级标注本身提供的信息的就很少,很难仅仅根据简单的标注训练获得一个效果良好的分割模型。所以本文致力于挖掘出图片更多的语义信息,便于更好的进行实例对象的定位,提高分割的准确性。
本文首先根据图像分割技术的研究意义,引出了实例分割现目前国内外的研究现状,然后提出本文拟解决的关键问题。然后对本文所使用的一些机器学习和深度学习算法进行了简单介绍。其次详细叙述了本文提出的弱监督分割模型的网络结构和实现方法。最后,最终,通过进行多种对比实验,有效地证明本文提出的模型的可行性,并设计了一个Web系统原型图进行展示。 本文的研究内容和贡献主要如下:
(1)提出了自监督注意力转移机制(SATM)。SATM会在训练时,将模型的注意力从目标最具辨识性的区域转移到其他被抑制的区域,以此来激活相关区域,完善目标区域信息。为弱监督添加额外的约束条件,从而缩小与全监督之间的差距。
(2)提出了语义相关性聚焦-扩散模块。该模块融合了注意力机制、多尺度空洞卷积层和上下文关联度模块,在注意力模块时聚焦重要的特征信息,在多尺度空洞卷积和上下文关联度模块时,扩大感受野,扩散像素之间的关联关系,从而获得更多更精细的特征。
参考文献(略)


上一篇:基于云边端分布式系统的资源同步优化
下一篇:没有了
如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217