本文是一篇计算机论文,本文根据实验结果,基于混合注意力和非对称卷积的视网膜血管分割模型相较于原模型,不仅节省了27%的模型参数,而且在DRIVE上,AUC提升了0.03%,SEN提升了0.37%。与现有的方法比较,本文方法在DRIVE上,AUC和SEN实现了最优;在STARE上,SPE实现了最优;在CHASE_DB1上各项指标均为最优。
第一章 绪论
1.1 研究背景与意义
视、听、嗅、味、触——并称五感,其中视觉在五感中占据举足轻重的地位。据研究表明所有从环境传输到人类大脑的信息中,约80%由视觉提供。在人类与周围环境进行信息交互之时,视觉也是人类判断当前环境的主导感觉。通过视觉,人们可以感知物体的状态、颜色等,从而提高个体生存质量和远离危险。视觉的运作方式为,首先光线进入眼睛落在视网膜上,视网膜再将视觉信息传输到大脑的视觉皮层,通过视觉皮层的接收、整合和处理,大脑最终理解其中的信息并控制身体给出适当的反应。而眼睛是产生视觉的主要感官,所以眼睛对人来说非常的重要。
但是近年来,患眼科疾病及会诱发眼底病变的相关疾病的人数逐渐上涨。而调查表明导致视力丧失的主要疾病有三种,分别是老年性黄斑变性、绿风内障、糖尿病性视网膜病变(diabetic retinopathy,DR)[1]。发生糖尿病性视网膜病变时,视网膜上的血管直径会发生变化,也会产生微动脉瘤,因此可以将这两个生物标志作为诊断该疾病的重要依据[2]。当患有绿风内障时,视网膜中血管的比率会发生改变,因此血管比率可以作为诊断绿风内障的主要临床参数[3]。由此看来,视网膜血管的状态可以反映出多种疾病,因此检查视网膜血管的形态是实现疾病早期诊断的重要手段。
计算机论文参考
............................
1.2 国内外研究现状
1.2.1 基于监督机器学习的视网膜血管分割方法
本节所介绍的有监督的机器学习方法,是排除了深度学习的传统机器学习方法。训练有监督的机器学习算法时,所用的都是已具有一定先验知识的数据样本,在训练结束之后,最终得到一个判别分类器,该分类器在面对新的输入样本时,可以给出自己的分类判断。对于视网膜血管分割任务,惯用的分割方法包括贝叶斯方法、K近邻方法、支持向量机、随机森林、AdaBoost等,所有列举的这些都是典型的监督机器学习算法[9]。
吴等人[10]考虑到单独使用2D Gabor小波算法时,血管形态和结构信息会被忽略,于是不再单独使用2D Gabor小波变换,而是在算法中引入了组合线检测算子,该算法先用小波变化和检测算子对眼底图像进行处理,处理结束后会得到一个六维像素特征向量,最后采取贝叶斯高斯混合模型对眼底图像中的所有像素进行分门别类,最终分割结果比单一使用2D Gabor小波算法要优[10]。K近邻算法思想是根据距离当前待测对象最近距离内的K个对象来判断待测对象的类别[11],吴[12]使用COSFIRE滤波模型提取到的三维特征向量库来对K近邻算法进行训练,得到了最终的血管分割模型,实验证明了模型有效,但是训练KNN算法时对存储和计算的要求会更高。由于支持向量机有着坚实的数学理论支撑,简化了分类和回归的问题,而且适用于小样本,利用支持向量机的优势,文献[13-16]选取了支持向量机作为分类判别器,先单独进行血管特征的提取,然后将提取到的特征向量输入到判别器中,最终实现了对血管像素的分类。朱等人[17]以随机森林模型为基础,在此基础上融入了多特征融合算法,得到了最终的分割算法,该算法给每幅图片中的每个像素提炼图像不变矩阵、灰度共生矩阵、LoG结合高斯二阶导、梯度法、相位一致性和包含Hessian特征的23维特征向量,运用选定数目像素点中提炼到的特征来一同构建特征矩阵,用此构造矩阵训练一个随机森林判别器,后续使用连通域算法对分门别类好的像素点进行处理,提高了血管分割的连续性和准确率。运用集成的思想,朱等人[18]提出了一种分类回归树和AdaBoost相结合的视网膜血管分割方法,该方法先为图像中的每个画素点构建一个39维的特征矩阵,该矩阵包含了局部特征、Gabor特征和形态学特征,然后是获取弱分类器,使用这些特征训练分类回归树即可得到,之后再训练AdaBoost作为强分类器,分割结果的灵敏度和特异性超过了已有的方法。
..........................
第二章 基于深度学习的视网膜血管分割相关基础
2.1 语义分割
语义分割是计算机视觉任务中典型的一种,近年来,更是引起了不少人的关注。在生活中,它可以应用于自动驾驶,识别驾驶中遇到的障碍;也可以应用于医学领域,识别医学图像中的显著区域;还可以应用于场景理解等等,具有非常广阔的应用场景。并且随着各类深度学习模型架构的提出,语义分割结果也越趋于精准。
2.1.1 视网膜血管分割概念
视网膜血管分割属于语义分割任务,是医学图像处理任务中典型的一种,其目标是将眼底图像中的血管对象和背景以不同的颜色标志出来。在现实生活中,即使未对人们进行特殊训练,人类也可以很容易的从一张眼底图像中将血管与视盘以及背景区分出来,耗时仅需几分之一秒。但是机器不同,它们不具有这套感知机制,而是需要遵循某种特定准则来学习这些联系。众所周知,图像由像素构成。视网膜血管的语义分割,究其本质,就是将眼底相片中的各个像素映射到对应分类标签的过程。其中,标签包含血管、背景。这便是机器遵循的准则。由此得知,视网膜血管的语义分割是在像素水平上进行的一项分类工作。如图2.1所示,(a)是给定的眼底图像原图,(b)是分割后的视网膜血管图,如图2.1(b)中所示,所有的血管被标为同一类,所有的背景与血管区分开来。
计算机论文怎么写
............................
2.2 卷积操作原理
卷积层是卷积神经网络的骨干要素,主要功能是卷积运算,卷积和卷积神经网络是促进深度学习迅速向前发展的重要因素。卷积之所以在机器学习领域中有用,是因为利用卷积可以过滤掉图像中非必需的信息,只保留对任务有用的特征。
在卷积运算中,另一个重要的概念——“感受野”。此概念描述了在卷积网络每层产出的特征图中,里面的各个像素点投射到初始输入图片上的范围大小。提到“感受野”,要注意与“局部性(Locality)”区分开来,根据上面卷积操作原理的讲解,可以得知结果特征图中的每一像素皆是卷积核在上一层输入的特定区域内相乘累加到的结果,这个特定的区域对应的是局部性。如图2.8所示,5*5大小的输入被3*3大小的卷积核处理后,将得到一个3*3大小的2维的矩阵,该3*3大小的2维矩阵再被3*3大小的卷积核处理,最终得到只包含一个像素点的输出,这个像素点对应的局部性即是它上一层输入的3*3的区域,对应的感受野则是原始输入图像5*5的区域。对神经元对应的感受野大小进行计算,根据数值大小可对神经元在初始图像中触及到的范围大小进行判断,值越大,范围越大,这就代表它可能包含更加整体、更高层次的语义信息。反之,数值越小,被它包含的特征就越倾向局域和详尽。所以,感受野的大小可以用来大致地判断各个网络层的抽象水平。
...........................
第三章 基于混合注意力的视网膜血管分割模型 ..................... 20
3.1 引言 ................................... 20
3.2 U-Net模型的微调 ........................... 20
3.3 基于补充信号g的混合注意力模块 ............................. 23
第四章 基于混合注意力的视网膜血管分割模型的优化 .......................... 37
4.1 引言 ......................................... 37
4.2 基于混合注意力和非对称卷积的视网膜血管分割模型设计 .............................. 37
4.3 非对称卷积 ................................ 38
第五章 总结和展望 ........................ 50
5.1 总结 ....................................... 50
5.2 展望 .................................... 51
第四章 基于混合注意力的视网膜血管分割模型的优化
4.1 引言
在第三章提出了基于混合注意力的视网膜血管分割模型,模型中的混合注意力可提高有效特征的识别率,并对无效特征进行了抑制,一定程度上缓解了由于像素分布不平衡导致的特征学习不全的问题,提高了对血管像素的识别能力,尤其是微小血管的识别能力。但是,正如上一章实验分析,混合注意力的引入,增加了网络的复杂度,复杂度的增加不仅会加大对显存的需求,也会进一步加大对GPU运算能力的需求。而且,模型复杂度是衡量模型实用性和可迁移性的重要指标,所以在不损失精度的前提下降低模型的复杂度成为了一个新的挑战性问题。
在当前,深度卷积网络已然成为多数任务的主流处理方法,而且通过增加模型的深度和计算量都可换来一定的性能提升(只要保证有充足的标注数据),但是在现实中,受运算速度和计算资源的限制,仅仅通过此种方法来实现性能的提升并不现实。GoogLeNet自提出以来凭借其优越的性能,以及比同期复杂网络更小的体型,而深受人们的追捧,但是它也存在网络结构不易改变的缺陷。针对上述问题,2016年SZEGEDY等人[59]提出了Inception V3,作者在文中提出了几种通用的设计准则以及优化思路,而非对称卷积就是其中一种。
本章主要利用SZEGEDY等人[59]提出的非对卷积,对第三章提出的GCBAM_UNet模型进行模型优化,以实现模型计算量的减少和规模的缩小,以及进一步强化模型对微小血管的分割能力,优化后将得到新的基于混合注意力的视网膜血管分割模型,我们称之为基于混合注意力和非对称卷积的视网膜血管分割模型(AC_GCBAM_UNet)。该模型不仅可以有效的利用注意力机制筛选有用信息,而且非对称卷积的引入,减少了模型整体训练参数量和模型计算量,并且利用非对称卷积的特性,还可一定程度上增强卷积核的鲁棒性和对细血管的探测能力。
..............................
第五章 总结和展望
5.1 总结
深度学习的出现,给医疗事业带来了智能化,对医学图像进行自动分割可以帮助医生划定诊断区域,为后续的病灶分割打下基础。视网膜血管分割亦是如此,可以通过自动分割视网膜的血管对一些疾病进行预判,也是后期一些出血点等病灶分割的基础。但是由于视网膜血管具有大小、形状、对比度和强度水平的不一致的特点,所以视网膜血管的自动分割仍是一项挑战。另外现在的深度学习技术针对提高分割性能进行的改进,基本是构建新的网络模型,耗时耗力。考虑到以上问题,本文做出了以下研究。
1.数据图像预处理。由于所使用的DRIVE、CHASE_DB1、STARE数据集的图像是彩图,并且具有噪声,为了增强血管对比度、简化计算,本文采用了配套的图像预处理方法,从而方便数据在后期被模型使用。对图像进行取块,训练集和测试集的提取图像块的策略不同,扩充了样本量。
2.基于U-Net具有规模小,分割性能良好的特征,本文选取了该网络模型作为后期模型研究的基本骨架。针对网络层数过深造成细节丢失和过拟合的问题,本文对U-Net进行了层的简化,加入了BN层和dropout层,节约了计算资源、加速了模型的收敛速度和避免了“梯度弥散”的问题。
3.对混合注意力模块(CBAM)进行了改进,融入了补充信号g,以提供更加丰富的深层次信息。在改进的U-Net中,结合融入补充信号g的混合注意力模块,得到了基于混合注意力的视网膜血管分割模型。并在DRIVE数据集上,对改进U-Net、基于补充信号g的混合注意力机制和设计的模型进行验证。根据实验结果,基于混合注意力的视网膜血管分割模型相较于Backbone模型,准确率、敏感度、AUC等指标分别提升了0.05%,1.56%和0.05%。
参考文献(略)