基于GAN和特征融合的深度感知图像相似性计算方法研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:38977 论文编号:sb2019111008225728506 日期:2019-12-07 来源:硕博论文网

第 1 章  引言

1.1 研究背景及意义
图像相似性是描述图像数据间的相似度和相关性的,一般可用于对比图像相互间抽象特征的相似性,以表示整个图像之间的相似性。对于图像中的一些局部区域(例如局部纹理特征 Local Binary Pattern,LBP)是描述像素与其相邻像素之间的关系的图像特征,可以利用这些局部区域的灰度特征或梯度特征用于相似性比较。图像特征提取和图像之间的相似度计算是计算机视觉和图像相关领域中所有工作的基础,从图像中提取感兴趣的特征,对后续进行图像检索、图像生成、图像分类、目标检测以及图像配准等工作,具有重要的指导作用。因此,从图像中提取感兴趣的特征并测量图像之间的相似性已成为值得研究的基本问题,并且在计算机视觉领域中非常重要。
在 20 世纪末 21 世纪初的十几年间,鉴于支持向量机(Support Vector Machine,SVM)具有一套完整的证明基础,而且在针对中小型数据规模的分类任务上有着卓越的效果,那段时间 SVM 一直压制着神经网络。2012 年起,随着 AlexNet 在ImageNet Large Scale Visual Recognition Competition(ILSVRC)竞赛上一举夺魁,在那之后,各种深度学习算法一个接一个地被提出,并且在计算机视觉中,以及诸如语音识别和自然语言处理之类的任务中已经实现了非常好的性能[1]。将当前流行的卷积神经网络推广到图像相似度计算研究,并结合经典图像视觉任务进行应用,由于不再需要传统的图像相似度计算方法,因此也不必再依靠繁琐人工设计特征的提取方式获取图像特征。深度学习方法流程是把输入数据全部输送到卷积网络形成端到端的任务,网络模型自动地根据具体任务以及特定的学习规则和优化算法自动学习感兴趣的图像特征,避免了传统算法中复杂的特征选择和提取过程,提高了学习效率和学习特征的可靠性。将图像相似度计算与卷积神经网络算法相结合,同时针对实际应用问题的特点,对促进应用和研究具有重要的研究价值和意义。
.........................

1.2 国内外发展现状和趋势
大数据时代的到来给深度学习算法的发展提供了基础,此外,随着计算机软硬件和深度学习框架的迅猛发展,深度学习算法能够轻松地从海量数据中挖掘潜在特征规律训练数据模型。传统的图像相似度度量方法很大程度依赖于人工设计的特征,人工设计特征的好坏直接决定了相似度量结果的优劣。现有的深度学习算法,以海量数据为驱动,通过模型的自动学习,自适应地学习图像特征,避免了人工设计特征所带来的困难。因此,使用深度学习算法作为测量图像相似性的应用机制具有很大的优势。
1.2.1 深度学习研究现状
深度学习的出现打破了传统机器学习在许多科研和应用领域无法取得进一步突破的瓶颈。这给人工智能社区的研究者和从业者带来了希望,实践证明,深度学习算法确实非常善于发现高维数据中的复杂结构。目前深度学习在大部分的领域都有了重大突破或者实际应用,它适用于许多科学,商业和政府领域,并且卷积神经网络在各类计算机视觉任务中表现优良,譬如图像识别[3],[4]、图像语义分割、目标检测等。同时,在语音识别[5],[6],[7]、自然语言处理[8]等各种任务方面取得了非常可喜的成果,尤其在疑问解答[9]和文字转译[10],[11]方面。此外,在生物,物理、医疗[12],[13],[14]等方面,深度学习算法相比其他传统机器学习技术更有优势。 
Le Cun[15]于 1998 年提出一个 5 层的卷积神经网络算法 Le Net-5 并首次将卷积操作模块引入到神经网络中。但是,受限于当时硬件设施计算能力不足以及缺乏大型数据集,在很长一段时间,卷积网络的效果一直不如浅层的神经网络模型。直到 AlexNet 利用一个 8 层的卷积神经网络结构,以超过 10 个百分点的优势击败以 SVM 等为代表的传统方法并且赢得 2012 年 ImageNet 比赛冠军,此后神经网络又重新进入人们的视野[16]。与此同时,AlexNet 和 Deep Brief Network 在语音识别领域取得巨大成功,成为当前深度学习爆发的重要索引。自 AlexNet 在 ImageNet上取得成功后,研究者们便在 ImageNet 上不断刷新比赛纪录,各种卷积网络结构、设计理念以及训练技巧相继提出,其后的几个经典网络模型的出现让人们对卷积神经网络的研究更加深入,如 ZFNet[17],VGGNet[18],GoogLeNet,Inception[19],[20],[21]各种升级版本,ResNet[22]等卷积神经网络结构模型[23]。一方面,研究者们针对卷积核尺寸大小、网络模型的拓扑结构和卷积层运算等方面进行深入研究,使得网络层数加深,模型参数以及模型计算量降低。此外,针对研究者们针对网络结构进行优化,试图使用参数更少,网络层数更浅的网络达到深层网络的性能,如 MobileNet[24],ShuffleNet[25]等一系列更高效的网络相继提出。
..............................

第 2 章  相关背景知识综述

2.1 深度卷积神经网络
卷积神经网络其思想起源于感受野(Receptive  Field)[38]概念,神经认知机(Neocognitron)[39]的提出与实现成为卷积网络 CNN 的原始雏形。深度卷积神经网络从狭义上理解,就是一种具有特定拓扑结构以及特定优化方法的多层神经网络。深度神经网络通常采用反向传播算法[40]进行模型训练,但大量的网络层和随机初始化方法伴随着网络深度的加深,会产生不稳定的训练结果或出现“梯度弥散”的现象,致使深层神经网络难以通过反向传播算法更新模型参数。

.............................

2.2 生成对抗网络
2.2.1 GAN 介绍
GAN(Generative Adversarial Networks)是 Goodfellow 在 2014 年 NIPS 上提出的方法,GAN 网络包含生成网络与判别网络,基于二人零和博弈思想。生成网络主要学习实际图像分布,使得自身生成的图像更加真实,判别网络需要对接收到的图像进行真假判别。生成网络努力使生成的图像更加真实,而判别网络需要努力识别图像的真假。生成网络和判别网络不断相互对抗,最终两个网络达到动态均衡:由生成网络产生的图像接近真实图像分布,并且判别网络无法识别真假图像。 

判别网络的目的:判别网络可以区分输入样本和目标样本。倘若输入的样本与目标样本越相近,网络输出就接近 1,倘若输入样本与目标样本差异越大,网络输出接近于零,以便区分不同样本之间的差异。
.......................
第3 章  基于 GAN 和深度感知度量的图像潜在特征学习 ....................................... 21
3.1  引言 ......................................... 21
3.2  深度感知模型 ..................... 21
第 4 章  基于多级特征融合和模型微调的图像检索 ........................... 32
4.1  引言 .............................. 32
4.2  结合特征融合和改进 VGG 的特征提取模型 ......................... 33
第 5 章  基于关键点检测的人脸眼镜识别 ................................... 41
5.1  引言 ................................... 41
5.2  基于 Atrous-MobileNet 的眼镜检测识别算法 ............................................... 42

第 5 章  基于关键点检测的人脸眼镜识别

5.1 引言
近年来,人脸识别技术在安全验证、视频会议、人机交互、智能设备[64]以及基于人脸识别技术的人脸美颜,面部卡通肖像生成[65]等方面有很好的应用前景,是人工智能和计算机视觉领域的研究热门方向。经过多年研究,人脸识别技术取得了较好的识别性能,然而,在实际应用中,人脸识别技术仍面临许多挑战[66],[67],如脸上有遮挡、戴眼镜、化妆等[68],这些脸部图像上的常见装饰或附属物会干扰图像处理并影响识别。
最近的报告表明[69],[70],发达国家超过一半的成年人口戴眼镜。眼睛近视现象普遍存在于东亚及世界各地,增长极其迅速;自然新闻最近的一份报告指出:东亚近视眼也出现了前所未有的近视,也被称为近视。六十年前,中国人口中有10-20%近视。今天,则超过九成的年轻人和年轻人近视。在首尔,有 96.5%的19 岁男性患者是近视。世界上其他地区的病情也急剧增加,现在影响了大约一半的年轻人。美国和欧洲近视情况相比半个世纪前翻了一番。据估计到本世纪末,世界上三分之一的人口可能会受到近视影响[71]。 
..........................

第 6 章  总结与展望

6.1 总结
本文以深度学习方法为基础,提出了一种利用 GAN 网络训练和度量图像相似度的度量机制相结合的方法。利用新的感知度量损失函数来判别图像特征级别的相似性,使得所提取的特征在语义上更加相似(相对于 Pixel 级别的损失函数);通过在训练过程中平衡生成器和鉴别器、驱动网络模型的强大特征表现能力,训练出一个图像生成模型以及图像判别模型.本文提出的模型具有提高特征相似度量性能、稳定网络模型训练过程的能力。同时文中还探讨了训练数据集和像素损失对图像生成的影响,分析了感知损失表示在图像生成方面产生更好性能的条件。 本文提出了一种基于微调模型和结合多特征融合的图像内容检索方法。该方法利用对现有 CNN 模型进行微调并在此过程中加入不同结构的多特征融合思想:一是多尺度卷积核的特征融合;二是基于跳层连接的浅层深层特征融合。本文利用 PCA 与哈希方法组合的策略,将微调模型提取的融合特征用于图像检索领域以提高任务的性能。实验结果表明,本文提出的基于多特征融合的模型微调可以提高 CBIR 的性能,并且原始模型的 mAP 增加 10%到 20%。 
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217