第一章 绪论
1.1 研究背景与意义
1.1.1 研究背景
用眼睛观察世界时,我们的大脑不仅能识别物体的边缘轮廓,进行分类,还能识别它们的差异以及相互之间的关系。这种将图像不同区域区分开来的过程称为图像分割[1]。图像分割是计算机视觉领域的基础研究,已在可视化[2]、三维重建[3]、自动驾驶[4]等方面得到了广泛应用。
现有的图像分割方法有很多种:
阈值法[5]适用于目标灰度值均匀分布在背景灰度值之外的图像,对背景较为复杂的图像分割效果不佳;
基于边缘检测的方法[6]对于图像中的噪声比较敏感;
基于区域的方法[7]往往会使得分割结果出现过分割、欠分割的现象;
基于聚类[8]的分割方法需要人工干预(初试位置的选择和参数的人工设置),参数选择不适会大概率的影响到聚类结果的正确性和精确性; 基于超像素[9]的图像分割方法由于特征选择问题,缺乏物体独立性指导,导致对于物体边界的精确度有所欠缺;
基于人工神经网络[7]和深度网络的图像分割方法在整体性能比较突出,但是存在需要使用大量的标注训练数据、分割结果依赖训练数据的问题。
精准的图像分割作为基础研究在计算机视觉、计算机图形学、机器人视觉等相关领域起着至关重要的作用。随着越来越多的图像种类的出现,对图像分割算法提出了新的挑战和要求。本文将在当前研究基础上,针对图像分割在某类图像或某类图像特征方面进行改进和研究。
............................
1.2 国内外研究现状
目前图像分割领域有相当多的研究成果和方法,本文主要对针对超像素算法、基于聚类的算法和基于深度学习的算法做了相关研究和文献综述。
超像素算法利用像素间的相似性将像素组合成具有一定意义的区域,提供便于计算的图片特征,得到一个精确度比较高的分割结果。基于图的方法包括 Boykov 等人于 2006 年提出的 Graph-based[10]算法,图像中每个像素看成一个普通顶点,通过将顶点分到前景和背景两个集合得到分割结果;Wu 等提出 Ncut[11]算法将图像的分割问题转化为求解对应图的最小割问题。基于梯度计算的方法包括 Mesnshift[12]算法,该方法通过定位目标函数的局部最大,将具有相同模点的像素聚在一起形成超像素区域。Turbopixel[13]以及 SLIC[14]通过计算图像中像素间的距离和颜色相似度计算得到超像素。但超像素算法有时不能很精确的计算得到图像边界,即有些精细边界的分割存在不准确的问题。
基于聚类的算法首先确定聚类中心,通过不断调整和优化聚类中心,使类内方差值达到最小实现聚类。其中,K-means[15]算法计算速度快,复杂度低(O(n));模糊 C-均值算法(FCM)[16]不需要人工干预,但聚类结果的正确性受初始化参数的影响;当遇到具有较多特征数目的大数据集时,可以使用 FCM 算法,不能快速收缩从而得到聚类结果;Mean-Shift算法[17]通过计算滑动窗口中的均值来更新中心点的候选框,以此找到每个簇的中心点,该方法能得到较为理想的聚类结果。谱聚类[18] 算法将带权无向图划分为最优子图以达到聚类的目的。基于聚类的算法往往需要人工设置参数,当参数不合适时,就有可能影响到聚类结果的正确性,且运行部分算法如深度学习算法时,如数据量较大,算法的实时性较差,无法快速得到我们想要的分割结果。
..........................
第二章 相关知识
2.1 图像分割算法
图像分割的方法种类繁多,在本章中对几种主流的分割算法做了概述,并对其中较为经典的算法做了介绍,如超像素算法中的 SLIC 算法,聚类算法中的 K-means 算法,神经网络算法中的 FCN 算法。
2.1.1 超像素算法
超像素算法利用像素间的相似性将像素组合成具有一定意义的区域,来提供便于计算的图片特征,常作为图像分割算法的预处理步骤,和其他算法结合得到一个高精确度的分割结果。超像素算法常分为两大类,在基于图论的超像素方法中,通过计算像素之间的相似性得到表示成节点的像素间的边权值,此时通过移出特定的边,将原图划分为若干个子图完成图像分割。常见的基于图论的方法包括 Graph-based 算法、NCut 算法等。基于梯度上升的方法有 Mesnshift 算法、Quick-Shift、Turbopixel 以及 SLIC 算法,它们通过不断迭代来细化超像素直到收敛,以此来优化分割结果。
第二章 相关知识
2.1 图像分割算法
图像分割的方法种类繁多,在本章中对几种主流的分割算法做了概述,并对其中较为经典的算法做了介绍,如超像素算法中的 SLIC 算法,聚类算法中的 K-means 算法,神经网络算法中的 FCN 算法。
2.1.1 超像素算法
超像素算法利用像素间的相似性将像素组合成具有一定意义的区域,来提供便于计算的图片特征,常作为图像分割算法的预处理步骤,和其他算法结合得到一个高精确度的分割结果。超像素算法常分为两大类,在基于图论的超像素方法中,通过计算像素之间的相似性得到表示成节点的像素间的边权值,此时通过移出特定的边,将原图划分为若干个子图完成图像分割。常见的基于图论的方法包括 Graph-based 算法、NCut 算法等。基于梯度上升的方法有 Mesnshift 算法、Quick-Shift、Turbopixel 以及 SLIC 算法,它们通过不断迭代来细化超像素直到收敛,以此来优化分割结果。
当我们用一些标准对现有超像素方法进行分割速度、边界连接能力和分割性能评估时,我们发现简单线性迭代聚类(Simple Linear Iterative Clustering ,SLIC)算法分割效果优于其他算法,不仅对图像边界有较好的保留度,还具有更快、更高的存储效率,最终生成的超像素也更为紧凑。
Achanta 等人在 2012 年提出的 SLIC 算法,通过计算每个像素的 5 维向量间的距离得到像素间的相似性,然后通过聚类得到分割结果。该 5 维向量由每个像素的 Lab 颜色值和空间位置坐标组成。N 为图像中总像素的个数,则在初始化时,在每间隔S = √?????个像素时进行采样得到 k 个初始聚类中心。为了避免将超像素定位在边缘上和噪声上,通常将中心移动到 3*3 领域中梯度位置最低的位置。这种在超像素中心周围的区域 2S*2S 中进行限制搜索的方法,与 K-means 聚类中每个像素与所有聚类中心进行距离计算的常规搜索相比,明显减少了像素点与聚类中心的距离计算。
..............................
2.2 语义哈希算法
语义检索[23]通过一组哈希函数将高维空间向量映射到低维空间,使新空间向量间的距离与原空间保持一致。为了解决算法中计算开销较大,耗时过长的问题,引入语义哈希模型,加速寻优过程。根据监督信息的有无可以分三类:无监督算法,没有标记数据的存在,仅利用数据本身进行检索;半监督算法,监督信息不足,存在少量的标记数据以及大量的未标记数据,同样可以得到较好的结果,有监督算法,根据标记数据训练模型,但大部分的监督哈希方法的学习效率比非监督哈希慢。
2.2.1 算法综述
语义检索[23]通过一组哈希函数将高维空间向量映射到低维空间,使新空间向量间的距离与原空间保持一致。为了解决算法中计算开销较大,耗时过长的问题,引入语义哈希模型,加速寻优过程。根据监督信息的有无可以分三类:无监督算法,没有标记数据的存在,仅利用数据本身进行检索;半监督算法,监督信息不足,存在少量的标记数据以及大量的未标记数据,同样可以得到较好的结果,有监督算法,根据标记数据训练模型,但大部分的监督哈希方法的学习效率比非监督哈希慢。
2.2.1 算法综述
有监督哈希算法可以根据标记数据训练模型,得到理想的结果。revor 等提出的二进制重建嵌入[24](Binary Reconstruction Embedding, BRE),通过最小化数据项在原始空间距离和汉明空间距离之间的误差构建哈希函数,经过哈希函数得到各数据相应的二进制表示,
最终得到彼此之间的汉明距离。当数据集样本较大及二进制较长时,BRE 算法需要较长的训练时间才能得到最终结果。Wei liu 等提出的基于核函数的哈希方法(Supervised Hash with Kernels, KSH)[25],首先使用内积法计算汉明距离得到相互之间的相似度,使用贪婪算法逐位采用梯度下降求得最优解。但是核函数在高维特征上的训练和测试的开销非常大。Mohammad 等提出了损失最小哈希(Minimal loss Hashing, MLH)[26],通过训练一种保存相互之间的相似度的投影矩阵作为哈希函数,将高维数据映射成二进制编码。有监督的离散哈希(Supervised Discrete Hashing,SDH)[27],通过引入一个辅助变量,对目标进行了重新表述,使其能够通过正则化算法得到有效解。最终以有效的计算方式获得高质量的离散解,从而能够处理海量数据集。
..............................
第三章 基于特征语义模型的复杂结构图像分割算法......................................... 13
3.1 复杂结构图像 .................................. 133.2 问题描述 ................................... 14
3.3 本文方法 ..................................... 15
第四章 多视图特征语义无监督图像分割算法 ..................................... 23
4.1 研究动机 .......................................... 23
4.2 本文方法 .................................... 24
第五章 总结与展望........................................ 39
5.1 工作总结 ....................................... 39
5.2 工作展望 ....................................... 39
第四章 多视图特征语义无监督图像分割算法
4.1 研究动机
图像分割是计算机视觉中基础的研究问题之一,是物体识别、机器人视觉和医学图像处理等许多应用的基础,其目的是将感兴趣的区域标记出来。因为不同的区域可能会有不同的背景和不同的视觉条件,因此图像分割这一过程具有挑战性。

.............................
第五章 总结与展望
5.1 工作总结
图像分割是计算机视觉中基础的研究问题之一,从上世纪七十年代以来就受到众多研究人员的高度重视。针对复杂结构的图像,传统的方法会出现分割准确度下降、过分割或欠分割、人工参与过多和调参困难等问题,针对这两种类型的复杂结构图像,提出像素级语义相似度度量函数,结合语义哈希模型提出分割算法并实现。通过对比实验,从仿真时间和评价指标方面验证了本文方法的有效性。基于人类感知研究成果,对于不同类型的图像,不同视图特征(显著性、景深、颜色等)的贡献度是不相同的。传统分割算法将多视图特征合并为长向量进行计算,没有考虑不同视图特征对不同图像的贡献度不同的问题。本文为解决这一问题,提出多视图特征分割算法。在图像多视图特征空间,通过最小化特征相似度距离函数,提出特征选择矩阵,寻找最优的特征投影平面,使得多视图特征投影具有最好的图像分割效果。通过与最新的无监督图像分割算法和基于深度学习的分割算法进行的对比实验,验证了本文算法的有效性和先进性。
本文的工作包括:
(1)对当前图像分割算法、语义哈希算法进行文献综述,分析和发现存在的问题。
(2)针对两种类型的复杂结构图像,提出像素级语义相似度度量函数,结合语义哈希模型提出分割算法并实现。通过对比实验,从仿真时间和评价指标方面验证了本文方法的有效性。
(3)我们提取空间、颜色、显著性和深度等多视图特征后,将特征通过潜在的问题解平面进行投影得到低维特征,提出多视图特征语义图像分割算法并实现。通过在 BSD500,Pascal VOC 2012 等数据库与最新无监督分割算法、深度学习算法进行定性和定量对比实验,验证了本文方法的优异性。
(1)对当前图像分割算法、语义哈希算法进行文献综述,分析和发现存在的问题。
(2)针对两种类型的复杂结构图像,提出像素级语义相似度度量函数,结合语义哈希模型提出分割算法并实现。通过对比实验,从仿真时间和评价指标方面验证了本文方法的有效性。
(3)我们提取空间、颜色、显著性和深度等多视图特征后,将特征通过潜在的问题解平面进行投影得到低维特征,提出多视图特征语义图像分割算法并实现。通过在 BSD500,Pascal VOC 2012 等数据库与最新无监督分割算法、深度学习算法进行定性和定量对比实验,验证了本文方法的优异性。
参考文献(略)