基于单样本学习的数字抠图算法计算机研究

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:25322 论文编号:sb2020082911254133008 日期:2020-09-13 来源:硕博论文网
然而,手绘过程耗费大量人工成本,浪费太多时间。针对以上问题,本文提出了基于单样本学习的数字抠图方法,最大程度上减轻用户交互工作量。通过几次交互点击生成与用户手绘相类似的三分图,并能够很快生成最终的抠图结果。与基于三分图的数字抠图算法相比,本算法减轻了交互工作量,节约了时间。与基于草图的数字抠图算法相比,本算法具有更好的鲁棒性,能够生成更准确的抠图结果。与自动抠图算法相比,本算法能够处理前景目标复杂,前景目标出现多目标、多语义类的情况。

第一章 绪论

1.1 研究背景及意义
1.1.1 研究背景
数字抠图(Digital Matting)最早由 Porter et al.[1]提出,是计算机视觉领域的一项重点研究内容,广泛的应用于气象播报以及电影拍摄中。以电影拍摄为例,演员站在一个绿色或者蓝色的幕布前进行拍摄,拍摄完成后再进一步为演员更换一些虚拟背景。处理后的合成图像中前景到背景过渡自然,人们很难察觉出该图像是合成图像。挑选绿色或者蓝色的幕布是因为这些颜色与人身上的着装颜色有很大区别,更容易区分前景和背景。此外,再加上适当的打光,这样就可以抠出非常完美的前景目标。然而,在现实情况下我们不可能在总是在幕布前拍摄,照片背景会复杂多样,并且前景和背景之间会出现半透明区域(毛边:人的头发、动物的毛发等)或者前景本身就有半透明性质(塑料袋、玻璃、烟雾等)。半透明区域中像素既属于前景也属于背景,它们的前景、背景咨询叠加在一起。数字抠图算法就是求解半透明区域中每个像素前景颜色与背景颜色之间混合比例的算法。
1.1.2 研究意义
现存的数字抠图方法都依靠用户提供额外的资讯信息(三分图、草图)来实现。但是提供额外的咨询信息存在以下三个问题:1)对每一张图像绘制准确的三分图耗费大量的人力成本。我们进行了手绘三分图耗时测试。我们选取了 10 名志愿者使用绘图软
图 1-2 在几种形式的约束条件下得到的数字抠图结果
...........................

1.2 国内外研究现状
1.2.1 数字抠图方法
数字抠图方法主要分为四类,分别为基于用户交互的蓝屏的数字抠图算法、基于三分图的数字抠图算法、基于草图的数字抠图算法以及无需用户交互的自动抠图算法。
基于蓝屏(Blue-Screen)的数字抠图算法[4, 5]通过简化背景颜色来解决数字抠图问题。该算法的思路是在不同的背景颜色下拍摄前景物体,随后通过区分两张图像间的差异来实现数字抠图。通过此种方法处理后背景颜色 B 已知,公式 1(RGB 图像)中只剩下 4个未知量,3 个等式,未知量大幅减少。然而在现实拍摄过程中,图像背景颜色不可能为单一颜色。Mishima et al.[5]提出基于前景背景特征通过统计学方法来提升蓝屏抠图效果,但依然受制于背景颜色单一问题。
基于三分图(Trimap-Based)的数字抠图算法[2, 6-9]需要用户交互设计一张完整的三分图作为输入条件。Chuang et al.[2]提出了贝叶斯抠图算法,通过前景分布和背景的颜色分部来推测半透明区域的前景颜色、背景颜色以及混合比例。他们将调整后的前景颜色、背景颜色以及混合比例看成后验概率,调整前的前景颜色、背景颜色以及混合比例看成先验概率,将优化的过程看成调整因子(Likelyhood),利用贝叶斯公式迭代优化,进而解决抠图问题。作为贝叶斯抠图的改进,Sun et al.[7]提出了闪光灯抠图。基于相机的闪光灯功能,在拍摄瞬间可以得到两张照片,其中一张是原照片,另一张是闪光灯下拍摄到的照片。由于两张照片基本同时拍摄得到,并且照相机位置没有发生变化,所以两张照片上像素是一一对应的。这样就可以同时得到两个等式(公式 1)。通过作者分析,两张图片中未知区域的半透明度不发生变化,所以两个抠图等式中? 保持不变。并且闪光灯是点光源,光线递减很快,光线无法传递到背景,所以两个抠图等式中背景 B 保持不变。所以抠图问题转化为通过 2 个等式预测 4 个未知数。与贝叶斯抠图中 1 个等式 3 个未知数相比,未知数数量减少,所以得到了更为精确的抠图结果。Levin et al.[9]提出了封闭式抠图算法。作者基于图像局部光滑的假设,利用代数方法推导出最终的抠图结果。作者假设在图像中的一小块区域内前景颜色 F 、背景颜色 B 保持不变,则像素的透明度? 与观察到的颜色值C 在此小块区域内之间具有线性关系。该论文中定义目标函数为?的预测值与真实值之间的差,通过最小化目标函数的值求出透明度的解析解。Sun et al.[8]将珀松方程应用于未知区域像素颜色混合比例求解中。首先,该算法通过用户提供的三分图中的未知区域信息求解泊松方程,从连续的混合度梯度场中重建抠图结果。其次,论文中设计了滤波器用于交互操纵混合度梯度场,致使用户可以进一步交互改进局部的抠图结果,直到用户满意为止。改进后的局部信息能够无缝地集成到最终抠图结果结果中。
..............................
 
第二章 相关工作

2.1 交互式数字抠图算法
数字抠图和图像分割不同,图像分割的任务是将每个像素都划分出一个类别,而数字抠图将每个像素颜色视为前景颜色以及背景颜色以一定比例混合而成的,最后求解出来的是混合比例。如果一张图像中只有前景背景两个类别,分割会将每个像素分成(0、1)两个类别,所以目标边界处会比较粗糙,我们称一般的分割任务为‘硬’分割。而数字抠图会将绝对前景绝对背景像素置为 0 或 1,目标边介于 0 到 1 之间,所以抠图结果会出现渐变效果,我们一般称数字抠图任务为‘软’分割。数字抠图算法繁多,本小节对几种主要的交互式数字抠图算法进行介绍和分析。方法包括基于贝叶斯理的数字抠图算法(Bayesian Matting)[2]、通过求解析解实现抠图的算法(Closed-form Matting)[9]以及精度最高的基于深度神经网络的数字抠图算法(Deep Image Matting)[24]。
(1)基于贝叶斯理论的抠图算法
Chuang et al.[2]提出了基于贝叶斯理论的数字抠图算法(Bayesian Matting)。算法的输入为原始图像以及手工标注的三分图。由于用户提供了部分交互资讯,图像C 中部分像素的 alpha、F 、B 为已知量(由等式 1 可知)。该算法先选取一小块区域,利用区域中前景、背景颜色分布来推断未知区域的颜色分布(具体过程参见图 2-1)。将绝对前景分布和绝对背景分布在颜色坐标中表示出来(图 2-1(1)),可以看出前景、背景分布呈椭圆形。可以通过高斯模型来拟合这种分布。作者通过迭代预测黄色圆圈中心点的前景
图 2-1 基于贝叶斯理论的抠图算法
...........................

2.2 基于单样本学习的图像分割算法
单样本或少量样本学习(One/Low-shot Learning)都是用来识别未知语义类的算法。在极端条件下,基于单样本学习的方法可以依靠一个标注样本识别一个未知语义类。单样本或少量样本学习模型普遍为双分支结构,一个分支用于从标记图像中提取未知类的语义信息作为监督。另一个分支利用语义信息引导未标注图像进行识别、分类。近年来,单样本或少量样本学习已经被成功应用于像素级(Pixel-Level)分类,实现了在仅有一个标注样本的条件下,识别出未标注图像目标区域。本小节主要介绍两种单样本或少量样本学习的图像分割算法。
(1)基于单样本学习的语义分割
Shaban et al.[22]首先将单样本学习应用于语义分割,现实了以一张图像以及一张相对应的密集标注图(手工标注标签)的前提下,分割未知语义类。作者基于孪生网络提出了双分支模型 OSLSM。网络分为条件分支和分割分支,条件分支输入为标注图像以及相对应的标签,输出动态参数用于引导分割分支运行。分割分支首先提取未标注图像特征,随后以动态参数作为指导实现对未标注图像的像素分类。分割分支可以看作是在全卷积神经网络(FCN)后添加一个类似卷积层,并且该卷积层中的参数由生成的动态参数提供。OSLSM 网络结构(如图 2-3),其中 w 、b 代表生成的动态参数c(.,w,b) 代表类似卷积层。
.................................

第三章 基于单样本学习的数字抠图算法........................................ 15
3.1 算法概述...................... 15
3.2 算法设定.................................. 15
3.3 基于单样本学习的三分图生成方法............. 17
第四章 数据集与实验结果分析............................... 24
4.1 数据集................................. 25
4.2 实验结果分析........................... 25
第五章 总结与展望......................................... 36
5.1 工作总结................................... 36
5.2 工作展望................................... 36

第四章 数据集与实验结果分析

4.1 数据集
本文选择 PASCAL-VOC2012 [28]数据集训练本模型trainD 。PASCAL-VOC 中包括 21个语义类(飞机,自行车,鸟,船,瓶子公共汽车,汽车,猫,椅子,牛,餐桌,狗,马,摩托车,人,盆栽植物,羊,沙发,火车,电视/监视器,背景)。在实验 1 中,本文在标准抠图数据集[26]上对所提出的算法的性能进行了评估,此数据集中包括 27 张图像以及相应的标准 Alpha Matte 以及三分图。数据集中的三分图是由专业人员通过不同大小的画笔工具手工绘制而来的。由于专业人员使用的画笔尺寸不同,数据集中得到的三分图分为两种,我们将其命名为(Trimap-1)以及(Trimap-2)。在实验 2 以及实验 4中,为了证明所提出模型对于未知语义类的泛化能力,我们从 Adobe Matting 数据集[24]中选取 20 张图像以及它们相对应的标准 Alpha Matte,由图 4-1 所示。其中每一行图像属于相同的语义类。
在此实验首先比较三分图的精确度。本实验选取标准抠图数据集[26]中所有图像进行测试。为了取得更为精确的结果,本实验将支撑图像和分割图像置为同一张图,这种三分图生成方法可以被理解为交互式分割方法。本实验采用所有语义类 ( )train oracleD l 训练网络模型。部分可视化结果如图 4-2。本实验通过两个度量标准来验证本算法。1)平均值绝对误差 MAE(Mean Absolute Error),
2)未知区域的交并比 IOU(Intersection overUnion)。
图 4-2 实验 1:部分实验结果展示。
..........................
 
第五章 总结与展望

5.1 工作总结
数字抠图是计算机视觉研究领域的一项重要分支,受到众多科研人员的高度关注。针对抠图问题的欠约束性,传统的方法需要用户手绘三分图或草图来求解每个像素的前景颜色、背景颜色以及其混合程度。然而,手绘过程耗费大量人工成本,浪费太多时间。针对以上问题,本文提出了基于单样本学习的数字抠图方法,最大程度上减轻用户交互工作量。通过几次交互点击生成与用户手绘相类似的三分图,并能够很快生成最终的抠图结果。与基于三分图的数字抠图算法相比,本算法减轻了交互工作量,节约了时间。与基于草图的数字抠图算法相比,本算法具有更好的鲁棒性,能够生成更准确的抠图结果。与自动抠图算法相比,本算法能够处理前景目标复杂,前景目标出现多目标、多语义类的情况。
本文的创新点在以下两个方面:
(1) 本文提出的基于单样本学习的数字抠图方法,首次将单样本学习技术与数字抠图技术相结合。本方法通过用户提供的几次点击生成三分图,无需用户手绘,降低了用户交互工作量。并且算法具有更好的鲁棒性,能够取得相对高的抠图精度。
(2) 本文提出的模型可以有效的提取未知语义类的表征,并利用此语义表征作为指导生成三分图。这意味着对于任意未知语义类中的所有图片,本方法仅需标注其中一张,就可以得到此语义类中所有图像的三分图。进一步降低了用户交互工作量。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217