基于深度学习的视觉—语言跨模态计算机匹配分析

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:45885 论文编号:sb2020012720565029327 日期:2020-02-14 来源:硕博论文网
本文是一篇计算机论文,本文首先将论文分为了开词集和闭词集两大部分,其中第三,四章围绕闭词集进行,第五章围绕开词集进行。在第三章,本文分析了交叉熵损失被直接应用于数据标注不完整,样本不均匀的视觉语言匹配任务时的问题,针对这些问题问题,在现有工作的基础上,本文提出了一种层次化奖励函数;针对模型在训练随机采样的不足,第四章本文进一步提出了一种难负样本挖掘策略,并首次将知识库模型应用于监督学习的视觉-语言匹配任务中来提供更丰富的类别信息。第五章本文在现有的基于互联网的开词集框架基础上,通过挖掘高质量图像区域来提高匹配精度,并提出游记配图应用,为了验证该应用性能,我们提出了相关数据集TVN25。

第 1 章 绪论

1.1 课题背景及研究意义
1.1.1 课题背景
随着人机交互 (计算机接收人类语言,声音,视觉等多模态信息) 的发展,信息往往同时存在于图像,视频,声音,文字等多种模态中,单一模态的信息往往难以满足人们的要求,人们对计算机可以处理多模态信息的需求也越来越强烈。广义地,多模态的信息处理指待处理任务需要同时接受存在于多个模态的信息,本文重点研究视觉和语言两个模态。得益于人工智能的快速发展,近几年,自然语言处理和计算机视觉在各自领域都得到了快速发展。但两种模态的混合,尤其是复杂的语言而不仅仅是单词与图像的混合处理仍然极具挑战性。虽然对于人类来说,将对某个物体的文本描述与其对应的视觉信息联系起来非常简单,但对计算机却非常困难。这主要由于:1) 物体内容的多样性:得益于常年知识的积累,人类可以广泛地了解各种物体类别并大概率可以轻易地将如“哈士奇”,“金毛”,“萨摩耶”等不同物体区分开来,但是对于计算机而言,即便大如 MSCOCO[1] 检测数据集,其类别仍然只有 91 类,如何有效地利用现有知识去推测未学习知识是一个具有挑战的点;2) 前后缀的多样性:当人们去描述一个物体时,加上前缀后缀是很普遍的事情,但是对于计算机而言这就相当于产生了无穷可以排列组合的类别,并且需要判断每个前后缀的重要性;3) 语言的歧义性:很多文字描述在脱离了上下文的情况下就会产生歧义,例如“另一个男人”,如果没有上下文信息,定位到“另一个男人”几乎是不可能的,因此需要计算机能够处理全局信息。
为了实现更准确地视觉-语言匹配,本文通过引入知识辅助网络来增加网络的类别多样性,并强调了上下文物体的重要性,因为本文所用的视觉-语言匹配数据集存在物体类别不均匀,标注不完整等缺陷,这是由于视觉-语言匹配类别众多所造成的,我们根据上下文信息动态调整学习率,挖掘难负样本,并惩罚那些属于上下文却被判别为目标物体的图像区域,实验证明了上下文信息可以有效地降低语言的歧义性,提升匹配的准确率。另一方面,我们强调了开词集的重要性,随着互联网时代的带来,每天都会诞生许多新的词汇,在这种情况下,人们不希望自己语言中所使用的单词被局限在一个有限的词汇表里(相对地,闭词集:即只能使用词汇表内的单词),而是可以随心所欲使用任意单词,以往的工作大部分基于闭词集,即使用的单词只能在一个有限的词汇表中,对此,本文在前人工作的基础上,利用挖掘高质量来提高模型性能,并提出了“游记配图”应用和相关数据集TVN25,该工作的高扩展性(开词集)和低成本(弱监督)有利于视觉-语言匹配在大规模商业化中的应用。
...........................

1.2 视觉-语言匹配相关工作的研究概况
视觉-语言匹配任务通常分为短语级(匹配输入短语和对应的图片区域), 句子级(匹配输入句子与对应的图片),如图1-1所示,下面我们将分别进行介绍这两种不同级别的匹配任务。
短语级的视觉-语言匹配任务定义为如下形式,给定一系列的图像区域 O ={oi}Ni=1和一个待匹配的短语文本 q,我们希望寻找到语义上最符合 q 的图像区域oi。通常我们有两种方法来解决这个问题,一种是使用 CNN-LSTM 形式的结构[2–5]来为每个短语-图像区域对评分,该评分即 P(q|o),即寻找一个图像区域 o 使得P(q|o) 最大。另外一种方法[6–8] 直接通过构建联合概率 P(q, o) 来给每一个短语-图像对评分,通常直接根据联合概率空间内短语和图像特征的距离 (欧几里得距离或余弦距离) 来进行评分。
句子级的视觉语言匹配通常定义为:给定许多张图片 O = Ij 和一个句子 S,其目的是寻找图片 Ij,使得图片 Ij和句子 S 之间的语言相关性最高。为了解决这个问题,学习模态之间的相关性是一个通常的做法。常用的方法例如典型相关型分析 (CCA)[9], 典型相关型分析试图求取两个集合变量之间的相关性,典型相关分析也是一种经典的学习不同领域特征投影公共空间方程的方法。后来许多工作基于典型相关型分析对其进行了扩展,例如利用核方法来更好地进行非线性投影的Kernel CCA[10]; 利用深度学习来学习投影方程的 Deep CCA[11]。与将文本特征 p 和图片特征 r 投影到共同空间来学习联合概率分布 P(r, p) 所不同的是,Yu 等人[2] 通过对每个图片进行包括类别,方位和关系等多个属性判断,判断最符合属性要求的图片,即建立 p(r|p), 并寻找使其概率值最大的 r。
................................

第 2 章 视觉-语言匹配的相关理论基础

2.1 人工神经网络
基于深度学习的视觉—语言跨模态匹配
..............................

2.2 卷积神经网络-视觉特征提取器
图像或视频的维度通常较高,若采用人工神经网络的方式提取特征(即全部使用全连接层)参数会十分冗杂,针对图片这个特殊的数据形态,卷积神经网络应运而生,并使用局部连接和权值共享等操作,使得模型的规模和参数量大大下降,
在本小节,将首先介绍卷积神经网络的模型构成,以及感受野和权值共享等概念。
2.2.1 模型背景介绍
基于深度学习的视觉—语言跨模态匹配
............................
 

第 3 章 基于层次化奖励反馈的视觉-语言匹配 .......................23
3.1 问题背景介绍 ............................ 24
3.1.1 模型目标在训练和推理时的隔阂 .................................. 24
3.1.2 交叉熵损失处理类别不平衡数据的低效性 ................................... 24
第 4 章 基于知识库的难负样本感知的视觉-语言匹配 ................................45
4.1 问题背景介绍 .................................... 45
4.1.1 难负样本挖掘 ................................... 45
4.1.2 上下文物体的先验知识 .................................... 47
第 5 章 弱监督的开词集句子级视觉-语言匹配 .........................................59
5.1 问题的定义 .............................. 60
5.2 框架总览 ............................. 60

第 5 章 弱监督的开词集句子级视觉-语言匹配

5.1 问题的定义
基于深度学习的视觉—语言跨模态匹配
...........................

结论


随着人机交互的大力推广与发展,单模态的信息已不能满足人们的需求。视觉-语言匹配任务作为这两个模态高级任务的基石,可以促进几乎所有跨视觉-语言模态的任务的发展。视觉-语言匹配与物体检测任务有一定的相似性,但后者类别通常较少且粗略,而前者类别中的短语和句子有近乎无穷的变换,因此该任务对模型的泛化能力提出了更高的要求。
本文首先将论文分为了开词集和闭词集两大部分,其中第三,四章围绕闭词集进行,第五章围绕开词集进行。在第三章,本文分析了交叉熵损失被直接应用于数据标注不完整,样本不均匀的视觉语言匹配任务时的问题,针对这些问题问题,在现有工作的基础上,本文提出了一种层次化奖励函数;针对模型在训练随机采样的不足,第四章本文进一步提出了一种难负样本挖掘策略,并首次将知识库模型应用于监督学习的视觉-语言匹配任务中来提供更丰富的类别信息。第五章本文在现有的基于互联网的开词集框架基础上,通过挖掘高质量图像区域来提高匹配精度,并提出游记配图应用,为了验证该应用性能,我们提出了相关数据集TVN25。
第三章首先我们分析了在物体检测领域表现优异的交叉熵损失被直接应用到视觉-语言匹配任务中的问题:第一,模型目标在训练和推理时存在隔阂;第二,交叉熵损失在类别不平衡数据集上表现较差;第三,由于数据集标注不完整与单短语输入造成的歧义性,将可能与正样本存在较大语义关联的上下文物体视为与背景物体一样的负样本,会造成样本标注错误形式的后果。为缓解这些问题,我们提出了层次化奖励函数,该方法有效主要由于以下几点:第一,训练目标与推理目标相近,减少了模型训练与推理直接的隔阂;第二,通动态学习率,侧面的对数据集正负样本数量进行调整,缓解了正负样本数量不平衡的问题;第三,针对Flickr30K Entities 数据集标注的特殊性,对与目标物体语义相近的负样本较少的惩罚,保留了上下文物体和正样本的语义关系。此外,我们改进了描述性短语定位领域常用的三元组损失函数来引导投影模块产生更有判别力的投影特征,为了防止难负样本引起梯度动荡,我们提出了混淆矩阵来实现由简到难的学习。最后,我们在 Flickr30K Entities 数据集上验证了我们性能的有效性和广泛的适用性。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217