第一章 绪论
1.1 研究背景
在信息和网络极度发达的当今社会,信息在扮演着越来越重要的角色。人们在生活和工作中大量的行为和决策都依赖于信息的拥有量,信息的拥有量甚至决定了人类文明的进步和发展速度。继而,面对快速大量增长的数据,如何快速获得信息中的价值以及隐藏在信息中的规律已经逐渐成为当今学术研究中的重点方向,而随着这一方向研究的逐渐深入,机器学习(Machine Learning)的发展也得到了极大的推动。并不仅限于作为人工智能领域的核心研究方向,机器学习甚至已经成为了整个计算机领域中关注度和应用发展潜力都很高的领域。那么面对大量的信息,如何筛选出人们想要的适用于特定场景和特定时间的信息就成了一个关键点。因此,信息分类的重要性体现了出来。通过对信息的分类,可以提高人们对信息的管理和使用率,也解决了人们面对大量信息时的无从着手和处理效率低下的问题。因此作为机器学习中一种被重点需求的学习方法,分类方法现在已经获得了广大研究者的高度关注和研究热情。
依据有无训练样本标签信息这一判断,分类学习的学习类型能够被划分为监督学习[1],无监督学习[2]以及半监督学习[3-4]。在传统分类学习中一般需要满足两个基本的假设:(1)用于训练的样本和新来的测试样本需要满足独立同分布的条件;(2)一个好的模型需要存在大量的训练样本帮助训练才能得到。但是在实际的生产生活中,往往这两个条件无法得到满足。首先,随着时间的变迁和推移,本来作为训练主要依据的有标签的样本数据可能变得不再可用,与新来的测试样本之间产生分布上的区别。比如,股票数据就是很有时效性的数据,利用去年的训练样本训练得到的模型并不能很好地帮助预测今年新得到的样本;在 Web 挖掘中,由于 Web 上的主题更新速度很快,以至于对 Web 来说,用于训练网页分类模型的 Web 数据在过后的某一时间点容易失效过时。另外,有标签的样本数据往往很匮乏,而且获得这类样本需要较高的代价并且耗费时日。因此怎样充分利用过去的信息帮助即时信息的分类成为了一个关键问题。在现实生活的很多实际应用中,人们容易得到足量的未标记样例。同时,像图像中的对象识别、语音识别、新闻文章的主题分类以及推荐系统的工作等这样的很多应用场景,都需要充足的用户数据。所以,怎样利用容易得到的大量未标记的源领域样例和难获得的少量有标记的目标域样例来训练对于目标域来说可靠的模型就成为了一个亟需关注的问题。
..........................
..........................
1.2 研究现状
在本小节中,研究现状将从两个方向来叙述,领域自适应和自步学习。
1.2.1 领域自适应
现有的领域自适应分类方法大致可以概况为两种:半监督域自适应方法和无监督域自适应方法。下面是对这两种方法研究现状的一些总结和概括。
(1)半监督领域自适应方法
在这种场景下,源域满足所有样本都有标签信息,而目标域只有一部分样本拥有标签信息。这类方法的重点是充分利用源域和目标域的标签信息来帮助探寻两个领域之间的关系。这些方法又可大致分为两类,即,基于特征的半监督学习方法和基于样本的半监督学习方法。
基于特征的半监督方法中,有一些比较有代表性的文章[20-21]。Saenko K 等人[20]提出了一种度量学习算法,该算法利用源域和目标域中所有的有标签的样本去学习一个线性变换,在该变换的作用下,所有样本被映射到一个具有域不变特性的特征空间中。Qiu Q 等人[21]则给出了一个字典学习算法,在这种方法中,作者基于两个域中的带标签的样本进行了字典编码,通过这种做法使得样本的特征具有了域不变性和稀疏性。
在本小节中,研究现状将从两个方向来叙述,领域自适应和自步学习。
1.2.1 领域自适应
现有的领域自适应分类方法大致可以概况为两种:半监督域自适应方法和无监督域自适应方法。下面是对这两种方法研究现状的一些总结和概括。
(1)半监督领域自适应方法
在这种场景下,源域满足所有样本都有标签信息,而目标域只有一部分样本拥有标签信息。这类方法的重点是充分利用源域和目标域的标签信息来帮助探寻两个领域之间的关系。这些方法又可大致分为两类,即,基于特征的半监督学习方法和基于样本的半监督学习方法。
基于特征的半监督方法中,有一些比较有代表性的文章[20-21]。Saenko K 等人[20]提出了一种度量学习算法,该算法利用源域和目标域中所有的有标签的样本去学习一个线性变换,在该变换的作用下,所有样本被映射到一个具有域不变特性的特征空间中。Qiu Q 等人[21]则给出了一个字典学习算法,在这种方法中,作者基于两个域中的带标签的样本进行了字典编码,通过这种做法使得样本的特征具有了域不变性和稀疏性。
基于样本的半监督学习方法中有一些比较有代表性的文献[22-26]。Bergamo A 等人[22]提出利用已被标记的目标样本来确定被弱标记的源域样本的正确标签,然后基于这些有标签的源域样本和目标域样本再去训练适用于目标域的分类器。Duan L 等人[23]提出在传统的 Least-Squares SVM 中引入两个新的正则化项,这两个正则化项分别利用了连续性假设和带标记的目标样本来构成正则化项,以此来较为准确的描述目标分类器的经验误差。还有一些方法[24-26]提出了基于 Adaboost 的学习算法,在算法实现中,为了判别源域样本是否对目标域学习有用,必须借助少量带标签的目标域样本,来训练适用于目标域的分类器,并将其作为判别器。Jiang W 等人[27]总结了之前基于 SVM 实现知识迁移的方法,这种方法利用源领域知识获得支持向量来迁移知识,并在此基础上,设计了称为 Cross domain SVM 的支持向量机模型,这种方法的一个先决性条件是目标域的部分样本需要拥有标签信息。
...............................
...............................
第二章 课题研究基础
2.1 问题形式化
在理论研究的开始,需要对用到的领域自适应问题进行形式化的介绍和描述。在本章中,一些形式化的概念将首先被介绍,然后对于领域自适应的常见方法进行概述。
2.1 问题形式化
在理论研究的开始,需要对用到的领域自适应问题进行形式化的介绍和描述。在本章中,一些形式化的概念将首先被介绍,然后对于领域自适应的常见方法进行概述。
2.1.1 领域自适应
领域自适应(Domain adaptation)是迁移学习中的一种代表性方法,这种方法利用具有丰富信息的源域信息来帮助训练适用于目标域的分类模型。一般来说,领域自适应中的源域会有充足的监督信息,目标域则监督信息不足甚至没有。
在本小节中,领域自适应的形式化概念将被给出。
机器学习一般的流程可以归纳为下述三步:(1)收集训练集的数据,(2)提取特征,(3)在训练集上依据经验误差最小准则学习分类器。因此,训练集和测试集的分布是否一致会对模型的分类效果造成很大的影响,分布若不一致,很容易在源域产生过拟合现象,降低性能。
基于上述三个不同阶段,现在一般认为存在三种领域自适应方法:(1)样本自适应,此方法对源域样本进行加权重采样,继而使源域逼近目标域的分布。(2)特征层面自适应,此方法一般将源域和目标域投影到公共特征子空间。(3)模型层面自适应,此方法对源域误差函数进行修改,并考虑目标域的误差。本小节的下述部分将详细描述这三种方法。

............................
2.2领域自适应算法分类、
为了计算实例的权重,早期的方法提出了估计源与目标实例的之间概率比率的方法。这可以通过使用领域分类器[30]独立地估计似然值来实现,也可以通过使用 Kullback-Leiber 重要性估计过程[45]直接逼近密度之间的比率来实现。然而,最常用的测量方法是在这两个 领域中的数据分布之间计算出的最大平均离散度(MMD)[46]。Schapire R E 等人[47]提出的方法通过最大熵密度估计推断了再采样的权值。重要性加权双高斯过程[48]则使用相对无约束的最小二乘重要性匹配方式来学习重要权函数,而不需经过密度估计。另外一种选择传递机的方法[49]则通过联合优化权值和分类器参数的方式来保持新的决策边界的判别能力。

.................................
领域自适应(Domain adaptation)是迁移学习中的一种代表性方法,这种方法利用具有丰富信息的源域信息来帮助训练适用于目标域的分类模型。一般来说,领域自适应中的源域会有充足的监督信息,目标域则监督信息不足甚至没有。
在本小节中,领域自适应的形式化概念将被给出。
机器学习一般的流程可以归纳为下述三步:(1)收集训练集的数据,(2)提取特征,(3)在训练集上依据经验误差最小准则学习分类器。因此,训练集和测试集的分布是否一致会对模型的分类效果造成很大的影响,分布若不一致,很容易在源域产生过拟合现象,降低性能。
基于上述三个不同阶段,现在一般认为存在三种领域自适应方法:(1)样本自适应,此方法对源域样本进行加权重采样,继而使源域逼近目标域的分布。(2)特征层面自适应,此方法一般将源域和目标域投影到公共特征子空间。(3)模型层面自适应,此方法对源域误差函数进行修改,并考虑目标域的误差。本小节的下述部分将详细描述这三种方法。

............................
2.2领域自适应算法分类、
为了计算实例的权重,早期的方法提出了估计源与目标实例的之间概率比率的方法。这可以通过使用领域分类器[30]独立地估计似然值来实现,也可以通过使用 Kullback-Leiber 重要性估计过程[45]直接逼近密度之间的比率来实现。然而,最常用的测量方法是在这两个 领域中的数据分布之间计算出的最大平均离散度(MMD)[46]。Schapire R E 等人[47]提出的方法通过最大熵密度估计推断了再采样的权值。重要性加权双高斯过程[48]则使用相对无约束的最小二乘重要性匹配方式来学习重要权函数,而不需经过密度估计。另外一种选择传递机的方法[49]则通过联合优化权值和分类器参数的方式来保持新的决策边界的判别能力。
Gopalan R 等人[51]提出了一种更通用的框架,它使用核方法和依据拉普拉斯特征图的低维流形表示在高维再生核希尔伯特空间(RKHS)中提供了一种域表示方法。另一篇文章[53]受到基于流形的增量学习框架[50]的启发,生成一组中间字典,这些字典平滑地连接源域和目标域,然后利用中间域字典帮助分解目标数据。
作为一种替代特征对齐的方法,Csurka G 等人[56]提出了一套大规模的特征变换方法,目的是将数据投影到一个潜在空间中,从而减少源分布和目标分布之间的差异。其中的投影既可以在域之间共享,也可以是特定于某个域的投影。此外,当迁移学习方法在过程中不使用类别标签时,此方法被称为无监督特征迁移,当迁移学习方法是通过利用类别标签(从源域或从目标域)学习时,称为有监督特征迁移。

.................................
第三章 基于稀疏表示的域自适应学习方法 .......................................... 13
3.1 问题描述 ..................................................... 13
3.2 相关工作 ....................................................... 14
第四章 基于过程学习的域自适应学习方法 ............................ 25
4.1 问题描述 ............................... 25
4.2 相关工作 .................................. 26
第五章 总结与展望 ................................................... 38
5.1 总结 ............................................. 38
5.2 展望 ........................................ 38
第四章 基于过程学习的域自适应学习方法
4.1 问题描述
领域自适应技术是一种将知识应用于相关领域(源域)以帮助当前领域(目标域)学习的技术,近年来引起了人们的广泛关注。源域和目标域通常具有不同的数据分布,因此域自适应使得知识在不同的分布之间的传递成为可能。已有大量的领域适应方法在文献中得到发展。这些方法主要可分为四类[83]:基于实例的方法[84]、基于特征的方法[39]、基于参数的方法[85]和基于关系的方法。虽然源实例与目标实例有不同的分布,但仍有一些部分可以用来帮助训练目标分类器。考虑到这一点,基于实例的方法试图选择或加权用于迁移的源实例,例如TradaBoost[24]和 KernelMeanMatch(KMM)。基于特征的方法可以进一步分为两类:非对称方法和对称方法。非对称方法对源域的特征进行了变换,使其更接近于目标域,其中典型的有SCL[31]和 ARTL[79]。对称方法的目的是发现一个共同的潜在特征空间,以最小化域间的分布差异,同时保持原域的固有结构,如 TCA 和 BDA[86]。基于参数的方法通过共享两个领域中参数的特定字符来传递知识。最后,基于关系的方法利用物流网络在源域的关系来传递知识。
事实上,只有来自源域的部分知识才能有助于目标领域的学习。因此,如何发现和利用相关的资源知识是迁移的关键。从人类的认知出发,一个人把先前的经验借鉴到现在的经验时,在大多数情况下,借鉴过程是从更相关的经验逐渐到不太相关的经验。例如,当一个人学习小提琴,他可以先从相关的弦乐器,如中提琴或大提琴开始学习,然后再学习其他乐器。在图 4.1 所示的“猫”的帮助下学习“狗”时,一个人通常先迁移关系更密切的“暹罗猫”,然后以一个有意义的顺序迁移另一个。因此,我们试图借用这一学习范式,以便从最相关的源知识开始迁移,然后到不相关的知识,直到所有相关知识都被利用为止。具体来说,我们提出了一种基于过程学习的域自适应学习方法(PDA)模型,此方法从相关性的角度考虑了源知识的迁移顺序。它在迭代过程中学习,每次迭代中采用的源实例由一个权重决定,该权重逐渐升高,以便以后的迭代将引入更多的源实例。在此基础上,采用反向分类算法(reverse classification)[87]判断是否采用了所有相关知识,依此对迭代是否提前终止进行设置。
............................
第五章 总结与展望
5.1 总结
随着大数据的崛起,处理大规模数据的能力引起了广泛的关注,迁移学习是一种新的思想模式。由于数据具有时效性,因此往往很多原来可以使用的数据失去了意义,但是完全摒弃这些数据或者当我们拥有的当前数据不足的时候,我们通常又没有足够的标签对其进行标注,而人工标注又费时费力,因此如何利用大量过时的或者一个领域的知识帮助我们对目标领域任务的完成已经越来越值得探究。
解决迁移学习有标签源域,无标签目标域二者不同分布下对目标域的分类问题常采用一种映射技术,将源域和目标域的特征空间映射到新的子空间中,使得在子空间中,二个域满足同分布假设。而子空间中的两个映射后的向量内积可以用核函数表示,此时选取一些常用的核函数比如高斯核函数就可以免去复杂的映射关系考虑,同时这种情况下分类预测函数的表示往往采用含有核函数的表示定理。
基于这种常见的域自适应学习方法,本文对迁移学习的分类学习进行了研究。本文首先对迁移学习的目的,研究意义和国内外研究的现状进行了概述和总结,然后介绍了域自适应的一些知识,包括域自适应学习的三种常见方法,基于实例的域自适应方法,基于模型的域自适应方法,基于特征的域自适应方法。接着介绍了两种距离度量方式,K-L 散度和 MMD 距离。针对传统的框架中拥有的三部分,损失项,概率分布项,流形正则化项。我们对第三项常见的流形正则化项进行了考虑。数据特性并不只有流形结构,同时流形结构凸出的是局部特性,由此考虑使用另一种数据特性,稀疏结构。因为稀疏表示是使用其他样例重新表示每一个样例,因此表示过程保留了数据间的整体特性。我们构造稀疏表示正则化项替换流形正则化项。实验证明,在真实数据集上,尤其是图像数据集上,DASSP 方法有很好的效果。
参考文献(略)