面向数据标记缺失的分类学习方法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:26585 论文编号:sb2022042814014746589 日期:2022-05-20 来源:硕博论文网

本文是一篇计算机论文,笔者认为随着大数据时代的来临,各行各业时时刻刻都在产生数据,不仅数据的数量产生了巨大的增长,新的数据类型也在不断出现。在这样的发展环境下,机器学习[1-2]作为一种有效的数据处理技术,受到了广泛关注。数据的增多,使得机器学习和深度学习[3-4]能够利用如此海量的信息进行模型训练,但是与此同时可能还存在着一个重要的问题:标记数据不足。
第一章 绪论
1.1 研究背景
大数据时代的来临使数据的产生速度不断加快,数据的体量发生了巨大增长,新的数据种类也在不断出现,比如文本数据、音频数据、行为数据、图像和视频数据等。在这样的发展背景下,机器学习[1-2](Machine  Learning)凭借强大的数据处理能力,得到了越来越多的关注。数据的快速增多,使得机器学习与深度学习[3-4](Deep Learning, DL)可以依赖众多的数据,持续不断地训练和更新模型,使模型的性能越来越好,适应性也越来越高。机器学习技术已经在许多实际应用中取得了巨大成功,但在某些现实场景中仍然存在一定的局限性。在传统的机器学习分类问题中,为了确保在有标记样本上学习的模型具有适应性,通常有以下两个基本假设:(1)有标记的训练数据和测试数据之间满足独立同分布;(2)只有利用足够多的有标记数据进行训练才能获得分类性能较好的模型。然而,在现实的应用场景中,可能无法同时满足这两个条件,这就产生了机器学习领域的一个新问题,即如何利用有限的有标记数据获得一个较好的泛化模型,从而对无标记数据进行正确的预测。为了解决这一问题,半监督学习[5-6] (Semi-supervised Learning,SSL )和迁移学习[7-8](Transfer Learning,TL)应运而生。半监督学习利用有限的有标记样本和大量的无标记样本共同训练,最终获得一个较好的模型。迁移学习利用源域的有标记数据训练一个模型并将其应用到目标域,使得模型也能正确预测目标域数据。

计算机论文参考
计算机论文参考

........................
1.2  研究现状
机器学习根据训练样本有无标记,可以分成三类,分别是监督学习[9-11](Supervised Learning , SL ), 无 监 督 学 习[12-14]( Unsupervised  Learning , UL ) 和 半 监 督 学 习[15-17](Semi-supervised Learning,SSL)。在监督学习中,给定样本集???? = {????1, ????2, … , ????????}及其对应的标签集???? = {????1, ????2, … , ????????},监督学习的任务是从样本和标记之间的对应关系(????????, ????????)中学习一个函数:????:???? → ????,来预测目标样本。根据模型的输出结果,可以将监督学习划分为分类问题[18]和回归问题[19]。如果输出结果是离散值,这个问题就属于分类问题;如果输出结果是连续值,这个问题就属于回归问题。监督学习只利用有标签样本,通过监督学习训练的模型,其泛化能力通常较弱,只有在充足的有标签样本上进行训练才能获得性能较好的模型。在无监督学习中,仅给定无标记样本集???? = {????1, ????2, … , ????????},通过对这些无标记样本进行训练,探索样本的隐藏结构,挖掘目标数据的信息。无监督学习的本质是相似的数据应该群聚在一起,这种现象被称为聚类(Clustering)[20],代表方法有 EM 算法[21](Expectation  Maximum)和K-Means 算法[22]等。无监督学习仅利用无标记样本,缺少确定的标签知识,可能导致模型的预 测 精 度 不 高 , 性 能 较 差 。 一方面,学习有标记样本的标记信息;另一方面,通过学习无标记样本包含的隐藏信息来帮助训练模型,即通过学习数据的分布知识来改进模型的性能。因此,半监督学习在提高模型预测精度的同时还能增强模型的泛化能力。目前,半监督学习受到了越来越多的关注和研究,在理论和应用方面都取得了极大的进步,已被广泛应用于文本分类[23]和图像检索[24]等领域。
.............................
第二章 课题研究基础
2.1  半监督学习
在现实场景中,无标签数据很容易收集,但是收集依赖人工标记的有标签数据十分困难。在机器学习中,传统方法包括仅利用有标签数据进行训练学习的全监督学习以及仅利用无标签数据进行训练学习的无监督学习。监督学习只有利用众多的有标签数据才能学习出泛化性能较好的模型,但是有标签的样本一般很难获取到。而无标签数据在现实场景中非常容易采集,无监督学习仅通过无标记数据来探索内在的结构信息,但是学到的模型可能不够可靠,导致准确率不高。所以,能够利用较少的有标签样本和大量的无标签数据同时进行训练的半监督学习逐渐成为了机器学习研究的重要领域。半监督学习可以被认为是处于监督学习与无监督学习之间的学习方法,一般来说,半监督学习中的无标签数据占很大一部分,然而它可以运用这大部分无标签数据和少部分的有标签数据同时进行训练,通过发现大量的无类标记数据隐藏的内在结构来为模型训练提供有效的信息,从而帮助少量的有类标记数据进行学习,进而提高模型的泛化能力。在半监督学习中,已知有标记数据和无标记数据来自同一个领域并满足独立同分布的条件,所以训练的模型能够对无类标记的数据发挥作用,提高算法的预测精度和运算速度。半监督学习作为机器学习中的重要研究,目前已被广泛应用于多个领域。

计算机论文怎么写
计算机论文怎么写

半监督学习为了挖掘隐藏在无标记数据中的数据分布知识,通常以数据分布假设为前提来建立训练样本和目标数据之间的关系。目前,常用的数据分布假设有聚类假设、流形假设和平滑性假设。接下来一节将分别对这几种假设进行详细地介绍。
........................
2.2  迁移学习
迁移学习的含义是运用不同领域的数据之间存在的关联特性,将曾经在一个领域学得的信息用到一个全新的另一个不同的领域中去。迁移学习广泛存在于人类的各种活动中,比如,用来辨别汽车的知识也能够被用来提升辨别卡车的能力。两个领域之间的相似度越高,就越容易进行迁移,相反就越难迁移,容易起到反作用,产生“负迁移[52]现象。例如在常见的气候现象中,已知天津的气候能够推断出纽约的气候,这是由于这两地属于北半球,纬度类似。然而,已知天津的气候现象并不能推断澳洲的气候,相反这两地的气候存在非常大的不同,这是由于澳洲位于南半球,天津位于北半球,两个半球的地理位置存在巨大差异。迁移学习放宽了训练样本必须和测试样本满足独立同分布的条件这一假设,鼓励我们使用迁移学习的方法来解决标记数据缺失的问题。使用源域的样本进行学习获得的模型,无需对所需的目标域模型从零开始训练,直接采用源域样本学习的模型能够显著减小对目标域的训练数据和训练速度的要求。迁移学习属于机器学习中的一个非常重要的研究领域,迁移学习并不是只能在某些特定的领域才能使用,在适合进行迁移的所有应用场景中,迁移学习都能够产生作用。近年来,迁移学习已经在各个不同的领域都取得了不错的运用效果,比如文本情感分类,图像分类,人类活动分类,软件缺陷分类和多语言文本分类等。
迁移学习就是要进行信息的迁移。在机器学习领域中,它是一种学习模式。基于对机器学习的基本了解,机器学习属于人工智能领域中的一大类重要的方法,它发展迅速、应用广泛。机器学习是让机器自主地从各种数据中学习信息,并运用在新的不同的问题中。因此,迁移学习的运用范围并不约束在某一领域,在满足迁移学习问题情景条件的问题中,迁移学习作为一种解决问题的方法都能够产生作用。
迁移学习的中心问题是找出目标问题和原问题的相关性,并利用这种相关性进行知识迁移。事实上,人类的迁移学习能力是与生俱来的,比如,如果会骑自行车,就可以类比学习骑电动车,再比如,如果会弹琵琶,就可以类比学习弹古筝,这些活动之间存在极高的相似性,因此已经学会其中一项活动就很容易学会相似的另一项活动。常用的“照葫芦画瓢”就很好地体现了迁移学习的思想。将迁移学习问题形式化,是理论研究的基础,针对以上问题,可以用更加专业更加学术的语言对迁移学习进行定义。
..........................
第三章  半监督学习的逐点流形正则化 ............................... 18
3.1 问题描述 ........................................... 18
3.2 相关工作 ......................................... 18
第四章  双向判别域适应网络 .................................... 27
4.1 问题描述 ........................................... 27
4.2 相关工作 ................................... 27
第五章  总结与展望 ...................... 37
5.1 总结 ............................ 37
5.2 展望 ............................. 37
第四章 双向判别域适应网络
4.1 问题描述
迁移学习通常存在两个问题,一是数据特征分布不同的问题,二是负迁移问题。针对第一个问题,现阶段大多数的解决方法是整体拉近源域和目标域之间的距离,从而减小源域和目标域的数据特征分布差异,但是容易导致负迁移。在拉近样本之间的距离时,忽略了不同类别的样本之间的关系,这可能会降低特征的判别性从而影响分类性能,而且多数方法并没有充分利用伪标签知识。
基于以上问题,我们提出了一种双向判别域适应网络 BDDAN(Bidirectional Discriminant Domain Adaptive Network)方法。该方法通过对特征分布进行对齐的同时引入相同类别和不同类别之间的相似性关系信息,充分利用有标签样本的知识,从而进行知识的有效迁移。
BDDAN 利用域对抗网络,不仅通过源域的样本进行数据变换,而且利用目标域的有标签样本实现图像变换,通过变换的图像加强两个域的学习。在解决特征分布差异的同时引入了目标域的信息,利用两个不同的分类器引入一致性损失函数,以获得更加准确的预测结果。最后,挖掘出每一类样本和其他各个类之间的相似关系,使分类器的预测结果更具适应性和准确性。
............................
第五章 总结与展望
5.1  总结
随着大数据时代的来临,各行各业时时刻刻都在产生数据,不仅数据的数量产生了巨大的增长,新的数据类型也在不断出现。在这样的发展环境下,机器学习[1-2]作为一种有效的数据处理技术,受到了广泛关注。数据的增多,使得机器学习和深度学习[3-4]能够利用如此海量的信息进行模型训练,但是与此同时可能还存在着一个重要的问题:标记数据不足。然而,对数据进行人工标注是一个耗时耗力的过程,这给模型的训练和更新带来了挑战,目前为止还没有有效的方法来解决这一问题。
本文首先对半监督学习和迁移学习的研究背景以及国内外研究现状进行了详细的阐述,接着又介绍了半监督分类的相关背景知识和现有的经典方法,并从非深度学习和深度学习这两个方面介绍了迁移学习,最后针对现阶段已有的半监督分类方法和迁移学习方法存在的问题提出了新的想法。
首先,提出了一种逐点的 MR 半监督学习框架 PW_MR,该算法能够保留数据的逐点平滑特性,另外,和样本对 MR 方法不同,该方法考虑的是单个样本的平滑性而不是样本对平滑性,还在算法框架中引入了单个样本的重要性,对单个样本进行加权。最终实验结果表明提出的 PW_MR 方法比样本对 MR 方法具有更好的分类效果。
其次,提出了一种双向判别域适应网络(BDDAN)方法,为了减小域间隔,利用域对抗网络,通过两个生成器分别对图像作映射变换,从而加强对两个域的学习。利用目标域的信息进行特征分布对齐的同时,使用两个不同的分类器引入一致性损失函数,提高分类的可靠性。另外,通过学习有标签样本,充分利用有标签样本的知识挖掘出每一类样本和其他各个类之间的关系,使分类器的预测结果更具适应性,从而进行有效迁移并帮助提升分类性能。与现有的几个基础方法相比,实证结果表明,BDDAN 可以获得比较好的迁移学习性能,得到令人满意的结果。
总之,本文提出的PW_MR方法和BDDAN方法都在一定程度上改进了图像分类的效果,取得了较为满意的结果。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217