神经网络架构搜索的优化与实现

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:44525 论文编号:sb2024051914331952437 日期:2024-05-31 来源:硕博论文网

本文是一篇软件工程论文,本文提出了使用蒙特卡洛搜索树进行搜索空间优化,利用蒙特卡洛搜索树层级式划分搜索空间的机制,将大范围的搜索空间进行切分,树中除叶子节点外所有节点需要学习一个划分策略。
第一章绪论
1.1研究工作的背景与意义
如今,人工智能蓬勃发展,深度学习技术已经在人们实际生活中的诸多领域取得了巨大成功,例如:自动驾驶[1,2]、图像识别[3,4]、语音识别[5,6]、机器翻译[7,8]和推荐系统[9,10]等,为人类的日常生活带来了极大的便捷。然而,随着各种深度学习模型的不断涌出,例如:VGGNet[11]、GoogleNet[12]和ResNet[4]等,深度学习模型的复杂性和模型训练时间也在不断增加。通常,一个深度学习系统的构建主要包括:数据预处理、特征选择、模型构建和参数调优,其中,模型构建是尤为重要的一环,决定了整个系统的构建难度和最终性能极限,而模型的构建往往需要大量的人工干预和时间成本。一般来说,构建性能优异的深度学习模型需要具备非常深厚的专业背景知识和丰富的实践经验,并且需要耗费大量时间去训练模型、观察反馈结果和调整模型。可见,传统的深度学习模型设计模式需要大量的专家知识以及时间耗费,这对深度学习技术快速落地发展无疑是巨大的阻碍。
为解决上述问题,自动机器学习[13](Automated Machine Learning,AutoML)技术顺应而生。自动机器学习技术是当前人工智能领域热点研究和持续发展的方向之一,其最重要的一个分支是神经网络架构搜索[14](Neural Architecture Search,NAS),NAS的目的是针对给定任务自动搜索出性能优异的深度学习模型,从而提升深度学习系统的构建效率,减少人工干预,帮助深度学习技术更加高效和快速地应用于不同领域的各个场景中。具体来说,神经网络架构搜索的研究意义包括:1)减少传统深度学习模型构建模式中存在的大量人力资源和时间成本消耗。例如:当面对一个数据量非常大的任务场景时,传统的深度学习模型构建模式需要专家花费精力去设计出一个适用于该任务场景且合理的模型,随后需要训练验证该模型的性能表现,根据性能表现再调整模型,如此循环往复,每一步都需要专家认真思虑决断。需要注意的是,当训练数据量特别大且模型异常复杂时,完整训练一次模型至收敛需要依靠GPU资源加速且消耗的时间成本以天为计数单位。2)促进深度学习技术快速落地推广。在数字时代的今天,人工智能已经与各个学科进行交叉融合发展,具有丰硕的价值意义,例如:“人工智能+医学”[15–17]、“人工智能+生物”[18,19]、“人工智能+物理”[20,21]等。
........................
1.2神经网络架构搜索优化问题的国内外研究历史与现状
深度学习模型的成功归因于能够从非结构化的数据中提取出有用的特征信息,然而,想要设计出一个性能优异的深度学习模型需要依赖于反复的模型架构调整,这项工作通常需要研究人员花费大量时间去不断尝试。2016年始,国外的研究学者开始针对该问题探索自动搜索架构方案[14],由此,神经网络架构搜索逐渐成为深度学习领域的一个热点研究问题,随后,国内的研究学者也开始加入到该领域的研究中[23]。通过几年的深入研究,国内外研究学者在这一问题上已经产出了非常丰富的学术成果。一般来说,神经网络架构搜索的主要思想是:在给定的搜索空间中,利用相应的搜索策略进行架构搜索,搜索出的网络架构需要通过评估策略进行评估,最后将评估结果反馈给搜索策略进行策略更新,如此反复直至搜索出最优的网络架构。从上述过程描述来看,神经网络架构搜索可以概括为三部分[24],包括:搜索空间、搜索策略和评估策略。搜索空间定义了网络架构的各个组成部分;搜索策略决定了如何探索搜索空间;评估策略评估搜索出的网络架构的性能表现。目前,多数研究成果是围绕着搜索策略进行展开探讨,现有的搜索策略主要包括:随机搜索、贝叶斯优化、进化算法、强化学习和梯度下降算法,下面从搜索策略角度出发对神经网络架构搜索的历史研究情况进行阐述。
(1)随机搜索(Random Search,RS)策略,其思想是:随机地从搜索空间中采样架构,随后评估架构,如此反复至搜索出符合期望的架构。该搜索策略通常作为基线算法。
(2)强化学习(Reinforcement Learning,RL)搜索策略,其思想是:强化学习的智能体(Agent)根据策略算法从搜索空间中搜索出一个网络架构,通过评估策略评估该网络架构,随后将评估结果作为奖励值(Reward)反馈给智能体,智能体根据奖励值进行策略更新,如此反复至策略收敛。2016年,Google的Brain科研团队[14]和麻省理工学院[25]分别首次提出了基于强化学习的神经网络架构搜索算法。前者使用了循环神经网络作为智能体,循环神经网络连续地采样出一系列动作,组成一个字符串,该字符串表示神经网络架构的编码形式,随后该字符串被解码为具体的网络架构,再通过训练评估,将评估结果作为奖励值,最后使用REINFORCE策略梯度算法[26]更新智能体。后者提出了MetaQNN,使用Q-learning来训练一个策略,该策略以序列方式选择每一层网络的类型和对应的超参数。这两种搜索模型虽然都取得了不错的成绩,但其高昂的计算资源成本和大量的时间消耗使得神经网络架构搜索研究需要依赖于大量的GPU计算资源支持,随后的研究工作开始围绕如何提高搜索效率、减少成本消耗等问题进行改进。
.....................
第二章神经网络架构搜索理论基础
2.1深度学习模型
目前,人工智能技术已成为最热门的研究趋势,其主要包含机器学习,深度学习是机器学习中发展最为迅速的一个分支。1986年,LeCun等人[55]将梯度反向传播用于手写邮政编码识别,为之后深度学习的发展奠定了基础。2006年,Hinton等人[56]提出了针对深层网络在训练中梯度消失的解决方案,即使用无监督预训练对权值进行初始化并结合有监督训练进行参数微调。而后,随着计算机算力取得突破性进展,深度学习从此迎来了爆发性的发展。深度学习的主要特点是:利用权重机制、非线性变换和深度层级思想从输入信息中提取出更丰富、有效的特征信息。其主要针对两类任务:回归任务、分类任务。伴随着对深度学习的深入研究,也因此涌现出了一批针对各式任务场景的算法和深度学习模型,例如用于常规分类和预测任务的全连接网络、用于计算机视觉领域的卷积神经网络、用于自然语言处理领域的循环神经网络和用于非结构化图数据的图神经网络等。本节将详细介绍这几种经典的深度学习模型。
一般来说,浅层全连接网络用于解决简单且线性的回归或分类任务,在解决复杂度较高且非线性的任务时,通常使用深层全连接网络。随着计算机内存和算力的提升,深层全连接网络得已被实现,其主要特点包括:
1)在浅层全连接网络的基础上,引入了隐藏层这一概念。隐藏层由多层神经元组成,其能够实现更细粒度的特征提取与抽象。但是,若隐藏层层数过多意味着权重参数越多,这对计算机的内存消耗是巨大的。此外,也可能会导致模型出现过拟合问题。因此,隐藏层的层数也是一个超参数,需要针对特定场景进行调整。2)深层全连接网络可以支持多分类任务,因为其输出维度可以根据分类任务类别拟定。3)深层全连接网络中引入了非线性的激活函数,这使得其能够处理更加复杂且非线性的预测问题。
.......................
2.3神经网络架构搜索框架

软件工程论文怎么写
软件工程论文怎么写

神经网络架构搜索框架可以从三个维度进行概括,分别是:搜索空间、搜索策略和评估策略。这三个维度的关系如图2-6所示,具体流程为:搜索策略从搜索空间中采样出一个网络架构,之后通过评估策略评估该网络架构的性能表现,将评估结果作为反馈信号更新搜索策略,如此不断更新迭代,最终搜索出一个表现最优的网络架构。上述流程中,搜索空间决定了架构组件和搜索范围,其设计通常是引入了专家的先验知识,一个适宜的搜索空间既能够缩减搜索范围也能够极大地提升搜索效率。一般来说,搜索区域越广的搜索空间能够搜索出越加优异的网络架构,但会极大地降低搜索效率。搜索策略定义了如何去探索搜索空间,通常需要平衡探索与利用的关系,若偏向于利用,会快速的找到一个次优的网络架构,若偏向于探索,会花费较长的搜索时间,但可能会搜索出最优的网络架构。评估策略决定着如何去评估一个网络架构,一般是采用从头训练网络架构随后在验证集上评估的方式,但这种方式的缺点是非常耗时,在如何提升评估策略效率的问题上,很多研究者进行了研究,也提出了一些改进算法。接下来将具体介绍这三个维度的内容。
............................
第三章基于蒙特卡洛搜索树和预测模型的图神经网络搜索优化算法研究.........26
3.1引言..........................26
3.2基于蒙特卡洛搜索树划分搜索空间的算法设计....................................27
第四章基于预测模型和混合批次的神经网络架构搜索优化算法研究................50
4.1引言.........................................50
4.2基于强化学习和预测模型的神经网络架构搜索算法..............................52
第五章全文总结与展望.............................70
5.1全文总结...........................................71
5.2后续工作展望................................71
第四章基于预测模型和混合批次的神经网络架构搜索优化算法研究
4.1引言
神经网络架构搜索的目标是在给定任务下基于预先定义的搜索空间根据搜索策略自动地搜索出性能优异的网络架构,这项技术已经在诸多领域取得了不错的成绩,例如:CNN模型搜索[14]、RNN模型搜索[82]和GNN模型搜索[49]。然而,由于评估搜索出的网络架构性能需要耗费大量的时间成本,这使得传统的NAS算法很难在现实场景中应用部署。
最近,很多研究者已经针对该问题进行了改进研究,目前主流的改进方向是:通过预测器学习网络架构到真实性能的映射。根据是否训练网络架构,预测器可以分成两类:基于无训练的预测器、基于训练的预测器。基于无训练的预测器的思想是跳过训练架构这一步,通过分析网络架构本身特性来对其进行打分,常见的架构特性例如神经元激活情况、架构训练速度和架构权重的Jacob值等,这类算法是近年刚被提出,虽然能够实现较短时间完成搜索,但是搜索出的架构性能变现一般,且该类算法的泛化性较差。基于训练的预测器的思想是使用一批样本数据(“网络架构,真实性能”)训练一个预测模型,该预测模型的目标是拟合网络架构到真实性能的映射。通常,对基于训练的预测器的研究着重于如何更好的表征网络架构、如何设计更好的预测模型,例如基于GCN预测模型的NAS算法[83,84]、基于Transformer的NAS算法[85],这类预测模型一般和传统的NAS搜索策略结合使用,例如BO+预测模型[86]和EA+预测模型[84],从而帮助传统NAS算法加速评估。预测模型结合传统搜索策略的一般搜索流程是:在初始化预测模型后,搜索策略从已有的样本数据(“网络架构,真实性能”)中选择性能最好的k个网络架构进行变换,变换出一批新的网络架构,使用预测模型对这批网络架构进行性能评估,选择评估结果最好的前m个网络架构,再使用传统的从头训练评估策略对这m个网络架构进行真实性能评估,随后将这m个网络架构加入样本数据,进行下一次迭代。在这样的搜索模式中,预测模型充当了架构过滤的作用,将预测性能差的网络架构过滤掉,保留预测性能好的网络架构用于下次变换。

软件工程论文参考
软件工程论文参考

.........................
第五章全文总结与展望
5.1全文总结
本文总结分析了神经网络架构搜索优化面临的挑战,以深度学习和强化学习作为理论基础,重点从搜索空间、搜索策略和评估策略三个角度进行了优化研究,提出了一系列性能优异的搜索模型,在不同类型的任务数据集上均取得了优异的性能表现。总而言之,本文主要完成了以下研究工作:
(1)优化搜索空间
本文提出了使用蒙特卡洛搜索树进行搜索空间优化,利用蒙特卡洛搜索树层级式划分搜索空间的机制,将大范围的搜索空间进行切分,树中除叶子节点外所有节点需要学习一个划分策略,该策略能以二叉树结构形式将父亲节点所代表的搜索区域划分为性能好的区域(左儿子节点)和性能差的区域(右儿子节点),再使用UCB机制平衡利用和探索的关系,经过上述的步骤,蒙特卡洛搜索树能够给搜索策略提供一个具有潜在价值的子搜索区域,实验表明这样的优化机制能够减少搜索策略探索到性能差的区域的概率,从而提升搜索效率。
(2)优化搜索策略
本文所提出的搜索模型均采用基于强化学习的搜索策略,目前多数基于强化学习的NAS算法均采用策略梯度算法的更新方式,但这种更新方式存在两方面的不足,分别是稳定性差和样本利用率低,本文采用近端策略优化算法来解决这两个问题。近端策略优化算法采用了重要性采用机制来重用旧样本,进而提升样本利用率。此外,近端策略优化算法对目标函数的策略进行了约束,减低了步长大小对参数更新的影响,以此提升训练稳定性。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217