面向机器人运动任务的深度强化学习经验回放机制思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33523 论文编号:sb2023111510524251406 日期:2023-11-20 来源:硕博论文网

本文是一篇电气自动化论文,本文以提高深度强化学习训前期的速度和成功率为出发点,展开面向深度强化学习经验回放机制的研究。 
第1章 绪论
1.1 研究背景与意义
近年来, “中国制作2025”、“工业互联网”、“工业4.0”等概念的提出[1, 2],使得人工智能在信息化时代的应用受到广泛关注。机器人的普及节约了人力成本,释放了更多的人工资源,而且具有方便监管,安全性高的优点[3-5],因此其被广泛应用于物流业、医疗行业、制造业和服务业等[6]。
机器人种类有很多种,包括冗余自由度串联机器人、移动机器人、服务机器人、水下机器人等[7-11]。其中串联机器人在工业领域应用最多,可以被用来完成抓取、分拣、轴孔装配,运输等任务[12-17]。而机器人的运动控制是这些任务中的关键技术。尤其对于冗余自由度机器人而言更加复杂。传统的运动控制算法具有较强的环境探索能力和渐近最优性,消耗很少的计算资源[18],但是,其每一次探索时的迭代都是独立的和随机的,难以沿用之前的有价值的经验。
近年来,人工智能不断受到各领域的关注,而其中最新的深度强化学习(Deep Reinforcement Learning,DRL)也随之被众多学者研究[19, 20]。深度强化学习凭借其极强的感知和决策能力广受关注,智能体和环境是其中两个重要元素,二者通过在不断交互中得到奖励等反馈信息,DRL进行网络更新和策略学习。另外目标网络和记忆采样更新使得强化学习可以高效的利用前面迭代的经验,以指导优化方向。然而,在复杂的任务中,起始状态和目标状态的巨大差异使得强化学习难以完成任务。并且,随机的经验采样方式很容易将许多有价值的经验遗漏,而这些经验正是帮助(Reinforcement Learning,RL)学习最优策略的重要因素。
深度强化学习的出现解决了许多学术界和制造业的痛点难点,并产出了许多先进的科研成果[21]。因此,将深度强化学习应用在解决冗余自由度机器人的运动控制问题上具有重要的研究意义。
本文将深度强化学习应用在机器人的运动任务上,基于深度强化学习的经验回放机制,提出了局部参与的先见经验数据自引导策略和基于双记忆库结构和事后经验回放技术的自适应采样方法,二者均可以提高算法的学习速度和成功率的策略。
...........................
1.2 国内外研究现状
机器人的运动控制主要包括路径规划、抓取、码垛和移动运输等[22-25],其中机器人的路径指机器人在作业过程中的运动轨迹,描述一条运动轨迹时必不可少的三元素是位移、速度和加速度,而机器人运动轨迹也不例外。在进行机器人路径规划时,可以使用人工或智能的方式规划出一条轨迹,这条轨迹是由多个散点组成的,且每两个相邻的散点对应的机器人关节角度增量值在机器人关节角最小阈值范围内。另外,机器人路径规划中不仅包含了机器人末端的位置,还包含了机器人末端的姿态信息[26]。更严格的,规划的路径还可以满足路程最短、耗能最小等的要求。
无论是针对串联机械臂或是移动机器人,路径规划问题都是机器人学中的一项关键技术。路径规划技术的关键核心是路径规划算法,其主要内容是选择合适的路径规划算法,使机械臂从初始点可以安全无障碍地到达目标点,且可以达到路径最短的效果[27]。传统的路径规划算法具有较强的环境探索能力和渐进最优性,可以消耗较少的计算资源。然而,传统的路径规划算法的迭代都是独立的和随机的,每一次迭代都是从头开始,难以沿用之前的有价值的经验[28-31]。大多数改进后的传统方法可以应用于具有障碍物环境下的路径规划中,在避开障碍物的同时,可以使目标沿着较短的可行路径进行局部优化,并且节约运动时间,节约更多的能量[32-34]但是这仍旧改变不了传统算法固有的一些缺陷。机械臂也常常用在工业中的抓取和运输等任务中。传统的机器人的抓取方法需要将开发合适的夹爪适配目标物体的属性,位姿等特点,且泛化能力较弱[35, 36]。并且对于动态的物体,还需要配合相机等视觉传感器和机械臂的控制器相配合,控制起来较为复杂[37]。
.................................
第2章 深度强化学习算法基础
2.1 强化学习算法基础
2.1.1 马尔可夫决策过程
强化学习是根据严格的数学理论提出的一类算法,其内部使用了多种数学求解方法,其中包括贪婪算法、动态规划、近似求解和凸函数优化等,这些是求解强化学习问题时的关键基础[64]。
马尔可夫性质是指在时间顺序上,时间步t+1时的环境反馈(即获取的奖励值)仅仅与上一时间步t时的状态和动作有关,而与时间步t之前的过程都没有关系。由此可知,马尔可夫具有无后效性。也就是说,智能体的下一状态仅取决于当前状态,与之前的状态无关。但是这种性质是完全理想的状态,而在实际环境中,由于各种不可消除的现实误差,智能体的任务并不能完全符合此性质。但是为了方便讨论分析,仍然认为智能体的任务符合马尔可夫的属性,并可以通过对环境进行条件约束使之满足马尔可夫属性。
正如自然界的生物是根据动作及其结果的信息进行学习,算法的学习则是根据数据进行的,强化学习也是这样。但是和监督学习不同的是,强化学习是从马尔可夫链数据中学习的。在一个符合马尔可夫性质的系统中,一条马尔可夫决策序列数据就是一个马尔可夫链数据。以机器人寻找金币的例子说明,如图2.1,机器人在不知道金币位置的情况下,只能通过与环境进行交互,根据反馈寻找最优策略。

电气自动化论文怎么写
电气自动化论文怎么写

................................
2.2 深度强化学习框架及算法
2.2.1 演员-评论家框架
演员-评论家(Actor-Critic,AC)框架是深度强化学习算法中一个常用的算法库框架,它将值函数估计和策略搜索相结合,广泛应用在解决实际问题中。其中深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)和软演员-评论家(Soft Actor-Critic,SAC)算法等三个算法是使用AC框架的主流算法,值得被深入研究。
在AC框架中,演员actor主要负责策略梯度的学习,而评论家critic负责策略估计,用来估计值函数。这里的值函数主要是算法本身输出的动作所携带的价值,根据最高价值来选择合适的动作,但是这类算法适合离散任务,不能选择连续的动作。 
在研究连续动作空间或者解决大型动作空间的强化学习算法时,确定性策略梯度算法(Deterministic Policy Gradient,DPG)发挥了巨大的作用。DPG的基本思想是将策略使用进行参数化并表示为,根据采样的数据,通过调整参数使的累计反馈奖励最大化。即,每一步动作的策略表示为概率分布函数,根据该概率分布采样得到最佳动作,但是在该过程中,本质上还是一个随机过程,只不过最优动作被采样的概率更大,但不代表被采样的动作一定是最好的动作。因此DPG最终学到的策略是一个随机策略。
...........................
第3章 基于先见经验自引导的深度强化学习算法..................... 22
3.1 经验回放机制 .......................... 22
3.2局部参与的先见经验自引导策略 ......................... 24
第4章 基于事后经验回放技术的深度强化学习改进策略................. 37
4.1事后经验回放技术 .......................... 37
4.2软演员-评论家算法与事后经验回放技术的应用...................... 40
第5章 总结与展望................................. 50
5.1 总结 ..................................... 50
5.2 展望 ............................................. 51
第4章 基于事后经验回放技术的深度强化学习改进策略
4.1事后经验回放技术
强化学习是奖励驱动的算法。在智能体和环境进行互动时,系统根据环境状态改变后的情况输出奖励。而智能体则根据奖励的变化更新网络参数并自我学习改进。因此强化学习在学习策略时的一个重要依据就是奖励,当奖励可以为算法的学习提供较多的信息时,算法学习速度会更快,效率也更高。
对于强化学习来说,设计一个能够令智能体得到最优的奖励函数是困难的。奖励函数的类型可以分为定性奖励函数、稀疏奖励和连续奖励。
定性奖励函数是在智能体完成任务时给与一个正向的奖励,一般是设为正值,未完成任务则给予一个负向的奖励,一般是负值,作为惩罚。例如在雅达利游戏中的pingpoing游戏中,双方打乒乓球,当一方赢了一个球时,系统便给与+1的奖励,当输了一个球时,则给–1的奖励,这种属于定性奖励,当此时间步的奖励相比上一时间步增加的时候,说明此次的动作是具有积极意义的,可以学习这步的动作;相反,此步的动作不够好,应该向其相反的方向学习。游戏中赢得次数越多,智能体得到的分数就越高。这种奖励函数较为明确,有利于智能体的学习。
稀疏奖励函数是指,在需要经过多个步骤才能结束游戏的情况下,只有当最后游戏结束时才能得到奖励,而中间的步骤都没有任何反馈。例如在围棋游戏中,只有最终赢了游戏才能得到奖励,而在下棋过程中的每一步都是没有反馈的,这样的奖励函数有一个很大的弊端,智能体容易被这样的稀疏奖励样本误导,学习效率较低。

电气自动化论文参考
电气自动化论文参考

..................................
第5章 总结与展望
5.1 总结
深度强化学习算法在机器人领域具有广泛的应用。本文以提高深度强化学习训前期的速度和成功率为出发点,展开面向深度强化学习经验回放机制的研究。 本文的主要工作有以下三点:
(1) 引入并分析深度强化学习算法中的经验回放机制。本文评估了经验回放机制中两种不同的“采样-训练”更新模式,分别是“边存边训”和“先存再训”,将两种更新模式在DDPG算法上进行实验,结果表明“边存边训”的“采样-更新”模式效果更好。另外,基于经验回放机制中数据的引导作用,本文提出了一种局部参与的先见经验自引导策略(SLP-FER)。利用智能体在简单任务上学到的经验去引导复杂任务的算法学习,并控制先见经验数据的参与程度,使算法可以达到更好的效果。为了验证这一策略的性能,本文分别在二自由度机械臂和七自由度机械臂上设计了简单任务场景和复杂任务场景。二自由度和七自由度的实验均表明SLP-FER策略可以明显提高算法前期的训练速度和整体成功率。
(2) 引入了事后经验回放技术并针对其数据冗余的问题,将其分阶段参与算法训练进行实验分析。针对深度强化学习训练前期失败经验无法被充分利用的问题,本文引入了事后经验回放(HER)技术,将HER技术应用在SAC算法上验证效果,实验表明HER技术的应用可以提高SAC算法前期的成功率,但由于经验数据的冗余,影响了SAC算法训练后期的性能,因此本文提出了将HER技术仅应用在算法训练前期的方式,并设计不同的实验以探究HER技术在不同的训练阶段参与对算法性能的影响。实验表明,HER技术参与训练阶段的前1/6~1/3阶段的情况下,可以发挥HER技术的最大作用。
(3) 为了进一步减少冗余经验数据对算法性能的影响,本文提出了一种基于双记忆库结构和事后经验回放技术的自适应采样方法(ADM-HER)。此结构采用了双记忆库分别存储算法本身产生的经验数据和由HER技术产生的经验数据,同时设计了一种自适应采样的方式,根据算法训练阶段自适应的调节两个记忆库之间的采样比例。将ADM-HER结构在七自由度复杂任务场景上进行验证,结果表明采用该结构的算法可以在提高前期训练速度的同时,保证后期算法的性能并提高了整体的成功率。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关电气自动化论文论文
QQ 1429724474 电话 18964107217