多级上下文引导的场景分割技术探讨与推广

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:45266 论文编号:sb2023103017510251304 日期:2023-11-07 来源:硕博论文网

本文是一篇软件工程论文,本文以语义分割任务中的边界信息为突破口,在基于已有解决方法的基础上,研究出了考虑面向得分图的边界信息增强方法,并根据多级上下文引导的思路对今年来具有代表性的实时性语义分割网络BiSeNetV1进行改进。
第1章 绪论
1.1 研究工作的背景与意义

软件工程论文怎么写
软件工程论文怎么写

计算机视觉是一个多学科领域,旨在帮助计算机从图像和视频等视觉数据中提取和理解信息,使得计算机具备复制和扩展人类视觉的能力。计算机视觉技术利用图像处理、机器学习、模式识别和人工智能算法的组合来提取特征、识别模式并理解视觉数据。场景分割技术,也称为语义分割技术,旨在基于图像提取的特征信息,将图像划分为不同的区域。在场景分割的预测结果中,每个像素都被分类到几个预定义的类或类别中的一个,如“人”、“车”、“建筑”、“道路”、“树”等,最终形成为一个密集的预测图,使得每个像素都标有其相应的类别。语义分割在各种计算机视觉应用中起着至关重要的作用。如:移动机器人[1,2,3,4]、无人机[5,6,7,8]、自动驾驶[9,10,11]、医学图像处理[12,13,14,15,16]等领域。
面对机器人行业正在高速发展的背景,智能化是机器人发展过程中不可绕开的课题。基于本文研究面向的机器人平台,语义分割技术可帮助移动过程中的机器人进行场景分析,使机器人能够以更详细、更有意义的方式感知和理解周围环境。通过细粒度的理解,机器人可以在各种现实世界的应用中以更高的准确性、效率和适应性执行广泛的任务。语义分割通常使用卷积神经网络技术来实现,因为卷积神经网络能够学习图像的不同层次特征并捕获像素之间的空间相关性。
然而在移动机器人实际工作环境中,语义分割技术也面临着诸多问题。首先,语义分割作为一种像素级的预测任务,获得精确预测结果的难度往往更大,必须要综合考虑图像中不同级别的上下文信息,才能取得较好的结果;其次,由于机器人的工作环境较为复杂,在面临物体存在相邻、遮挡等干扰因素下的场景时,语义分割网络将存在错误预测边界像素的倾向,因为物体之间的遮挡会导致物体重要特征的缺失,物体之间的临近会导致特征信息的混杂;最后,移动机器人必须及时对环境做出响应,这就要求模型具有较高的分割精度的同时,也要确保实时性能够达到实际应用的水平。因此在机器人应用领域中,如何实现一个兼具较高实时性和高准确性的语义分割模型已成为一项实际且有价值的需求。
..............................
1.2 国内外研究历史与现状
本文主要围绕面向移动机器人平台的语义分割算法进行研究。因此本小节将简要介绍基于深度学习的语义分割方法发展历史及其现状,具体来说,本文将基于深度学习的语义分割方法所经历的发展历史被分为了以下三个阶段:
(1)基于目标检测思想的语义分割阶段
在计算机视觉发展的早期阶段,卷积神经网络最先被用于目标检测任务。但随着视觉领域更深远的发展,有学者陆续尝试将卷积神经网络应用于语义分割网络中。早期基于深度学习的语义分割方法出发自目标检测思想,即使用目标检测模型所使用的特征提取网络得到的深层次特征来为输入图像中的每个像素分配一个标签,从而打破了卷积网络仅适用于目标检测任务的认识。在这个阶段,许多语义分割并非基于全卷积结构来完成任务,如MultiScale-Net[17]、RCNN[18],它们有的依然采用到全连接层结构进行预测,或仍根据目标检测思想,将语义分割任务分解成对逐个物体的分割任务。但是在训练阶段,这些基于目标检测方法的存在训练阶段中全连接层过度拟合和耗时的问题。且因为这些基于目标检测任务的特征提取网络无法获得关于图像的深层语义信息,无法创建与图像语义相关的抽象特征。因此其结果仍然不够理想,需要采用如马尔科夫场、条件随机场等方法对结果进行进一步优化。
尽管存在局限性,但基于目标检测思想的语义分割是基于深度学习的语义分割方法的早期尝试。它为更先进的技术铺平了道路,如全卷积网络和其他深度学习方法。
(2)基于全卷积网络结构的语义分割阶段
完全卷积网络(Fully Convolutional Networks,FCN)是语义分割领域的一个里程碑,由Jonathan Long等人[19]在2015年提出。FCN通过使用卷积神经网络实现端到端像素级分类,也标志着基于深度学习的语义分割方法进入了新的阶段。
FCN网络没有在网络末端使用全连接层进行分类,而是将其替换为1x1卷积层,使输出具有与输入图像等效的空间维度。为了恢复在卷积层的下采样过程中丢失的空间分辨率,FCN采用转置卷积方式进行上采样。这些层增加了特征图的空间维度,允许更细粒度的分割。此外,FCN引入了跳跃连接,将来自网络不同阶段的特征图组合在一起,以捕获局部和全局上下文,从而提高分割精度。
................................
第2章 相关技术介绍
2.1 卷积神经网络基础
2.1.1 发展历程
卷积神经网络(CNN)是一种常用于图像识别和计算机视觉任务的人工神经网络。神经网络的发展可以追溯到20世纪80年代初,当时研究人员开始探索将神经网络用于图像识别。
1998年,Yann LeCun[22]发表了最早的一篇关于CNNs的论文,他提出了一种名为LeN et-5的网络架构,用于识别手写数字。该架构使用卷积层、池化层和完全连接的层来处理图像并对其进行分类。LeN et-5被美国邮政局用于识别手写邮政编码,它是CNN在现实世界中最早成功的应用之一。
尽管LeN et-5取得了成功,但直到2000年代中期,CNNs才被广泛采用。其中一个原因是可以获得更大的数据集,如ImageNet,这使得研究人员能够训练其他更复杂的模型。另一个原因是更强大的计算机的可用性,这使得用更多的参数训练更大的网络成为可能。
2012年,由Alex Krizhevsky领导的一个研究团队使用一种名为AlexNet[23]的CNN赢得了ImageNet大规模视觉识别挑战。AlexNet由五个卷积层和三个完全连接的层组成,它实现了15.3%的前5位错误率,这比以前的最先进技术有了显著的改进。这一突破有助于普及神经网络,并促进了该领域的进一步研究。
从那时起,神经网络已被广泛应用,包括对象检测、图像分割和自然语言处理。神经网络还与其他深度学习技术相结合,例如递归神经网络和注意力机制,以创建更强大的模型。今天,神经网络是计算机视觉的一个重要工具,并被用于许多现实世界的应用,从自动驾驶汽车到医学图像分析。
.............................
2.2 机器人操作系统ROS
机器人操作系统(Robot Operating System,ROS)是一款用于开发和运行基于机器人的应用的开源中间件,它集成包括了分布式框架、信息传输系统、可视化工具等模块,提供了一系列库和工具来帮助开发者创建复杂和的机器人应用程序。ROS支持众多类型的编程语言,也兼容大部分的硬件平台,包括传感器、制动器和微型控制器等。
ROS最初由Willow Garage机器人研究机构在2007年提出,旨在为机器人领域内的诸多问题提供解决方案,并且在这之后成为了构建机器人应用程序的主流平台。它可以为许多产业提供便利,如制造业、医疗服务、运输业等等。ROS提供了一个强大且灵活的平台来构筑基于机器人平台的应用,在机器人开发领域具有相当大的影响力。作为开发复杂机器人应用程序的一款强大工具,它具有以下优点[24,25,26,27,28]:
①模块化:ROS模块化的体系结构使得开发者得以用模块化的方式开发他们的应用软件,允许开发人员在不同的机器人应用程序之间轻松地创建和重用代码。这使得通过将复杂系统分解为更小、更易于管理的部分,从而更容易构建复杂系统。
②社区支持:ROS有一个庞大而活跃的开发人员社区,他们贡献代码、教程和文档。这意味着开发人员可以访问大量资源,帮助他们学习、排除故障并改进机器人应用程序。
③跨平台兼容性:ROS与多种操作系统兼容,包括Linux、macOS和Windows。这使得在不同的平台和硬件配置上开发和测试代码更加容易。
④标准化通信:ROS为不同的机器人组件提供了一种相互通信的标准方式。这简化了不同传感器、致动器和其他硬件组件的集成,并使开发和调试复杂系统更加容易。具体来说,ROS的基本构筑模块被称为节点,在系统中,节点是一个执行特定功能的进程,节点之间的通信由ROS Master管理,ROS Master是一个集中的实体,用于跟踪系统中的所有节点及其通信信道。ROS Master帮助节点找到彼此并通过发布-订阅的模式实现节点之间建立消息传递连接的流程,这将使节点彼此解耦,使它们能够独立运行,并易于修改或替换。
⑤仿真功能:ROS包括用于模拟机器人系统的工具,可用于在部署到真实硬件上之前进行测试和原型制作。这可以节省时间和资源,因为它允许开发人员在部署到物理机器人之前识别并解决问题。
⑥大型预构建组件库:ROS有一个大型的预构建组件库(如传感器、算法和驱动程序),可以轻松地集成到新的应用程序中。这节省了时间,减少了开发人员从头开始编写的代码量。
⑦可扩展性:ROS旨在从小型、简单的机器人扩展到大型、复杂的系统。这意味着开发人员可以使用ROS构建广泛的机器人应用程序,从业余爱好者项目到工业机器人。
.................................
第3章 语义分割边界信息增强方法研究 .............................. 20
3.1 问题分析 .......................... 20
3.2 面向得分图的边界信息增强方法 ..................... 21
第4章 多级上下文引导快速语义分割算法研究 ............... 39
4.1 问题分析 ................................. 39
4.2 多级上下文引导语义分割模型设计 ........................ 40
第5章 移动机器人场景分割系统设计与实现 ...................... 54
5.1 平台简介 ................................ 54
5.1.1 硬件部分 ........................... 55
5.1.2 软件开发环境 ....................... 56
第5章 移动机器人场景分割系统设计与实现
5.1 平台简介
在场景分割系统运作过程中,需要移动机器人端与安卓手机APP端进行协同运作,因此在ROS系统框架下,需通过无线网络设备实现本地的信息交互。该平台物理拓扑图如图5-1所示。在硬件设备方面,移动机器人基于Turtlebot2平台,搭配的硬件自下往上依次为Turtlebot2底盘、Nvidia AGX Xavier上位机、KinectV1深度相机、RPlidar-A2激光雷达,实际产品如图 5 2介绍。

软件工程论文参考
软件工程论文参考

5.1.1 硬件部分
5.1.1.1 Nvidia AGX Xavier
Nvidia AGX Xavier是专门针对人工智能和深度学习任务而开发的边缘计算设备,该设备旨在支持包括自动驾驶汽车、机器人、无人机、工业自动化和智能城市基础设施等广泛应用领域。它支持包括NVIDIA JetPack SDK、TensorRT和CUDA等人工智能软件框架,使开发人员能够快速轻松地开发和部署AI应用程序。它采用紧凑、节能的设计,内置组件经过严格的工业标准测试,包括新的功能安全能力,能够承受严重冲击和振动和极端温度范围,可以很好的支持移动机器人面临的工作环境。
..........................
第6章总结与展望
6.1 工作总结
深度学习的进步正在为人类的生活方式带来越来越多的变革,在移动机器人应用领域中,场景分割技术能够令机器人具有更加智能的环境感知能力,从而辅助做出决策。针对移动机器人端相对于训练设备的算力缺乏等问题,如何在保证深度学习模型精确度的同时让算法模型能够应用在此类设备的研究方向就显得尤为具有意义。在分析了近年来语义分割模型通常存在的性能瓶颈后,本文以语义分割任务中的边界信息为突破口,在基于已有解决方法的基础上,研究出了考虑面向得分图的边界信息增强方法,并根据多级上下文引导的思路对今年来具有代表性的实时性语义分割网络BiSeNetV1进行改进。
本文的主要工作如下:
(1)针对语义分割模型容易在特征信息分布复杂的区域预测出错,即无法很好的区别边界像素掩膜的现象,研究领域已经存在一批针对该问题的解决方法,本文基于边界检测算法实现了一种语义分割边界信息增强方法,实验证明,该方法得到的边界图像能更精确的描述语义分割任务中的边界像素分布,相比较于直接使用边界检测得到的像素分布图,对于模型的精度上升帮助更大。
(2)本文实现了一种多级上下文引导的快速语义分割算法,区别于双分支网络架构的思路,本文认为,可以设计一种完全基于骨干网络提取的不同层级上下文的语义分割模型,从深层上下文提取场景的全局信息;从浅层上下文中提取场景的分割信息;再从较浅层的上下文中提取场景的边界信息。并参考注意力机制,使用专门的注意力模块对三种信息进行融合,由此设计一种具有三条分支语义分割网络模型。实验结果证明,综合精确度与参数量指标,与现行代表性的语义分割网络模型相比,该模型具有一定优势。
(3)设计并实现了基于移动机器人平台的场景分割系统,该模块按照软件开发顺序,先后进行了需求分析和设计实现方法的介绍。最后的系统测试结果表明,在实际应用中,该模型满足移动机器人端对实时性的需求。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关软件工程论文论文
QQ 1429724474 电话 18964107217