大规模城市场景的三维点云语义分割方法思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33566 论文编号:sb2024011714532151797 日期:2024-02-23 来源:硕博论文网

本文是一篇软件工程论文,本文针对城市点云数据规模大,导致网络训练困难的问题,在数据预处理阶段提出了一种混合采样法对点云数据进行降采样处理,该方法既具备网格采样速度快的优势,又利用了最远点采样法能最大程度保留点云几何形状特征。
第一章 绪论
1.1 研究背景和意义
近年来,得益于廉价的3D传感器的不断发展,点云数据的获取愈发便利[1]。目前学术界和工业界对智慧城市、智能机器人、高精地图的兴趣,也愈发凸显了大规模城市场景理解和环境智能感知的重要性[2]。二维图像的语义分割技术已在多个领域得到应用,然而由于其在维度方面的局限性,致使在语义分割方面陷入了研究瓶颈,三维点云数据的出现打破了语义分割技术发展的困境,为该技术提供了全新的思路与方向[3]。三维点云是由激光雷达等3D扫描设备获取的同一空间参考系下海量点的集合,能准确表达物体表面特征和物体空间分布,其中包括XYZ位置信息和其它附加特征信息,如RGB颜色信息和强度信息等,是一种多维度的复杂数据集合[4]。三维点云拥有二维图像无法比拟的优势,可以提供丰富的几何、形状信息,并且不易受光照强度变化和其它物体遮挡的影响[5]。三维点云语义分割的主要目的是为每个单独的三维点分配语义标签,是三维场景理解和环境智能感知的关键问题之一,吸引了越来越多的研究学者。
但与二维图像相比,三维点云也存在诸多棘手问题,例如:1)点云的无结构性,与二维图像中像素规整的矩阵存储方式不同,三维点云是散乱且无规则的点集,各点间没有固定的排列方式;2)点云的分布不均衡性,二维图像中各像素间的间距始终是固定的,而点云在三维空间中不同区域的稀疏程度也不同,导致点的分布非常不均衡;3)点云的无序性和旋转平移不变形,二维图像中各像素的分布是有序且固定的,随着像素位置的改变,图像也会发生相应改变,与之相比点云中点的位置相互置换或整体旋转平移都不会影响其表示的物体,但计算机无法识别类似操作,给分割造成了困难。除了上述几点,大规模城市三维点云自身还存在覆盖范围广、数据规模大、局部点云量稀疏等大量问题,使得大规模城市场景的三维点云语义分割面临严峻的挑战[6]。
.........................
1.2 国内外发展与研究现状
三维点云语义分割方法主要分为人工提取特征的传统方法和具有学习能力的深度学习方法。其中,传统方法可分为基于属性聚类的方法[10][11]、基于模型拟合的方法[12][13]和基于区域增长的方法[14][15][16],但传统方法时间复杂度高、参数调整困难、分割可控性差,仅适用于几何形状规则的小物体。相比于传统方法,深度学习方法更加简洁高效,分割精度也更高。随着近几年深度学习的快速发展,也极大地推动了三维点云语义分割技术的进步[17]。当前基于深度学习的三维点云语义分割方法可分为基于投影的方法、基于点的方法和混合方法三种。
1.2.1 基于投影的方法
该方法将三维点云数据投影到二维平面上,以图像的方式表示点云数据,再利用成熟的二维图像语义分割网络完成后续的语义分割任务。根据投影方式的不同,可以分为多视图投影和球面投影两种方法。多视图投影是将一片点云中的点映射到三视图的某一个或几个平面上,是最简单的一种投影方法;球面投影是将点云放入一个球坐标系中,然后利用数学上的变换关系,将每个三维点映射到同一个二维空间中。
最早将投影思想引入三维点云语义分割的是文献[18]提出的多视图投影方法,该方法将输入的三维点云投影到多个虚拟相机视图中,生成多组二维图像,再使用全卷积神经网络FCN(Fully Convolutional Networks)对每个视图的图像进行联合分数预测。该方法要求在投影阶段生成的图像必须覆盖原始三维点云的所有点,这对视点的选择要求极高,仅在处理小型特定场景时有不错的效果,在处理大型复杂的城市场景时,很难为其选择足够覆盖面的视点,导致投影后的图像数量过多。为了解决该问题,文献[19]提出了SnapNet分割方法,该方法同样在投影阶段生成不同视点下的局部三维场景的二维图像,但SnapNet会通过预先输入的先验信息(手工制作的图像特征或其它决策规则),自主选择需要保留的投影图像,在保证不同图像间差异性最大的同时,使图像的数量降到最低;同时,在将投影图像的分割结果反投影回三维点云时,依靠得到的局部分割结果预测周围其余三维点的类别,使投影后的图像不需要包含全部的三维点也可以进行语义分割,对视点选择的要求大大降低。但是人工输入的先验信息增加了大量的预处理工作,影响了网络的整体分割速度。
.............................
第二章 三维点云语义分割相关理论介绍
2.1 城市场景三维点云概述
2.1.1 城市场景三维点云格式
三维点云是在同一空间参考系下用于表达物体表面特征和物体空间分布的海量点的集合,包括三维坐标XYZ、颜色RGB等信息。点云数据一般是由三维扫描设备采集得到[40],例如深度相机或三维激光扫描仪LiDAR(Light Detection And Ranging)。
目前存在的点云格式包括PLY、OFF、XYZ、PTS、OBJ、PCD、STL、IGS、DXF等。本文使用PLY点云格式,PLY是一种多边形格式,也称为斯坦福三角格式。借助MeshLab软件显示的PLY格式的点云如图2.1所示,图中分别显示的是城市场景三维点云中的建筑、植被、公路及汽车的点云图。

软件工程论文怎么写
软件工程论文怎么写

............................
2.2 三维点云数据预处理方法
三维点云数据预处理的关键是数据降采样,输入分割网络的训练数据都是经过降采样处理后的,因此,降采样结果的好坏会直接影响网络的训练结果。常用的点云采样方法包括随机采样法、网格采样法、最远点采样法、反密度采样法和几何采样法。
随机采样法的优点是能控制输出点云的数量、速度快操作简单、易于实现。随机采样法的平均计算时间复杂度为O(1),也就是说采样时间与输入点云的数量无关,只与降采样的目标点数有关,计算效率较高,但是该方法最大的问题是其随机性太大,可能剔除点云的关键数据,使得选择出的点云数据不能充分代表整个点云数据。因此,考虑到随机采样效率极高的特点,可将其运用到网络训练过程中,因为网络训练是一个反复迭代的过程,采样速度快可以使整体训练速度有质的提升,但数据预处理操作仅需要进行一次,对速度的要求并不是很高,相比之下能更好地保留几何结构的采样方法更有利于网络后续的学习。因此,随机采样不适用于大规模城市点云的数据预处理。
体素下采样的特点是效率高,采样点分布相对比较均匀,同时可以通过控制网格尺寸控制点间距,既减少了点的数量,又基本上保留了空间结构信息,在点云配准、曲面重建、形状识别等算法中非常实用。但是问题在于不能精确控制采样点个数(有些体素网格中可能是空的),并且对点云的稀疏程度不敏感,无法解决点云稀疏性所带来的几何形状提取不足的问题。同时,利用每个网格的重心点代替网格所有原始三维点,会导致点的位置发生偏移,可能影响网络对物体几何形状特征的提取。
.............................
第三章 大规模城市场景的三维点云数据预处理 ................................ 17
3.1 大规模城市场景的三维点云数据降采样方法研究 .................... 17
3.1.1 大规模城市场景的三维点云数据降采样方法分析 .............. 17
3.1.2 基于混合采样的大规模城市场景三维点云数据降采样 ...... 18
第四章 大规模城市场景的三维点云语义分割网络构建 .................... 30
4.1 BFEN网络整体概述及其架构设计 ......................... 30
4.1.1 BFEN网络概述 ............................ 30
4.1.2 BFEN网络架构设计 ...................... 31
第五章 实验结果与分析 .......................... 41
5.1 数据集介绍 ..................................... 41
5.2 评价指标 ................................. 41
5.3 实验环境配置和实验参数设置 ........................... 42
第五章 实验结果与分析
5.1 数据集介绍
本实验使用的数据集是牛津大学的胡等人在2021年公开的当前最大的城市点云数据集SensatUrban[49],由于数据采集和数据标注的高昂成本,当前公开的数据集都是在相对较小的空间范围内采集得到的,这在一定程度上限制了城市场景三维点云语义分割的发展,SensatUrban数据集弥补了这方面的空白。该数据集中包含三个英国城市(伯明翰,剑桥以及约克)7.6平方公里中的近30亿具有详细语义标注的点,点云中同时包含每个点的XYZ位置信息和RGB颜色信息,共分为地面、植被、建筑、墙面、桥梁、停车场、铁轨、道路、街道设施、汽车、人行道、单车和水13个语义类别。部分数据标注结果如图5.1所示,伯明翰数据中类别具体占比如表5-1所示,其它城市中的类别占比与伯明翰类似。

软件工程论文参考
软件工程论文参考

.............................
结论
三维点云语义分割是一种重要的三维场景理解和环境智能感知技术,广泛应用于自动驾驶、高精地图、智慧城市等领域。而城市场景的三维点云语义分割算法在违章建筑自动监测、城市绿化信息可视化管理、构建数字实体模型、城市公安应急指挥决策等方面有着十分重要的研究意义。但目前并没有很适用于大规模城市三维点云语义分割的分割网络,其它的经典网络在应用于该领域时均无法取得令人满意的性能。基于这点考虑,本文提出了一种基于多特征双向增强的城市场景三维点云语义分割方法BFEN,主要的研究成果包括:
1.提出了一种适用于大规模城市场景三维点云的降采样方法。由于城市点云具有数据规模大、覆盖面积广的特点,导致网络训练困难,该问题是大多数经典网络在应用于该领域面临的最大阻碍,为了克服这个问题,本文在数据预处理阶段提出了采用改进的网格采样和最远点采样结合的混合采样法,既保证了后续网络的训练速度,又缓解了局部点云量稀疏导致采样后形状特征提取不准确的问题。通过实验证明了该方法处理过的训练数据可以使网络更好地学习点云局部特征,十分适用于点云分布不均匀的大规模城市场景。
2.提出了一个多特征局部编码模块。针对城市场景局部点云量稀疏、城市建筑风格各异的特点,从而导致位置、颜色信息对其中部分物体描述能力减弱的问题,本文决定引入一个新的特征,通过将部分点云片段可视化分析的方法,分析了点云法向量的特点,证实了该特征在一些特定的城市类别上的差异性很大,能有效弥补几何形状特征与颜色特征的不足,最终决定在网络中引入该特征。同时,摒弃了其它网络中常用的混合编码方式,将点云的几何信息、颜色信息以及法向量信息分开编码后再级联到一起,以此使每个点云特征都能充分发挥其作用。并通过实验证明了本文提出的多特征局部编码模块对地面、建筑、墙面、铁轨、植被、停车场、人行横道、单车等类别的分割精度均有较大提升。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217