基于语义感知的室外场景三维目标检测的探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:33525 论文编号:sb2025071515471353428 日期:2025-07-28 来源:硕博论文网

本文是一篇软件工程论文,笔者认为在自动驾驶中,精确而快速的三维目标检测可以提供丰富的场景信息,帮助系统及时识别障碍物从而提高安全性。开放词汇三维目标检测则允许模型在未知类别上进行推理,进一步地理解和识别复杂场景中的多种物体,更符合自动驾驶应用场景。
第1章 绪论
1.1 研究背景及意义
近年来,随着人工智能领域的飞速发展,自动驾驶成为了汽车产业最有前景与价值的研究方向之一,成为了学术界和工业界的关注热点。自动驾驶是指利用计算机系统和传感器技术,使汽车能够在无人驾驶的情况下自主地感知环境、做出决策并控制车辆。图1-1(a)展示了极氪与Waymo联合开发的自动驾驶汽车。目前拥有自动驾驶功能的汽车一般具备以下的功能:
(1)环境感知:自动驾驶系统需要通过各种传感器(如图1-(b)展示的Velodyne的激光雷达和奥比中关的深度相机、摄像头、雷达等)准确地感知周围环境中的各种物体,如车辆、行人、自行车等。通过感知可以构建车辆周围的环境模型,理解道路拓扑结构和交通情况。
(2)决策和规划:基于对环境的感知,自动驾驶汽车需要做出决策并规划行驶策略。决策模块会评估当前环境和车辆状态,决定车辆的行为(如加速、减速、换道等)。规划模块则根据决策结果,生成车辆的行驶路径,进行路径规划和导航。
(3)车辆控制:当完成决策和规划后,自动驾驶汽车需要将其转换为具体的车辆控制指令,包括横向控制和纵向控制。车辆控制通常通过电动驱动系统、制动系统和转向系统来实现车辆的精准控制。

软件工程论文参考
软件工程论文参考

..............................
1.2 国内外研究现状
1.2.1 闭集上的三维目标检测算法
三维目标检测作为自动驾驶场景理解的基础任务,旨在定位物体并判断它们的类别。目前的研究都是在闭集上进行,根据输入数据的不同可以分为基于图像的检测方法、基于点云的检测方法以及图像点云融合的检测方法。
基于单目图像的检测算法通常首先在图像上检测2D候选框,然后利用神经网络[1]、几何约束[2]或是3D模型匹配[3]的方法估计3D预测框。Chen等人提出的 Mono3D[1] 利用上下文、语义、人工设计的形状特征和位置先验构建了一个简单的候选区域生成算法。候选区域通过三维空间的穷举搜索生成,并使用非极大值抑制(NMS)进行过滤。过滤后的候选区域通过模型提取特征并进行评分。最后,此方法使用Faster R-CNN[4]模型回归三维边界框。
穷举搜索产生预测框的算法非常耗时。Mousavian 等人[2]用偏航角和边界框尺寸回归扩展了标准的2D目标检测器,从而实现3D预测框估计。因为边框尺寸的方差较小并且与方向无关,可以作为很好的约束条件。对于角度回归,大多数模型使用 L2 损失来预测方向角,然而作者提出了一种多区间方法来回归方向角。具体而言,角度被划分为n个区间,网络估算落入每个区间的置信度,并将一个残差值角度与区间值相加得到最终的输出角度。最后通过约束三维边界框与图像平面上的二维检测框的重投影误差来求解平移矩阵,估计三维物体的位置。
..............................
第2章 相关理论介绍
2.1 点云的获取
目前获取点云数据一般采用激光雷达(LiDAR)或者深度相机两种传感器,它们通过三角测距法或飞行时间法(ToF)测量物体到传感器的距离从而生成点云。当前主流厂商一般采用飞行时间法设计传感器,本节首先介绍一下它的基本原理。
如图2-1所示,LiDAR通过内置的激光发射器发射诸如红外激光等脉冲光束,在光束接触物体后,部分光线会被物体吸收,另外一部分被物体反射回来。内置的接收器接收反射回来的光束,并计算这个时间差∆????,根据此时间差与光速相乘,可计算出传感器与物体之间的距离????=???? ×∆????。结合发射器的高度、扫描器的角度以及激光雷达自身位置等信息,可以获得准确的三维点坐标(????,????,????)。通过旋转扫描器,激光雷达在水平方向和垂直方向能获取多个点,最终构成完整的物体点云。

软件工程论文怎么写
软件工程论文怎么写

.............................
2.2点云的表示
通过传感器获得的点云通常包含位置信息(????,????,????)、颜色信息(????,????,????)、法向量信息????、强度信息????以及反射率????中的一种或几种。在介绍不同的点云表示方式之前,需要了解一下原始点云的特性。如图2-2所示,(a)原始点云作为一个集合是无序的,任何排列都表示同一个点云集合;(b)另外,靠近传感器附近的点云更密集,远离传感器的点云更稀疏,点云的表示是不规则的;(c)点云是非结构化的,每个点都是独立的,没有拓扑关系,无法像像素一样结构化表示。
针对点云的不规则和非结构化问题,一种直观的想法是将其结构化,转换为体素来表示。这种方式需要定义体素网格的大小和分辨率,这关系到最终的表示精度。首先,根据定义的尺寸大小,初始化一个空的体素,一般包含计数器等属性,用来表示该体素包含的点的属性。然后遍历点云,根据位置信息将每个点分配到相应的体素中去,同时更新体素信息。最后,当遍历完整点云后,每个点的信息都包含在它所属的体素网格中了,实现了点云的体素化。
...........................
第3章 基于中心感知采样和形变跨注意力机制的三维目标检测算法研究 ........................ 27
3.1 引言 ........................ 27
3.2 CA-SSD网络结构模型 ........................ 28
3.3 实验结果与分析 ...................... 32
第4章 基于语义感知的开放词汇三维目标检测算法研究 ................ 41
4.1 引言 ....................... 41
4.2 开放词汇Li DAR点云目标检测网络模型结构 ......................... 42
4.3 实验结果与分析 ......................... 47
第5章 工作总结与展望 ........................ 53
5.1 论文工作总结 ...................................... 53
5.2 未来工作展望 ........................... 54
第4章 基于语义感知的开放词汇三维目标检测算法研究
4.1引言
第三章构建了一个简单有效的基于点云的目标检测框架,提升了对稀有类别的检测精度。然而,造成稀有类别检测精度不佳的另一个主要原因是数据标注有限。由于目前最先进的目标检测算法严重依赖闭集三维检测基准数据集,因此这些方法只能处理预定义的类别。事实上,真实世界的场景多种多样,而且更为复杂[84]。例如,自动驾驶汽车通常会遇到包含大量物体的环境,而这些物体可能在训练集中并不存在或没有定义。这就要求感知系统具备识别这些新颖物体类别的能力,以指导决策。因此,在不引入新目标重新训练网络模型的情况下研究开放词汇三维目标检测变得越来越重要。而实现这一目标的关键是让模型学习通用特征表示。
在二维计算机视觉领域,类似的问题通过引入二维基础模型[85]或视觉语言模型(VLM)来解决。VLM通过对从互联网上收集的大量图像-文本对进行预训练来学习足够的知识,从而实现各种2D零样本、开放词汇或少样本视觉任务。然而将VLM 直接应用于3D目标检测并非易事。首先,2D和3D之间存在的领域差距限制了直接进行二维检测方法[41]的迁移。第二,海量收集具有高质量注释的 LiDAR 点云数据是劳动密集型和耗时的,并且难以泛化[86]。最后,大规模的点云-文本数据对是稀缺的[87]。因此,开展3D视觉语言模型的研究非常重要。
........................
第5章 工作总结与展望
5.1 论文工作总结
自动驾驶作为计算机视觉领域极具前景的研究之一,目前面临着众多挑战。快速而准确的感知系统是实现自动驾驶/辅助驾驶的必要条件,三维目标检测又是感知系统中的重要一环。点云数据由于包含丰富的几何信息,常用作三维目标检测任务的输入。然而,自动驾驶场景下的点云数据规模巨大,直接对其处理需要高昂的计算成本和时间开销,因此目前的检测算法大都需要多次下采样点云。常用的随机采样和最远点采样无法保存足够的前景点,造成了信息损失。另外,目前的自动驾驶数据集由于人工标注的困难,无法对所有类别都提供充足的样本,这导致了目前的检测算法对于标注较少的稀有类别检测精度不佳。
本文第一个工作提出了基于中心感知采样和跨注意力增强的三维目标检测算法。首先采用了基于中心感知的采样方式提高前景点的召回率,以保留更多的前景点信息。其次引入了可形变跨注意力机制,使用原始点集的代表性子集聚合采样前后的上下文特征,进一步保留全局信息。然后设计了一个偏移模块来减少点云规模。最后,针对数据标注困难导致的稀有类别检测精度不佳的问题,本方法使用了通道转换函数纠正任务分布偏差,提升稀有类别的检测精度。
进一步考虑自动驾驶数据集中的类别分布不均衡问题,可以将训练集中未出现/未定义的目标类别视作“最稀有类别”(样本标注数为0),如何训练一个3D目标检测器使得它能检测出这些类别呢?开放词汇方法提供了一种解决思路,通过将VLM与检测器共同训练,转移VLM中的语义知识到3D检测器,从而实现“最稀有类别”(开放词汇的定义为全新类别)的检测。这种想法的关键是点云特征与文本语义插值的特征对齐。目前,二维开放词汇任务、三维开放词汇场景理解任务以及室内场景的三维开放词汇检测任务已得到初步的研究,然而自动驾驶场景下的开放词汇三维目标检测任务仍待探索。
参考文献(略)


上一篇:基于大语言模型的法律判决预测探讨
下一篇:没有了
如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关软件工程论文论文
QQ 1429724474 电话 18964107217