基于YOLOv4的交叉道路场景下的行人检测算法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:25455 论文编号:sb2024010120592251669 日期:2024-01-09 来源:硕博论文网

本文是一篇计算机论文,本文对YOLO系列行人检测算法进行了详细的分析,提出引入以ResNet-101为基础的深度残差收缩网络,然后将YOLO v4中的CSPDarkNet53替换为DRSN,对改进的YOLOv4算法和原始YOLOv4算法进行模型的训练和测试,得到两种模型下的测试数据和损失函数曲线图。
第1章 引 言
1.1 研究背景及研究意义
全社会经济发展的同时也带动了科学技术的高速发展,科技发展改变了人们的生活日常,渗透到生活的点点滴滴。其中,尤其以现代化人工智能技术、区块链技术、5G物联网技术等计算机方面的新兴创新科技为关键。在深度学习领域,计算机视觉[1]目前是许多学者和企业最为关注的领域,而行人检测技术[2]又是该研究领域中一块重要的分支。行人检测,其的主要目的[3]就是通过计算机系统能够在给定的实际生活场景中快速且准确的判断出输入到计算机系统内的图像中有无行人目标。行人检测技术经过十多年的发展,至今仍是热门课题,尤其随着卷积神经网络的不断更新发展[4][5],使其在速度、精度等方面得到大幅提高。
智慧交通[6]是未来交通管理发展的趋势,随着经济和社会发展迅速,城市规模不继扩大,城市化进程的不断加快,城市人口和机动车数量迅速增长,城市道路安全也面临着严峻的挑战。在道路上行人处于弱势地位,与车辆相比,行人没有任何的保护措施,因此行人在交通事故中占的伤亡比重比较大。其中一些老年人和儿童自身安全意识薄弱,经常出现横穿马路、不按交通灯行走等状况,更是加剧了出行的风险。国家统计局发布的交通事故显示,近几年来交通事故居高不下并且总体上呈现上升趋势。如图1.1所示。2021年12月成都交警发布数据称,今年以来成都市发生涉及行人的交通事故中,老人和儿童违法横穿机动车道的现象尤为突出,老人和儿童因违法横穿道路导致死亡的事故竟高达84.8%。世界卫生组织在2018年的《全球道路安全现状报告》指出[7],道路交通死亡人数继续攀升,每年死亡135万人;报告指出道路交通死亡人数的变化也反映在道路使用者的类型上,在全球范围内,行人和骑自行车者占所有道路交通死亡人数的26%。所以,如何降低交通事故的发生以及保障行人的安全对于创建一个良好的交通环境有着至关重要的作用[8]。

计算机论文怎么写
计算机论文怎么写

.............................
1.2 行人检测国内外研究现状
行人检测技术[9][10][11]是目标检测的重要领域之一,行人检测技术一直以来备受各界关注,并且一直在不断的探索和研究。行人检测应用于日常安全、机器人导航、自动驾驶等行业,利用行人检测技术可以减少对人力资本的消耗,以此行人检测具有重要的现实意义。行人检测是机器视觉和深度学习的基础问题,它为包括实例分割在内的众多研究问题的深入开发奠定了基础[12][13][14]。近年来,国内外许多科研机构、高等院校在相关技术的研究上投入了大量精力,并取得了丰硕的成果。用于行人检测的算法通常由现有的目标检测方法辅助,然后针对行人目标的特定模型进行算法训练。
1.2.1 传统行人检测算法
在深度学习没有发展起来的时代,要实现行人检测技术靠的是利用人工进行选择提取行人特征信息,这需要工程师具备非常丰富的经验,然后通过复杂的机器学习算法或集成算法来分类行人的特征信息,不断对行人检测的性能进行改善。这类检测算法的检测流程都有一些共同的顺序:首先对收集到的图片或者视频数据进行预处理,然后根据行人特点手工设计合理的特征,最后利用相关机器学习算法训练特征信息实现对行人的检测。在2005年Dalai在文献[16]中提出了方向梯度直方图(Histogram of Oriented Gradient,HOG)思想,使用HOG做行人检测,作者研究了行人检测的特征集问题,局部归一化的HOG描述子相比于当时存在的特征集有更好的表现。与边缘方向直方图[17](Edge Orientation Histograms)、SIFT描述子、形状上下文[18](Shape Contexts)相比,HOG是在网格密集的大小统一的细胞单元上进行计算,而且为了提高性能,还采用了重叠的局部对比度归一化。作者用行人检测(行人是大部分可见的并且基本上是直立的)进行测试,为了保证速度和简洁性,使用线性SVM[19]作为分类器,利用滑动窗口提取目标区域,这种算法对于道路交通中的行人具有更加优异的检测结果。
............................
第2章 行人检测相关理论基础
2.1 卷积神经网络基础
2.1.1卷积神经网络概述
卷积神经网络(CNN),是一种专门用来处理具有类似网格结构的数据的神经网络[43]卷积网络是在网络模型中使用卷积核对网络学习到的特征矩阵进行卷积操作。其基本结构由以下几个部分组成:输入层(input layer),卷积层(convolution layer),池化层(pooling layer),激活函数层以及全连接层(full-connection layer)[43]。
1.输入层
在处理图像的CNN中,输入层指的是要输入进网络的图像,在YOLOv4当中输入进的图像大小必须是32的倍数。因为图像一共有三种层次的色彩,所以网络会可以把输入进来的图像用一个三维矩阵来表示,在这个图像的像素矩阵当中长和宽代表的是实验时输入的图像的大小,那么另一个维度表示的就是图像的色彩通道。根据输入的照片的模式,图像的深度可以设为1,也可以设为3,当图像深度为1时说明输入到网络中的图像为黑白图像。
2.卷积层
卷积层顾名思义对卷积神经网络来说是最重要的一部分。当特征信息过于冗余,我们想要去除冗余的部分,取出精华的特征部分。那么进行模型设计时就可以用卷积层来进行特征的压缩提纯,这个过程是通过卷积核对特征矩阵进行卷积操作实现的。卷积层被称为过滤器(filter)或者内核(kernel),在卷积神经网络中filter的深度必须和输入进来的特征矩阵的深度一致。
........................
2.2 YOLOv4行人检测算法
YOLO系列算法的提出给行人检测研究方向提供了新的参考。YOLO算法将整张图作为网络的输入,利用最上层的整体特征图对多类别进行预测,并进行边界框的置信度分析,具体实施方式为:将一幅图像分割成若干区域,若某一区域内落有一个待检测目标的中心,那么这个目标的相关信息就由其所在区域负责。最后,每个网格根据阈值去除低分的边界框,也就是目标存在可能性低的,依据NMS去除冗余窗口。YOLO系列行人检测算法随着版本的演变,该系列算法在追求极致检测速度的同时也在不断的加强检测精度。
对于YOLOv4的主体网络层分为四个部分,分别是负责输入特征数据的输入层;负责特征提取工作的Backbone层,该网络层也是整个YOLOv4网络的核心部分;还有Neck层,负责对网络提取到的特征信息,再进行池化和特征融合,该网络层结构稍显复杂,其可以分成SPPNet、PANet两种类型的网络;以及最终整个模型的输出层Head[34]。
.........................
第3章 基于DRSN的行人检测算法 ........................ 20
3.1 深度残差收缩网络 ............................ 20
3.1.1 ResNet ............................................... 20
3.1.2 软阈值函数 ....................................... 21
第4章 改进残差结构的行人检测算法 ....................... 33
4.1 改进主干网络残差块 ............................ 33
4.1.1 Res2Net ................................. 33
4.1.2 CBAM机制 ............................ 33
第5章 总结与展望 ............................ 37
第4章 改进残差结构的行人检测算法

4.1 改进主干网络残差块
4.1.1 Res2Net
Res2Net[50]是由南开大学、牛津大学和加州大学默塞德分校的研究人员共同提出的,Res2Net可以在不增加计算负载量的情况下和现有其他优秀模块轻松整合,在ImageNet、CIFAR-100等数据集上的测试性能超过了ResNet。它是在ResNet的基础上做了改进,从图4.1中也可以看到原本的它对应的结构是1*1,3*3,1*1的3个卷积层。Res2Net改进了中间3*3卷积层,将1*1卷积层对应的输出数据被平均分成若干份。x1直接映射到y1,而后面的输入xi不只是经过了3*3的卷积,而是在经过了3*3的卷积之后又把特征分为两个部分,一部分映射到y,一部分进入到下一个分支的3*3卷积,这就是多尺度卷积。这种网络结构能够使特征提取网络学习到更加细节的特征,更好的定位行人目标的位置,使行人具有更清晰的边界,同时也能提高小尺度、小目标行人的检测性能。

计算机论文参考
计算机论文参考

图4.1当中左侧图为ResNet的结构,右图为本文所用的模型结构,Res2Net模型具备了更优秀的网络特征提取能力。但是从图中也可以看出,他经过多次3*3的卷积,势必会造成网络计算量的增多。针对YOLOv4算法在小目标行人检测上的,提出了使用Res2Net替换原来的网络模型当中的ResNet结构,这种网络结构能够使特征提取网络提取到更加细节的特征。改善小目标检测的正确率,改进后的网络模型记为Res2n-YOLOv4。
..........................
第5章 总结与展望
本文以基于YOLOv4的交叉道路场景下的行人检测算法为课题,现在检测技术的发展越来越成熟,应用领域也越来越广泛。首先本文研究了在行人检测任务中的小目标行人漏检及其他物体误检等问题,通过对该问题以及常用的解决方法进行分析,得到了本文提高行人检测速度的思路,即通过更深层次检测效果更好的Res2Net-101作为特征提取主干网络。使用的算法是检测效果相对来说比较好的YOLO算法。将YOLO算法进一步改进得到本文研究如下内容:
(1)通过自制数据集对YOLOv4算法进行训练和测试,得到其在本数据集上的检测精度为89.4%。本文对YOLO系列行人检测算法进行了详细的分析,提出引入以ResNet-101为基础的深度残差收缩网络,然后将YOLO v4中的CSPDarkNet53替换为DRSN,对改进的YOLOv4算法和原始YOLOv4算法进行模型的训练和测试,得到两种模型下的测试数据和损失函数曲线图。
(2)虽然DRSN-YOLO v4算法提高了模型的检测精度,但是实验发现其检测速率有所下降。因此本文又提出了使用Res2Net结构来代替CSPDarkNet53当中的残差结构。说明了选择此网络框架当作改进后算法的分类网络的原因。其次介绍了改进后算法的整体结构,最后将改进的网络模型在行人检测数据集上的实验,得出训练过程及实验的具体结果。
参考文献(略)


上一篇:基于生成对抗网络的图像超分辨率重建
下一篇:没有了
如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关计算机论文论文
QQ 1429724474 电话 18964107217