1 绪论
1.1 课题研究背景及意义
计算机在人类的日常生活中已经无处不在。它们在处理重复性、大数据量的工作方面比人类更加高效和准确。计算机视觉和机器智能的一项重要目标就是赋予计算机“看”的能力,而其中一个基本的工作就是要在视频和图像中辨别人体目标[1]。这样的功能具有重要的研究价值,而且应用广泛。近三十年来,视频监控系统得到了巨大的发展。从早期的以摄像机和监视器(电视机)组成的纯模拟的闭路视频监控系统,到 20 世纪 90 年代中期,以 DVR(Digital Video Recorder)为代表的数字视频监控系统,再发展到基于 TCP/IP 协议的网络化视频监控系统。一路走来监控技术的发展已经非常成熟、性能稳定,并在实际工程应用中得到广泛推广。但是这些传统视频监控是由相关人员通过监视器进行人工监控。作为监控者的人类有自身生理上的弱点,人脑只能关注一件事物,所谓一心不能二用,当监控者同时观测多个监视器时,监控精度会随着监控视频数量的上升而下降。再者,人对于单调的事物无法长时间的集中注意力,有关研究表明人在关注监控图像 20 分钟后,其注意力会下降到无法接受的程度[2]。而且人类需要饮食、休息等生理活动,这也会影响监控系统的可靠性。因此传统的视频监控系统均不同程度存在精确度差、报警不及时、误报和漏报等现象,以致系统的安全性和实用性得不到保障。智能视频监控作为计算机视觉理论的新兴应用邻域,可以将人类从繁重的屏幕监视工作中解放出来,实现每天连续 24 小时实时智能监视,能够自动分析摄像机捕捉的图像数据,并且当异常发生时又能向相关人员准确及时地发出警报,大大减轻了人类的视觉疲劳,提高了监控的效率和准确性。而且智能视频监控还可以对监控场景进行计算和分析,满足人们的各种要求。所以近年来,智能视频监控以其区别于传统视频监控而快速发展。人体的检测和识别作为智能视频监的关键技术,已经引起了很多科研人员的兴趣。
……………
1.2 人体识别技术研究现状
在过去的十余年里,人体检测和识别得到了学术界和工业界的广泛研究。在著名的学术期刊,如 IJCV、PAMI 等和重要学术会议,如 ICCV、CVPR、ECCV 等相继刊登了大量的有关人体检测的最新研究成果。许多著名的公司和研究机构如 IBM、MIT、CMU等也投入大量的人力和物力进行人体检测和相关智能系统的研究。一般,人体的检测和识别分成基于整体的人体检测方法和基于部件的检测方法,基于整体的人体检测方法是将人体作为一个整体进行检测,如图 1.1a。通过定义一些人体的整体特征来识别人体。其中,人体的形状和轮廓特征是一个常用的识别点。Haritaoglu、Gavrila 等利用人体的轮廓特征来识别人体。通过背景差分法和帧间差分法在图像帧序列中分割运动目标,然后分析分割目标的形状特征。由于人体在身体中心轴线坐标上呈现一定的对称性,因此,可以计算某个区域内目标轮廓在水平和垂直两个方向的投影柱状图,分析对称性,以确定目标是否为人体[8][9]。Rivlin、Senio 等人将经过运动分割后的目标用一个椭圆来匹配,椭圆的长短轴及其长度比率和长短轴在图像平面坐标系之间形成的角度可以作为形状特征对人体进行分类[10][11]。Lipton等人定义了运动目标边缘周长平方与面积之比作为离散度,利用这个特征来区分人体、汽车等物体[12]。Collins 等人融合了以上多个参数,将检测目标的面积、长宽比、离散度等作为特征,训练了一个三层神经网络对人体等进行分类。
…………
2 视频帧图像预处理
2.1 视频帧图像提取
对视频文件进行人体识别,首先要提取视频文件中的帧图像。视频帧提取就是对视频文件进行解码。如果是完全解码,即从视频中提取每一帧,这样做的一个显著的好处就是保证了在监控的过程中人体检测的完整性。但是这样就需要在视频的帧间间隔时间内完成对每帧的检测,如果对每帧图像的处理时间大于帧间间隔,就会导致帧的冗余,使实时性大打折扣。在现实的应用中,因为帧间内容的相关性,相邻帧间的内容变化并不大,不需要对每一帧图像进行检测。所以在本实验中只需要提取视频关键帧。关键帧提取是基于内容的视频检索的重要步骤,关键帧反映了镜头的主要内容,它的使用大大减少了视频索引的数量。当前,主要有以下几种关键帧提取算法[22]:该算法每隔一段时间从视频中提取一帧作为关键帧,其优点是算法实现简单,缺点是视频的采样间隔很难和视频内容分布一致。该算法提取的关键帧反映了镜头中出现频率较高的内容,而没有反映在镜头中出现时间较短,但有重要意义的对象。该类算法首先对镜头中的所有帧聚类,如果类足够大,则将其作为关键帧类,选择距离类中心最近的一帧作为关键帧,该算法还有多种改进算法,例如在聚类算法中采用自适应的阈值,改进的 C 模糊聚类算法,非参数密度估计算法等,这类算法最大的缺点是计算量相对较大。
…………
2.2 运动区域分割
2.2.1 帧间差法
帧间差分法(Frame Difference)的基本原理是当监控场景中出现运动物体时,相邻两帧之间会出现较为明显的差别,将两帧对应像素点相减得到图像亮度差的绝对值,并以此判断图像序列中是否有运动物体。目前提取感兴趣区域的方法可以分为下面几类:①模板匹配;②光流;③背景差分;④帧间差分法。本文所关注的是随机视频区域内的人体,不可能以一个固定模板表示,因此模板匹配不适用;而光流法时间开销较大,抗噪性能较差,因此对实时性要求较高的系统也不适用;背景差分法是利用当前视频图像和背景图像作差分来检测运动目标区域,因为在处理的过程中需要生成和更新背景,所以应用场景受到限制,而且背景差分法受场景的光照、外来事件干扰等影响较大。帧间差分法是一种通过对视频图像帧序列中相邻两帧作差分运算来获得运动目标轮廓的方法。这种方法实现简单,运算速度快。另外,由于相邻两帧间的时间间隔一般较短,因此该方法对场景光线变化不太敏感,干扰和噪声无累计现象,对于动态环境具有较强的自适应性,鲁棒性较好。基于上述分析和对关键帧提取因素的考虑,本文采用基于帧间差分法。
……………
3 人体特征向量的提取......... 17
3.1 常用人体特征向量 ..... 17
3.1.1 梯度方向直方图....... 17
3.1.2 局部二值模式..... 18
3.2 统计变换直方图 ......... 19
3.2.1 轮廓编码....... 19
3.2.2 统计变换算法..... 20
3.2.3 统计变换直方图算法..... 22
3.3 与 HOG 和 LBP 算法比较 ..... 25
3.4 特征向量的提取步骤 ....... 26
3.5 本章小结 ......... 27
4 支持向量机及快速算法..... 28
4.1 支持向量机原理 ......... 28
4.2 特征空间与核函数 ..... 32
4.3 训练流程 ......... 33
4.4 训练得到的部分参数 ....... 33
4.5 快速算法的推导 ......... 34
4.6 本章小结 ......... 36
5 实验及结果分析..... 37
5.1 训练库与测试库 ......... 37
5.2 多尺度滑窗技术 ......... 37
5.3 检测窗口融合 ....... 41
5.4 实验结果 ......... 42
5.5 本章小结 ......... 46
5 实验及结果分析
5.1 训练库与测试库
训练库和测试库是人体分类器训练、测试的必需条件。一个好的人体数据库将使人体分类器训练更加有效。实践证明人体库越接近于真实世界,其训练得到的结果在现实世界中就会有越优异的表现。表 5.1 介绍了世界上几个著名的人体库以及其训练和测试集样本数量和特点。如表 5.1 所示,其中 MIT 库和 INRIA 库最具有代表性。目前很多的研究都是基于这两个库的基础上进行训练和测试的,这为本文的研究提供了很好的基准参照。与 MIT库不同,INRIA 数据库所有样本都是彩色图像,人体存在多种多样的动作,姿态差异较大,且部分样本中存在遮挡,更加接近现实世界,所以本文的实验部分主要采用 INRIA数据库。另外为了丰富人体的姿势,使测试更加具有现实性和完整性,还在测试的过程中加入了现实中拍摄的人体图片 200 张。在提取特征向量时,规定窗口大小为 36×108 像素,所以训练和测试时检测窗口的大小也默认使用 36×108 像素。在训练分类器时,可以人工控制训练图像的大小。可是在检测时,待检测图片的大小却是由实际的场景控制,这就造成了待检图片的像素大小差别很大。当有些图片的像素小于检测窗口,这就需要补齐图像。当图片的像素大于检测窗口时,为了检测出这类图片中的全部人体,实验中采用滑窗的方法对窗口进行遍历。即当检测窗口检测完图像一块区域后,便滑动一定大小,继续检测图像的其他区域,直到图像全部检测完毕。如图 5.1 所示,其中 5.1a 图的大小为 480×640 像素,远远大于检测窗口的大小。图 5.1b 表示采用滑窗进行检测的过程。
……………
结论
本文的工作也是从特征向量和分类器两个方面入手,其工作的判别标准也是准确率和检测速度。要完成对视频的检测,实验中先基于采样的方法提取关键帧,再使用帧间差分法和运动 MHI 图像获取待检测区域,通过对图像进行 Sobel梯度算子预处理,然后计算图像的 CENTRIST,提取 CTH 特征向量,并使用线性支持向量机分类。在分类的过程中,通过严密的数学推导,发现当 CTH 特征和线性支持向量机同时运用时具有快速算法,可以简化中间步骤,不用明确生成特征向量就可以完成分类工作。经实验测试,本论文达到了以下效果:
(1) 构建了人体数据库。在训练和测试的过程中,需要大量的人体图片。本论文在国际已有的著名数据库(INRIA、MIT)的基础上通过现实中的拍摄,构建了用于系统的数据库。该数据库正负样本种类多,人体姿势全,能较真实的反应现实中的各种人体,并在实验中起到了较好的训练和测试目的。
(2) 提出了基于图像的 CTH 特征,使用线性支持向量机,通过快速算法分类图像。本文创新性的采用统计变换直方图法检测人体。通过实验证明此方法在准确率上处于中等水平,达到了 83.5%,并在漏检率和误检率之间取得了较好的平衡。在检测的速度方面,本文通过采用快速算法比其他方法提高了很多,达到了 20fps。另外,在程序的设计过程中还注意兼容目前的最新研究成果,比如本文的方法也可以使用 GPU 硬件加速等方法进一步提高性能。
……………
参考文献(略)