中级工程师职称论文范文HOG特征快速行人检测算法
所属栏目:电子技术论文
发布时间:2014-11-07 14:08:58 更新时间:2014-11-07 14:35:52
目前在交通运输方面,针对行人以及客流的建模研究主要集中于对行人的步频和长度、行人安全、行人数目、行人跟踪、公共服务设施服务时间等参数的研究[1]。在国内,由于特殊的国情,研究集中在聚集客流、服务时间以及对行人安全方面的研究。
摘 要: 传统的HOG特征对正视或侧视行人有较好的识别率,但是对俯视行人的识别率仍有所欠缺。对检测图像的HOG特征根据不同的俯仰角进行了转换,同时优化了 SVM分类器训练过程,提出了一种改进的快速行人检测算法。测试结果表明,该算法优于基于传统HOG特征的检测方法,有效提高了不同俯仰角视频中行人检测的准确性。
关键词: 中级工程师职称论文范文,快速行人检测算法,HOG特征,俯仰角修正,SVM
Pedestrian quick detection algorithm based on with pitch angle corrected HOG features
CAO Qiao?hui, GE Wang?chen
(School of Electronics and Information Engineering, Tongji University, Shanghai 200092, China)
Abstract: Traditional HOG feature detection method has a preferable recognition rate for envisaging and side?looking pedestrians, but has a low recognition rate for overlooking pedestrians. An improved pedestrian quick detection algorithm is proposed in this paper, which is realized by converting HOG features in the detected images according to pitch angle and optimizing the SVM classifier training process. The testing result shows that the algorithm is better than the detection methods based on the traditional HOG features and has improved the detection veracity of pedestrians in the different pitch angle video images.
Keywords: pedestrian quick detection; HOG feature; pitch angle correction; SVM
0 引 言
大部分公共场所的背景较为复杂,因此如果仅仅使用基于背景?前景分割的目标分割技术,其性能会受到复杂背景的影响,其中包括将非人运动物体检测为目标或者将静态目标与背景融为一体导致漏检。此外,监控摄像头一般处于离地面较高的位置,其视角会发生一定的变化,基于模板或基于特征的检测方式也会在鲁棒性上受到一定的影响。
对于基于机器学习的行人检测来说,其中的一个重要问题是如何选取一个信息量足够大并且对光照、视角等具有鲁棒性的本地特征,以便将前景中的行人和非行人分割开来。由于Dalal和Triggs提出的HOG特征能够比较准确地描述行人,因此本文将采用HOG特征作为行人的主要特征。
本文对Dalal和Triggs的算法进行了改进,并且应用在不同视角的公共场所视频的行人检测中。在检测过程中,针对不同俯仰角,本文对检测图像的HOG特征进行了转换,使不同俯仰角视频中的行人能够被正确地检测出来。
1 HOG特征及视角变化对其的影响
1.1 HOG特征
Dalal和Triggs于2006年提出了基于HOG的行人检测算法[2]。与SIFT特征类似,HOG也是采用图像局部区域的梯度统计信息对图像进行描述。但是与SIFT不同的是,HOG并不只针对目标区域内的稀疏点进行特征提取,而是一种密集特征,即HOG特征与目标区域内的所有点有关,因此通常 HOG会以高维向量的方式表现。
HOG的主要思想是:在一幅图像中,相对于使用颜色信息,本地物体或行人的外观与形状能够更好地被梯度或者边缘分布的直方图描述。因此,Dalal和Triggs将图像分为各个胞元(cells),计算胞元中每个像素的梯度;对检测窗口(window)中的块(block)进行密集扫描,串联起来得到一个高维向量;最后通过线性SVM分类器对向量进行分类,以达到检测物体的效果。
1.2 摄像机俯仰角对HOG特征的影响
对于大多数行人库,如INRIA,MIT行人库等,其训练样本主要为侧视角的行人[3];而在实际应用中,并不能够保证摄像机的角度一定为侧对行人的角度。如果不考虑视角变换而是将所有视角的行人图片一起作为正样本训练,则会影响到线性SVM分类器的分类性能。此外,对于特定视角的样本采集会耗费大量的时间,并且对场景的适应性有限。因此研究视角的不同会带来HOG特征的变化。
设置场景的摄像机的水平旋转角为[α,]俯仰角为[β,]如图1所示。下面将分别讨论它们对梯度产生的影响。
图1 摄像机视角不同对物体高度和宽度的影响
对于俯仰角[β,]其影响的是[y]方向的分量,若人体的高度为[H,][h1]是摄像机和水平面夹角为[β1]时人体在图像上所成像的高度,[h2]是摄像机和水平面夹角为[β2]时人体在图像上所成像的高度,则有:
[Cβ1,β2=h2h1=cosβ2cosβ1, -π2<β<π2] (1)
[θ2x,y=arctantanθ1x,y?1Cβ1,β2] (2)
且梯度为:
[?f2(x,y)=?2f?x2+tan2θ1(x,y)??2f?x2] (3)
[?f2(x,y)=?2f?x2+tan2θ1(x,y)C(β1,β2)??2f?x2] (4)
[?f2x,y=?f1x,y?1+tan2θ1(x,y)C(β1,β2)1+tan2θ1(x,y)] (5)
同时对于扫描窗口的尺寸,有:
[w=C(α1,α2)?w] (6)
[h=C(β1,β2)?h] (7)
因此当摄像机的水平和俯仰角度发生变化时,目标图像的梯度都会发生一定程度的变化。在实际检测特征时,先对梯度进行相应的变换,再按普通HOG的方式进行检测。
2 快速人体检测算法
2.1 训练过程
本算法使用的训练过程如图2所示。
图2 SVM分类器完整训练流程
本算法采用INRIA行人数据集作为训练样本库,并加入一些自行采集到的行人数据。INRIA数据集中的图像都为彩色图像,正样本的大小为 96×160,负样本的大小为320×240。本系统在RGB空间中提取HOG特征,在三个空间中分别计算这三个分量的梯度,选取幅值最大的作为该像素梯度;使用像素的cell计算9个方向上的梯度直方图,并且将像素作为一个block进行梯度直方图归一化[4],如图3所示。
图3 对图片的block进行直方图归一化并计算梯度直方图
在进行SVM分类时,本文采用SVM Light对正样本和负样本提取的HOG特征分类,并且使用线性核SVM作为分类器。一次分类结束后,将得到的分类器对所有源负样本进行密集扫描检测。二次训练完成后,就得到了3 780维的SVM分类器。
2.2 快速行人检测算法
检测的流程图如图4所示。
图4 本文使用检测算法的流程图
在二次训练后得到3 780维的SVM分类器后,使用此分类器对图像中的人体进行检测。在使用SVM对特征进行分类时,需要对视角进行修正。考虑到摄像机的角度变化,本文中采用的扫描窗口大小由式(6)与式(7)决定,例如当俯仰角为30°,水平角为15°时,窗口的大小为64×110;获得窗口中的梯度后,使用式(5)对获得的梯度进行修正,并且使用线性插值对图像边缘的梯度进行插值,使梯度图像重新缩放至64×128大小;然后对这些梯度计算HOG特征,并使用SVM分类器进行分类[5]。
检测时采用密集扫描,并对检测图像进行变化率为[σ=]1.10的多尺度变换[6]。因此,图像中包含相同目标的多个检测窗口在SVM检测时都会被检测为目标窗口;单个目标可能会出现多个检测窗口,对后续跟踪造成困难。
为了使每个目标仅被单个窗口包围,需要对包围窗口进行合并。如果一个目标窗口被另一个目标窗口完全包含,那么认为它们属于同一个目标;同时当包围窗口之间的重合面积大于70%时,也认为它们属于一个目标。这里将被认为属于同一个目标的包围窗口定义为属于同一类。对于每张图像,将所有的包围窗口分为[N] 类,每个目标带有[n]个包围窗口,并且引入一个阈值[T。]当[N]类中的包围窗口数量[n]大于[T]时,将相同类别的包围盒作合并;包围窗口数量小于[T]时,认为这个类属于误报,对其进行过滤。经过测试,使用阈值[T]为2的合并算法就能够合并大部分的包围盒,并且滤除一定的误检目标。
3 实验结果及分析
本文分别采用PETS2006的稀疏客流密度视频与PETS2009中的中客流密度的部分视频对算法的识别率进行测试,并且截取一部分对本文所使用的 HOG特征进行检测。视频的信息如表1所示。在测试时,记录一帧中未检测出的行人数量以及错误检测的目标框数量。测试的结果如表2,表3所示。
表1 所使用的测试视频信息
[视频名称\&俯仰角\&视频尺寸\&帧数\&总目标数量\&0601\&β≈45°\&360×288\&700\&471\&0602\&β≈45°\&360×288\&1 007\&687\&0901\&β≈30°\&768×576\&794\&3 099\&0902\&β≈0°\&768×576\&794\&2 807\&]
表2 普通HOG特征的测试结果
[视频名称\&帧数\&总目标数量\&正确识别数\&漏检数\&0601\&700\&471\&428\&43\&0602\&1 007\&687\&622\&64\&0901\&794\&3 099\&2 914\&185\&0902\&794\&2 807\&2 723\&84\&]
表3 视角转换的HOG特征的测试结果
[视频名称\&帧数\&总目标数量\&正确识别数\&漏检数\&0601\&700\&471\&448\&23\&0602\&1 007\&687\&670\&17\&0901\&794\&3 099\&3 006\&93\&0902\&794\&2 807\&2 797\&110\&] 本文使用对数尺度下的DET(Detection Error Trade?off)曲线作为本文算法的准确性评价标准,即漏检率(Miss Rate,MR)和误检率(False Postive Per Window,FFPW)曲线。本文的算法与Dalal的算法在俯仰角为0°,30°,45°的情况下的DET曲线分别如图5所示。
从图中可以看出,当俯仰角为0°时,本文的算法与Dalal的算法在检测率上没有没有很大的区别;当俯仰角为30°时,本文的算法的漏检率在时比Dalal的算法低了3%左右;当俯仰角为45°时,本文算法的漏检率比Dalal的算法低了5%左右。
图5 本文算法与传统算法的比较
本文提出的方法的性能较传统方法有所改善。图6显示了本文提出的方法在不同视频中的检测效果。
4 结 语
针对传统HOG特征对俯视行人的识别率不高的问题,本文基于被检测图片的HOG特征进行了俯仰角修正,并且对不同视角的公共场所视频进行了行人检测测试。测试结果证明,本文提出的算法有效提高了HOG算法检测的准确性。
图6 测试结果
参考文献
[1] SAUNIER N, HUSSEINI A E, ISMAIL K, et a1. Pedestrian stride frequency and length estimation in outdoor urban environments using video sensors [C]// TRB 90th Annual Meeting Compendium of Papers. Washington DC: Transportation Research Board, 201l: 1l?21.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the International Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886?893.
[3] KARAULOVA I, HALL P, MARSHALL A. A hierarchical model of dynamics for tracking people with a single video camera [C]// British Vision Conference. Bristol, UK: BVC, 2000: 352?361.
[4] 刘清,吴志刚,郭建明,等.视角和旋转角变化时梯度方向直方图的转换[J].控制理论与应用,2010(9):1269?1272.
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!