A-A+
目标检测论文图表
问:论文 | 目标检测HOG特征解读《Histograms of Oriented Gradients for Human Detection》答:有一个月没更博客了,捂脸 o( ̄= ̄)d端午回家休息了几天,6月要加油~回到正文,HOG是很经典的一种图像特征提取方法,尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的,但近十年来还没有困念世被淹没的文章真的是很值得阅读的研究成果了。key idea:局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。主要步骤:上图为论文中提供的图,个人觉得我在参考资料中列出的那篇 博客 中汪肢给出的图可能更好理解一些。具体细节:
问:论文 | 目标检测HOG特征解读《Histograms of Oriented Gradients for Human Detection》
端午回家休息了几天,6月要加油~
回到正文,HOG是很经典的一种图像特征提取方法,尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的,但近十年来还没有困念世被淹没的文章真的是很值得阅读的研究成果了。
key idea:
局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。
主要步骤:
上图为论文中提供的图,个人觉得我在参考资料中列出的那篇 博客 中汪肢给出的图可能更好理解一些。
具体细节:
关于每一个过程的详细解释还是在 这篇博客 中已经写得很清楚了,这里就不再搬运了。
文章中数据集的图像大小均为:64*128, block大小为16x16, block stride为8x8,cell size为8x8,bins=9(直方图等级数);
获取到每张图的特征维度后,再用线性SVM训练分类器即可。
下图为作者而给出的示例图:
这两篇博客写的都很好,高哗推荐阅读一波。
问:小目标检测的方法总结
基于以上结论,采用多尺度训练过程中,要在避免那些极小的和极大的(多尺度后)带来的不好的影响时,考虑保证目标有足够的多样性。所以在进行多尺度训练过程中,将每种输入尺度下,不满足要求的proposal以及anchor忽略。论文中使用了三种尺度如图所示,比一般的多尺度训练的尺度跨度要大。
二、 Neck部分(采用金字塔结构改进方案的)
一般意义的FPN 结构是最右边似的结构,而本文中采用的结构则是
该方法首先无疑是增加了计算量,优点就是最终输出的每一层的特征不是一个线性的变换(应该想表述的说不是从一层特征直接到另一层特征),而是使用共享的多层特征。最终相比提升一个点左右吧,效果一般。VisDrone2020检测的冠军团队采用了这个结构
该文章利用多个TUM模块试图更充分构建的特征金字塔的 结构,靠前的TUM提供浅层特征,中间的歼哪TUM提供中间层特征,靠后的TUM提供深层特征,通过这种方式能够多次将深层浅层特征融合,参数量多了。和对比可以看到,512输入,都不采用multi-scale推理,mAP由33提升到37.6,小目标精度也提升了一点;以参数量和计算量堆砌的精度提升,不是好方法。
文章认为不同层的重要程度应该和嫌租目标的绝对尺度分布有关系,所以在FPN自上而下融合的时候,加入了一个尺度因子用来平衡金字塔不同层的重要性。个人感觉意义不大,实际提升也不明显。氏者码
三、 Head部分的改进方案
在VisDrones上的冠军方案和若干其他方案都采用了这种“双头部”的方案。soft-NMS似乎可以提升几个点。
四、 小目标目前检测不好,主要原因不是小,应该是小且和背景接近,对比度不高。所以可以借鉴伪装物体检测的思路;
评论已关闭!