论文笔记 MSCNN:A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

最新看到的一篇关于多尺度下快速目标检测的论文,大概得浏览了一下,是UCSD大学的SVCL实验室和IBM研究院一起研究的结果。其代码已经开源到GitHub,链接为:zhaoweicai/mscnn

这篇文章主要解决多尺度同时存在时的检索问题,设计了MSCNN网络,提出了两点创新:
(1)针对多尺度问题:类似于FCNT跟踪方法,该文章也是观察到了卷积网络不同层得到的特征特点的不同,对不同层的特征采用不同的利用方式。比如conv-3的低层,细节更加清楚,可以进行小目标的检测;而高层如conv-5,对于大目标的检测更加准确。对于不同的层设计不同尺度的目标检测器,完成多尺度下的检测问题。

具体细节在proposal网络结构中可以看到,不同层有针对性完成不同尺度目标的检索。

(2)针对速度问题:使用特征的上采样代替输入影像的上采样步骤。设计一个去卷积层,来增加特征图的分辨率,使得小目标医院可以被检测出来。这里使用了特征图的deconvolutional layer(去卷积层)来代替input影像的上采样,可以大大减少内存占用,提高速度。

具体deconvolutional layer在下图2目标检测网络结构中可以看到。

文章的网络结构类似RCNN,分为proposal提取和目标检测,两个部分独立进行。

proposal子网络和目标检测子网络结构图分别如下:

实验过程与结果:

文章主要在KITTI和Caltech Pedestrian数据集上进行了MSCNN的测试,因为这两个数据集中包含许多小目标。

作者对proposal网络部分目标检测部分的实验结果分别进行了全部系统的分析和对比,这里仅仅将在KITTI上的检测结果展示:

发表评论

电子邮件地址不会被公开。 必填项已用*标注